Monday, February 15, 2016

Até que ponto o acaso determina nossas vidas?

Ou aqueles dezoito sobre os quais caiu a torre em Siloé e
 os matou,   cuidais que foram mais culpados do que 
todos quantos homens habitam Jerusalém?

Evangelho segundo São Lucas,
 capítulo nº 13, versículo nº 4

Os povos primitivos atribuíam aos deuses os fenômenos naturais. E achavam não haver maneira de prever o que eles fariam porque entendiam ser próprio dos deuses comportarem-se de forma caprichosa e errática. Parecia aos povos primitivos que uma boa colheita ou uma doença aconteciam sem que para isso houvesse qualquer motivo. Nada tinha explicação. Aos poucos, no entanto, certas regularidades no comportamento da natureza começaram a ser percebidas. 
Buscar padrões de comportamento – das plantas, dos animais, das pessoas – não está errado. Ao contrário, é importante conhecer as ações que os organismos manifestam sempre, ou eventualmente, em resposta ao ambiente em que vivem ou em que são colocados. A agricultura, por exemplo, só pôde ser desenvolvida graças à capacidade dos humanos para encontrar padrões. Nossos longínquos antepassados perceberam que as plantas mais bem se desenvolvem quando a terra está úmida e assim associaram o tempo das chuvas à hora de plantar. Também aprenderam que nos invernos rigorosos há pouco o que colher e aprenderam a armazenar.
O desejo de compreender a natureza e buscar uma explicação causal para todos os eventos provavelmente estiveram entre as forças motrizes da evolução dos seres humanos, há centenas de milhares de anos. Assim, não é nenhuma surpresa que o debate filosófico sobre a causalidade remonte a tempos antigos. Mas foi só a partir do século 17 que a ciência estabeleceu a física clássica, graças principalmente aos trabalhos de Galileu Galilei e Isaac Newton. Chegou-se então à ideia do determinismo científico 1. 
Hoje sabemos que alguns eventos são determinísticos, mas outros são probabilísticos, no sentido de que sabemos que ocorrerão, embora não saibamos identificar o que, ou quem, será atingido. No entanto, ainda existem pessoas que desejam atribuir causas a todos os acontecimentos, a ponto de criarem teorias sem sentido para respaldar sua ânsia de explicar tudo. Nossa capacidade de perceber padrões não pode, porém, tornar-se obsessiva.
Nem sempre recebemos a mesma resposta para os mesmos por quês. Às vezes acontece, às vezes não acontece o que esperávamos que acontecesse. Mas queremos ter sucesso em nossas previsões. Precisamos, portanto, da estatística para explicar muitos fenômenos e encontrar alguma ordem, onde ordem houver. Vamos aos fatos.
Parece que foi Karl Pearson quem primeiro percebeu ser necessário mudar o paradigma da ciência, de determinista para probabilística 2. Uma história dá suporte a essa hipótese. Em 1905 Pearson fez um desafio na revista Nature, pedindo que alguém inventasse uma fórmula matemática para prever quão longe do local de origem (presumivelmente um bar) iria um bêbado, se ele andasse um metro em linha reta, depois "virasse em qualquer direção", caminhasse outro metro, virasse novamente “em qualquer direção", e assim por diante, n vezes. Estudando as respostas, Pearson concluiu que, em campo aberto, o mais provável seria encontrar o bêbado – se ele tivesse permanecido em pé e andando – próximo do ponto de partida 3. Mas não achou a tal “fórmula matemática”.
Esse caminhar errático, conhecido como “o andar do bêbado”, posteriormente recebeu o nome mais respeitável de passeio aleatório, proposto pelo próprio Karl Pearson. Dizemos que um ponto faz um passeio aleatório no espaço quando se move em passos e a direção de cada novo passo é determinada apenas pelo acaso. Foi também em 1905 que Albert Einstein publicou seu mais citado trabalho – embora menos conhecido do grande público do que a teoria da relatividade 4 – que acabou por convencer os cientistas da época sobre a necessidade de uma abordagem estatística para a física. Einstein explicou o fenômeno conhecido como movimento browniano, que é o movimento aleatório das partículas que estão em suspensão em um fluido 5. O movimento browniano recebeu esse nome em honra ao botânico escocês Robert Brown, que estudou o fenômeno na segunda década do século XIX.
Brown colocou minúsculos grãos de pólen de uma flor na água, e observou ao microscópio. Viu que os grãos de pólen ziguezagueavam continuamente, apesar de a água estar parada. Não conseguiu, porém, explicar o fenômeno. Nas décadas seguintes pesquisadores aplicaram conhecimentos de estatística e explicaram que o movimento era causado pelo impacto de átomos do fluido nas partículas suspensas. Mas não convenceram a sociedade científica da época porque, até então, átomo era apenas uma hipótese e muitos consideravam que jamais seria visto. Foi preciso um Einstein para explicar o mecanismo exato do movimento browniano – com estatística pesada. O movimento browniano é um passeio aleatório, aquele aventado por Pearson. E a necessidade de estatística na física nunca mais foi questionada.
O movimento browniano explica, por exemplo, o caminho que uma partícula de poeira faz no ar devido às muitas colisões com as moléculas de gás. Toda criança gosta de observar os movimentos de partículas de pó em uma réstia de sol. Aliás, muitos adultos também. Mas os cientistas, que estão sempre atrás de descobertas, mostraram que o movimento browniano explica outros fenômenos que têm trajetos aleatórios, além dos grãos de poeira que volteiam no ar. É o acaso que determina o sucesso de músicas, os preços das ações, a segurança de um reator nuclear 6, a infestação de pernilongos (“mosquitos”) em uma floresta 7 e até mesmo a variação da inteligência dos homens ao longo das eras.8
Einstein foi quem primeiro apontou a aplicação prática para a chamada física estatística. De acordo com o físico Mlodinow,9 “isso representou o triunfo de uma regra de ouro: grande parte da ordem que percebemos na natureza esconde um distúrbio, profundo e invisível, que só pode ser entendido por meio das regras do acaso". Colocando essa frase e o movimento browniano em termos de nós mesmos, talvez seja certo dizer que os esbarrões que levamos na vida – e nos fazem mudar de rumo para o bem ou para o mal – não foram premeditados ou estavam estabelecidos a priori: aconteceram por acaso.

De qualquer modo, foi no início do século XX que conhecimentos de matemática, probabilidade e estatística começaram a ser aplicados não apenas na física, mas também em outras ciências. Foi nessa época que a estatística mostrou ser ferramenta preciosa para as ciências agrícolas. Um grupo de pesquisadores que trabalhou na Estação Experimental de Agricultura de Rothamstead, na Inglaterra 10 desenvolveu técnicas experimentais que hoje são aplicadas a muitas outras áreas de conhecimento – as chamadas ciências físicas e naturais. No entanto, a origem agrícola das ciências experimentais é incontestável.
O grupo de estatísticos de Rothamstead era capitaneado por sir Ronald Fisher, que desenvolveu a análise da variância. A lógica dessa análise estatística é separar a variação que pode ser atribuída ao acaso da variação devida a causas ou fatores conhecidos (que, grande parte das vezes, podem ser entendidos como determinísticos). Ainda, em 1935 Fisher publicou o clássico “The Design of Experiments”. Esse livro foi extremamente importante para a revolução que aconteceu em muitas áreas da ciência na primeira metade do século XX. Fisher não inventou a experimentação, mas foi quem pôs ordem na casa.
Os cientistas faziam “experiências” sem o necessário planejamento e, muitas vezes, apresentavam apenas pequenas partes de seus resultados à sociedade científica da época ou, até mesmo, nem sequer publicavam os dados. Não apresentavam análises. O notável monge cientista Gregor Mendel, cognominado o “Pai da Genética” porque, no século XIX, mostrou os princípios básicos da hereditariedade cruzando ervilhas em seu jardim, publicou apenas parte de seus dados, seguindo o costume da época 11.
Mesmo assim, Fisher escreveu um artigo 12 em que diz que os dados de Mendel são “bons demais para serem verdadeiros”. Esse trabalho ficou muito conhecido e é discutido até hoje porque alguns experimentos relatados por Mendel dão resultados muito próximos da expectativa que o cientista tinha em mente 13. Embora a seriedade e a importância do trabalho de Mendel não tenham sido postas em dúvida, o fato sugere que o geneticista sofria a influência do determinismo científico vigente no século XIX, que levava os cientistas a apresentar só os “melhores” resultados das experiências científicas – sem apontar perdas e sem apontar a variação aleatória que, hoje sabemos, precisa ser destacada nas estatísticas.
Mas os conhecimentos de estatística – embora tenham sido incorporados de maneira definitiva à ciência e à tecnologia, difundiram-se de forma gradativa. De qualquer modo, o controle de qualidade na produção industrial é consequência da maneira estatística de pensar – isto é, da ideia de que é preciso separar o que é aleatório do que é determinístico. Foi a Companhia de Telefones BELL que, por volta de 1920, quis melhorar a qualidade de seu sistema de transmissão e chamou, para isso, Walter Shewhart, um engenheiro com doutorado em física. Depois de idas e vindas, sempre trabalhando em diferentes problemas da companhia, Shewhart apresentou, em 1924, o seu gráfico de controle.
Para criar o gráfico de controle, Shewhart precisou reconhecer que todo processo de produção sofre o efeito de diferentes causas de variação, mas que a variação de natureza aleatória não pode, evidentemente, ser controlada. Não é fácil entender isso. Mas, imagine que você vai fazer 150 pães um a um, seguindo uma receita que produz pães com 500 gramas 14. Existem muitas causas de variação para o peso dos pães. Por simples acaso, você pode colocar mais, ou menos farinha e/ou leite em alguns pães. O forno pode estar mais quente, ou menos quente quando assar alguns dos pães. Pode haver um pouco mais, e às vezes um pouco menos de umidade no ar enquanto alguns pães crescem; a temperatura ambiente pode ficar um pouco mais alta, ou um pouco mais baixa e assim por diante. O resultado desses efeitos todos é o de que, no final, alguns pães terão mais do que 500 gramas, outros menos e a grande maioria terá peso muito perto de 500 gramas.
A pequena variação de peso dos seus pães ocorreu porque a produção não pôde ser totalmente controlada: houve pequenas variações nas quantidades dos ingredientes e nas condições do ambiente, que aconteceram por acaso. Como as variações foram pequenas, você considerou que tudo esteve “sob controle”. No entanto, você há de reconhecer que a situação ficaria “fora de controle” se ocorresse quebra da balança, queima de um termostato, queda de energia elétrica etc.. Esses eventos são, de certa forma, imprevisíveis. O gráfico de controle idealizado por Shewhart mostra se os resultados do processo de produção estão sendo significativamente alterados por uma causa especial de variação – como quebra de balança, no caso do exemplo.
No campo da saúde, o pensamento estatístico demorou a se difundir porque muitos profissionais alegavam que medicina é uma arte – que não poderia se submeter aos ditames da matemática. O primeiro experimento conduzido com delineamento planejado conforme a proposta de Fisher só aconteceu no final da década de 40 (Medical Research Council, 1948)15. Dada à dúvida sobre o efeito da estreptomicina no tratamento da tuberculose pulmonar – e respaldado pelo fato de ser reduzida sua disponibilidade no pós-guerra – o médico Sir Austin Bradford Hill convenceu médicos ingleses a designarem seus pacientes aleatoriamente para um de dois grupos: o grupo tratado, formado pelos doentes que receberiam a droga e o grupo controle, formado pelos doentes que não receberiam medicação. A distribuição aleatória de estreptomicina foi, na ocasião, amplamente justificada pelas quantidades limitadas da droga, mas possibilitou a avaliação dos fatos: a variabilidade natural da doença havia sido modificada por um fator não aleatório, a estreptomicina. Comprovou-se, assim, a eficácia do tratamento.
Após a Segunda Grande Guerra, outros estudos clínicos começaram a ser feitos na Inglaterra e trouxeram muitas das melhorias que ocorreram nos serviços médicos nas décadas seguintes. Por causa do sucesso, os ensaios se multiplicaram e fizeram surgir novas questões, tanto de ética como de metodologia. Mas foi só em 1990 que Alvan Feinstein e Ralph Horowitz propuseram regras rígidas para a metodologia da condução desses ensaios 16. Hoje, por razões de ética, diretrizes nacionais e internacionais impõem normas aos ensaios com seres humanos e com animais, que precisam ser rigorosamente obedecidas.
A estatística se tornou um apoio fundamental para os estudos no século XX e adentrou impávida pelo século XXI. Afinal, é a ciência que estuda o acaso – sem procurar domesticá-lo. Como escreveu o físico Prêmio Nobel Max Born, “acaso é conceito mais fundamental que causalidade”. Mas a questão de medir quanto, e como, uma coisa causa outra, continua de pé. Buscamos sempre identificar as causas de tudo que nos acontece de ruim. “Minha amiga tem câncer de pulmão porque sempre foi fumante. Minha irmã tem péssimo temperamento porque nasceu sob o signo de Áries”. A estatística mede o grau de verdade dessas informações, mas nem sempre é convincente. Vejamos a questão do hábito de fumar que é, sem dúvida, a maior fonte de estatísticas de todos os tempos.
Fisher, o cultuado estatístico, sempre rejeitou a possibilidade de o tabagismo ser o fator causal de varas doenças. Essa insistência em não aceitar que fumar faz mal à saúde talvez fosse uma idiossincrasia do velho sábio, muitas vezes fotografado fumando seu cachimbo. Ele alegava que fatores sociais, genéticos, de personalidade poderiam levar tanto ao hábito de fumar como causar determinadas doenças. Mas Alvan Feinstein diz que esses argumentos nunca foram convincentes – e aponta um fato que pode explicar a relutância de Fisher em admitir que o tabagismo é fator de risco para diversas doenças: ele era consultor da indústria britânica de tabaco 17. Seria o que hoje chamamos eufemisticamente de conflito de interesses.
Mas em 1950 Richard Doll e Austin B Hill, dois pesquisadores ingleses, conduziram o primeiro estudo retrospectivo na área de medicina, associando câncer do pulmão ao hábito de fumar 18. Eles perguntaram os hábitos de fumar dos 649 pacientes que tinham câncer do pulmão e os hábitos de fumar de outros 649 pacientes internados por outros motivos no mesmo hospital. Não foi possível estimar riscos porque os fatos já haviam acontecido (probabilidades referem-se a eventos futuros – nunca a eventos do passado). Mas os pesquisadores verificaram que a chance de ter câncer de pulmão é 14 vezes maior para fumantes do que para não fumantes, ou seja, para cada 14 fumantes com câncer de pulmão, há um não fumante na mesma condição.
Esse estudo não é convincente porque se baseou em uma amostra pequena e é retrospectivo. Mas em 1956 Richard Doll e Austin B Hill conduziram o primeiro estudo coorte 19. Para saber se fumantes têm maior risco de ter câncer do pulmão do que quem não fuma, enviaram um questionário para aproximadamente sessenta mil médicos do Reino Unido perguntando sobre seus dados demográficos (nome, endereço, sexo, idade etc.) e os hábitos de fumar deles próprios. Receberam aproximadamente quarenta mil respostas. Os pesquisadores acompanharam a sobrevivência dos médicos durante 53 meses, por meio de um registro geral. Entre as pessoas que tinham o hábito de fumar, ocorreram mais mortes por câncer no pulmão.
 Os estudos de Doll e Hill não “provam” que fumar é determinante para câncer de pulmão, mas são excelentes indicadores de que o tabagismo leva a esse desfecho. De qualquer forma, com base em muitos outros estudos, sabemos hoje que fumar é o fator de risco mais importante para o câncer de pulmão, embora existam outros fatores (inalação de certos agentes químicos, poluição do ar, doença pulmonar crônica, fatores genéticos e outros).
De qualquer modo, forte correlação ou forte associação entre duas variáveis ​​não descreve a maneira como as duas se relacionam. Não significa, portanto, que uma cause a outra. A palavra “correlação” deveria remeter apenas ao que significa o coeficiente de correlação calculado na estatística – é o grau da variação conjunta de duas variáveis aleatórias. A pesquisa por associações estatísticas entre variáveis é necessária – mas não se prova, rapidamente, relação de causa e efeito, principalmente quando só são possíveis estudos observacionais. É preciso grande quantidade de pesquisa, ao longo de um bom tempo.
Por exemplo, já se comprovou que a presença de certos genes é determinante para certas doenças – como é o caso da fenilcetonúria. No entanto, o genoma humano tem cerca de 27.000 genes. A simples associação estatística entre a presença de um gene ou de uma sequência deles com uma doença não é suficiente para estabelecer relação causal – a associação estatística deixa espaço para o casual – além de outras explicações. Para produzir evidências, são necessárias muitas pesquisas e por muito tempo. Afinal, a suscetibilidade à maioria das doenças comuns é multifatorial, isto é, as pessoas ficam ou não doentes em função de fatores genéticos e de ambiente. Uma meta análise 20, que levantou mais de 600 associações positivas relatadas entre a variação genética no DNA e variação na susceptibilidade às doenças levou os autores a concluir que é preciso mais cautela nesse assunto – às vezes, parece haver muita pressa para publicar uns poucos dados.
O acaso faz parte de nossas vidas. Como coloca o físico Mlodinow 21,entender o papel do acaso em nossas vidas é um grande desafio: embora as premissas do acaso estejam presentes no dia a dia, muitas das consequências que advém dessas premissas não são intuitivas”. Muito do que pensamos que sabemos, não sabemos: é wishfull thinking.
E convém lembrar que muita lenha foi juntada na fogueira em que ardia o determinismo científico pelo físico Werner Heisenberg quando, em 1926, afirmou que não se pode medir, simultaneamente, tanto a posição como a velocidade de um elétron 22. Para ver onde está o elétron, é preciso fazer incidir luz sobre ele. Mas a luz, embora não nos pareça, é um fluxo de fótons. Os fótons não possuem massa, mas, segundo a teoria quântica, transmitem força eletromagnética. E ao colidir com o elétron, os fótons imprimem velocidade a ele. Então, quando iluminamos o elétron, ganhamos informação sobre sua posição, mas perdemos a possibilidade de medir sua velocidade. É, portanto, luta inglória buscar saber tanto a posição como a velocidade de um elétron em determinado momento, embora exista uma relação matemática que, como mostrou Heisenberg, permite saber o valor delas em conjunto. Então, quanto mais precisamente insistirmos em medir a posição do elétron, menos precisamente saberemos sua velocidade, e vice-versa. O que está explicado aqui é, digamos, um pouco do que nós leigos podemos entender sobre o Princípio da Incerteza de Heisenberg. Ficamos assim sabendo que não podemos determinar a velocidade e a posição futuras de um elétron porque, para isso, seria preciso conhecer a velocidade e a posição atuais – o que é impossível 23. Embora os efeitos dos fótons sobre nós não tenham qualquer significância, a incerteza também faz parte de nossas vidas: podemos saber agora onde estamos, mas não a velocidade com que nos deslocamos.
Este mundo que tanto roda é muito complicado. Como acreditava Thomas Kuhn, a mente humana talvez não seja, mesmo, capaz de estruturar ideias que expliquem o mundo. As tentativas de explicação redundam em tantos erros que logo precisam ser substituídas por novas tentativas, mais engenhosas e perspicazes, mas que continuam sendo meras tentativas e serão, também, substituídas por outras.
Em 1970 Kuhn 24 conceituou paradigma – palavra muito usada hoje em dia – como “um conjunto inteiro de crenças, valores, técnicas e tudo o mais que é compartilhado pelos membros de uma dada comunidade”. Mais adiante, explicou que “paradigmas (são) soluções reais de enigmas que, usadas como modelos ou exemplos, podem ser tratadas como regras explícitas e assim servir de base para a solução dos demais enigmas da ciência normal”. No entanto, quando um paradigma não consegue mais dar solução para os enigmas novos, bons cientistas abandonam esse paradigma. Acontece então uma mudança de paradigma – que Kuhn chamou de “revolução”.
A estatística, que carrega dentro de si a matemática e a probabilidade, dominou a ciência do século XX e entrou pelo século XXI exibindo todo seu potencial. Entretanto, alguns cientistas consideram que o uso de estatística possa ser apenas o substituto temporário para o determinismo científico que imperou até o século XIX. Podemos esperar então que a revolução estatística, como novo paradigma para o determinismo, percorra seu caminho, mas seja substituída por outro paradigma. 
Lembre-se do problema de fazer pães seguindo uma receita que produz pães com 500 gramas. Você pode controlar muitas causas de variação, como usar apenas balanças de alta precisão, controlar a temperatura e a umidade do forno e do ambiente, até usar robôs. A variação diminui, mas chegará ao zero de variação?  Em outras palavras, queremos saber mais e queremos ter maior domínio sobre a natureza. Mas saberemos tudo? E até que ponto isso seria bom?
A famosa frase de Einstein “Deus não joga dados” sugere que o cientista estava descontente com a aparente aleatoriedade na natureza e talvez achasse que a incerteza é apenas provisória. O fato é que nem tudo ocorre ao acaso como pensavam os pré-socráticos e nem tudo está tão determinado como pensavam os malthusianos. “O futuro a Deus pertence” diz o ditado popular ou, como brincou Stephen Hawkings 25, “Deus não joga dados, mas tem umas cartas na manga...”
O fato é que boa parte dos avanços científicos e tecnológicos que conseguimos até agora estão fundamentados na matemática, na probabilidade, na estatística. Queiramos ou não, estamos vivendo nesse paradigma. De qualquer modo, a ideia de que o aleatório e a incerteza deixarão de nos afligir está muito além do nosso horizonte. Não sei se isso explica nossos muitos erros. Não somos os paladinos da razão. Nossas decisões são tomadas com um pé no passado. Decidimos hoje com o conhecimento de ontem para o que faremos amanhã. E, muitas vezes, o inesperado intervém sobre o comportamento humano. E o comportamento humano é, muitas vezes, inesperado. Ou não?
            ...o tempo e o acaso lhes sucedem a todos.
                                                 Eclesiastes, capítulo nº 9, versículo nº 11.


1.    Hawking, S. Does God play dice? Disponível em www.hawking.org.uk/does-god-play-dice.html . Acesso em 20 de abril de 2015.
2.    Salsburg, D. Uma senhora toma chá: como a estatística revolucionou a ciência do século XX. Tradução de José Maurício Gradel. Rio de Janeiro, Zahar. 2009.p 24.
3.    Ehrhardt, G. The Not-so-Random Drunkard's Walk. Journal of Statistics Education Volume 21, Number 2 .2013.
4.    Mlodinov. L. O Andar do bêbado. Rio de Janeiro. Zahar. 2009. Tradução de Diego Alfaro, consultoria de Samuel Jurkiewicz.p.176.
5.    Encyclopaedia Britannica, Inc. 2015 Disponível em www.britannica.com/EBchecked/.../Brownian-motion. Acesso em 20 de abril de 2015.
6.    Mlodinov L. O Andar do bêbado. Rio de Janeiro. Zahar. Tradução de Diego Alfaro, consultoria de Samuel Jurkiewicz. 2009.
7.    Ehrhardt, G. The Not-so-Random Drunkard's Walk. Journal of Statistics Education Volume 21, Number 2 .2013
8.    Lecture 1: Introduction to Random Walks and Diffusion Scribe: Chris H. Rycroft (and Martin Z. Bazant) Department of Mathematics, MIT. Disponível em ocw.mit.edu/courses/...random-walks...Acesso em 22 de abril de 2015.
9.    Mlodinow, L. O Andar do bêbado. Rio de Janeiro. Zahar.. Tradução de Diego Alfaro, consultoria de Samuel Jurkiewicz  2009. P. 178
10. COX, J. F. R.A. Fisher: the life of a scientist. New York: Wiley, 1978.

11. Gregor Mendel - Biography - Botanist, Scientist - Biography www.biography.com/people/gregor-mendel-39282.

12. Fisher, R. A. Has Mendel’s work been rediscovered? Annals of Science 1, 1936. P.115-137.

13. Novitski, CE. Revision of Fisher's Analysis of Mendel's Garden Pea Experiments Genetics March 1, 2004 vol. 166 no. 3 1139-1140
14. Mlodnow, L. O Andar do bêbado. Rio de Janeiro. Zahar. 2009. Tradução de Diego Alfaro, consultoria de Samuel Jurkiewicz p.153
15. Yoshioka, A. Use of randomisation in the Medical Research Council's clinical trial of streptomycin in pulmonary tuberculosis in the 1940s. BMJ 1998;317:1220
16. Salsburg, D. Uma senhora toma chá: como a estatística revolucionou a ciência do século XX. Tradução de José Maurício Gradel. Rio de Janeiro, Zahar. 2009 p. 158.
17. Salsburg, D. Uma senhora toma chá: como a estatística revolucionou a ciência do século XX. Tradução de José Maurício Gradel. Rio de Janeiro, Zahar. 2009 p. 158.
18. Feinstein, A. R. Clinical Biostatistics Saint Louis, Mosby, 1977. P 148.
19. DOLL, R. e HILL, A.B. Smoking and carcinoma of the lung. Br Med J 1950 (2): 739-48.
20. Hirschhorn, JN;  Lohmueller,K; Byrne, E; Hirschhorn, K. A comprehensive review of genetic association studies Genetics in Medicine (2002) 4, 45–61.
21. Mlodinow, L. O andar do bêbado. Rio de Janeiro: Zahar, 2009.
22. Hawking, S. Does God play dice? Disponível em www.hawking.org.uk/does-god-play-dice.html . Acesso em 20 de abril de 2015.
23. Explicação didática do Princípio da Incerteza de Karl Heinsenberg. Disponível em www.youtube.com/watch?v=Z7wyTd1pLc0. Acesso em 17 de abril de 2015.
24. Kuhn, T S. The Structure of Scientific Revolutions. 2nd Ed., Univ. of Chicago Press, Chicago & London, 1970, p.175.
25. Hawking, S. Does God play dice? Disponível em www.hawking.org.uk/does-god-play-dice.html . Acesso em 20 de abril de 2015.



Tuesday, February 02, 2016

Qual deve ser o tamanho da amostra?

As amostras não devem ser muito grandes, porque isso seria perda de recursos. Também não devem ser muito pequenas, porque o resultado do trabalho seria de pouca utilidade. Então, como se determina o tamanho da amostra? O tamanho da amostra para as pesquisas quantitativas deve ser calculado por critério estatístico. Mas saiba que:

1.    Se a amostra for aleatória, fica mais fácil calcular o tamanho adequado.

2.    É mais fácil calcular o tamanho da amostra quando a população estudada for tão grande que, para finalidade de estatística, possa ser considerada praticamente infinita.


1.    Amostras pequenas produzem estimativas muito pouco precisas. Amostras grandes, desde que bem feitas, conduzem a estimativas mais precisas, mas podem ser muito caras. Então, a questão é: que margens de erro o pesquisador pode aceitar?

2.    As equações que permitem estimar tamanhos de amostras contêm parâmetros. Então o pesquisador deve buscar, na literatura, uma estimativa preliminar do parâmetro que pretende estimar.

3.    Na maioria das vezes, o pesquisador quer estimar mais de um parâmetro. Se for proposta uma margem de erro para cada estimativa, serão calculados muitos valores para o tamanho de amostra. É preciso chegar, então, a um consenso.

4.    O pesquisador precisa considerar o tempo e o custo para examinar cada unidade e o que é usual na área. Se for necessária uma drástica redução no valor calculado da amostra, a estimativa ficara muito pouco precisa. Às vezes, é melhor abandonar o projeto.

Exemplo

A primeira questão do estatístico é: “Com que precisão quer estimar a porcentagem de pessoas com DTM?”. O mestrando diz que gostaria de trabalhar com uma margem de erro de ±2%. Isso significa que, se 34% das pessoas da amostra tiverem D T M, a verdadeira porcentagem de pessoas com DTM na cidade deverá estar no intervalo 34% ± 2%, isto é, entre 32% e 36%.

O professor avisa o mestrando de que, coletando uma só amostra, existe o risco de essa amostra seja pouco representativa, por puro azar. O mestrando replica que admite a probabilidade de uma amostra errada em cada 20.  O nível de confiança é, portanto, 19/20 = 0,95, ou como se prefere dizer, 95%.

E preciso agora uma estimativa preliminar de P. O que fazer? O mestrando sugere que, com base em outras pesquisas, é razoável esperar P = 32% de pessoas com DTM. Então:


 Em algumas áreas do conhecimento, é possível levantar dados de 2100 pessoas, principalmente quando as perguntas são fáceis de responder como idade, sexo, escolaridade, habito de fumar – e se houver verba para tanto. Mas em Epidemiologia, o levantamento de dados pode ser caro, principalmente quando o estudo demanda diagnóstico de doenças, síndromes, disfunções, alterações, anomalias.

No caso do exemplo, o que pode ser feito para diminuir o tamanho da amostra? Aumentar a margem de erro. Tente fazer os cálculos, com margens de erro maiores. Depois, pense bem: que sentido tem estimar uma porcentagem com as margens de erro que você considerou?