Sunday, September 20, 2015

Teorema de Bayes na Genética

A distrofia muscular de Duchenne (DMD) progride rapidamente. Causa degeneração dos músculos e morte prematura. A causa principal da doença é uma mutação (alteração) em um gene chamado DMD, recessivo, localizado no cromossomo X. É, portanto, uma doença ligada ao sexo.
Se uma pessoa de sexo masculino tem o gene DMD, provavelmente manifestará a doença, mas para que uma mulher manifeste a doença é necessário que seja homozigota para esse gene recessivo.
No entanto, mulheres portadoras de mutação no gene DMD têm 50% de chance de transmitir esta alteração para seus filhos em cada gestação. Veja o heredograma, em que X’ representa o gene com mutação. Então:
·      portadoras estão indicadas por X’X,
·      não portadoras por XX,
·      homens sem a mutação no gene por XY,
·      homens com a mutação por X’Y.


                          Exemplo

Uma mulher (vamos chamá-la de Maria) pergunta a probabilidade de ser portadora do gene para a distrofia muscular de Duchenne. Como um seu irmão e um tio, por parte da mãe, têm a doença, existe o gene na família e, muito provavelmente, a mãe de Maria é portadora do gene. Logo Maria tem 50% de probabilidade de ter herdado esse gene.

Maria tem dois filhos sem a doença. Veja abaixo o heredograma de Maria. Você saberia aplicar o teorema de Bayes? Vamos usar este exemplo para ilustrar o uso do teorema de Bayes em Genética.

1.      A probabilidade de Maria ser portadora do gene para a distrofia muscular de Duchenne é ½.

2.    A probabilidade de uma portadora do gene ter dois filhos (homens) sem a doença é

3.    A probabilidade de uma não portadora do gene ter dois filhos (homens) sem a doença é 1.

4.    A probabilidade de Maria ser portadora e ter dois filhos homens sem a doença é

5.   A probabilidade Maria ser não portadora e ter dois filhos homens sem a doença é

6.   A probabilidade de a mulher ser portadora dado que tem dois filhos (homens) sem a doença é, aplicando o teorema de Bayes:



      Veja o esquema abaixo. Maria tem 20% de probabilidade de ser portadora do gene em questão.



NOTA: A doença pode ocorrer em famílias sem histórias conhecida. Veja, por exemplo, sobre distrofia muscular do tipo Duchenne:

1.    Learning About Duchenne Muscular Dystrophyhttps://www.genome.gov/19518854
2.   Distrofias Musculares tipo Duchenne (DMD) e tipo Becker genoma.ib.usp.br/.../distrofias-musculares-tipo-duchenne-dmd-e-tipo-be...
3. .    Sex Linkage - Learn Genetics - University of Utahhttp://learn.genetics.utah.edu/content/pigeons/sexlinkage/

O exemplo citado é de
Motulsky, H. Intuitive Biostatistics. New York. Oxford University Press. 1995, p: 149-150.




Tuesday, September 15, 2015

Teorema de Bayes: a falácia da taxa de base

Vamos apresentar aqui o significado de falácia da taxa de base” usando como exemplo o resultado de um teste para detectar o uso de heroína.  Imagine que o teste para a droga em questão é altamente sensível e bastante específico.
·         A sensibilidade é 0,95 ou 95%, ou seja, a probabilidade de o teste dar resultado positivo (+) em usuários (U) é 0,95.
·         A especificidade é 0,90 ou 90%, ou seja, a probabilidade de o teste dar resultado negativo (-) em não usuários (não) é 0,95.
Escrevemos:
                              S = P (+|U) =0,95
                              E = P (-|não) =0,90
            Estima-se, com base em vários estudos que, em determinada região, 3% dos moradores são usuários de heroína. Pedro é morador dessa região e foi escolhido aleatoriamente para fazer o teste que detecta o uso de heroína. O resultado é positivo. Qual é a probabilidade de Pedro ser usuário?
Aplicando o teorema de Bayes:
 

                            Fórmula do teorema de Bayes

 A probabilidade de Pedro ser usuário de heroína dado que o teste deu resultado positivo é




     Os cálculos mostram que a probabilidade de Pedro ser usuário de heroína é 0,227 ou, em porcentagem, 22,7%. Esse valor é praticamente sete vezes maior do que 3%, que é a probabilidade de ser encontrado um usuário de heroína na população estudada.

     Entretanto, o fato de Pedro, uma pessoa tomada ao acaso dessa população, ter obtido resultado positivo em um teste bastante sensível (sensibilidade de 95%) é evidência parcial. Embora nos faça pensar que Pedro é usuário da droga, a evidência total dessa conclusão é pequena simplesmente porque a probabilidade de encontrar um usuário de heroína na população estudada é baixa.

      É importante notar: a evidência adicional trazida pelo teste é alta, mas para julgar um fato é preciso olhar o total da evidência. É preciso atenção com as probabilidades a priori. No caso de Pedro, a probabilidade a priori praticamente anula o resultado do teste: nessa população, é raro encontrar um usuário de heroína. Então parece razoável considerar que o resultado do teste pode estar errado.

As pessoas tendem a tomar a evidência parcial como evidência total. É a falácia da taxa de base”. Elas tratam o resultado de um teste bastante confiável, porém não totalmente confiável, como o resultado final e conclusivo para uma hipótese que, afinal de contas, não é provável e deveria, portanto, esbarrar em dúvidas sobre sua veracidade.

Em termos gerais, qualquer pessoa que ainda não tenha pensado sobre determinado assunto acha relevante resultados de experimentos que confirmem a hipótese em teste. No entanto, o grau de confirmação que os dados trazem a uma pessoa que entende do assunto depende, em boa parte, do nível de confiança na hipótese. Mas todos irão concordar que dados ajudam a confirmar uma hipótese.

Quando a evidência mostrada pelos dados é relativizada por probabilidade a priori, nossa aceitação do resultado final depende da veracidade e da qualidade das estimativas, tanto da probabilidade a priori como da probabilidade a posteriori. Conclusão:

·         Resultado positivo para um teste de alta sensibilidade pode ser pouco provável, se a probabilidade a priori da ocorrência do evento for muito pequena.

·         Resultado positivo para um teste de alta sensibilidade pode ser altamente provável, se a probabilidade a priori da ocorrência do evento for muito grande.


Então os resultados dos testes (todo tipo de teste, seja teste diagnóstico, teste estatístico, teste para vestibular) são apenas indicações da realidade – não são “provas” definitivas.

Este texto está totalmente baseado em
Bayes' Theorem (Stanford Encyclopedia of Philosophy) plato.stanford.edu/entries/bayes-theorem

Veja também:
Howson, C.; Urach, P. Scientific reasoning: the Bayesian approach. Open Court. 2006.
Maher, P. Howson 2: Bayes theorem. patrick.maher1.net/471/lectures/howson2.pdf

A discussão sobre falácia da taxa de base você encontra em:
Kahneman, D. Thinking, fast and slow.Nova York, Farrar, Straus, Giroux, 2013.






Saturday, September 12, 2015

Teorema de Bayes: The Harvard Medical School Test

O problema apresentado aqui foi proposto aos alunos da Escola de Medicina de Harvard (uma das melhores escolas de medicina do mundo – possivelmente a melhor). É o chamado The Harvard Medical School Test. A maioria dos alunos deu resposta errada, pois disseram: “a probabilidade de a pessoa ter a doença D é 95%”.

Veja o problema. Qual é a resposta?

Um teste diagnóstico para determinada doença D só pode resultar em positivo ou negativo, indicando presença ou ausência da doença.
Estima-se que a probabilidade de um falso negativo seja 0% e a probabilidade de um falso positivo seja 5%.
A taxa de incidência da doença é baixa. Um levantamento (survey) mostrou que, na população, ocorre um caso por mil habitantes.
Se uma pessoa selecionada ao acaso na população for submetida ao teste e o resultado der positivo, qual é a probabilidade de essa pessoa ter a doença D?

Resolva o problema aplicando o teorema de Bayes.

Se a pessoa tem a doença, o resultado do teste é verdadeiro positivo com probabilidade 1,000. O falso negativo ocorre com probabilidade 0,000.

P(+│D) = 1,000
P(-│D) = 0,000
Se a pessoa não tem a doença, o resultado do teste pode ser falso positivo com probabilidade 0,050 ou verdadeiro negativo com probabilidade 0,950.

P(+│D’) = 0,050
P(-│D’) = 0,950
A taxa de incidência da doença é um caso por mil habitantes.

P(D) = 0,001
P(D’) = 0,999
  

       
          A resposta é 0,0196 ou 1,96%.

Lembre-se de que sensibilidade do teste é a probabilidade de o teste dar resultado positivo em pessoas que têm a doença (no caso é 1,000). Especificidade é a probabilidade de o teste dar resultado negativo em pessoas que não têm a doença (no caso é 0,950). O teste é, portanto, sensível e específico.

Entretanto, alta sensibilidade e alta especificidade são condições necessárias, mas não suficientes para avaliar a correção do resultado do teste.  Na avaliação do resultado do teste, é preciso considerar probabilidades a priori de a pessoa ter a doença.

Vimos isso em postagens anteriores, em que se avaliou a probabilidade de ser certo um resultado positivo em quatro situações, com diferentes probabilidades a priori (estimativas diferentes da probabilidade de a pessoa ter a doença).

Leia mais em:

Patrick Maher Philosophy 471 Fall 2006
Howson, Colin e Urbach, Peter. Scientific Reasoning: the Bayesian approach. Open Court. 2006. P.13-26