Thursday, April 15, 2021

Distribuição hipergeométrica (4): teste exato de Fisher

                   Análise de Dados Categóricos em Tabelas 2 x 2

Considere os dados apresentados na Tabela 1, que representa uma tabela 2 x 2 com dados categóricos. Temos dois grupos distintos de unidades (por exemplo, pessoas, animais ou objetos), que chamaremos de Grupo A e Grupo B. Em cada grupo, observamos dois tipos de eventos: "sucesso" e "fracasso".

Tabela 1

Distribuição de sucessos e fracassos segundo o grupo

Observa agora o exemplo numérico apresentado na Tabela 1 e na Figura 2, só para tornar a situação mais concreta.

Tabela 2

Sucessos e fracassos por grupo


 

Figura 1

Sucessos e fracassos por grupo

 

 

Para analisar esses dados, podemos adotar duas abordagens principais, conforme discutido a seguir.

1. Perspectiva Binomial

Nesta abordagem, assumimos que cada grupo tem sua própria probabilidade de sucesso — denotadas por θ1 e θ2. Considera-se que os eventos são independentes dentro de cada grupo. Isso nos leva a modelar os números de sucessos como variáveis aleatórias com distribuições binomiais distintas para cada grupo.

Para testar a hipótese de que as probabilidades são iguais, isto é:

              H0:θ1=θ2,

podemos aplicar o teste qui-quadrado de independência, desde que o tamanho da amostra seja suficientemente grande (regra prática: n ≥ 40), o que assegura uma boa aproximação pela distribuição qui-quadrado.

2. Perspectiva Hipergeométrica

Outra forma de ver o problema surge quando o número total de sucessos está fixado. Neste caso, o que fazemos é redistribuir esses sucessos entre os dois grupos — ou seja, observamos a variabilidade condicional à soma total de sucessos. Esse é o cenário ideal para aplicar a distribuição hipergeométricaEssa é a base do chamado teste exato de Fisher, que é apropriado quando:

·      O tamanho da amostra é pequeno (n < 40);

·      Os totais marginais são fixos por desenho experimental;

·      Há frequências esperadas menores do que 5 em uma ou mais células (condição que viola os pressupostos do teste qui-quadrado).

Procedimento para o Teste Exato de Fisher

Quando se aplica o teste exato de Fisher, costuma-se apresentar uma tabela como a Tabela 3, seguida de uma fórmula que calcula a probabilidade exata de ocorrência daquela configuração:

Tabela 3

Representação tabular de uma tabela 2 x 2



Embora o cálculo da probabilidade exata envolva fatoriais (notação "!"), o que pode ser demorado manualmente, hoje esse teste é feito exclusivamente por computador. 

Para tornar mais concreto, considere o seguinte exemplo.

Tabela 4

Distribuição dos participantes segundo grupo e sobrevivência
(distribuição hipergeométrica com N1=3, N2=3, n=3)

Neste caso, nenhum estatístico aplicaria um teste qui-quadrado, pois a aproximação pela distribuição normal é inadequada. De qualquer modo, este exemplo é importante porque foi este o exemplo original utilizado por Fisher para ilustrar o teste que leva seu nome.

Ainda, o exemplo é didático, pois uma das células contém valor zero, o que sugere uma associação extrema — todos os participantes de um grupo responderam da mesma forma. Veja a Figura 2.


 Quando isso não ocorre (isto é, todas as células têm valores positivos), é necessário calcular também a probabilidade de ocorrerem desvios ainda mais extremos, sob a hipótese nula. Veja um exemplo com menor associação. O p-valor, pelo teste de Fisher (1), é p-valor = 0,04545<0,05.

Tabela 5

Distribuição dos participantes segundo o fato de terem ou não sido vacinados e terem ou não tido gripe.


Afinal, qual é o teste?

Se considerarmos duas distribuições binomiais, podemos calcular a probabilidade de observar, por exemplo, x1 sucessos no Grupo A e x2 no Grupo B. Aplicamos então o teste de qui-quadrado.

Se o número total de sucessos estiver fixado, ou seja, tivermos x = x1+x2, então a distribuição condicional dos sucessos entre os grupos é hipergeométrica. Neste caso, devemos aplicar o teste exato de Fisher.

Implicações da Abordagem Hipergeométrica

Quando aplicamos o teste exato de Fisher, estamos implicitamente:

·  Fixando os totais marginais da tabela 2 x 2;

·  Fixando o número de sucessos no Grupo A (e, por consequência, todas as outras células, dado que só há um grau de liberdade);

·  Não mais testando diretamente a igualdade dos parâmetros θ1 e θ2, como na abordagem binomial.

Nesse contexto, o parâmetro comum θ (sob H0) passa a ser um parâmetro de distúrbio (nuisance parameter). Ou seja, não estamos interessados no seu valor exato, mas apenas em saber se número de sucessos é estatisticamente o mesmo nos dois grupos.

 Nota: Para aprofundar o entendimento sobre a distribuição hipergeométrica, consulte as três postagens sobre Distribuição Hipergeométrica deste blog. Para explicações sobre o teste exato de Fisher, consulte o Capítulo 3 do livro Bioestatística: tópicos avançados, visto abaixo.









Observe os dados apresentados na Tabela 1. Você pode encarar o problema de duas maneiras diferentes, que vamos discutir aqui.

Tabela 1

Temos, então, sucessos e fracassos na situação A e sucessos e fracassos na situação B. Logo:

   X1 é uma variável aleatória com distribuição binomial de parâmetros N1, q1. Escrevemos:

   X2 = (X- X1) é uma variável aleatória com distribuição binomial de parâmetros N2, q2. Escrevemos:

2.   É uma distribuição hipergeométrica

  Os totais marginais, N1 sucessos e N2 fracassos são fixos. Na

amostra, de tamanho n, ocorrem X1 sucessos.

                                 

Afinal, qual é a distribuição?

Considerando duas distribuições binomiais, veja a probabilidade de ocorrer o cenário descrito na Tabela 1: x1 sucessos na situação A e x2 sucessos na situação B.



    Agora, pense assim: ocorreram x sucessos. Então, a probabilidade condicional de observar  x sucessos, considerando as distribuições binomiais, é:

que é uma distribuição hipergeométrica. Isto leva ao teste exato de Fisher. Então, veja a implicação. Quando você aplica um teste exato de Fisher, precisa considerar fixo o número de sucessos na situação A. Como a tabela é 2 x 2, tem um só grau de liberdade;  fixar x significa fixar as outras três células. Portanto, os totais marginais ficam fixos. Esta é uma pressuposição para a aplicação do teste exato de Fisher: os totais marginais são fixos. 

    Outra implicação importante: não se pode mais testar a igualdade dos parâmetros, como acontece quando se pressupõe duas distribuições binomiais. A questão, aqui, é que sob H0, q  é um parâmetro “sem sentido” (nuisance parameter). Não interessa o valor de q , mas apenas saber se é o mesmo nas duas binomiais.

NOTA: para entender distribuição hipergeométrica, veja as postagens anteriores deste mesmo blog.

Teste exato de Fisher


    Dada uma tabela de contingência 2 x 2, se o tamanho da amostra for pequeno (n < 40), recomenda-se aplicar o teste exato de Fisher. Os textos que ensinam aplicar esse teste, apresentam a Tabela 2, para então dar uma fórmula que leva ao teste exato de Fisher.

Tabela 2. Apresentação tabular

   Calcular essa probabilidade não é difícil, embora seja demorado porque exige o cálculo de fatoriais (indicados pelo símbolo !). Mas hoje só se faz o teste exato de Fisher em computador. De qualquer forma, para tornar a questão mais concreta, veja os dados apresentados na Tabela 3. As características em estudo são duas, grupo e sobrevivência.


Tabela 2. Distribuição dos participantes de pesquisa segundo o grupo e a sobrevivência

                  Distribuição hipergeométrica N1 = 3, N2 = 3, n = 3 

    Nenhum estatístico pensaria em aplicar um teste de qui-quadrado a esses dados, porque a aproximação da distribuição normal é impossível. Mas foi o exemplo usado por Fisher para a proposta do teste que leva seu nome. Veja:

    O exemplo dado é relativamente fácil de resolver porque aparece valor zero numa das células. Todos os participantes de um grupo deram uma só resposta, indicando associação extrema. É claro que nem sempre existe uma célula com valor zero. Nesses casos – em que em nenhuma célula aparece o zero –, é preciso calcular a probabilidade de ocorrerem desvios mais extremos. Veja mais sobre o assunto em:

Vieira, S. Bioestatística: tópicos avançados.

4 ed. Rio de Janeiro. Elsevier. 2018.


2 comments:

Paulo Daniel said...

Suas postagens são ótimas, estou seguindo seu blog e curtindo bastante!! Parabéns!

Meu Blog: Letícia Alves

Sonia Vieira said...

Obrigada, vou já ver seu blog.