Observe
os dados apresentados na Tabela 1. Você pode encarar o problema de duas
maneiras diferentes, que vamos discutir aqui.
Tabela 1. Apresentação tabular
1. São duas distribuições binomiais
Temos, então, sucessos e fracassos na
situação A e sucessos e fracassos na situação B. Logo:
X1 é uma variável aleatória com distribuição binomial de parâmetros N1, q1. Escrevemos:
2.
É uma distribuição
hipergeométrica
Os totais marginais, N1 sucessos e N2 fracassos são fixos. Na
amostra, de tamanho n, ocorrem X1 sucessos.
Considerando duas distribuições binomiais, veja a probabilidade de
ocorrer o cenário descrito na Tabela 1: x1 sucessos na
situação A e x2 sucessos na situação B.
Agora, pense assim: ocorreram x sucessos. Então, a probabilidade condicional de observar x sucessos, considerando as distribuições binomiais, é:
que é uma distribuição hipergeométrica. Isto leva ao teste exato de Fisher. Então, veja a implicação. Quando você aplica um teste exato de Fisher, precisa considerar fixo o número de sucessos na situação A. Como a tabela é 2 x 2, tem um só grau de liberdade; fixar x significa fixar as outras três células. Portanto, os totais marginais ficam fixos. Esta é uma pressuposição para a aplicação do teste exato de Fisher: os totais marginais são fixos.
Outra implicação importante: não se pode mais testar a igualdade dos parâmetros, como acontece quando se pressupõe duas distribuições binomiais. A questão, aqui, é que sob H0, q é um parâmetro “sem sentido” (nuisance parameter). Não interessa o valor de q , mas apenas saber se é o mesmo nas duas binomiais.
NOTA: para entender distribuição hipergeométrica, veja as postagens anteriores deste mesmo blog.
Teste exato de Fisher
Dada uma tabela de contingência 2 x 2, se o tamanho da amostra for pequeno (n < 40), recomenda-se aplicar o teste exato de Fisher. Os textos que ensinam aplicar esse teste, apresentam a Tabela 2, para então dar uma fórmula que leva ao teste exato de Fisher.
Tabela 2. Apresentação tabular
Calcular essa probabilidade não é difícil, embora seja demorado porque exige o cálculo de fatoriais (indicados pelo símbolo !). Mas hoje só se faz o teste exato de Fisher em computador. De qualquer forma, para tornar a questão mais concreta, veja os dados apresentados na Tabela 3. As características em estudo são duas, grupo e sobrevivência.
Tabela 2. Distribuição
dos participantes de pesquisa segundo o grupo e a sobrevivência
Distribuição hipergeométrica N1 = 3, N2 = 3, n = 3
Nenhum estatístico pensaria em aplicar um teste de qui-quadrado a esses dados, porque a aproximação da distribuição normal é impossível. Mas foi o exemplo usado por Fisher para a proposta do teste que leva seu nome. Veja:
O exemplo dado é relativamente fácil de resolver porque aparece valor zero numa das células. Todos os participantes de um grupo deram uma só resposta, indicando associação extrema. É claro que nem sempre existe uma célula com valor zero. Nesses casos – em que em nenhuma célula aparece o zero –, é preciso calcular a probabilidade de ocorrerem desvios mais extremos. Veja mais sobre o assunto em:
Vieira, S.
Bioestatística: tópicos avançados.
4 ed. Rio
de Janeiro. Elsevier. 2018.