Quando um pesquisador obtém
dados por processo de contagem e pretende comparar médias de grupos por meio de
uma ANOVA, é comum o estatístico realizar a análise usando não os dados brutos,
mas sim a raiz quadrada deles, ou outra transformação. Isso leva o pesquisador
a questionar: qual a razão para essa transformação?
Dados de contagem (número de
insetos em uma planta, número de células em uma placa de Petri, número de
sementes germinadas etc.) geralmente seguem a distribuição de Poisson. A
distribuição de Poisson só se aproxima de uma normal quando μ é grande (μ >
5). Se isso não acontecer, os dados não atenderão às pressuposições para a
ANOVA. Por quê?
Identificação do Problema
Nos dados de contagem, valores
baixos são frequentes e valores altos são raros. Consequentemente, os resíduos
não terão distribuição normal, nem mesmo simétrica, o que é exigência para uma
ANOVA. Além disso, em distribuições de Poisson, a variância é igual à média (σ²
= μ). Se as médias dos grupos forem diferentes, as variâncias também serão. A
pressuposição de homocedasticidade (variâncias homogêneas), exigida pela ANOVA,
não será alcançada. É preciso, portanto, estabilizar a variância.
A Lógica da Estabilização da
Variância
Para uma variável
aleatória X com distribuição de
Poisson, temos:
E[X]=μ
Var[X]=μ
A variância de uma variável transformada
é encontrada usando a expansão de Taylor (Método Delta).
Para
onde X ~ Poisson(μ):
a variância de Y torna-se aproximadamente constante (0,25), independente de μ.
Aplicação da Correção para Zeros
Para contagens com média entre 5
e 20, a transformação é eficaz. No entanto, se houver muitos zeros, use a transformação
de Anscombe:
ou uma correção simplificada,
também eficaz:
Limitações e Alternativas
Modernas
As transformações são uma
ferramenta clássica e útil, mas têm desvantagens: podem dificultar a
interpretação dos resultados (pois os dados são analisados em outra escala) e
nem sempre resolvem todos os problemas perfeitamente.
Atualmente, a metodologia
estatística mais recomendada para dados de contagem é o uso de Modelos
Lineares Generalizados (GLMs), especificamente o modelo Poisson ou, se
houver superdispersão, o modelo Binomial Negativo. Esses modelos são mais
poderosos e flexíveis, pois analisam os dados em sua escala original e modelam
explicitamente a distribuição probabilística dos dados. No entanto, as
transformações de variáveis ainda são muito utilizadas.
Aplicação Prática
Considere os dados de contagem
apresentados na Tabela 1, obtidos da contagem do número de folhas com lesões em
plantas com determinada doença, divididas em um grupo tratado e um grupo
controle.
Tabela 1: Dados brutos de
contagem
Tratado |
Controle |
16 |
9 |
4 |
49 |
25 |
9 |
9 |
36 |
1 |
25 |
9 |
36 |
16 |
9 |
4 |
49 |
25 |
9 |
9 |
36 |
1 |
25 |
9 |
36 |
Média = 10,67 |
Média = 27,33 |
Variância = 68,61 |
Variância =235,88 |
A simples observação das médias
e variâncias na escala original já evidencia o problema: o grupo controle tem
média maior e, conforme esperado pela distribuição de Poisson, uma variância
muito maior (235,88 vs. 68,61), indicando forte heterocedasticidade.
Ao aplicarmos a transformação de
raiz quadrada, obtemos os dados da Tabela 2.
Tabela 2: Dados transformados
Tratado |
Controle |
4 |
3 |
2 |
7 |
5 |
3 |
3 |
6 |
1 |
5 |
3 |
6 |
4 |
3 |
2 |
7 |
5 |
3 |
3 |
6 |
1 |
5 |
3 |
6 |
Média = 3,00 |
Média = 5,00 |
Variância =1,82 |
Variância = 2,55 |
O efeito estabilizador da
transformação é claro. As variâncias, que antes diferiam drasticamente, agora
são muito próximas e homogêneas (1,82 vs. 2,55). Somente após essa
transformação os dados podem ser submetidos com validade a uma ANOVA.
Ao proceder com a análise, o valor de F obtido é significativo ao nível de 5%,
levando à conclusão de que há uma diferença estatística entre os grupos.
Este cálculo é baseado no Método
Delta, que é uma forma de aproximar a média e a variância de uma função de
uma variável aleatória Y=g(X)) quando
sabemos a média e a variância de X.
Passo a Passo:
1.
Expansão de
Taylor: Aproximamos a função g(X) por
uma reta perto da média μ de X. A expansão de Taylor de primeira ordem é:
Y = ≈ g(μ) + g′(μ)⋅(X−μ)
No nosso caso, g(X) =√X. Então:
2.
Cálculo do
Valor Esperado E[Y]): Aplicamos o operador
esperança na aproximação:
Como μ e 1/2√m são constantes:
Sabendo que E[(X−μ)]
= 0:
3.
Cálculo da
Variância (Var[Y]Var[Y]): A variância mede o desvio quadrático em torno da média. Usamos a
mesma aproximação linear:
Sabemos que E[Y] ≈ √m . Então:
Simplificando:
Como 1/4m é constante:
Por definição,
Substituindo:
É por esse resultado fantástico
(1/4) que a transformação é tão
poderosa. A variância deixa de ser μ (que muda de grupo para grupo) e se torna uma
constante (0,25), satisfazendo a premissa de homocedasticidade da ANOVA.
No comments:
Post a Comment