As pressuposições exigidas para aplicar uma ANOVA (análise de variância) nem sempre são perfeitamente atendidas em dados reais. No entanto, o pesquisador que opta por esse procedimento precisa ter segurança de que seus dados atendem, ainda que não completamente, às pressuposições necessárias.
Já se sabe que pequenos desvios da normalidade não comprometem
seriamente a validade da ANOVA, especialmente quando os grupos têm tamanhos
iguais ou semelhantes. Da mesma forma, pequenas violações da homogeneidade das
variâncias têm pouca relevância prática — exceto em duas situações: 1) quando
há assimetria nos resíduos; 2) quando há curtose positiva nos resíduos.
De qualquer forma, o teste F continua sendo o mais poderoso entre os
testes disponíveis, desde que suas pressuposições sejam atendidas. Caso
contrário, o pesquisador deve considerar o uso de testes não paramétricos ou
recorrer à transformação dos dados. As transformações são propostas, em
especial, para estabilizar a variância, mas em geral também contribuem para
aproximar a distribuição da normalidade.
O que significa transformar os dados?
Transformar dados significa aplicar uma operação matemática a cada
observação, e realizar a análise estatística com os valores resultantes. A
seguir, apresentamos as transformações mais conhecidas.
1. Raiz quadrada
Em geral, variáveis obtidas por contagem não apresentam variância
constante nem distribuição normal. No entanto, ensaios com variáveis de
contagem são bastante comuns. Por exemplo, um médico pode estudar a prevalência
de lesões por fricção em pacientes hospitalizados com câncer; um agrônomo pode
contar o número de insetos encontrados no sistema radicular de plantas de uva; um
biólogo pode contar colônias de bactérias em placas de Petri; um sociólogo pode
estudar o número de evasões escolares.
Para dados de contagem, recomenda-se aplicar a raiz quadrada a cada
observação, antes de proceder à ANOVA. A variável resultante costuma apresentar
variância mais constante.
Considere os dados fictícios da Tabela 1. Note que a transformação raiz quadrada dos dados reduz a heterogeneidade das variâncias. No entanto, se os valores observados forem pequenos (menores que 10) ou houver muitos zeros, recomenda-se - para evitar problemas com a raiz quadrada de zero - transformar os dados da variável X em
Tabela 1
Dados e
respectivas transformadas (raiz quadrada)
segundo o
grupo
2. Logaritmo
Muitas variáveis biológicas seguem distribuição lognormal. Nestes casos,
utilizar o logaritmo (decimal ou natural) da variável ajuda a estabilizar a
variância e a aproximar a distribuição da normalidade.
Mas como identificar a necessidade dessa transformação? Se a variância
dos grupos aumenta com a média, isso indica que a variável pode ser lognormal,
o que justifica a transformação.
Exemplo clássico é a variável altura de árvores em um pomar. Essa
variável é influenciada por múltiplos fatores multiplicativos: solo, água, luz
solar, vento etc. Por isso, a distribuição tende a ser lognormal. Outros
exemplos incluem: tempo de sobrevivência de bactérias em desinfetantes, peso
corporal, pressão arterial.
Considere os dados fictícios da Tabela 2. A transformação logarítmica
melhora a normalidade (ver Figura 1) e reduz a heterogeneidade das variâncias.
Tabela 2
Dados e
respectivas transformadas (logaritmo decimal)
segundo o
grupo
3. Arco seno da raiz da proporção
Em alguns casos, a variável é uma proporção, ou seja, há um número
máximo predefinido de eventos que podem ocorrer. Por exemplo: a proporção de
dentes presentes na boca, ou a porcentagem de germinação de sementes.
Proporções não devem ser confundidas com contagens. Em contagens, como o
número de nódulos em raízes de leguminosas, não há limite máximo
preestabelecido.
Se as proporções variam entre 0,3 e 0,7, a ANOVA pode ser aplicada diretamente. Mas se muitos valores estiverem fora desse intervalo, recomenda-se aplicar a transformação:
Y = arcsen(√p).
Considere os dados fictícios da Tabela 3. A variável é uma proporção, e
a tabela apresenta tanto os valores brutos quanto os transformados.
Tabela 3
Dados e respectivas transformadas (arcsen(√p))
segundo o grupo
Considerações finais
Para quem tem pouca familiaridade com estatística, transformar dados
pode parecer uma "manipulação" suspeita. Mas não é. Trata-se de uma
técnica legítima e amplamente aceita.
Por isso, o pesquisador deve saber justificar a transformação escolhida,
e é sempre recomendável usar a transformação mais comum em sua área de estudo.
Importante: mesmo que a análise estatística tenha sido feita com os
dados transformados, os resultados descritivos (médias, erros-padrão, gráficos
etc.) devem ser apresentados na escala original da variável. Isso porque, por
exemplo, um gráfico com a média da raiz quadrada do número de colônias de
bactérias pode não ser informativo para um biólogo.
Assim, é necessário "desfazer" a transformação ao apresentar
os resultados, usando a função inversa da transformação aplicada. Mas atenção:
essa reversão deve ser feita com cuidado.
Nota: Os gráficos de normalidade (Q-Q plots) foram construídos com os
resíduos. Os dados fictícios nas Tabelas 1 e 2 são poucos para mostrar
claramente as diferenças nos gráficos, mas servem para fins ilustrativos.