Sunday, February 05, 2017

Transformações em ANOVA: quando e por que aplicar

                                    
 
As pressuposições exigidas para aplicar uma ANOVA (análise de variância) nem sempre são perfeitamente atendidas em dados reais. No entanto, o pesquisador que opta por esse procedimento precisa ter segurança de que seus dados atendem, ainda que não completamente, às pressuposições necessárias (normalidade de resíduos, homocedasticidade, independência das observações).


Já se sabe que pequenos desvios da normalidade não comprometem seriamente a validade da ANOVA, especialmente quando os grupos têm tamanhos iguais ou semelhantes. Da mesma forma, pequenas violações da homogeneidade das variâncias têm pouca relevância prática — exceto em duas situações: 1) quando há assimetria nos resíduos; 2) quando há curtose positiva nos resíduos.

 

De qualquer forma, o teste F continua sendo o mais poderoso entre os testes disponíveis, desde que suas pressuposições sejam atendidas. Caso contrário, o pesquisador deve considerar o uso de testes não paramétricos ou recorrer à transformação dos dados. As transformações são propostas, em especial, para estabilizar a variância, mas em geral também contribuem para aproximar a distribuição da normalidade.

O que significa transformar os dados?


Transformar dados significa aplicar uma operação matemática a cada observação, e realizar a análise estatística com os valores resultantes. A seguir, apresentamos as transformações mais conhecidas.


    1.   Raiz quadrada


Em geral, variáveis obtidas por contagem não apresentam variância constante nem distribuição normal. No entanto, ensaios com variáveis de contagem são comuns. Por exemplo, um médico pode estudar a prevalência de lesões por fricção em pacientes hospitalizados com câncer; um agrônomo pode contar o número de insetos encontrados no sistema radicular de plantas de uva; um biólogo pode contar colônias de bactérias em placas de Petri; um sociólogo pode estudar o número de evasões escolares.

 

Para dados de contagem, recomenda-se aplicar a raiz quadrada a cada observação, antes de proceder à ANOVA. A variável resultante costuma apresentar variância mais constante. No entanto, se os valores observados forem pequenos (menores que 10) ou houver muitos zeros, recomenda-se - para evitar problemas com a raiz quadrada de zero - transformar os dados da variável X em 

que é uma proposta antiga, ou usar a transformada de Anscombe


  Exemplo prático

Considere os dados fictícios da Tabela 1. Note que a transformação raiz quadrada dos dados reduz a heterogeneidade das variâncias. 

Tabela 1

Dados e respectivas transformadas (raiz quadrada)

segundo o grupo

     2. Logaritmo

Há variáveis biológicas com distribuição lognormal. Nestes casos, recomenda-se  utilizar para a análise o logaritmo (decimal ou natural) da variável, o que ajuda a estabilizar a variância e a aproximar a distribuição da normalidade. Indicativo clássico da necessidade dessa transformação é a variável que apresenta variâncias de grupos aumentando  com as médias, proporcionalmente


Altura de árvores em um pomar é um exemplo de variável com distribuição lognormal. Essa variável é influenciada por múltiplos fatores multiplicativos: solo, água, luz solar, vento etc. Por isso, a distribuição tende a ser lognormal. Outros exemplos: tempo de sobrevivência, peso corporal.


                                                    Exemplo prático

 

Considere os dados fictícios da Tabela 2. A transformação logarítmica melhora a normalidade (ver Figura 1) e reduz a heterogeneidade das variâncias.


Tabela 2

Dados e respectivas transformadas (logaritmo decimal)

segundo o grupo

                         


Figura 1

Gráficos Q-Q dos resíduos: à esquerda, sem transformação; à direita, após transformação



3. Arco seno da raiz da proporção


Se a variável for uma proporção ou uma porcentagem, como por exemplo a porcentagem de germinação de sementes, a ANOVA pode ser aplicada diretamente desde que as proporções variem entre 0,3 e 0,7. Se muitos valores estiverem fora desse intervalo, recomenda-se aplicar a transformação:

 Y = arcsen(√p).


   Exemplo prático

Considere os dados fictícios da Tabela 3. A variável é uma proporção, e a tabela apresenta tanto os valores brutos quanto os transformados.

Tabela 3

Dados e respectivas transformadas (arcsen(√p))

segundo o grupo

                     

Considerações finais 

Para quem tem pouca familiaridade com estatística, transformar dados pode parecer uma "manipulação" suspeita. Mas não é. Trata-se de uma técnica legítima, amplamente aceita e, muitas vezes, necessária quando alternativas não estão disponíveis. 

Embora softwares modernos ofereçam métodos alternativos (como o teste de Welch para heterogeneidade de variâncias simples), para modelos de análise de variância mais complexos — como delineamentos split-plot ou modelos hierárquicos — a transformação da variável original pode ser a única abordagem viável e robusta para satisfazer os pressupostos do modelo. 

O pesquisador deve sempre saber justificar a transformação escolhida e, idealmente, usar a transformação mais comum em sua área de estudo. 

Importante: Mesmo que a análise estatística tenha sido feita com os dados transformados, os resultados descritivos (médias, erros-padrão, gráficos etc.) devem ser apresentados na escala original da variável. Para isso, é necessário "reverter" a transformação (retro-transformar -"back transform") ao apresentar os resultados, usando a função inversa da transformação aplicada. 



Nota: Os gráficos de normalidade (Q-Q plots) foram construídos com os resíduos. Os dados fictícios nas Tabelas 1 e 2 são poucos para mostrar claramente as diferenças nos gráficos, mas servem para fins ilustrativos.