Sunday, February 05, 2017

Transformações em ANOVA: quando e por que aplicar

                                    
 
As pressuposições exigidas para aplicar uma ANOVA (análise de variância) nem sempre são perfeitamente atendidas em dados reais. No entanto, o pesquisador que opta por esse procedimento precisa ter segurança de que seus dados atendem, ainda que não completamente, às pressuposições necessárias.


Já se sabe que pequenos desvios da normalidade não comprometem seriamente a validade da ANOVA, especialmente quando os grupos têm tamanhos iguais ou semelhantes. Da mesma forma, pequenas violações da homogeneidade das variâncias têm pouca relevância prática — exceto em duas situações: 1) quando há assimetria nos resíduos; 2) quando há curtose positiva nos resíduos.

 

De qualquer forma, o teste F continua sendo o mais poderoso entre os testes disponíveis, desde que suas pressuposições sejam atendidas. Caso contrário, o pesquisador deve considerar o uso de testes não paramétricos ou recorrer à transformação dos dados. As transformações são propostas, em especial, para estabilizar a variância, mas em geral também contribuem para aproximar a distribuição da normalidade.

O que significa transformar os dados?


Transformar dados significa aplicar uma operação matemática a cada observação, e realizar a análise estatística com os valores resultantes. A seguir, apresentamos as transformações mais conhecidas.


    1.   Raiz quadrada


Em geral, variáveis obtidas por contagem não apresentam variância constante nem distribuição normal. No entanto, ensaios com variáveis de contagem são bastante comuns. Por exemplo, um médico pode estudar a prevalência de lesões por fricção em pacientes hospitalizados com câncer; um agrônomo pode contar o número de insetos encontrados no sistema radicular de plantas de uva; um biólogo pode contar colônias de bactérias em placas de Petri; um sociólogo pode estudar o número de evasões escolares.

 

Para dados de contagem, recomenda-se aplicar a raiz quadrada a cada observação, antes de proceder à ANOVA. A variável resultante costuma apresentar variância mais constante.

 

Considere os dados fictícios da Tabela 1. Note que a transformação raiz quadrada dos dados reduz a heterogeneidade das variâncias. No entanto, se os valores observados forem pequenos (menores que 10) ou houver muitos zeros, recomenda-se - para evitar problemas com a raiz quadrada de zero - transformar os dados da variável X em 


Tabela 1

Dados e respectivas transformadas (raiz quadrada)

segundo o grupo

2. Logaritmo


Muitas variáveis biológicas seguem distribuição lognormal. Nestes casos, utilizar o logaritmo (decimal ou natural) da variável ajuda a estabilizar a variância e a aproximar a distribuição da normalidade.


Mas como identificar a necessidade dessa transformação? Se a variância dos grupos aumenta com a média, isso indica que a variável pode ser lognormal, o que justifica a transformação.


Exemplo clássico é a variável altura de árvores em um pomar. Essa variável é influenciada por múltiplos fatores multiplicativos: solo, água, luz solar, vento etc. Por isso, a distribuição tende a ser lognormal. Outros exemplos incluem: tempo de sobrevivência de bactérias em desinfetantes, peso corporal, pressão arterial.

 

Considere os dados fictícios da Tabela 2. A transformação logarítmica melhora a normalidade (ver Figura 1) e reduz a heterogeneidade das variâncias.


Tabela 2

Dados e respectivas transformadas (logaritmo decimal)

segundo o grupo


Figura 1

Gráficos Q-Q dos resíduos: à esquerda, sem transformação; à direita, após transformação



3. Arco seno da raiz da proporção


Em alguns casos, a variável é uma proporção, ou seja, há um número máximo predefinido de eventos que podem ocorrer. Por exemplo: a proporção de dentes presentes na boca, ou a porcentagem de germinação de sementes.


Proporções não devem ser confundidas com contagens. Em contagens, como o número de nódulos em raízes de leguminosas, não há limite máximo preestabelecido.


Se as proporções variam entre 0,3 e 0,7, a ANOVA pode ser aplicada diretamente. Mas se muitos valores estiverem fora desse intervalo, recomenda-se aplicar a transformação:

 Y = arcsen(√p).


Considere os dados fictícios da Tabela 3. A variável é uma proporção, e a tabela apresenta tanto os valores brutos quanto os transformados.

Tabela 3

Dados e respectivas transformadas (arcsen(√p))

segundo o grupo

Considerações finais


Para quem tem pouca familiaridade com estatística, transformar dados pode parecer uma "manipulação" suspeita. Mas não é. Trata-se de uma técnica legítima e amplamente aceita.


Por isso, o pesquisador deve saber justificar a transformação escolhida, e é sempre recomendável usar a transformação mais comum em sua área de estudo.


Importante: mesmo que a análise estatística tenha sido feita com os dados transformados, os resultados descritivos (médias, erros-padrão, gráficos etc.) devem ser apresentados na escala original da variável. Isso porque, por exemplo, um gráfico com a média da raiz quadrada do número de colônias de bactérias pode não ser informativo para um biólogo.


Assim, é necessário "desfazer" a transformação ao apresentar os resultados, usando a função inversa da transformação aplicada. Mas atenção: essa reversão deve ser feita com cuidado.


Nota: Os gráficos de normalidade (Q-Q plots) foram construídos com os resíduos. Os dados fictícios nas Tabelas 1 e 2 são poucos para mostrar claramente as diferenças nos gráficos, mas servem para fins ilustrativos.




7 comments:

Unknown said...

Olá Sonia, muito esclarecedor o seu post, obrigada pela contribuição. Tenho uma dúvida em relação a análise de um conjunto de variáveis onde algumas passaram no teste de normalidade, e outras não. As que não passaram são na maior parte expressas em porcentagem. Posso prosseguir minhas análises com pós testes para variáveis paramétricas E não paramétricas, na mesma avaliação? Ou o mais correto seria transformar minhas variáveis não paramétricas em arco seno para achar normalidade? Desde já, muito obrigada!

Sonia Vieira said...

De acordo com Scheffé, o pesquisador não precisa preocupar-se muito com questão estrita da normalidade , a menos que a distribuição dos erros:
1- seja assimétrica;
2- tenha curtose positiva.
Há vários testes de aderência à distribuição normal. Alguns deles, como o de Anderson- Darling e o de Kramer-von Mises são, na realidade, melhoramentos feitos sobre o teste de Kolmogorov- Smirnov. Shapiro-Wilks é bem aceito, mas o poder desses testes depende do tamanho da amostra.

ANOVA tem poder, mas se as amostras são pequenas, talvez seja melhor não paramétricos

Eduardo said...
This comment has been removed by the author.
Eduardo said...

Prezada Sonia, muito didático. Bastante útil para entender porque as transformações dos dados são realizadas. Exemplos muito práticos. Eduardo Alécio, Prof. IFPE.

Jober Condé said...

Sônia, como vai?

Sobre a volta dos dados à unidade original, como proceder? Já que a média dos logaritmos não corresponde ao logaritmo das médias, por exemplo.

Sonia Vieira said...

Três pessoas, A, B e C fumaram 10, 100 e 1000 cigarros no mês. Os logaritmos decimais são 1,2 e 3. Claro que a transformação logarítmica pode fazer sentido no contexto em que esses dados se encaixam, mas não faz sentido dizer que a média dos logaritmos dos número de cigarros fumados é 2, para o leitor do trabalho. Então apresente estatísticas descritivas (média, desvio padrão) dos dados originais e explique que a transformação foi feita para conduzir a análise e os resultados são.... etc, referindo-se aos tratamento e não aos números.Que vc acha?

Jober Condé said...

Acredito que seja a melhor solução. Obrigado!