Sunday, February 05, 2017

ANOVA:transformação de variáveis

     As pressuposições exigidas para proceder a uma ANOVA (análise de variância) nem sempre são perfeitamente atendidas quando se tem dados reais. Mas o pesquisador que escolhe proceder à ANOVA precisa ter segurança de que seus dados atendem, mesmo que não completamente, às pressuposições exigidas.
    Já sabemos que pequenos desvios do pressuposto de normalidade não afetam seriamente a validade da análise de variância, principalmente quando os grupos são de tamanhos iguais ou praticamente iguais. Pequenas transgressões da pressuposição de igualdade de variâncias também têm pouca importância prática, exceto em duas situações: 1) de assimetria; 2) de curtose positiva.
De qualquer forma, o teste F é o mais poderoso dos testes disponíveis, quando as pressuposições para sua aplicação são atendidas. Quando isso não acontece, o pesquisador deve recorrer aos testes não-paramétricos ou transformar os dados. As transformações foram propostas para estabilizar a variância, mas em geral também eliminam a não-normalidade.
Mas o que significa transformar os dados? Você executa uma operação matemática em cada observação, para depois fazer o teste estatístico com os dados transformados. Vejamos as transformações mais conhecidas.
1.Raiz quadrada
 Variáveis obtidas por processo de contagem não tem variância constante nem distribuição normal. No entanto, são relativamente comuns os ensaios em que a variável em análise resulta de um processo de contagem. Por exemplo, um médico pode estudar a prevalência de lesões por fricção em pacientes hospitalizados com câncer, um agrônomo pode contar o número de frutos em ramos de determinado diâmetro em pomares de laranja, um biólogo pode contar colônias de bactérias em placas de Petri.
Para analisar dados de contagem, recomenda-se extrair a raiz quadrada de cada observação. Essa nova variável tem, em geral, variância constante. Considere os dados (fictícios) de contagem apresentados na Tabela 1. Verifique que transformar a variável, ou seja, extrair a raiz quadrada dos dados diminui a heterogeneidade das variâncias.
Tabela 1- Dados de contagem e respectivas transformadas (raiz quadrada) segundo o grupo

Se os dados são pequenos (menores do que 10) ou há muitos zeros, recomenda-se analisar, em lugar da variável X em estudo, a variável 

 2.Logaritmos
Muitas variáveis na área de biologia têm distribuição lognormal. Então, analisar não a variável coletada, mas a variável transformada, isto é, o logaritmo (decimal ou neperiano) dessa variável, ajuda a estabilizar a variância e tornar a distribuição normal. Mas como se reconhece a necessidade da transformação logarítmica?
Se a variância dos grupos cresce com a média, é razoável optar pela variável transformada para a análise. A explicação é a de que, se a variável que você estuda é resultante de vários fatores que se multiplicam, então essa variável tem distribuição lognormal. Um exemplo é a altura das árvores de um pomar. A altura de uma árvore é afetada pelo solo, quantidade de água, de luz solar, de ventos etc. Então a variável altura das árvores de um pomar tem distribuição lognormal. Também deve ter distribuição lognormal o tempo de sobrevivência de bactérias em desinfetantes, o peso e a pressão sanguínea das pessoas.
Considere os dados (fictícios) apresentados na Tabela 2. Verifique que a transformação logarítmica torna a distribuição normal, como mostra a Figura 1 e diminui a heterogeneidade das variâncias, conforme mostram os resultados apresentados na Tabela 2.
 Tabela 2- Dados e respectivas transformadas (logaritmo decimal) segundo o grupo

Figura 1 - Gráficos Q-Q para os resíduos: na parte superior, com a variável transformada
 e na parte inferior, com a variável coletada

3. Arco seno raiz da proporção
Em alguns ensaios, os valores que podem ser contados têm um máximo preestabelecido. Nesses casos, a variável em análise é uma proporção, que pode estar ou não expressa em porcentagem. Como exemplo, considere o número de dentes presentes na boca. O máximo é 32. Então, a variável em análise é a proporção de dentes presentes.
Proporção não se confunde com contagem. Na contagem, não existe um limite preestabelecido para o valor máximo que pode ser contado. Por exemplo, o número de nódulos em raízes de leguminosas é uma contagem, porque não existe um valor máximo teórico que não pode ser ultrapassado. Já a porcentagem de germinação de sementes em vaso tratadas por diferentes processos é uma proporção, porque nesses experimentos contam-se as sementes postas para germinar.
Se as proporções calculadas variarem entre 0,3 e 0,7, a análise de variância pode ser feita sem transformação prévia, mas se existirem muitos valores fora desse intervalo, deve-se transformar a variável para homogeneizar as variâncias. Recomenda-se, nesses casos, a transformação arco seno da raiz da proporção.
Observe os dados (fictícios) da Tabela 3. A variável é uma proporção. Os dados e os valores transformados (arco seno da raiz da proporção) estão na mesma tabela.
 Tabela 3- Dados e respectivas transformadas (arco seno raiz da proporção) segundo o grupo
Para quem tem pouco conhecimento de estatística, transformar dados pode parecer uma manipulação duvidosa, feita com a única finalidade de se chegar ao que se quer. Por conta disso, o pesquisador que transforma seus dados precisa saber defender o que fez. E é sempre recomendável aplicar a transformação que é comum entre os pesquisadores de sua área de estudo.
Mesmo que você tenha feito um teste estatístico com a variável transformada, como a raiz quadrada do número de colônias de bactérias em placas de Petri, não é boa ideia relatar médias, erros padrões etc. em unidades transformadas. Um gráfico que mostrasse a média da raiz quadrada da variável em análise não expressaria o valor que um biólogo espera na condição estudada. É preciso voltar a variável na forma coletada, para apresentar as estatísticas descritivas e os gráficos. Isso envolve fazer o oposto da função matemática usada na transformação de dados. Mas cuidado nessa volta!

Nota: os gráficos foram feitos com os resíduos. Os dados das tabelas 1 e 2 são poucos para mostrar a diferença no aspecto dos gráficos que indicam a normalidade ou não-normalidade da variável.


7 comments:

Unknown said...

Olá Sonia, muito esclarecedor o seu post, obrigada pela contribuição. Tenho uma dúvida em relação a análise de um conjunto de variáveis onde algumas passaram no teste de normalidade, e outras não. As que não passaram são na maior parte expressas em porcentagem. Posso prosseguir minhas análises com pós testes para variáveis paramétricas E não paramétricas, na mesma avaliação? Ou o mais correto seria transformar minhas variáveis não paramétricas em arco seno para achar normalidade? Desde já, muito obrigada!

Sonia Vieira said...

De acordo com Scheffé, o pesquisador não precisa preocupar-se muito com questão estrita da normalidade , a menos que a distribuição dos erros:
1- seja assimétrica;
2- tenha curtose positiva.
Há vários testes de aderência à distribuição normal. Alguns deles, como o de Anderson- Darling e o de Kramer-von Mises são, na realidade, melhoramentos feitos sobre o teste de Kolmogorov- Smirnov. Shapiro-Wilks é bem aceito, mas o poder desses testes depende do tamanho da amostra.

ANOVA tem poder, mas se as amostras são pequenas, talvez seja melhor não paramétricos

Eduardo said...
This comment has been removed by the author.
Eduardo said...

Prezada Sonia, muito didático. Bastante útil para entender porque as transformações dos dados são realizadas. Exemplos muito práticos. Eduardo Alécio, Prof. IFPE.

Jober Condé said...

Sônia, como vai?

Sobre a volta dos dados à unidade original, como proceder? Já que a média dos logaritmos não corresponde ao logaritmo das médias, por exemplo.

Sonia Vieira said...

Três pessoas, A, B e C fumaram 10, 100 e 1000 cigarros no mês. Os logaritmos decimais são 1,2 e 3. Claro que a transformação logarítmica pode fazer sentido no contexto em que esses dados se encaixam, mas não faz sentido dizer que a média dos logaritmos dos número de cigarros fumados é 2, para o leitor do trabalho. Então apresente estatísticas descritivas (média, desvio padrão) dos dados originais e explique que a transformação foi feita para conduzir a análise e os resultados são.... etc, referindo-se aos tratamento e não aos números.Que vc acha?

Jober Condé said...

Acredito que seja a melhor solução. Obrigado!