As
pressuposições exigidas para proceder a uma ANOVA (análise de variância) nem
sempre são perfeitamente atendidas quando se tem dados reais. Mas o pesquisador
que escolhe proceder à ANOVA precisa ter segurança de que seus dados atendem,
mesmo que não completamente, às pressuposições exigidas.
Já
sabemos que pequenos desvios do pressuposto de normalidade não afetam
seriamente a validade da análise de variância, principalmente quando os grupos
são de tamanhos iguais ou praticamente iguais. Pequenas transgressões da
pressuposição de igualdade de variâncias também têm pouca importância prática,
exceto em duas situações: 1) de assimetria; 2) de curtose positiva.
De qualquer forma,
o teste F é o mais poderoso dos
testes disponíveis, quando as pressuposições para sua aplicação são atendidas. Quando
isso não acontece, o pesquisador deve
recorrer aos testes não-paramétricos ou transformar os dados. As transformações
foram propostas para estabilizar a variância, mas em geral também
eliminam a não-normalidade.
Mas o que significa
transformar os dados? Você executa
uma operação matemática em cada observação, para depois fazer o teste
estatístico com os dados transformados. Vejamos as transformações mais
conhecidas.
1.Raiz quadrada
Variáveis obtidas
por processo de contagem não tem variância constante nem distribuição
normal. No entanto, são relativamente comuns os ensaios em que a variável em
análise resulta de um processo de contagem. Por exemplo, um médico pode estudar
a prevalência de lesões por fricção em pacientes hospitalizados com câncer,
um agrônomo pode contar o número de frutos em ramos de determinado diâmetro em pomares de laranja, um biólogo pode contar colônias de bactérias em placas de Petri.
Para analisar dados de contagem,
recomenda-se extrair a raiz quadrada de cada observação. Essa nova
variável tem, em geral, variância constante. Considere os dados (fictícios) de
contagem apresentados na Tabela 1. Verifique que transformar a variável, ou
seja, extrair a raiz quadrada dos dados diminui a heterogeneidade das
variâncias.
Tabela 1- Dados de contagem e respectivas transformadas (raiz quadrada) segundo
o grupo
2.Logaritmos
Muitas variáveis na área de biologia têm distribuição lognormal.
Então, analisar não a variável
coletada, mas a variável transformada, isto é, o logaritmo (decimal ou
neperiano) dessa variável, ajuda a estabilizar a variância e tornar a
distribuição normal. Mas como se reconhece a necessidade da transformação
logarítmica?
Se a variância dos grupos cresce com a média, é razoável optar
pela variável transformada para a análise. A explicação é a de que, se a
variável que você estuda é resultante de vários fatores que se multiplicam,
então essa variável tem distribuição lognormal. Um exemplo é a altura das
árvores de um pomar. A altura de uma árvore é afetada pelo solo, quantidade de
água, de luz solar, de ventos etc. Então a variável altura das árvores de um
pomar tem distribuição lognormal. Também deve ter distribuição lognormal o
tempo de sobrevivência de bactérias em desinfetantes, o peso e a pressão
sanguínea das pessoas.
Considere os dados (fictícios)
apresentados na Tabela 2. Verifique que a transformação
logarítmica torna a distribuição normal, como mostra a Figura 1 e diminui
a heterogeneidade das variâncias, conforme mostram os resultados apresentados
na Tabela 2.
Figura 1 - Gráficos Q-Q para os resíduos: na parte superior, com a variável transformada
e na parte inferior, com a variável coletada
Em alguns ensaios, os valores
que podem ser contados têm um máximo preestabelecido. Nesses casos, a variável
em análise é uma proporção, que pode estar ou não expressa em porcentagem. Como
exemplo, considere o número de dentes presentes na boca. O máximo é 32. Então,
a variável em análise é a proporção de dentes presentes.
Proporção não se
confunde com contagem. Na contagem, não existe um limite preestabelecido para o
valor máximo que pode ser contado. Por exemplo, o número de nódulos em raízes
de leguminosas é uma contagem, porque não existe um valor máximo teórico que
não pode ser ultrapassado. Já a porcentagem de germinação de sementes em vaso tratadas
por diferentes processos é uma proporção, porque nesses experimentos contam-se
as sementes postas para germinar.
Se as proporções
calculadas variarem entre 0,3 e 0,7, a análise de variância pode ser feita sem
transformação prévia, mas se existirem muitos valores fora desse intervalo,
deve-se transformar a variável para homogeneizar as variâncias. Recomenda-se,
nesses casos, a transformação arco seno da raiz da proporção.
Observe os dados (fictícios) da Tabela 3. A variável é
uma proporção. Os dados e os valores transformados (arco
seno da raiz da proporção) estão na mesma tabela.
Para
quem tem pouco conhecimento de estatística, transformar dados pode parecer uma
manipulação duvidosa, feita com a única finalidade de se chegar ao que se quer.
Por conta disso, o pesquisador que transforma seus dados precisa saber defender
o que fez. E é sempre recomendável aplicar a transformação que é comum entre os
pesquisadores de sua área de estudo.
Mesmo
que você tenha feito um teste estatístico com a variável transformada, como a
raiz quadrada do número de colônias de bactérias em placas de Petri, não é boa
ideia relatar médias, erros padrões etc. em unidades transformadas. Um gráfico
que mostrasse a média da raiz quadrada da variável em análise não expressaria o
valor que um biólogo espera na condição estudada. É preciso voltar a variável
na forma coletada, para apresentar as estatísticas descritivas e os gráficos.
Isso envolve fazer o oposto da função matemática usada na transformação de
dados. Mas cuidado nessa volta!
Nota: os gráficos foram feitos com os resíduos. Os dados das tabelas 1 e 2 são poucos para mostrar a diferença no aspecto dos gráficos que indicam a normalidade ou não-normalidade da variável.
7 comments:
Olá Sonia, muito esclarecedor o seu post, obrigada pela contribuição. Tenho uma dúvida em relação a análise de um conjunto de variáveis onde algumas passaram no teste de normalidade, e outras não. As que não passaram são na maior parte expressas em porcentagem. Posso prosseguir minhas análises com pós testes para variáveis paramétricas E não paramétricas, na mesma avaliação? Ou o mais correto seria transformar minhas variáveis não paramétricas em arco seno para achar normalidade? Desde já, muito obrigada!
De acordo com Scheffé, o pesquisador não precisa preocupar-se muito com questão estrita da normalidade , a menos que a distribuição dos erros:
1- seja assimétrica;
2- tenha curtose positiva.
Há vários testes de aderência à distribuição normal. Alguns deles, como o de Anderson- Darling e o de Kramer-von Mises são, na realidade, melhoramentos feitos sobre o teste de Kolmogorov- Smirnov. Shapiro-Wilks é bem aceito, mas o poder desses testes depende do tamanho da amostra.
ANOVA tem poder, mas se as amostras são pequenas, talvez seja melhor não paramétricos
Prezada Sonia, muito didático. Bastante útil para entender porque as transformações dos dados são realizadas. Exemplos muito práticos. Eduardo Alécio, Prof. IFPE.
Sônia, como vai?
Sobre a volta dos dados à unidade original, como proceder? Já que a média dos logaritmos não corresponde ao logaritmo das médias, por exemplo.
Três pessoas, A, B e C fumaram 10, 100 e 1000 cigarros no mês. Os logaritmos decimais são 1,2 e 3. Claro que a transformação logarítmica pode fazer sentido no contexto em que esses dados se encaixam, mas não faz sentido dizer que a média dos logaritmos dos número de cigarros fumados é 2, para o leitor do trabalho. Então apresente estatísticas descritivas (média, desvio padrão) dos dados originais e explique que a transformação foi feita para conduzir a análise e os resultados são.... etc, referindo-se aos tratamento e não aos números.Que vc acha?
Acredito que seja a melhor solução. Obrigado!
Post a Comment