É comum o estatístico ouvir de quem está
começando a analisar dados a seguinte pergunta:
“Meus dados têm distribuição normal?”
Mas, vamos aos fatos:
Para aplicar a análise de variância (ANOVA), não é necessário que os
dados sigam uma distribuição normal.
O que se exige é que os resíduos (ou erros) do modelo ANOVA
tenham distribuição aproximadamente normal.
O que são resíduos?
Resíduo (ou residual) é a diferença
entre um valor observado e a média do grupo ao qual ele pertence. Em uma ANOVA
com um critério de classificação, o resíduo é calculado assim:
Resíduo = valor observado – média do grupo
Exemplo
Veja os dados fictícios da Tabela 1. As
médias dos grupos estão indicadas no rodapé.
Tabela 1 – Valores observados em um
experimento
Com base nesses valores, calculamos os resíduos, subtraindo de cada dado a média do seu grupo.
Tabela 2 – Resíduos
O estudo dos resíduos — chamado análise de
resíduos — é fundamental porque a ANOVA assume que eles seguem
distribuição normal. Por isso, sempre que aplicamos uma ANOVA, devemos analisar
os resíduos.
Como se faz a análise de resíduos?
Uma boa prática é examinar os resíduos graficamente e usar testes estatísticos para verificar se os pressupostos da ANOVA foram atendidos.
1. Histograma dos resíduos
Com os resíduos da Tabela 2, podemos construir
o histograma abaixo:
Figura 1 – Histograma dos resíduos
Você pode não ver uma “distribuição normal
perfeita”, mas observe que a distribuição é simétrica, o que já é um bom
sinal. A ANOVA é robusta a pequenas violações da normalidade, desde que a
distribuição dos erros seja aproximadamente simétrica, como ocorre neste
caso.
2. Boxplot
(diagrama de caixa)
O boxplot dos resíduos também é muito
informativo. Veja abaixo.
Figura 2 – Boxplot dos resíduos
A simetria e a ausência de valores extremos (outliers)
reforçam que os pressupostos da ANOVA são atendidos.
3. Gráficos
Q-Q e P-P
O gráfico Q-Q (quantil-quantil) compara
os resíduos observados com os que seriam esperados sob uma distribuição normal.
Se os pontos estiverem próximos de uma reta de 45°, temos um bom indicativo de
normalidade.
Figura
3 – Q-Q plot dos resíduos
Um outro gráfico possível é o P-P plot,
que também permite avaliar visualmente a normalidade.
Estatísticas descritivas dos resíduos
Alguns indicadores ajudam a avaliar a
distribuição:
· Média e mediana: Se forem iguais ou
próximas, indica simetria.
· Coeficiente de assimetria: Próximo
de zero? Boa notícia.
· Curtose: Valor negativo indica uma distribuição mais
“achatada” que a normal, mas isso nem sempre compromete a análise.
Tabela 3 – Estatísticas descritivas dos
resíduos
No exemplo, a média e a mediana dos resíduos
são zero.
A assimetria é também zero, indicando simetria.
A curtose é ligeiramente negativa, o que sugere uma cauda um pouco mais
leve, mas isso não invalida o modelo.
E os testes estatísticos?
Testes de normalidade são úteis por serem
objetivos. Os mais usados são:
· Shapiro-Wilk
· Kolmogorov-Smirnov
No nosso exemplo, o teste de
Kolmogorov-Smirnov foi aplicado usando o SPSS, e o resultado foi não
significante (valor-p = 0,200).
Isso indica que não há evidência suficiente para rejeitar a normalidade
dos resíduos.
⚠️ Atenção: Esses
testes são sensíveis ao tamanho da amostra:
· Amostras pequenas têm menor poder para
detectar desvios da normalidade.
· Amostras grandes podem acusar diferença
significante mesmo com pequenos desvios, que não comprometem os
resultados da ANOVA.
Observações finais
· Quando os grupos têm tamanhos iguais e os fatores são fixos,
a ANOVA se mostra confiável mesmo que a normalidade seja levemente violada.
· O que pode ser problemático: distribuições altamente assimétricas
ou variâncias muito diferentes entre os grupos.
💡 Nota importante
➤ Se os resíduos seguem distribuição normal,
➤ Ou, melhor ainda, se os dados de cada grupo seguem distribuição
normal.
Nesse caso, faz sentido a pergunta original: “Meus dados têm distribuição normal?”
Referências
7 comments:
Pode existir distribuição com a mediana próxima ao primeiro quartil mais que ao terceiro e ainda assim a média está abaixo da mediana (me refiro ao gráfico boxplot), isto é, valor da média menor que valor da mediana e então seria assimetria esquerda (negativa)? Existe?
Stela: Pergunta interessante, coloquei a resposta no final do post, porque é difícil colocar aqui figuras.
Então existe...principalmente para distribuções discretas, mas também pode acontecer em distribuição contínuas.
Dizer que a distribuição é assimétrica positiva ou negativa não tem haver com a proximidade da mediana em relação ao 1º momento (ex.: a mediana é mais próxima do 1º momento, logo é assimétrica positiva)?
E sim a média ser maior que a mediana que atesta que é uma assimetria positiva?
Pergunto isso porque tem livros que escrevem X-barra > x-til (média maior que mediana).
O que devo considerar o desenho graficamente, ou os valores das medidas descritivas (média em relação mediana). Se possível esclarecer isso agradeço muito.
Escrevi uma postagem sobre a questão da assimetria. Espero que ajude.
Olá, Eduardo, não tenho livro que trate desses conteúdos e também não sei indicar com segurança um texto sobre esses assuntos. Mas obrigada pela dica, vou estudar o teste de Kolmogorov-Smirnov e tentar expor em um blog. Sonia
Sonia,
Obrigado pelo retorno.
Será ótimo expor no seu blog.
Abraços, Eduardo
Post a Comment