Monday, January 02, 2017

Meus dados são normais?



Uma explicação acessível para uma das dúvidas mais frequentes de quem começa a fazer análises estatísticas.

É comum o estatístico ouvir de quem está começando a analisar dados a seguinte pergunta:
    “Meus dados têm distribuição normal?”

Mas, vamos aos fatos:

Para aplicar a análise de variância (ANOVA), não é necessário que os dados sigam uma distribuição normal.

O que se exige é que os resíduos (ou erros) do modelo ANOVA tenham distribuição aproximadamente normal.


O que são resíduos?

 Resíduo (ou residual) é a diferença entre um valor observado e a média do grupo ao qual ele            pertence. Em uma ANOVA com um critério de classificação, o resíduo é calculado assim:

Resíduo = valor observado – média do grupo

Exemplo

Veja os dados fictícios da Tabela 1. As médias dos grupos estão indicadas no rodapé.

Tabela 1 – Valores observados em um experimento

Com base nesses valores, calculamos os resíduos, subtraindo de cada dado a média do seu               grupo.

Tabela 2 – Resíduos

   

O estudo dos resíduos — chamado análise de resíduos — é fundamental porque a ANOVA          assume que eles seguem distribuição normal. Por isso, sempre que aplicamos uma ANOVA,           devemos analisar os resíduos.


Como se faz a análise de resíduos?

Uma boa prática é examinar os resíduos graficamente e usar testes estatísticos para verificar se os pressupostos da ANOVA foram atendidos.

1. Histograma dos resíduos

Com os resíduos da Tabela 2, podemos construir o histograma abaixo:

Figura 1 – Histograma dos resíduos

Você pode não ver uma “distribuição normal perfeita”, mas observe que a distribuição é                 simétrica, o que já é um bom sinal. A ANOVA é robusta a pequenas violações da                       normalidade, desde que a distribuição dos erros seja aproximadamente simétrica, como ocorre      neste caso.

  2. Boxplot (diagrama de caixa)

O boxplot dos resíduos também é muito informativo. Veja abaixo.

Figura 2 – Boxplot dos resíduos

    


A simetria e a ausência de valores extremos (outliers) reforçam que os pressupostos da    ANOVA são atendidos.

3. Gráficos Q-Q e P-P

O gráfico Q-Q (quantil-quantil) compara os resíduos observados com os que seriam esperados sob uma distribuição normal. Se os pontos estiverem próximos de uma reta de 45°, temos um bom indicativo de normalidade.

                          Figura 3 – Q-Q plot dos resíduos

Um outro gráfico possível é o P-P plot, que também permite avaliar visualmente a normalidade.


Estatísticas descritivas dos resíduos

Alguns indicadores ajudam a avaliar a distribuição:

·    Média e mediana: Se forem iguais ou próximas, indica simetria.

·    Coeficiente de assimetria: Próximo de zero? Boa notícia.

·    Curtose: Valor negativo indica uma distribuição mais “achatada” que a normal, mas isso nem sempre compromete a análise.

Tabela 3 – Estatísticas descritivas dos resíduos

No exemplo, a média e a mediana dos resíduos são zero.
     A assimetria é também zero, indicando simetria.
    A curtose é ligeiramente negativa, o que sugere uma cauda um pouco mais leve, mas isso não         invalida o modelo.

E os testes estatísticos?

Testes de normalidade são úteis por serem objetivos. Os mais usados são:

·    Shapiro-Wilk

·    Kolmogorov-Smirnov

No nosso exemplo, o teste de Kolmogorov-Smirnov foi aplicado usando o SPSS, e o resultado foi não significante (valor-p = 0,200).
Isso indica que não há evidência suficiente para rejeitar a normalidade dos resíduos.

⚠️ Atenção: Esses testes são sensíveis ao tamanho da amostra:

·    Amostras pequenas têm menor poder para detectar desvios da normalidade.

·    Amostras grandes podem acusar diferença significante mesmo com pequenos desvios, que não comprometem os resultados da ANOVA.

Observações finais

·    Quando os grupos têm tamanhos iguais e os fatores são fixos, a ANOVA se mostra confiável mesmo que a normalidade seja levemente violada.

·    O que pode ser problemático: distribuições altamente assimétricas ou variâncias muito diferentes entre os grupos.

💡 Nota importante

  Os dados brutos em geral não têm distribuição normal, pois pertencem a grupos                   diferentes, que se espera tenham médias diferentes. O que importa é:


Se os resíduos seguem distribuição normal,
Ou, melhor ainda, se os dados de cada grupo seguem distribuição normal.

Nesse caso, faz sentido a pergunta original“Meus dados têm distribuição normal?”


Referências

1.        Asghar Ghasemi and Saleh Zahedias. Normality Tests for Statistical Analysis: A Guide for Non-Statisticians.  Int J Endocrinol Metab. 2012 Spring; 10(2): 486–489

2.         SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.

Veja Também:



7 comments:

Unknown said...

Pode existir distribuição com a mediana próxima ao primeiro quartil mais que ao terceiro e ainda assim a média está abaixo da mediana (me refiro ao gráfico boxplot), isto é, valor da média menor que valor da mediana e então seria assimetria esquerda (negativa)? Existe?

Sonia Vieira said...

Stela: Pergunta interessante, coloquei a resposta no final do post, porque é difícil colocar aqui figuras.

Unknown said...

Então existe...principalmente para distribuções discretas, mas também pode acontecer em distribuição contínuas.

Dizer que a distribuição é assimétrica positiva ou negativa não tem haver com a proximidade da mediana em relação ao 1º momento (ex.: a mediana é mais próxima do 1º momento, logo é assimétrica positiva)?

E sim a média ser maior que a mediana que atesta que é uma assimetria positiva?
Pergunto isso porque tem livros que escrevem X-barra > x-til (média maior que mediana).

O que devo considerar o desenho graficamente, ou os valores das medidas descritivas (média em relação mediana). Se possível esclarecer isso agradeço muito.

Sonia Vieira said...

Escrevi uma postagem sobre a questão da assimetria. Espero que ajude.

Prof. Colle said...
This comment has been removed by the author.
Sonia Vieira said...

Olá, Eduardo, não tenho livro que trate desses conteúdos e também não sei indicar com segurança um texto sobre esses assuntos. Mas obrigada pela dica, vou estudar o teste de Kolmogorov-Smirnov e tentar expor em um blog. Sonia

Prof. Colle said...

Sonia,
Obrigado pelo retorno.
Será ótimo expor no seu blog.
Abraços, Eduardo