Monday, January 02, 2017

Meus dados são normais?


É comum as pessoas confundirem erros com resíduos. Mas erro (error) significa a diferença de um dado valor da variável com um parâmetro muitas vezes “teórico”, enquanto resíduo (residual) significa a diferença de um valor observado da variável e uma estatística (uma estimativa do parâmetro) obtida da amostra. Numa análise de variância com um critério de classificação, erros e resíduos são dados, respectivamente, por


 Ninguém conhece os erros eij porque os parâmetros, ou seja, as médias verdadeiras mi dos grupos são desconhecidas. No entanto, o pesquisador faz um ensaio exatamente para obter as estimativas dessas médias. Veja como exemplo os dados de um ensaio fictício, apresentados na Tabela 1. As estimativas das médias m1, m2, m3 e m4 estão no rodapé dessa tabela.

Tabela 1 - Valores obtidos em um ensaio


Podemos estimar os erros fazendo a diferença entre cada dado e a média (estimada) do grupo ao qual esse dado pertence. São os resíduos, apresentados na Tabela 2.

Tabela 2 - Resíduos (dados na Tabela 1)


O estudo das estimativas dos erros, ou seja, dos resíduos (residuals) é referido na literatura como análise de resíduos. Essa análise ajuda verificar se as pressuposições exigidas para proceder à análise de variância são plausíveis. Vamos discutir então a questão dos resíduos, dada à pressuposição de que, para proceder a uma ANOVA, os erros devem ter distribuição normal ou aproximadamente normal.

O gráfico da distribuição normal ou – como preferem os físicos, da curva de Gauss  tem aspecto típico: é uma curva em forma de sino, simétrica em torno da média como mostra a Figura 1. Mas como saber se os resíduos têm distribuição normal? Você pode recorrer à avaliação gráfica ou a um teste estatístico.

Figura 1- Distribuição normal

Os testes estatísticos apresentam a vantagem de serem objetivos. Você verifica a aderência (goodness off it) de seus dados à curva normal No entanto, os testes de normalidade são muito sensíveis ao tamanho da amostra 1: se a amostra for pequena, os testes de normalidade têm pouco poder de rejeitar a hipótese de nulidade (de que a distribuição é normal). Isso significa que amostras pequenas passam mais facilmente pelo teste de normalidade. Por outro lado, uma amostra grande terá resultado significante no teste, mesmo que o desvio da normalidade seja pequeno. No entanto, desvios pequenos da normalidade não afetam os resultados do teste F (na ANOVA, um critério) quando a amostra é grande. Mas é possível fazer testes estatísticos. Há vários, mas os mais comuns são o Shapiro-Wilks e o Kolmogorov-Smirnov. Este último foi aplicado aos dados apresentados na Tabela 1, usando o programa SPSS. O resultado foi não-significante (p-valor = 0,200).

De qualquer forma, é sempre recomendável olhar os dados em gráfico. Usando poucas ferramentas, você pode obter muita informação. E – quando se pensa em não-normalidade – é conveniente lembrar os coeficientes de assimetria e de curtose. A distribuição dos dados pode ser assimétrica, isto é, ter mais unidades de um lado do que do outro. Veja a Figura 2. Também pode ter curtose (é pior para a análise quando a curtose é negativa). Veja a Figura 3. 

     Figura 3- Curtose


Mas que gráficos você pode fazer? Pense primeiro em um histograma. Com os resíduos apresentados na Tabela 2, você pode construir o histograma da Figura 3. Tenha ou não experiência, é difícil ver aí uma distribuição normal. Por outro lado, salta aos olhos que a distribuição é simétrica. Lembre-se de que a ANOVA é bastante robusta a violações da normalidade, ou seja, mesmo que esta pressuposição não seja atendida completamente, os resultados ainda assim permanecem válidos. Mais importante é a distribuição dos erros seja simétrica, que é o caso do exemplo 2.

Figura 3 - Histograma
                         
Algumas estatísticas descritivas, como média, mediana, variância, desvio padrão, coeficiente de assimetria e coeficiente de curtose ajudam a entender a distribuição. A média dos resíduos é, evidentemente, zero e a mediana também é zero. O coeficiente de assimetria (no Excel está Distorção) é zero, porque a distribuição é perfeitamente simétrica. A curtose (no Excel está Curt), negativa, significa que a distribuição dos resíduos tem cauda mais leve e é mais achatada do que a distribuição normal. Mas o valor é pequeno. Então, nada indica ainda que não possamos aceitar a normalidade dos resíduos.

Tabela 3 – Estatísticas descritivas dos resíduos (dados na Tabela 1)

Você também pode desenhar o gráfico de ramo e folhas, que acaba sendo apenas um histograma colocado em posição horizontal. Mas um boxplot  (diagrama de caixa) é informativo. É um gráfico relativamente simples. Veja na Figura 4 o boxplot feito com os resíduos apresentados na Tabela 2. Você vê a simetria e a ausência de outliers, o que dá segurança para proceder a uma análise de variância. 

                                           Figura 4 - Boxplot

Dois outros gráficos também são muito úteis: P-P plot e Q-Q plot. Um gráfico Q-Q plot ou gráfico dos quartis-quartis (quantile-quantile plot) está apresentado na Figura 5. No eixo das abscissas estão os valores observados dos resíduos e no eixo das ordenadas estão os valores dos resíduos sob a hipótese de que a distribuição deles é normal. Quando os pontos estão sobre uma reta que faz 45º com o eixo das abscissas, a distribuição é normal. Pequenos desvios da normalidade são aceitáveis. Como não se ensina fazer esse gráfico em cursos introdutórios de estatística, será dado o procedimento em outra postagem.
 Figura 5

Referências

1.        Asghar Ghasemi and Saleh Zahedias. Normality Tests for Statistical Analysis: A Guide for Non-Statisticians.  Int J Endocrinol Metab. 2012 Spring; 10(2): 486–489

2.         SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.

Veja Também:

*****************************************************************Um pouco mais:
Em um curso de análise de dados, a assimetria é informalmente definida em termos de comprimento da cauda ou da relação média, mediana, moda. Na ilustração clássica da relação entre assimetria, média, mediana e moda, a assimetria é à direita se a média está à direita da mediana e a mediana está à direita da moda. Veja a figura



Esta figura está em
Mean, Median, and Skew: Correcting a Textbook Rule
Paul T. von Hippel
The Ohio State University
Journal of Statistics Education Volume 13, Number 2 (2005),

ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Mas há exceções.
De qualquer modo, a assimetria é definida em termos do 3º momento.

Stela me pergunta: Será que existe uma distribuição de dados em que a média é menor do que a mediana e o 1º momento está mais perto da mediana do que o 3º momento? Confira, por favor.

7 comments:

Unknown said...

Pode existir distribuição com a mediana próxima ao primeiro quartil mais que ao terceiro e ainda assim a média está abaixo da mediana (me refiro ao gráfico boxplot), isto é, valor da média menor que valor da mediana e então seria assimetria esquerda (negativa)? Existe?

Sonia Vieira said...

Stela: Pergunta interessante, coloquei a resposta no final do post, porque é difícil colocar aqui figuras.

Unknown said...

Então existe...principalmente para distribuções discretas, mas também pode acontecer em distribuição contínuas.

Dizer que a distribuição é assimétrica positiva ou negativa não tem haver com a proximidade da mediana em relação ao 1º momento (ex.: a mediana é mais próxima do 1º momento, logo é assimétrica positiva)?

E sim a média ser maior que a mediana que atesta que é uma assimetria positiva?
Pergunto isso porque tem livros que escrevem X-barra > x-til (média maior que mediana).

O que devo considerar o desenho graficamente, ou os valores das medidas descritivas (média em relação mediana). Se possível esclarecer isso agradeço muito.

Sonia Vieira said...

Escrevi uma postagem sobre a questão da assimetria. Espero que ajude.

Prof. Colle said...
This comment has been removed by the author.
Sonia Vieira said...

Olá, Eduardo, não tenho livro que trate desses conteúdos e também não sei indicar com segurança um texto sobre esses assuntos. Mas obrigada pela dica, vou estudar o teste de Kolmogorov-Smirnov e tentar expor em um blog. Sonia

Prof. Colle said...

Sonia,
Obrigado pelo retorno.
Será ótimo expor no seu blog.
Abraços, Eduardo