É
comum as pessoas confundirem erros com resíduos. Mas erro (error) significa a diferença de um dado valor da variável com
um parâmetro muitas vezes “teórico”, enquanto resíduo (residual) significa a diferença de um valor observado da
variável e uma estatística (uma estimativa do parâmetro) obtida da amostra.
Numa análise de variância com um critério de classificação, erros e resíduos
são dados, respectivamente, por
Ninguém conhece os erros eij
porque os parâmetros, ou
seja, as
médias verdadeiras mi
dos grupos são desconhecidas. No entanto, o pesquisador faz um ensaio
exatamente para obter as estimativas dessas médias. Veja como exemplo os dados de
um ensaio fictício, apresentados na Tabela 1. As estimativas das médias m1, m2, m3 e m4 estão no
rodapé dessa tabela.
Tabela 1 - Valores obtidos em um ensaio
Podemos estimar os erros
fazendo a diferença entre cada dado e a média (estimada)
do grupo ao qual esse dado pertence. São os resíduos,
apresentados na Tabela 2.
Tabela 2 - Resíduos (dados na Tabela 1)
O estudo das estimativas dos erros, ou
seja, dos resíduos (residuals) é referido na
literatura como análise de
resíduos. Essa análise ajuda
verificar se as pressuposições exigidas para proceder à análise de variância
são plausíveis. Vamos discutir então a questão dos resíduos, dada à
pressuposição de que, para proceder a uma ANOVA, os erros devem ter distribuição
normal ou aproximadamente normal.
O gráfico da distribuição normal ou – como preferem os físicos, da curva de
Gauss – tem aspecto típico: é uma
curva em forma de sino, simétrica em torno da média como mostra a Figura 1. Mas como saber se os resíduos têm distribuição normal? Você pode
recorrer à avaliação gráfica ou a um teste estatístico.
Figura 1- Distribuição normal
Os testes estatísticos apresentam a vantagem de serem objetivos. Você
verifica a aderência (goodness off
it) de seus dados à curva normal No entanto, os testes de normalidade são muito
sensíveis ao tamanho da amostra 1: se a amostra for pequena, os
testes de normalidade têm pouco poder de rejeitar a hipótese de nulidade (de
que a distribuição é normal). Isso significa que amostras pequenas passam mais
facilmente pelo teste de normalidade. Por outro lado, uma amostra grande terá
resultado significante no teste, mesmo que o desvio da normalidade seja
pequeno. No entanto, desvios pequenos da normalidade não afetam os resultados
do teste F (na ANOVA, um critério) quando a
amostra é grande.
Mas é possível fazer testes estatísticos. Há vários, mas os mais comuns são o
Shapiro-Wilks e o Kolmogorov-Smirnov. Este último foi aplicado aos dados
apresentados na Tabela 1, usando o programa SPSS. O resultado foi
não-significante (p-valor = 0,200).
De qualquer forma, é sempre recomendável
olhar os dados em gráfico. Usando poucas ferramentas, você pode obter muita
informação. E – quando se pensa em não-normalidade – é conveniente lembrar os
coeficientes de assimetria e de curtose. A distribuição dos dados pode ser
assimétrica, isto é, ter mais unidades de um lado do que do outro. Veja a
Figura 2. Também pode ter curtose (é pior para a análise quando a curtose é
negativa). Veja a Figura 3.
Figura 3-
Curtose
Mas que gráficos você pode fazer? Pense
primeiro em um histograma. Com os resíduos apresentados na Tabela 2, você pode
construir o histograma da Figura 3. Tenha ou não experiência, é difícil ver aí
uma distribuição normal. Por outro lado, salta aos olhos que a distribuição é
simétrica. Lembre-se de que a ANOVA é bastante robusta a violações da normalidade, ou seja,
mesmo que esta pressuposição não seja atendida completamente, os resultados
ainda assim permanecem válidos. Mais importante é a distribuição dos erros seja simétrica, que é o caso do
exemplo 2.
Figura 3 - Histograma
Algumas estatísticas descritivas, como
média, mediana, variância, desvio padrão, coeficiente de assimetria e
coeficiente de curtose ajudam a entender a distribuição. A média dos resíduos
é, evidentemente, zero e a mediana também é zero. O coeficiente de assimetria
(no Excel está Distorção) é zero, porque a distribuição é perfeitamente
simétrica. A curtose (no Excel está Curt), negativa, significa que a distribuição dos resíduos tem cauda mais leve e é
mais achatada do que a distribuição normal. Mas o valor é pequeno. Então, nada
indica ainda que não possamos aceitar a normalidade dos resíduos.
Tabela 3 – Estatísticas
descritivas dos resíduos (dados na Tabela 1)
Figura 4 - Boxplot
Figura 5
Referências
1.
Asghar Ghasemi and Saleh Zahedias. Normality Tests for
Statistical Analysis: A Guide for Non-Statisticians. Int J
Endocrinol Metab. 2012 Spring; 10(2): 486–489
2.
SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.
Veja Também:
*****************************************************************Um pouco mais:
Em um curso de análise de
dados, a assimetria é informalmente definida em termos de comprimento da cauda
ou da relação média, mediana, moda. Na ilustração clássica da relação entre assimetria,
média, mediana e moda, a assimetria é à direita se a média está à direita da
mediana e a mediana está à direita da moda. Veja a figura
Esta figura está em
Mean, Median, and Skew:
Correcting a Textbook Rule
Paul T. von
Hippel
The Ohio State University
The Ohio State University
Journal of Statistics Education Volume 13, Number 2
(2005),
ww2.amstat.org/publications/jse/v13n2/vonhippel.html
Mas há exceções.
De qualquer
modo, a assimetria é definida em termos do 3º momento.
Stela me
pergunta: Será que existe uma distribuição de dados em que a média é menor do
que a mediana e o 1º momento está mais perto da mediana do que o 3º momento? Confira,
por favor.
7 comments:
Pode existir distribuição com a mediana próxima ao primeiro quartil mais que ao terceiro e ainda assim a média está abaixo da mediana (me refiro ao gráfico boxplot), isto é, valor da média menor que valor da mediana e então seria assimetria esquerda (negativa)? Existe?
Stela: Pergunta interessante, coloquei a resposta no final do post, porque é difícil colocar aqui figuras.
Então existe...principalmente para distribuções discretas, mas também pode acontecer em distribuição contínuas.
Dizer que a distribuição é assimétrica positiva ou negativa não tem haver com a proximidade da mediana em relação ao 1º momento (ex.: a mediana é mais próxima do 1º momento, logo é assimétrica positiva)?
E sim a média ser maior que a mediana que atesta que é uma assimetria positiva?
Pergunto isso porque tem livros que escrevem X-barra > x-til (média maior que mediana).
O que devo considerar o desenho graficamente, ou os valores das medidas descritivas (média em relação mediana). Se possível esclarecer isso agradeço muito.
Escrevi uma postagem sobre a questão da assimetria. Espero que ajude.
Olá, Eduardo, não tenho livro que trate desses conteúdos e também não sei indicar com segurança um texto sobre esses assuntos. Mas obrigada pela dica, vou estudar o teste de Kolmogorov-Smirnov e tentar expor em um blog. Sonia
Sonia,
Obrigado pelo retorno.
Será ótimo expor no seu blog.
Abraços, Eduardo
Post a Comment