Dado discrepante (outlier) é o valor
muito diferente dos demais valores em uma amostra aleatória da população. Em
outras palavras, dado
discrepante (outlier)
é o valor que não se encaixa no padrão geral dos valores dos dados coletados.
Que critério você pode utilizar para dizer que um valor é “muito diferente”
dos demais? Um critério conveniente – pois nem necessita de teste estatístico
– é considerar discrepante (outlier) o ponto que cai acima do terceiro
quartil, ou abaixo do primeiro quartil mais de 1,5 vezes a distância
interquartílica.
Como exemplo, veja o conjunto de números da Tabela 1. Usando o Excel você obtém a mediana 3, primeiro quartil igual a 2 e terceiro quartil igual a 5. A distância interquartílica é 5 - 2 = 3. Usando o critério apresentado, números maiores do que 5 + 1,5 x 3 = 9,5, ou menores do que 2 - 1,5 x 3 = -2,5 são discrepantes. Por esse critério, 12 é discrepante.
Como exemplo, veja o conjunto de números da Tabela 1. Usando o Excel você obtém a mediana 3, primeiro quartil igual a 2 e terceiro quartil igual a 5. A distância interquartílica é 5 - 2 = 3. Usando o critério apresentado, números maiores do que 5 + 1,5 x 3 = 9,5, ou menores do que 2 - 1,5 x 3 = -2,5 são discrepantes. Por esse critério, 12 é discrepante.
Tabela 1 – Um conjunto de números
Quando tratamos dados coletados de uma população, a presença
de outlier geralmente indica algum tipo de problema. Mas não se pode descartar um valor discrepante com uma
desculpa qualquer: é preciso discutir a causa da discrepância: pode ser informação coletada de um caso que
não se encaixa no modelo em estudo, ou seja, de um caso de outra população, mas
também pode ser um erro de medição ou de digitação, que podem ser corrigidos.
De
qualquer forma, para fazer uma ANOVA com um critério de classificação é melhor
que não haja outliers, pois eles tendem
a aumentar a estimativa da variância da amostra. A estatística F calculada para
a ANOVA fica, portanto, menor, o que significa menor probabilidade de rejeitar
a hipótese de nulidade.
É
preciso analisar a presença de outliers, antes de proceder à ANOVA. Os erros
são desconhecidos, mas temos suas estimativas, os resíduos. A análise gráfica
dos resíduos por meio de um boxplot (e seus quartis, máximos e mínimos) é uma
opção, como descrevemos acima. Também pode ser feito um histograma, como o
mostrado na Figura 1, com os resíduos padronizados. Espera-se que 68% dos
resíduos padronizados caiam no intervalo -1 e +1 e 95% caiam no intervalo -2 e
+2. Valores fora do intervalo -3 e +3 são suspeitos. Todo valor suspeito deve
ser discutido e, se houver erros – de registro ou de medida – eles devem ser
corrigidos, quando possível.
Figura 1
Mas o que são desvios padronizados (standardized
residuals)? Para obter os resíduos padronizados, dividem-se os resíduos (ei) pela raiz quadrada do quadrado médio do resíduo (QMR)
da análise de variância. Os resíduos padronizados, que indicaremos por zi,
são, portanto, obtidos pela fórmula:
Veja como exemplo os dados de um ensaio
fictício apresentados na Tabela 2 e as respectivas estimativas das médias m1, m2, m3 e m4 no rodapé dessa tabela.
Tabela 2 – Valores obtidos em
um ensaio
A Tabela 3 apresenta a análise de variância desses dados. A raiz
quadrada do quadrado médio do resíduo, que é QMR = 7,00 é 2,6458.
Tabela 3 – Análise de variância dos dados da
Tabela 2
Para o grupo A, a média (veja a Tabela 2) é 23. Então o resíduo para a primeira
observação do grupo A, que é 25 é:
25 –
23 = 2
e o resíduo padronizado é
Os demais resíduos padronizados
estão apresentados na Tabela 4 e na Figura 2.
Tabela 4 - Resíduos padronizados dos dados apresentados
na Tabela 2
Figura 2
Grupo
O gráfico de resíduos padronizados apresentado na Figura 2 não exibe valor
discrepante. Quando ocorre um outlier, é preciso verificar se esse valor não está
errado. Se o pesquisador – avisado da suspeita – não constatar que houve erro
de medida ou de registro do dado, deve considerar a possibilidade de
comportamento errático do grupo ou do tratamento dado a esse grupo. Seria
possível um efeito paradoxal desse tratamento?
Se ocorrerem vários resíduos muito grandes, convém verificar se eles não
estão associados a um grupo em particular. Se isso ocorrer, ou os dados
relativos a esse grupo estão errados ou a variância desse grupo é maior que a
dos demais. Cabe, então, uma discussão. Em geral, o pesquisador espera mudança
do valor a média (para maior ou menor)
de um grupo para outro, mas não espera aumento de variância.
De qualquer forma, é o pesquisador – e não o analista – quem deve
decidir se inclui ou descarta dados discrepantes da análise de variância. Para
tomar esta decisão, recomendam-se duas análises: uma com os dados discrepantes,
outra sem eles. Se as duas análises chegarem às mesmas as conclusões, é
razoável manter o dado discrepante. Se as análises chegarem a conclusões
diferentes, convém avaliar bem a situação: pode ser adotado outro procedimento
para a análise dos dados, como um teste não paramétrico. Mas também pode ser uma oportunidade de o pesquisador rever suas
hipóteses e seus objetivos.
******************************************************************
Fórmulas de cálculo
******************************************************************
Fórmulas de cálculo
Graus de liberdade
de tratamentos: 4 -1= 3
do total: 20 -1 = 19
do
resíduo: 19 - 3 = 16
2 comments:
Bom dia, Sônia. Gostaria de saber como você fez o cálculo do SQ dos grupos? E fiquei na dúvida em relação a tabela dos GL - grupos e resíduos como sei que são 3 GL e 16 resíduos se eu uso 20 valores? E 4 grupos? Obrigada
Olá, Fernanda, espero que esteja em tempo. Coloquei as fórmulas na postagem.
Post a Comment