Sunday, January 08, 2017

Resíduos padronizados e outliers

Dado discrepante (outlier) é o valor muito diferente dos demais valores em uma amostra aleatória da população. Em outras palavras, dado discrepante (outlier) é o valor que não se encaixa no padrão geral dos valores dos dados coletados.
Que critério você pode utilizar para dizer que um valor é “muito diferente” dos demais? Um critério conveniente – pois nem necessita de teste estatístico – é considerar discrepante (outlier) o ponto que cai acima do terceiro quartil, ou abaixo do primeiro quartil mais de 1,5 vezes a distância interquartílica.

Como exemplo, veja o conjunto de números da Tabela 1. Usando o Excel você obtém a mediana 3, primeiro quartil igual a 2 e terceiro quartil igual a 5. A distância interquartílica é 5 - 2 = 3. Usando o critério apresentado, números maiores do que 5 + 1,5 x 3 = 9,5, ou menores do que 2 - 1,5 x 3 = -2,5 são discrepantes. Por esse critério, 12 é discrepante.
Tabela 1 – Um conjunto de números
Quando tratamos dados coletados de uma população, a presença de outlier geralmente indica algum tipo de problema. Mas não se pode descartar um valor discrepante com uma desculpa qualquer: é preciso discutir a causa da discrepância: pode ser informação coletada de um caso que não se encaixa no modelo em estudo, ou seja, de um caso de outra população, mas também pode ser um erro de medição ou de digitação, que podem ser corrigidos.

De qualquer forma, para fazer uma ANOVA com um critério de classificação é melhor que não haja outliers, pois eles tendem a aumentar a estimativa da variância da amostra. A estatística F calculada para a ANOVA fica, portanto, menor, o que significa menor probabilidade de rejeitar a hipótese de nulidade.

É preciso analisar a presença de outliers, antes de proceder à ANOVA. Os erros são desconhecidos, mas temos suas estimativas, os resíduos. A análise gráfica dos resíduos por meio de um boxplot (e seus quartis, máximos e mínimos) é uma opção, como descrevemos acima. Também pode ser feito um histograma, como o mostrado na Figura 1, com os resíduos padronizados. Espera-se que 68% dos resíduos padronizados caiam no intervalo -1 e +1 e 95% caiam no intervalo -2 e +2. Valores fora do intervalo -3 e +3 são suspeitos. Todo valor suspeito deve ser discutido e, se houver erros – de registro ou de medida – eles devem ser corrigidos, quando possível.
                                                           Figura 1

Mas o que são desvios padronizados (standardized residuals)? Para obter os resíduos padronizados, dividem-se os resíduos (ei) pela raiz quadrada do quadrado médio do resíduo (QMR) da análise de variância. Os resíduos padronizados, que indicaremos por zi, são, portanto, obtidos pela fórmula:
Veja como exemplo os dados de um ensaio fictício apresentados na Tabela 2 e as respectivas estimativas das médias m1, m2, m3 e m4 no rodapé dessa tabela.

Tabela 2 – Valores obtidos em um ensaio

A Tabela 3 apresenta a análise de variância desses dados. A raiz quadrada do quadrado médio do resíduo, que é QMR = 7,00 é 2,6458.
                   Tabela 3 – Análise de variância dos dados da Tabela 2
Para o grupo A, a média (veja a Tabela 2) é 23. Então o resíduo para a primeira observação do grupo A, que é 25  é:
                                           25 – 23 = 2
e o resíduo padronizado é
Os demais resíduos padronizados estão apresentados na Tabela 4 e na Figura 2.
           Tabela 4 -  Resíduos padronizados dos dados apresentados na Tabela 2

 

Figura 2

Grupo
O gráfico de resíduos padronizados apresentado na Figura 2 não exibe valor discrepante. Quando ocorre um outlier, é preciso verificar se esse valor não está errado. Se o pesquisador – avisado da suspeita – não constatar que houve erro de medida ou de registro do dado, deve considerar a possibilidade de comportamento errático do grupo ou do tratamento dado a esse grupo. Seria possível um efeito paradoxal desse tratamento?
Se ocorrerem vários resíduos muito grandes, convém verificar se eles não estão associados a um grupo em particular. Se isso ocorrer, ou os dados relativos a esse grupo estão errados ou a variância desse grupo é maior que a dos demais. Cabe, então, uma discussão. Em geral, o pesquisador espera mudança do valor  a média (para maior ou menor) de um grupo para outro, mas não espera aumento de variância.
De qualquer forma, é o pesquisador – e não o analista – quem deve decidir se inclui ou descarta dados discrepantes da análise de variância. Para tomar esta decisão, recomendam-se duas análises: uma com os dados discrepantes, outra sem eles. Se as duas análises chegarem às mesmas as conclusões, é razoável manter o dado discrepante. Se as análises chegarem a conclusões diferentes, convém avaliar bem a situação: pode ser adotado outro procedimento para a análise dos dados,  como um teste não paramétrico. Mas também pode ser uma oportunidade  de o pesquisador rever suas hipóteses e seus objetivos.

******************************************************************
Fórmulas de cálculo

                  Graus de liberdade
de tratamentos: 4 -1= 3 
do total: 20 -1 = 19 
do resíduo: 19 - 3 = 16 

                   

2 comments:

Fernanda said...

Bom dia, Sônia. Gostaria de saber como você fez o cálculo do SQ dos grupos? E fiquei na dúvida em relação a tabela dos GL - grupos e resíduos como sei que são 3 GL e 16 resíduos se eu uso 20 valores? E 4 grupos? Obrigada

Sonia Vieira said...

Olá, Fernanda, espero que esteja em tempo. Coloquei as fórmulas na postagem.