Você já se perguntou por que certos dados parecem não se
encaixar nas suas análises? Aquele número que salta aos olhos – muito maior ou
muito menor que os outros – pode ser um outlier. E ele pode estar prejudicando
suas conclusões estatísticas sem você perceber!
Neste post, vamos explorar o que são esses valores discrepantes,
como identificá-los com um critério simples, e o que fazer quando eles aparecem
em sua análise de variância.
Como
identificar e tratar dados discrepantes (outliers)
Um dado discrepante,
também conhecido como outlier, é um valor que se distancia
significativamente dos demais valores de uma amostra. Em outras palavras, é um
ponto que não segue o padrão geral dos dados coletados.
Como
identificar um outlier?
Um critério bastante utilizado –
e que dispensa testes estatísticos formais – baseia-se nos quartis da amostra.
Considera-se discrepante um valor que está:
🔺 Abaixo de: Q1 − 1,5 × (Q3 − Q1)
🔺 Acima de: Q3 + 1,5 × (Q3 − Q1)
Onde:
🔺Q1: primeiro quartil
🔺 Q3: terceiro quartil
🔺 Q3 − Q1: distância interquartílica (IQR)
Exemplo
Considere o seguinte conjunto de
dados:
[1, 2, 2, 3, 3, 4,
5, 6, 12]
Usando o Excel, você obtém:
🔺 Q1 = 2
🔺Mediana = 3
🔺 Q3 = 5
🔺 IQR = 5 − 2 = 3
Limites para detecção de
outliers:
🔺 Inferior: 2 − 1,5×3 = −2,5
🔺 Superior: 5 + 1,5×3 = 9,5
O valor 12 é, portanto, um
outlier, pois excede 9,5.Veja a Figura 1.
Figura 1
Por que é
importante identificar outliers?
Em dados provenientes de uma
população real, a presença de outliers pode indicar problemas:
🔺 Erros de
medição ou digitação
🔺 Observações
provenientes de outra população
🔺 Comportamentos
atípicos reais (que podem ser interessantes!)
Contudo, não se deve eliminar um
outlier sem análise criteriosa. Deve-se investigar a origem do valor
discrepante com base no contexto do estudo.
Outliers e
a ANOVA
Em uma análise de variância
(ANOVA), a presença de outliers pode:
📌 Inflacionar
a variância residual
📌 Reduzir a
estatística F
📌 Diminuir a
chance de rejeitar a hipótese da nulidade
Por isso, é recomendável
investigar e tratar outliers antes da ANOVA.
Como
identificar outliers na ANOVA: resíduos padronizados
A análise gráfica dos resíduos pode revelar valores discrepantes. Você pode fazer:
· Boxplot dos resíduos
· Histograma dos resíduos padronizados
Os resíduos padronizados (zi)
são dados por
Onde:
· ei é o resíduo (diferença entre valor observado e
valor estimado)
· QMR é o quadrado médio do resíduo da ANOVA
Exemplo com
dados fictícios
Tabela 1
Dados de um experimento com quatro grupos
Tabela 2
Análise de variância dos dados
da Tabela 1
Cálculo do primeiro resíduo padronizado (grupo A):
· Observação: 25
· Média do grupo: 23
· Resíduo: 25 − 23 = 2
Os demais resíduos padronizados são obtidos pelo mesmo procedimento e estão apresentados na Tabela 3. Para bem entender a distribuição dos resíduos padronizados veja, na Figura 2, o boxplot e na Figura 3, o histograma.
Tabela 3
Resíduos padronizados dos dados
apresentados na Tabela 1
Observe os gráficos cuidadosamente. A presença de resíduos
padronizados entre -2 e +2 é um bom
sinal, mas não é suficiente
para garantir que os resíduos sigam uma distribuição normal
— o que é uma suposição importante na ANOVA.
De qualquer forma, aproximadamente
95% dos valores de uma distribuição normal padrão devem cair nesse intervalo.
Como todos os resíduos padronizados estão nesse intervalo, não há evidência
clara de outliers extremos.
Com base nos resultados da
análise dos resíduos, é razoável concluir:
🛑 Nenhum valor muito extremo foi encontrado: os resíduos padronizados variam de -1.512 a
1.512.
🛑. Distribuição aparentemente simétrica: isso pode ser confirmado visualmente com o
histograma.
🛑 Sem grupo com dispersão claramente maior: o boxplot por grupo sugere que os grupos têm
variância semelhante.
Você pode interpretar seus
achados:
✅“A análise dos resíduos
padronizados não revelou valores discrepantes evidentes, nem variação excessiva
entre os grupos. Todos os resíduos caíram dentro do intervalo esperado para uma
distribuição normal padrão (entre -2 e +2), indicando adequação da suposição de
homogeneidade de variâncias e ausência de outliers extremos.”
O que fazer
quando há outliers?
📌 Verifique se houve erro de
medição ou de digitação.
📌 Analise se o comportamento do grupo é atípico
(efeito paradoxal?).
📌 Observe se resíduos grandes se concentram em um
grupo específico (sugere variância maior).
📌 Compare os resultados da ANOVA com e sem os
outliers.
🔺 Se os resultados forem similares, mantenha os
dados.
🔺 Se forem diferentes, reavalie:
📌 Pode ser necessário um teste não paramétrico
📌Ou repensar hipóteses e objetivos do estudo
Bom dia, Sônia. Gostaria de saber como você fez o cálculo do SQ dos grupos? E fiquei na dúvida em relação a tabela dos GL - grupos e resíduos como sei que são 3 GL e 16 resíduos se eu uso 20 valores? E 4 grupos? Obrigada
ReplyDeleteOlá, Fernanda, espero que esteja em tempo. Coloquei as fórmulas na postagem.
ReplyDelete