Imagine que você, estatístico, recebeu um conjunto
de dados com a pergunta: “devo eliminar os outliers do conjunto de dados 15 90
198 164 103 490 39 190 22 30?” Comece calculando algumas estatísticas descritivas:
· Tamanho da amostra
· Média
· Mediana
· Máximo
· Mínimo
· Amplitude
· Primeiro quartil
· Terceiro quartil
· Desvio padrão
Você pode pensar então em verificar, por critério
estatístico, se no conjunto de dados que lhe foi fornecido há um valor
discrepante. Lembre-se de que um valor é considerado discrepante (outlier)
se estiver significativamente distante dos outros valores do conjunto.
Mas como
se pode verificar se um valor é discrepante? Existem vários métodos para
identificar discrepâncias, mas os mais comuns são:
1. Faça gráficos
· Boxplot: Este
gráfico usa mediana e quartis para mostrar outliers.
· Histograma: Pode
indicar valores que não se encaixem bem no padrão do conjunto.
2. Padronize
a variável
Um valor padronizado z diz quão longe (em
desvios-padrão) ele está da média.
Procedimento
1.
Calcule a
média (ȳ).
2.
Calcule o
desvio padrão (s).
3.
Identifique
o valor Y que se presume outlier.
4.
Calcule:
5. Critério: Valores ǀ Z ǀ > 3 são considerados outliers.
3. Método da distância interquartílica
Procedimento
1.
Organize os
dados em ordem crescente.
2.
Calcule o
primeiro quartil (Q1): 25% dos dados estão abaixo desse valor.
3.
Calcule o
terceiro quartil (Q3): 75% dos dados estão abaixo desse valor.
4.
Encontre a
distância interquartílica (DIQ)
5. Defina os limites
6.
Critério: Qualquer
valor fora desses limites é um outlier.
4. Teste
Grubbs (para um único valor discrepante)
O teste de Grubbs é usado para estabelecer
se o valor mais extremo de um conjunto de dados univariados com distribuição
normal é um valor discrepante (outlier).
Procedimento
Hipóteses
do teste
· Hipótese nula (H0): Não há outliers no conjunto de dados.
· Hipótese alternativa (H1): Existe pelo menos um outlier no conjunto de
dados.
1.
Calcular G:
o Identifique o valor mais extremo no conjunto (maior
ou menor).
o Calcule G por meio da fórmula:
· G: estatística de Grubbs.
· y: valor extremo, que se presume outlier (máximo ou
mínimo).
· ȳ: média do
conjunto de dados.
· s: desvio padrão do conjunto de dados.
2.
Compare a
estatística G calculada com o limite crítico:
O limite crítico depende do número de observações (n)
e do nível de significância (α). Pode ser encontrado na internet.
Critério: Se G exceder o limite crítico, rejeita-se
H0 e o valor extremo é considerado um outlier.
3.
Nota: O
limite crítico é calculado a partir da distribuição t de Student, para
um nível de significância escolhido (α).
4.
Remoção
iterativa (opcional)
Após identificar um outlier, ele pode ser removido,
e o teste pode ser aplicado novamente para verificar se outros valores são
outliers.
Vantagens e limitações do teste
de Grubbs
Vantagens
· Simples de aplicar.
· Muito eficiente para conjuntos de dados pequenos.
Limitações
· Requer que os dados sigam uma distribuição normal.
· Não é recomendado para conjuntos de dados grandes
ou para identificar múltiplos outliers de uma só vez.
Exemplo
Dados 15 90 198 164 103 490 39 190 22 30, existe um
outlier?
Comece conhecendo a amostra. Para isso, calcule as
estatísticas.
· Tamanho da amostra =10
· Média = 134,1
· Mediana = 96,5
· Máximo = 490,0
· Mínimo = 15,0
· Amplitude = 475,0
· Primeiro quartil = 28,0
· Terceiro quartil = 192,0
· Desvio padrão =143,1
Para identificar outliers, desenhe gráficos:
histograma e boxplot.
O histograma mostra um valor discrepante. Esse
valor é o número 490.
O boxplot mostra o outlier.
2.
Padronize a variável
Calcule:
Critério: Valores ǀ Z ǀ > 3 são
considerados outliers.
Padronizando a variável, o valor 490 não é
considerado outlier.
3. Aplique o método da distância
interquartílica
Calcule a distância interquartílica (DIQ)
Critério: Valores menores que -218,0 e maiores que 438 são considerados outliers.
Portanto, o valor 490 é considerado outlier.
NOTE: O método DIQ é mais sensível a
outliers em distribuições não normais, enquanto a variável padronizada Z pressupõe
distribuição aproximadamente normal. Neste exemplo, o valor 490 é considerado um outlier
pelo método IQR, mas não pelo Z.
4. Faça o teste de Grubbs
Calcule a estatística
O valor crítico, para o teste de Grubbs com n= 10 e
α =0,05 é 2,290. Então o valor 490 foi identificado como um outlier neste
conjunto de dados, com base no teste de Grubbs ao nível de significância de 5%
(α=0.05).
Os métodos de análise mostrados aqui valem para
amostras pequenas. Para grande quantidade de dados, use métodos computacionais.