OUTLIERS
Imagine
que você, estatístico, recebeu uma amostra de dados com a pergunta: “devo
eliminar os outliers da amostra?” Veja os dados:
15 90 198 164 103 490 39 190 22 30?
Comece calculando algumas estatísticas descritivas:
Agora
você pode verificar, por critério estatístico, se no conjunto de dados que lhe
foi fornecido há um outlier. O que é um outlier?
Um outlier (valor
discrepante) em estatística é um valor muito maior ou muito menor do que
os demais dados do um conjunto.
Existem vários métodos para identificar discrepâncias. Veja aqui:
· Método da padronização da variável
· Cálculo da distância interquartílica (DIQ)
· Teste de Grubbs
· Métodos gráficos
1. Método da padronização da variável
Se for possível pressupor que a distribuição da variável é normal ou, pelo menos, aproximadamente normal, cerca de 70% dos dados estarão dentro de um desvio padrão da média, cerca de 95% estarão dentro de dois desvios padrão e cerca de 99% estarão dentro de três desvios padrão. O desvio padrão representa o desvio típico das observações da média.
Para padronizar uma variável Y, subtraia de seu valor a média amostral (ȳ) e divida o resultado pelo desvio padrão da amostra (s), para obter: Valores de ǀ Z ǀ > 3 são considerados outliers.
Valores de ǀ Z ǀ > 3 são considerados outliers.
Para os dados da amostra, identifique o valor extremo, que é 490. Calcule z = 2,72. Como z = 2,72<3, o valor 490 não é considerado outlier pelo método de padronização da variável.
2. Método da distância interquartílica
Para calcular a distância interquartílica, não
é necessário fazer qualquer pressuposição a respeito da distribuição da
variável. Mas é preciso calcular o primeiro quartil Q1 (25% dos
dados estão abaixo desse valor), o terceiro quartil Q3 (75% dos
dados estão abaixo desse valor) e a distância interquartílica (DIQ):
O critério é considerar qualquer valor fora desses limites um outlier.
Para os dados da amostra, o limite inferior é −210 e o limite superior é 430. Analisando os dados, apenas o valor 490 está acima do limite superior. Então 490 é considerado outlier pelo método da distância interquartílica.
3. Teste de Grubbs
O teste de Grubbs é utilizado para estabelecer se o valor mais extremo de um conjunto de dados univariados com distribuição normal é um outlier. É preciso, para proceder a um teste estatístico, fazer as hipóteses e estabelecer o nível de significância. Então:
·
Hipótese nula (H0): Não há outliers no conjunto de dados.
·
Hipótese alternativa (H1): Existe pelo menos um outlier no conjunto de
dados.
Nível
de significância: α
= 5%.
Agora,
calcule a estatística G, definida por
em
que
y: valor extremo, que se presume outlier (máximo
ou mínimo).
ȳ: média do conjunto de dados.
s: desvio padrão do conjunto de dados.
Compare a estatística G calculada com o limite
crítico, que depende do número de observações (n) e do nível de
significância (α).
O limite crítico pode ser encontrado na internet. Se G exceder o limite
crítico, rejeite H0 e o valor extremo é considerado um outlier.
Vantagens e limitações do teste de Grubbs
Vantagens: é fácil
de aplicar e muito eficiente para pequenas amostras.
Desvantagens:
Requer
que os dados sigam uma distribuição normal. Não é recomendado para grandes amostras
ou para identificar muitos outliers, de uma só vez.
Importante
Pode
parecer, à primeira vista, que o teste de Grubbs é igual ao método da
padronização da variável. Não é. O limite crítico é calculado a partir da
distribuição t de Student, para um nível de significância
escolhido (α) e para o
número de graus de liberdade do desvio padrão.
Remoção iterativa (opcional): O outlier identificado pode ser removido, e o teste pode ser aplicado novamente para verificar se outros valores são outliers.
4. Métodos gráficos
Os métodos gráficos utilizam mais a percepção do pesquisador do que um critério estatístico numérico. Mas você pode desenhar um gráfico de pontos, um boxplot, um histograma. Ao observar qualquer um deles, todos eles, a percepção do pesquisador será, provavelmente, a de que o valor 490 é um outlier.
Observação
Vamos
voltar à pergunta inicial: você, estatístico, recebeu
uma amostra de dados com a pergunta: “devo eliminar os outliers da amostra?” Se
você for consultor, ou mesmo fizer parte de uma equipe de pesquisadores de
áreas técnicas ou científicas, não é sua atribuição resolver por estatística se
um dado deve ser descartado.
Para
o estatístico, o objetivo da análise de outliers é apontar valores
que se desviam significativamente do padrão da distribuição ou do conjunto de
dados. Em análise estatística, outliers podem ser excluídos sob justificativas
claras, como erros de medição, erros de registro ou falhas nos instrumentos de
medição. Mas o conhecimento da variação natural da variável é de competência do
especialista na área.
No comments:
Post a Comment