Friday, January 24, 2025

OUTLIERS

 OUTLIERS

                                                                                 

Imagine que você, estatístico, recebeu uma amostra de dados com a pergunta: “devo eliminar os outliers da amostra?” Veja os dados:

                                  15 90 198 164 103 490 39 190 22 30?

Comece calculando algumas estatísticas descritivas:


Agora você pode verificar, por critério estatístico, se no conjunto de dados que lhe foi fornecido há um outlier. O que é um outlier?

Um outlier (valor discrepante) em estatística é um valor muito maior ou muito menor do que os demais dados do um conjunto.

Existem vários métodos para identificar discrepâncias. Veja aqui:

·  Método da padronização da variável

·  Cálculo da distância interquartílica (DIQ)

·  Teste de Grubbs

·  Métodos gráficos

        1.  Método da padronização da variável

   Se for possível pressupor que a distribuição da variável é normal ou, pelo menos,  aproximadamente normal, cerca de 70% dos dados estarão dentro de um desvio padrão da  média, cerca de 95% estarão dentro de dois desvios padrão e cerca de 99% estarão dentro de três desvios padrão. O desvio padrão representa o desvio típico das observações da média. 

      Para padronizar uma variável Y, subtraia de seu valor a média amostral (ȳ) e divida o resultado pelo desvio padrão da amostra (s), para obter: Valores de ǀ ǀ > 3 são considerados outliers.



Valores de ǀ ǀ > 3 são considerados outliers.

Para os dados da amostra, identifique o valor extremo, que é 490. Calcule z = 2,72. Como z = 2,72<3, o valor 490 não é considerado outlier pelo método de padronização da variável.

           2.  Método da distância interquartílica

Para calcular a distância interquartílica, não é necessário fazer qualquer pressuposição a respeito da distribuição da variável. Mas é preciso calcular o primeiro quartil Q1 (25% dos dados estão abaixo desse valor), o terceiro quartil Q3 (75% dos dados estão abaixo desse valor) e a distância interquartílica (DIQ):

    Defina os limites:


O critério é considerar qualquer valor fora desses limites um outlier.

Para os dados da amostra, o limite inferior é −210 e o limite superior é 430. Analisando os dados, apenas o valor 490 está acima do limite superior. Então 490 é considerado outlier pelo método da distância interquartílica.

3.   Teste de Grubbs

O teste de Grubbs é utilizado para estabelecer se o valor mais extremo de um conjunto de dados univariados com distribuição normal é um outlier. É preciso, para proceder a um teste estatístico, fazer as hipóteses e estabelecer o nível de significância. Então:

· Hipótese nula (H0): Não há outliers no conjunto de dados.

· Hipótese alternativa (H1): Existe pelo menos um outlier no conjunto de dados.

  Nível de significância:  α = 5%.

Agora, calcule a estatística G, definida por 


em que

y: valor extremo, que se presume outlier (máximo ou mínimo).

ȳ: média do conjunto de dados.

s: desvio padrão do conjunto de dados.

Compare a estatística G calculada com o limite crítico, que depende do número de observações (n) e do nível de significância (α). O limite crítico pode ser encontrado na internet. Se G exceder o limite crítico, rejeite H0 e o valor extremo é considerado um outlier.

Vantagens e limitações do teste de Grubbs

Vantagens: é fácil de aplicar e muito eficiente para pequenas amostras.

Desvantagens: Requer que os dados sigam uma distribuição normal. Não é recomendado para grandes amostras ou para identificar muitos outliers, de uma só vez.

Importante

Pode parecer, à primeira vista, que o teste de Grubbs é igual ao método da padronização da variável. Não é. O limite crítico é calculado a partir da distribuição t de Student, para um nível de significância escolhido (α) e para o número de graus de liberdade do desvio padrão.

 

Remoção iterativa (opcional): O outlier identificado pode ser removido, e o teste pode ser aplicado novamente para verificar se outros valores são outliers.

4.   Métodos gráficos

Os métodos gráficos utilizam mais a percepção do pesquisador do que um critério estatístico numérico. Mas você pode desenhar um gráfico de pontos, um boxplot, um histograma. Ao observar qualquer um deles, todos eles, a percepção do pesquisador será, provavelmente, a de que o valor 490 é um outlier.



Observação

Vamos voltar à pergunta inicial: você, estatístico, recebeu uma amostra de dados com a pergunta: “devo eliminar os outliers da amostra?” Se você for consultor, ou mesmo fizer parte de uma equipe de pesquisadores de áreas técnicas ou científicas, não é sua atribuição resolver por estatística se um dado deve ser descartado.

Para o estatístico, o objetivo da análise de outliers é apontar valores que se desviam significativamente do padrão da distribuição ou do conjunto de dados. Em análise estatística, outliers podem ser excluídos sob justificativas claras, como erros de medição, erros de registro ou falhas nos instrumentos de medição. Mas o conhecimento da variação natural da variável é de competência do especialista na área.
















No comments: