Thursday, December 19, 2024

Outlier

 

lote de garrafa de rótulo variado

Imagine que você, estatístico, recebeu um conjunto de dados com a pergunta: “devo eliminar os outliers do conjunto de dados 15 90 198 164 103 490 39 190 22 30?” Comece calculando algumas estatísticas descritivas:

·     Tamanho da amostra

·     Média

·     Mediana

·     Máximo

·     Mínimo

·     Amplitude

·     Primeiro quartil

·     Terceiro quartil

·     Desvio padrão

Você pode pensar então em verificar, por critério estatístico, se no conjunto de dados que lhe foi fornecido há um valor discrepante. Lembre-se de que um valor é considerado discrepante (outlier) se estiver significativamente distante dos outros valores do conjunto.

     Mas como se pode verificar se um valor é discrepante? Existem vários métodos para identificar discrepâncias, mas os mais comuns são:

1. Faça gráficos

            ·    Boxplot: Este gráfico usa mediana e quartis para mostrar outliers.

          ·    Histograma: Pode indicar valores que não se encaixem bem no padrão do conjunto.

2. Padronize a variável

Um valor padronizado z diz quão longe (em desvios-padrão) ele está da média.

          Procedimento

1.    Calcule a média (ȳ).

2.   Calcule o desvio padrão (s).

3.   Identifique o valor Y que se presume outlier.

4.   Calcule:


 5.   Critério: Valores ǀ Z ǀ > 3 são considerados outliers.

3. Método da distância interquartílica

             Procedimento

1.        Organize os dados em ordem crescente.

2.       Calcule o primeiro quartil (Q1): 25% dos dados estão abaixo desse valor.

3.       Calcule o terceiro quartil (Q3): 75% dos dados estão abaixo desse valor.

4.       Encontre a distância interquartílica (DIQ)

  5.       Defina os limites

                                           


    6.       Critério: Qualquer valor fora desses limites é um outlier.

4. Teste Grubbs (para um único valor discrepante)

O teste de Grubbs é usado para estabelecer se o valor mais extremo de um conjunto de dados univariados com distribuição normal é um valor discrepante (outlier).

Procedimento

Hipóteses do teste

·     Hipótese nula (H0): Não há outliers no conjunto de dados.

·     Hipótese alternativa (H1): Existe pelo menos um outlier no conjunto de dados.

1.    Calcular G:

o   Identifique o valor mais extremo no conjunto (maior ou menor).

o   Calcule G por meio da fórmula:

·     G: estatística de Grubbs.

·     y: valor extremo, que se presume outlier (máximo ou mínimo).

·     ȳ: média do conjunto de dados.

·     s: desvio padrão do conjunto de dados.

2.   Compare a estatística G calculada com o limite crítico:

O limite crítico depende do número de observações (n) e do nível de significância (α). Pode ser encontrado na internet.

Critério: Se G exceder o limite crítico, rejeita-se H0 e o valor extremo é considerado um outlier.

3.   Nota: O limite crítico é calculado a partir da distribuição t de Student, para um nível de significância escolhido (α).

 

4.   Remoção iterativa (opcional)

Após identificar um outlier, ele pode ser removido, e o teste pode ser aplicado novamente para verificar se outros valores são outliers.

Vantagens e limitações do teste de Grubbs

Vantagens

·     Simples de aplicar.

·     Muito eficiente para conjuntos de dados pequenos.

Limitações

·     Requer que os dados sigam uma distribuição normal.

·     Não é recomendado para conjuntos de dados grandes ou para identificar múltiplos outliers de uma só vez.

                                                     Exemplo

Dados 15 90 198 164 103 490 39 190 22 30, existe um outlier?

 

Comece conhecendo a amostra. Para isso, calcule as estatísticas.

·     Tamanho da amostra =10

·     Média = 134,1

·     Mediana = 96,5

·     Máximo = 490,0

·     Mínimo = 15,0

·     Amplitude = 475,0

·     Primeiro quartil = 28,0

·     Terceiro quartil = 192,0

·     Desvio padrão =143,1

Para identificar outliers, desenhe gráficos: histograma e boxplot.

O histograma mostra um valor discrepante. Esse valor é o número 490.

O boxplot mostra o outlier.

2. Padronize a variável

         Calcule:

                 
Critério: Valores ǀ Z ǀ > 3 são considerados outliers.

Padronizando a variável, o valor 490 não é considerado outlier.

              3.  Aplique o método da distância interquartílica

                Calcule a distância interquartílica (DIQ)

                             
   Defina os limites

Critério: Valores menores que -218,0 e maiores que 438 são considerados outliers.

Portanto, o valor 490 é considerado outlier.

NOTE: O método DIQ é mais sensível a outliers em distribuições não normais, enquanto a variável padronizada Z pressupõe distribuição aproximadamente normal. Neste exemplo, o valor 490 é considerado um outlier pelo método IQR, mas não pelo Z.

                4.     Faça o teste de Grubbs

             Calcule a estatística



O valor crítico, para o teste de Grubbs com n= 10 e α =0,05 é 2,290. Então o valor 490 foi identificado como um outlier neste conjunto de dados, com base no teste de Grubbs ao nível de significância de 5% (α=0.05).

 

Os métodos de análise mostrados aqui valem para amostras pequenas. Para grande quantidade de dados, use métodos computacionais.

Tuesday, December 10, 2024

Quando consultar um estatístico?

         

O estatístico prático desempena papel crucial na pesquisa científica e na ciência de dados, pois usa a arte e a ciência da Estatística para resolver problemas práticos. É o estatístico que faz a ponte entre dados e resultados, e propicia ao pesquisador as condições para fazer inferências válidas, dentro de uma margem calculada de erro.

 

       Por conta da aplicação prática, é preciso que o estatístico entenda as questões que lhe são propostas, e saiba traduzir  as análises que faz para o pesquisador. Portanto, esse profissional precisa ter formação teórica, mas tem de se familiarizar com a terminologia da área em que trabalha.

 

      O papel que um estatístico desempenha em uma pesquisa depende das necessidades do trabalho. O estatístico pode ser colaborador ou parceiro integral. Ao longo de um período de colaboração, cada colaborador educa o outro nas reuniões e discussões regulares, que abrangem muitos aspectos do estudo.

 

     Quando o estatístico é funcionário da instituição, ele  é, evidentemente, membro natural da equipe. É o estatístico quem avalia o projeto, propõe a análise dos dados e, eventualmente, vê problemas que não são óbvios para os demais pesquisadores. Ele tem, no trabalho,  responsabilidades que são próprias da profissão, independentemente de seu cargo e de seu status na instituição. 


        Embora seja melhor envolver um consultor estatístico no design de um estudo, ele também pode ser trazido para um projeto após os dados terem sido coletados. O consultor pode ajudar a selecionar e implementar métodos de análise que sejam apropriados e eficazes para os tipos de dados obtidos. Para fazer isso,  precisa ter uma descrição completa e detalhada do design e da conduta do trabalho, bem como uma exposição clara das questões a serem abordadas.


     Um estatístico deve saber (ou pode ser capaz de desenvolver) maneiras estatisticamente válidas de obter respostas para as perguntas do pesquisador. Além disso, ele examinará os dados em busca de ameaças à validade das conclusões, variando de dados ausentes a outliers questionáveis ​​e fatores de confusão. No entanto, se os procedimentos do estudo não forneceram dados que possam responder às questões da pesquisa, o estatístico não pode remediar isso com métodos estatísticos; ele pode, porém, apontar informações que, eventualmente, possam ser extraídas dos dados.


   Depois de os dados terem sido analisados, os resultados devem ser interpretados e transmitidos a um público como uma agência reguladora, um periódico de pesquisa um meio de comunicação ou à gerência. Um estatístico é valioso nesta fase para verificar se as conclusões do trabalho provieram dos resultados da análise, sugerir as melhores maneiras de descrever e exibir os dados e assegurar que não há declarações errôneas ou incompletas sobre as descobertas.


     Quando o estatístico é consultado nesta fase pela primeira vez,  pode querer reanalisar os dados usando métodos que ele considera mais apropriados do que aqueles aplicados. Isso pode ser ou não benéfico – depende de avaliação criteriosa. De qualquer forma, a discussão em ciência exige foco - e isso em aspectos específicos de uma questão complexa. Ao contrário dos argumentos cotidianos, o argumento científico é gerado sob critérios de aceitabilidade, como consistência com leis físicas, simplicidade, suporte empírico e, obviamente, estatística.


    De qualquer modo e resumindo, um estatístico é especialmente útil quando:

 
1.         O pesquisador precisa de ajuda para planejar um estudo que responda
 às suas perguntas; 
2.        É preciso determinar o tamanho da amostra;
3.        A pesquisa resultou em diferentes tipos de dados, que exigem diferente
 tipos de análises;
4.        O volume de dados para analisar é muito grande;
5.        O método de análise que os dados exigem são complexos, além da 
experiência do pesquisador sobre o assunto;
6.        O pesquisador simplesmente prefere contar com um estatístico profissional.

 

Um consultor de Estatística precisa:

 

1.         Ter bom conhecimento de estatística

2.        Ter capacidade de comunicação, escrita e oral;

3.        Ser bom ouvinte;

4.        Saber solucionar problemas de estatística;

5.        Ser agradável para trabalhar;

6.        Ser paciente com clientes que têm pouco conhecimento de     Estatística;

7.        Ter  ética.

8.       E, ainda, como a Estatística têm diferentes áreas de especialização, um consultor precisa ter habilidades que correspondam às necessidades da área de pesquisa que assessora. Por exemplo, um estatístico que trabalha na área experimental provavelmente não é versado nos melhores métodos para assessorar e analisar grande levantamentos de dados.