Friday, January 24, 2025

OUTLIERS

 OUTLIERS

                                                                                 

Imagine que você, estatístico, recebeu uma amostra de dados com a pergunta: “devo eliminar os outliers da amostra?” Veja os dados:

                                  15 90 198 164 103 490 39 190 22 30?

Comece calculando algumas estatísticas descritivas:


Agora você pode verificar, por critério estatístico, se no conjunto de dados que lhe foi fornecido há um outlier. O que é um outlier?

Um outlier (valor discrepante) em estatística é um valor muito maior ou muito menor do que os demais dados do um conjunto.

Existem vários métodos para identificar discrepâncias. Veja aqui:

·  Método da padronização da variável

·  Cálculo da distância interquartílica (DIQ)

·  Teste de Grubbs

·  Métodos gráficos

        1.  Método da padronização da variável

   Se for possível pressupor que a distribuição da variável é normal ou, pelo menos,  aproximadamente normal, cerca de 70% dos dados estarão dentro de um desvio padrão da  média, cerca de 95% estarão dentro de dois desvios padrão e cerca de 99% estarão dentro de três desvios padrão. O desvio padrão representa o desvio típico das observações da média. 

      Para padronizar uma variável Y, subtraia de seu valor a média amostral (ȳ) e divida o resultado pelo desvio padrão da amostra (s), para obter: Valores de ǀ ǀ > 3 são considerados outliers.



Valores de ǀ ǀ > 3 são considerados outliers.

Para os dados da amostra, identifique o valor extremo, que é 490. Calcule z = 2,72. Como z = 2,72<3, o valor 490 não é considerado outlier pelo método de padronização da variável.

           2.  Método da distância interquartílica

Para calcular a distância interquartílica, não é necessário fazer qualquer pressuposição a respeito da distribuição da variável. Mas é preciso calcular o primeiro quartil Q1 (25% dos dados estão abaixo desse valor), o terceiro quartil Q3 (75% dos dados estão abaixo desse valor) e a distância interquartílica (DIQ):

    Defina os limites:


O critério é considerar qualquer valor fora desses limites um outlier.

Para os dados da amostra, o limite inferior é −210 e o limite superior é 430. Analisando os dados, apenas o valor 490 está acima do limite superior. Então 490 é considerado outlier pelo método da distância interquartílica.

3.   Teste de Grubbs

O teste de Grubbs é utilizado para estabelecer se o valor mais extremo de um conjunto de dados univariados com distribuição normal é um outlier. É preciso, para proceder a um teste estatístico, fazer as hipóteses e estabelecer o nível de significância. Então:

· Hipótese nula (H0): Não há outliers no conjunto de dados.

· Hipótese alternativa (H1): Existe pelo menos um outlier no conjunto de dados.

  Nível de significância:  α = 5%.

Agora, calcule a estatística G, definida por 


em que

y: valor extremo, que se presume outlier (máximo ou mínimo).

ȳ: média do conjunto de dados.

s: desvio padrão do conjunto de dados.

Compare a estatística G calculada com o limite crítico, que depende do número de observações (n) e do nível de significância (α). O limite crítico pode ser encontrado na internet. Se G exceder o limite crítico, rejeite H0 e o valor extremo é considerado um outlier.

Vantagens e limitações do teste de Grubbs

Vantagens: é fácil de aplicar e muito eficiente para pequenas amostras.

Desvantagens: Requer que os dados sigam uma distribuição normal. Não é recomendado para grandes amostras ou para identificar muitos outliers, de uma só vez.

Importante

Pode parecer, à primeira vista, que o teste de Grubbs é igual ao método da padronização da variável. Não é. O limite crítico é calculado a partir da distribuição t de Student, para um nível de significância escolhido (α) e para o número de graus de liberdade do desvio padrão.

 

Remoção iterativa (opcional): O outlier identificado pode ser removido, e o teste pode ser aplicado novamente para verificar se outros valores são outliers.

4.   Métodos gráficos

Os métodos gráficos utilizam mais a percepção do pesquisador do que um critério estatístico numérico. Mas você pode desenhar um gráfico de pontos, um boxplot, um histograma. Ao observar qualquer um deles, todos eles, a percepção do pesquisador será, provavelmente, a de que o valor 490 é um outlier.



Observação

Vamos voltar à pergunta inicial: você, estatístico, recebeu uma amostra de dados com a pergunta: “devo eliminar os outliers da amostra?” Se você for consultor, ou mesmo fizer parte de uma equipe de pesquisadores de áreas técnicas ou científicas, não é sua atribuição resolver por estatística se um dado deve ser descartado.

Para o estatístico, o objetivo da análise de outliers é apontar valores que se desviam significativamente do padrão da distribuição ou do conjunto de dados. Em análise estatística, outliers podem ser excluídos sob justificativas claras, como erros de medição, erros de registro ou falhas nos instrumentos de medição. Mas o conhecimento da variação natural da variável é de competência do especialista na área.
















APRENDA ESTATÍSTICA


Muitos cometem o erro elementar de duvidar dos resultados das estatísticas. Devemos duvidar dos métodos de coleta, dos procedimentos de análise e das interpretações. De resto, boa parte da formação científica consiste em aprender a desconfiar e a encontrar erros nessas etapas. Contudo, se não somos capazes de detectar vícios nos processos usados, não podemos recusar os resultados. Pena que essa disciplina intelectual seja mais difícil do que dar palpites sobre o que não se estudou e ainda menos se aprendeu.

Cláudio de Moura Castro

A palavra Estatística está associada à ideia de "coleção de números". No entanto, não se coletam números apenas para armazená-los: eles são utilizados para a tomada racional de decisões. Não é, porém, "torturando" os números que se obtêm respostas confiáveis. É necessário "dialogar" com eles, analisando-os cuidadosamente para deles tirar conclusões fundamentadas.

Artistas e produtores de rádio e televisão monitoram estatísticas de audiência com atenção redobrada. Quando um programa alcança o "horário nobre" — período em que os números indicam maior quantidade de espectadores —, o preço da propaganda aumenta. Consequentemente, também sobem os salários de artistas e produtores. Mas se o programa perde popularidade, ele pode ser retirado do ar.

A Polícia Rodoviária monitora estatísticas de trânsito, fundamentais para organizar o policiamento. Mas não basta contar o número de mortos e feridos; é necessário estruturar os dados de forma a identificar em quais pontos, dias ou épocas do ano os acidentes ocorrem com maior frequência. Com base nessas análises, tomam-se decisões estratégicas, como instalar radares nos trechos das estradas com maior índice de acidentes destacar mais policiais para as áreas consideradas de risco, nos horários de pico e em dias de trânsito intenso.

As estatísticas de exames vestibulares também geram muita especulação. Contudo, para o jovem que deseja ingressar em uma universidade, o dado mais relevante é o número de candidatos por vaga. Essa estatística oferece uma ideia clara sobre a probabilidade de aprovação.

Jornais e políticos observam com muito interesse estatísticas de opinião pública, pois só assim eles podem saber o percentual de pessoas que aprova o governo ou como anda a popularidade do Presidente da República. Os dados precisam ser analisados com rigor para que as informações apresentadas ao público sejam corretas e permitam a necessária discussão sobre temas de interesse.

A Estatística também abrange o cálculo de taxas, índices e coeficientes. Você certamente já ouviu falar em índice de inflação, taxa de evasão escolar ou taxa de mortalidade infantil. Mas o trabalho dos estatísticos vai além disso: eles participam do planejamento de experimentos.

Por exemplo: existe um bom creme antirrugas? Um robô pode ajudar no aprendizado de uma língua estrangeira? A vacina desenvolvida por determinada empresa é eficaz? Para responder a perguntas como essas, é necessário realizar experimentos. Nesse contexto, o estatístico desempenha um papel crucial ao planejar o experimento, analisar os dados e auxiliar na interpretação dos resultados.

A grande importância da Estatística reside em seu amplo campo de aplicação. Ela é utilizada em áreas tão diversas como estudos sobre DNA ou sobre as probabilidades relacionadas aos jogos de loteria. Assim, a Estatística oferece condições para responder a diversas perguntas, como estas, por exemplo:

  • Como alguém sabe se precisa ou não perder peso?
  • Qual é a maior cidade do Brasil?
  • Fumar faz mal à saúde?
  • A temperatura no mundo está aumentando?
  • Escovar os dentes previne cáries?
  • Como se conhece o efeito de um anestésico?
  • Machado de Assis usava poucos adjetivos?
  • Por que os motoqueiros precisam usar capacete?
  • Os alimentos transgênicos são mais nutritivos?

Alguns profissionais afirmam, com ênfase, que sabem tudo o que precisam para exercer suas atividades porque possuem experiência. Contudo, experiência por si só não basta. As mulas do exército de Napoleão tinham experiência de guerra, pois participaram de muitas batalhas, mas continuavam sendo mulas. Para crescer profissionalmente, a experiência precisa ser constantemente contestada e complementada com novas informações adquiridas por meio de aulas, congressos, livros, artigos, pesquisas – e estatísticas.

Apesar disso, muitas pessoas ainda desconfiam de estatísticas, como sugere a famosa frase irônica que atravessou os séculos: “Existem mentiras, mentiras deslavadas e estatísticas.” A afirmação ressoa porque evidencia o poder persuasivo dos números, ao mesmo tempo em que destaca a tendência de algumas pessoas em desacreditar estatísticas quando elas contrariam suas convicções. No entanto, quem se apoia apenas na retórica é ainda mais facilmente enganado. Por isso, aprenda estatística.




Monday, January 06, 2025

Alfa de Cronbach: retirada de uma questão