Sunday, January 08, 2017

Análise de Resíduos Padronizados: Como Avaliar Outliers em Cada Grupo


Você já se perguntou por que certos dados parecem não se encaixar nas suas análises? Aquele número que salta aos olhos – muito maior ou muito menor que os outros – pode ser um outlier. E ele pode estar prejudicando suas conclusões estatísticas sem você perceber!

Neste post, vamos explorar o que são esses valores discrepantes, como identificá-los com um critério simples, e o que fazer quando eles aparecem em sua análise de variância.

Como identificar e tratar dados discrepantes (outliers)

Um dado discrepante, também conhecido como outlier, é um valor que se distancia significativamente dos demais valores de uma amostra. Em outras palavras, é um ponto que não segue o padrão geral dos dados coletados.

Como identificar um outlier?

Um critério bastante utilizado – e que dispensa testes estatísticos formais – baseia-se nos quartis da amostra. Considera-se discrepante um valor que está:

🔺  Abaixo de: Q1 − 1,5 × (Q3 − Q1)

🔺 Acima de: Q3 + 1,5 × (Q3 − Q1)

Onde:

🔺Q1: primeiro quartil

🔺  Q3: terceiro quartil

🔺  Q3 − Q1: distância interquartílica (IQR)

                                      Exemplo

Considere o seguinte conjunto de dados:

                            [1, 2, 2, 3, 3, 4, 5, 6, 12]

Usando o Excel, você obtém:

🔺  Q1 = 2

🔺Mediana = 3

🔺  Q3 = 5

🔺  IQR = 5 − 2 = 3

Limites para detecção de outliers:

🔺    Inferior: 2 − 1,5×3 = −2,5

🔺    Superior: 5 + 1,5×3 = 9,5

O valor 12 é, portanto, um outlier, pois excede 9,5.Veja a Figura 1.

                                                   Figura 1

Por que é importante identificar outliers?

Em dados provenientes de uma população real, a presença de outliers pode indicar problemas:

     🔺        Erros de medição ou digitação

     🔺       Observações provenientes de outra população

     🔺      Comportamentos atípicos reais (que podem ser interessantes!)

Contudo, não se deve eliminar um outlier sem análise criteriosa. Deve-se investigar a origem do valor discrepante com base no contexto do estudo.

Outliers e a ANOVA

Em uma análise de variância (ANOVA), a presença de outliers pode:

     📌        Inflacionar a variância residual

     📌        Reduzir a estatística F

      📌       Diminuir a chance de rejeitar a hipótese da nulidade

Por isso, é recomendável investigar e tratar outliers antes da ANOVA.

 

Como identificar outliers na ANOVA: resíduos padronizados

A análise gráfica dos resíduos pode revelar valores discrepantes. Você pode fazer: 

·  Boxplot dos resíduos padronizados

·  Histograma dos resíduos padronizados

Os resíduos padronizados (zi) são dados por

Onde:

·  ei é o resíduo (diferença entre valor observado e valor estimado)

·  QMR é o quadrado médio do resíduo da ANOVA

                                 Exemplo com dados fictícios

Tabela 1

Dados de um experimento com quatro grupos

                           (as médias são dadas no rodapé da tabela)


                                                 

                                                    Tabela 2

 

Análise de variância dos dados da Tabela 1


Cálculo do primeiro resíduo padronizado (grupo A):

       ·  Observação: 25

       ·  Média do grupo: 23

       ·  Resíduo: 25 − 23 = 2

Os demais resíduos padronizados são obtidos pelo mesmo procedimento e estão apresentados na Tabela 3. Para bem entender a distribuição dos resíduos padronizados veja, na Figura 2, o boxplot  e na Figura 3, o histograma.

Tabela 3

Resíduos padronizados dos dados apresentados na Tabela 1

 

Figura 2

Figura 3


Observe os gráficos cuidadosamente. A presença de resíduos padronizados entre -2 e +2 é um bom sinal, mas não é suficiente para garantir que os resíduos sigam uma distribuição normal — o que é uma suposição importante na ANOVA.

De qualquer forma, aproximadamente 95% dos valores de uma distribuição normal padrão devem cair nesse intervalo. Como todos os resíduos padronizados estão nesse intervalo, não há evidência clara de outliers extremos.

Com base nos resultados da análise dos resíduos, é razoável concluir:

🛑     Nenhum valor muito extremo foi encontrado: os resíduos padronizados variam de -1.512 a 1.512.

🛑.       Distribuição aparentemente simétrica: isso pode ser confirmado visualmente com o histograma.

🛑        Sem grupo com dispersão claramente maior: o boxplot por grupo sugere que os grupos têm variância semelhante.

Você pode interpretar seus achados:

“A análise dos resíduos padronizados não revelou valores discrepantes evidentes, nem variação excessiva entre os grupos. Todos os resíduos caíram dentro do intervalo esperado para uma distribuição normal padrão (entre -2 e +2), indicando adequação da suposição de homogeneidade de variâncias e ausência de outliers extremos.”

O que fazer quando há outliers?

📌  Verifique se houve erro de medição ou de digitação.

📌 Analise se o comportamento do grupo é atípico (efeito paradoxal?).

📌  Observe se resíduos grandes se concentram em um grupo específico (sugere variância maior).

📌  Compare os resultados da ANOVA com e sem os outliers.

     🔺 Se os resultados forem similares, mantenha os dados.

     🔺 Se forem diferentes, reavalie:

📌 Pode ser necessário um teste não paramétrico

📌Ou repensar hipóteses e objetivos do estudo

 

Veja: Vieira, S. Delineamento e análise de experimentos nas ciências agrárias. Piracicaba, FEALQ, 2021.







2 comments:

  1. Bom dia, Sônia. Gostaria de saber como você fez o cálculo do SQ dos grupos? E fiquei na dúvida em relação a tabela dos GL - grupos e resíduos como sei que são 3 GL e 16 resíduos se eu uso 20 valores? E 4 grupos? Obrigada

    ReplyDelete
  2. Olá, Fernanda, espero que esteja em tempo. Coloquei as fórmulas na postagem.

    ReplyDelete