Wednesday, December 21, 2016

Homocedasticidade é indispensável? Teste de Levene


A exigência de variâncias iguais pode ser crítica ou relativamente irrelevante, dependendo da situação.

🔴 Quando a violação da homocedasticidade compromete a ANOVA

     1.   Curtose positiva (superior a 2): o teste F perde poder. Ou seja, tende a não rejeitar a hipótese nula, mesmo quando ela é falsa.

     2.   Distribuições assimétricas: nesse caso, a variância tende a crescer com a média, o que pode enviesar seriamente os resultados da ANOVA.

🟢 Quando a violação não compromete seriamente a análise

     1.   Tamanhos iguais de amostra nos grupos: se os grupos tiverem o mesmo número de observações (r₁ = r₂ = ... = r), pequenas diferenças entre variâncias costumam ser toleráveis a menos que alguma delas seja muito discrepante.

    2.   Amostras grandes: com mais de 10 observações por grupo, o teste F costuma manter-se robusto à heterocedasticidade leve.


Como testar a homogeneidade das variâncias?

O objetivo é testar a hipótese nula:

     H0: s21= s22= s23=...= s2k                (i=1, 2,… ,k)

contra a hipótese alternativa de que pelo menos uma variância é diferente.

Entre os vários testes disponíveis, destacam-se:

               ·        Teste de Levene

               ·        Teste de Bartlett ⚠️

               ·        Teste de Cochran e teste de Hartley (menos comuns)

⚠️ Atenção com o teste de Bartlett:
Ele pode mascarar diferenças quando a distribuição tem curtose negativa e indicar diferenças inexistentes em distribuições com curtose positiva.

Entendendo o Teste de Levene

O teste de Levene avalia se os grupos apresentam dispersões semelhantes. Sua lógica é simples: se os grupos possuem variâncias homogêneas, os resíduos (ou suas transformações) não diferem significativamente entre si.

✔️ Procedimento tradicional (com quadrados dos resíduos)

     1.   Calcule os resíduos:

                  

2.   Eleve esses resíduos ao quadrado.

    3.   Faça uma nova ANOVA (one-way) usando os quadrados dos resíduos como variável.

Se o valor de F for não significante, aceita-se a hipótese de homocedasticidade.

                                             📊 Exemplo ilustrado

                                             Tabela 1 – Dados brutos por grupo

                                             Tabela 2 – Quadrados dos resíduos

                                   Tabela 3 – Resultado do teste de Levene (saída do SAS)

✔️ Alternativa prática (com valores absolutos dos resíduos)

Outra versão do teste de Levene — mais comum em softwares como SPSS — usa os valores absolutos dos resíduos em vez dos quadrados.

O procedimento é o mesmo: faz-se uma ANOVA com os valores absolutos.

                📊 Tabela 4 – Resultado do teste de Levene (saída do SPSS)

📌 Importante: Os valores de F podem ser ligeiramente diferentes, mas a conclusão é a mesma — aqui, não há evidência de heterocedasticidade.

✔️ Versões alternativas:

É possível também calcular os resíduos com base na média aparada (trimmed mean) ou na mediana, o que pode tornar o teste ainda mais robusto a outliers.

Quando a homocedasticidade falha: o que fazer?

Se a hipótese de variâncias iguais for rejeitada, o uso da ANOVA clássica pode ser inadequado. Mas existem alternativas:

1. Transformações nos dados

Podem estabilizar as variâncias e tornar os dados mais próximos da normalidade:

              ·        Logarítmica (para dados assimétricos e positivos)

              ·        Raiz quadrada (ideal para contagens)

              ·        Arcseno da raiz quadrada (para proporções)

             ·        Padronização dos dados (z-scores)

    2. Testes não paramétricos

        ·        Kruskal-Wallis: substitui a ANOVA quando os pressupostos não são atendidos.

    3. Outras soluções

           ·        Remover outliers, se justificado.

           ·        Aumentar o tamanho da amostra.

          ·        Reformular o delineamento experimental.

 💡 Em resumo:

A homogeneidade das variâncias é um pressuposto central da ANOVA, mas sua violação não é sempre fatal. Conhecer o comportamento dos dados, escolher o teste adequado e interpretar os resultados com cautela são atitudes essenciais para um bom pesquisador.

 

 Leia:

1.      Dean, A. e Voss, D. Design and analysis of experiments. Springer, 1999.

   2.      Scheffé, H. The analysis of variance. New York : Wiley, 1959.





1. 




Tuesday, December 13, 2016

ANOVA: O que é e quais pressupostos precisam ser respeitados?

 
   Statistics investigates and develops specific methods for evaluating hypotheses in the light of empirical facts...” — G. U. Yule & M. G. Kendall 

Introdução 


A Análise de Variância (ANOVA) é uma técnica estatística utilizada para verificar se há diferenças significativas entre as médias de dois ou mais grupos. A ANOVA testa a hipótese:

                              H₀: μ₁ = μ₂ = μ₃ = ... = μ


contra a hipótese alternativa de que pelo menos uma média difere das demais.

Neste texto, vamos tratar exclusivamente da ANOVA com um critério de classificação (one-way layout ANOVA).

Seja Yᵢⱼ o valor observado na j-ésima unidade (j = 1, 2, ..., r) do i-ésimo grupo (i = 1, 2, ..., k). Esta é a variável dependente, pois seu valor depende do grupo ao qual a unidade pertence. Já os grupos constituem a variável independente.

O modelo da ANOVA com um critério de classificação é:

                                                 Yᵢⱼ = μ + eᵢⱼ
onde

- μ é a média verdadeira do grupo i,
- eᵢⱼ é o erro aleatório associado à unidade j do grupo i.

Como os valores reais das médias μ são desconhecidos, o pesquisador realiza um experimento para obter estimativas dessas médias. É com base nessas estimativas que se realiza a análise de variância.

Exemplo 

Considere os dados da Tabela 1. As médias verdadeiras dos grupos A, B, C e D (μ₁, μ₂, μ₃, μ₄) são desconhecidas, mas podemos estimá-las com os valores obtidos em um experimento.

                                              Tabela 1

 Dados obtidos em quatro grupos

Na Tabela 2 está apresentada a ANOVA desses dados.

                                       Tabela 2

                             Análise de variância (ANOVA)                                                  


Os erros aleatórios eᵢⱼ também são desconhecidos, pois são definidos com base nas médias verdadeiras. No entanto, podemos obter estimativas desses erros: basta subtrair a média do grupo de cada valor observado. Essas estimativas são chamadas de resíduos.

                                                      Tabela 3

                                      Resíduos dos dados da Tabela 1         
                                                                   

         Pressupostos da ANOVA


🔹. Independência dos erros

Os erros devem ser independentes, ou seja, o erro de uma observação não deve estar correlacionado com o erro de outra. Isso exige que: as unidades dentro de um mesmo grupo sejam independentes entre si; nenhuma unidade pertença a mais de um grupo; os dados tenham sido coletados de forma independente.

🔹. Normalidade dos erros

Os erros devem seguir, aproximadamente, uma distribuição normal. Pequenas violações são aceitáveis, principalmente em amostras grandes, desde que não haja forte assimetria. Atenção: a exigência de normalidade vale para os erros (resíduos), não para os dados brutos.

🔹. Homogeneidade das variâncias (homocedasticidade)

As variâncias dos erros devem ser semelhantes entre os grupos. Isso significa que a variabilidade interna de cada grupo deve ter magnitude comparável.

🔹. Ausência de outliers

A presença de dados extremos pode distorcer os resultados da ANOVA. Por isso, deve-se verificar se há outliers (valores muito discrepantes) e, se necessário, tratá-los antes da análise.

🔹. Variável dependente contínua

A variável analisada deve ser medida em escala intervalar ou de razão, como tempo, peso, altura etc.

🔹. Variável independente categórica

       O fator de classificação (grupos, tratamentos, regiões,                etc.) deve ser uma variável categórica.

O que fazer se os pressupostos forem violados?


Violação

Alternativas

Normalidade

Transformar os dados ou utilizar testes não paramétricos (ex.: teste de Kruskal-Wallis)

Homogeneidade das variâncias

Aplicar transformações (como logaritmo) ou usar testes não paramétricos

Independência

Utilizar modelos mistos ou ANOVA para medidas repetidas