Wednesday, December 21, 2016

Homocedasticidade é indispensável? Teste de Levene

A exigência de variâncias iguais pode ser crítica ou relativamente irrelevante, dependendo da situação.

🔴 Quando a violação da homocedasticidade compromete a ANOVA

1. Curtose positiva (superior a 2): o teste F perde poder. Ou seja, tende a não rejeitar a hipótese nula, mesmo quando ela é falsa.

2. Distribuições assimétricas: nesse caso, a variância tende a crescer com a média, o que pode enviesar seriamente os resultados da ANOVA.

🟢 Quando a violação não compromete seriamente a análise

1. Tamanhos iguais de amostra nos grupos: se os grupos tiverem o mesmo número de observações (r₁ = r₂ = ... = rₖ), pequenas diferenças entre variâncias costumam ser toleráveis — a menos que alguma delas seja muito discrepante.

2. Amostras grandes: com mais de 10 observações por grupo, o teste F costuma manter-se robusto à heterocedasticidade leve.

Como testar a homogeneidade das variâncias?

O objetivo é testar a hipótese nula:

H_0:s²₁= s²₂= s²₃=...= s²_k (i=1, 2,… ,k)

contra a hipótese alternativa de que pelo menos uma variância é diferente.

Entre os vários testes disponíveis, destacam-se:

· Teste de Levene ✅

· Teste de Bartlett ⚠️

· Teste de Cochran e teste de Hartley (menos comuns)

⚠️ Atenção com o teste de Bartlett:
Ele pode mascarar diferenças quando a distribuição tem curtose negativa e indicar diferenças inexistentes em distribuições com curtose positiva.

Entendendo o Teste de Levene

O teste de Levene avalia se os grupos apresentam dispersões semelhantes. Sua lógica é simples: se os grupos possuem variâncias homogêneas, os resíduos (ou suas transformações) não diferem significativamente entre si.

✔️ Procedimento tradicional (com quadrados dos resíduos)

1. Calcule os resíduos:

2. Eleve esses resíduos ao quadrado.

3. Faça uma nova ANOVA (one-way) usando os quadrados dos resíduos como variável.

❗ Se o valor de F for não significante, aceita-se a hipótese de homocedasticidade.

📊 Exemplo ilustrado

Tabela 1 – Dados brutos por grupo

Tabela 2 – Quadrados dos resíduos

Tabela 3 – Resultado do teste de Levene (saída do SAS)

✔️ Alternativa prática (com valores absolutos dos resíduos)

Outra versão do teste de Levene — mais comum em softwares como SPSS — usa os valores absolutos dos resíduos em vez dos quadrados.

❗ O procedimento é o mesmo: faz-se uma ANOVA com os valores absolutos.

📊 Tabela 4 – Resultado do teste de Levene (saída do SPSS)

📌 Importante: Os valores de F podem ser ligeiramente diferentes, mas a conclusão é a mesma — aqui, não há evidência de heterocedasticidade.

✔️ Versões alternativas:

É possível também calcular os resíduos com base na média aparada (trimmed mean) ou na mediana, o que pode tornar o teste ainda mais robusto a outliers.

Quando a homocedasticidade falha: o que fazer?

Se a hipótese de variâncias iguais for rejeitada, o uso da ANOVA clássica pode ser inadequado. Mas existem alternativas:

1. Transformações nos dados

Podem estabilizar as variâncias e tornar os dados mais próximos da normalidade:

· Logarítmica (para dados assimétricos e positivos)

· Raiz quadrada (ideal para contagens)

· Arcseno da raiz quadrada (para proporções)

· Padronização dos dados (z-scores)

2. Testes não paramétricos

· Kruskal-Wallis: substitui a ANOVA quando os pressupostos não são atendidos.

3. Outras soluções

· Remover outliers, se justificado.

· Aumentar o tamanho da amostra.

· Reformular o delineamento experimental.

💡 Em resumo:

A homogeneidade das variâncias é um pressuposto central da ANOVA, mas sua violação não é sempre fatal. Conhecer o comportamento dos dados, escolher o teste adequado e interpretar os resultados com cautela são atitudes essenciais para um bom pesquisador.

Leia:

1. Dean, A. e Voss, D. Design and analysis of experiments. Springer, 1999.

2. Scheffé, H. The analysis of variance. New York : Wiley, 1959.

3. Zaiontz, C. Levene´s test http://www.real-statistics.com/one-way-analysis-of-variance-anova/homogeneity-variances/levenes-test/

Tuesday, December 13, 2016

ANOVA: O que é e quais pressupostos precisam ser respeitados?

“Statistics investigates and develops specific methods for evaluating hypotheses in the light of empirical facts...” — G. U. Yule & M. G. Kendall

Introdução

A Análise de Variância (ANOVA) é uma técnica estatística utilizada para verificar se há diferenças significativas entre as médias de dois ou mais grupos. A ANOVA testa a hipótese:

H₀: μ₁ = μ₂ = μ₃ = ... = μₖ

contra a hipótese alternativa de que pelo menos uma média difere das demais.

Neste texto, vamos tratar exclusivamente da ANOVA com um critério de classificação (one-way layout ANOVA).

Seja Yᵢⱼ o valor observado na j-ésima unidade (j = 1, 2, ..., r) do i-ésimo grupo (i = 1, 2, ..., k). Esta é a variável dependente, pois seu valor depende do grupo ao qual a unidade pertence. Já os grupos constituem a variável independente.

O modelo da ANOVA com um critério de classificação é:

Yᵢⱼ = μᵢ + eᵢⱼ
onde

- μᵢ é a média verdadeira do grupo i,
- eᵢⱼ é o erro aleatório associado à unidade j do grupo i.

Como os valores reais das médias μᵢ são desconhecidos, o pesquisador realiza um experimento para obter estimativas dessas médias. É com base nessas estimativas que se realiza a análise de variância.

Exemplo

Considere os dados da Tabela 1. As médias verdadeiras dos grupos A, B, C e D (μ₁, μ₂, μ₃, μ₄) são desconhecidas, mas podemos estimá-las com os valores obtidos em um experimento.

Tabela 1

Dados obtidos em quatro grupos

Na Tabela 2 está apresentada a ANOVA desses dados.

Tabela 2

Análise de variância (ANOVA)

Os erros aleatórios eᵢⱼ também são desconhecidos, pois são definidos com base nas médias verdadeiras. No entanto, podemos obter estimativas desses erros: basta subtrair a média do grupo de cada valor observado. Essas estimativas são chamadas de resíduos.

Tabela 3

Resíduos dos dados da Tabela 1

Pressupostos da ANOVA

🔹. Independência dos erros

Os erros devem ser independentes, ou seja, o erro de uma observação não deve estar correlacionado com o erro de outra. Isso exige que: as unidades dentro de um mesmo grupo sejam independentes entre si; nenhuma unidade pertença a mais de um grupo; os dados tenham sido coletados de forma independente.

🔹. Normalidade dos erros

Os erros devem seguir, aproximadamente, uma distribuição normal. Pequenas violações são aceitáveis, principalmente em amostras grandes, desde que não haja forte assimetria. Atenção: a exigência de normalidade vale para os erros (resíduos), não para os dados brutos.

🔹. Homogeneidade das variâncias (homocedasticidade)

As variâncias dos erros devem ser semelhantes entre os grupos. Isso significa que a variabilidade interna de cada grupo deve ter magnitude comparável.

🔹. Ausência de outliers

A presença de dados extremos pode distorcer os resultados da ANOVA. Por isso, deve-se verificar se há outliers (valores muito discrepantes) e, se necessário, tratá-los antes da análise.

🔹. Variável dependente contínua

A variável analisada deve ser medida em escala intervalar ou de razão, como tempo, peso, altura etc.

🔹. Variável independente categórica

O fator de classificação (grupos, tratamentos, regiões, etc.) deve ser uma variável categórica.

O que fazer se os pressupostos forem violados?

Violação	Alternativas
Normalidade	Transformar os dados ou utilizar testes não paramétricos (ex.: teste de Kruskal-Wallis)
Homogeneidade das variâncias	Aplicar transformações (como logaritmo) ou usar testes não paramétricos
Independência	Utilizar modelos mistos ou ANOVA para medidas repetidas

Veja: http://www.itl.nist.gov/div898/handbook/ppc/section2/ppc231.htm

Sunday, November 27, 2016

Comparando médias: como escolher entre testes liberais e conservadores?

Quando se comparam k populações por meio de uma ANOVA, são possíveis m = k(k-1)/2 comparações entre pares de médias. Se essas comparações não foram planejadas previamente (unplanned comparisons), ou seja, foram escolhidas depois de o pesquisador olhar as médias amostrais, é mais adequado utilizar um teste que controle o nível de significância para o experimento e não apenas o nível de significância para a comparação de médias.

Definições Importantes

🔸Nível de significância para comparação de médias (comparisonwise Type I error rate-CER) é a probabilidade de cometer erro Tipo I ao comparar duas médias (pairwise comparison) de um conjunto de k médias.

🔸Nível de significância para experimentos (experimentwise Type I error rate ou familywise Type I error rate) é a probabilidade de cometer pelo menos um erro Tipo I ao realizar todas as m comparações de pares de médias de um conjunto de k médias.

Distinguem-se ainda:

🔸Nível de significância para o experimento sob a hipótese de nulidade completa (EERC): quando todas as médias populacionais comparadas são iguais.

🔸Nível de significância para o experimento sob a hipótese de nulidade parcial: quando algumas médias são iguais, outras diferem.

Testes que controlam o nível de significância para experimentos são conservadores —rejeitam a hipótese de igualdade de médias com menos facilidade, resultando em menor poder estatístico. Já os testes que controlam o nível de significância para comparações de médias apontam significância com mais facilidade. Estes testes são liberais, porque rejeitam a hipótese da nulidade com mais facilidade e têm, portanto, maior poder.

Classificação dos Testes: Liberal x Conservador

Segundo Winner (1962), os testes de comparação de médias podem ser ordenados do mais liberal ao mais conservador, como segue:

1. Teste de Duncan (Duncan´s multiple range test -MRT)

2. Teste de Student-Newman-Keuls

3. Teste de Fisher (Fisher’s least significant difference- LSD)

4. Teste de Tukey (Tukey’s honestly significant difference- HSD)

5. Teste de Scheffé (Scheffé’s test)

Isso significa que, se você aplicar o teste de Duncan, provavelmente encontrará mais diferenças significantes entre médias do que se utilizar o teste de Scheffé. Mas há vários outros testes para comparação de médias.

Apresentamos a seguir os resultados de testes de comparação de médias aplicados a um conjunto de dados fictícios.

Tabela 1

Diminuição da pressão arterial, mmHg,

segundo o grupo

Tabela 2

Análise de variância

O teste de amplitudes múltiplas de Duncan (Duncan’s multiple range test-MRT) e o teste de Student-Newman-Keuls fornecem diversos valores para a diferença crítica entre médias, dependendo de quão próximas estão essas médias. Compare as amplitudes críticas: o teste de Duncan é mais liberal, ou seja, mostra significância com maior facilidade (note que as diferenças mínimas significantes são menores pelo teste de Duncan).

Tabela 3

Amplitude crítica: testes de Duncan e

Student-Newman-Keuls (SNK)

Compare agora as diferenças críticas pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé (este para comparar duas médias, para permitir a comparação). Compare as diferenças críticas : o teste de Fisher é mais liberal, ou seja, mostra significância com maior facilidade. Note que as diferenças críticas são menores do que as calculadas pelo teste de Tukey e estas menores do que as calculadas pelo teste de Scheffé .

Tabela 4

Diferença crítica: testes LSD, HSD, Scheffé

📜 Recomendações – Manual SAS/STAT 9.2

1. Use o teste LSD não protegido se estiver interessado em várias comparações individuais e não estiver preocupado com múltiplas inferências.

2. Para todas as comparações duas a duas, use o teste de Tukey.

3. Para comparações com um controle, use o teste de Dunnett.

📢 Algumas considerações

Imagine um ensaio com mais de dois grupos (se o número de grupos for dois, os testes darão o mesmo resultado) cujos resultados foram submetidos a uma análise de variância com um critério de classificação, no nível de significância de 5%.

Se o pesquisador pretende fazer comparações não planejadas (unplanned comparisons), tem várias opções.

🔸Se aplicar o teste de Tukey ou o teste de Dunnett, o nível de significância para experimentos será de 5%, mas o nível de significância para as comparações de médias será menor do que 5%.

🔸Se usar o teste LSD de Fisher (sem restrições), o teste de Duncan ou o teste de Newman Keuls, o nível de significância para comparações de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior ou muito maior (dependendo do número de tratamentos) do que 5%. Em compensação, o poder do teste será maior.

Escolha do Teste

🔺 Se quiser segurança para rejeitar H0, opte por Tukey, Dunnett ou LSD planejado — são conservadores.

🔺Se quiser poder elevado, opte por LSD não-protegido ou Duncan. O LSD é mais antigo, mais conhecido e de aplicação fácil.Também é possível usar Tukey ou Dunnett com nível de significância mais alto. Por exemplo, Tukey a 10% tem mais poder que Tukey a 5%.

A necessidade de aplicar um teste que só rejeite a hipótese de que as médias são iguais com muita confiança pode ocorrer quando se comparam novas drogas terapêuticas com uma droga conhecida. Toda droga tem efeitos colaterais. Então, muitas vezes só é razoável indicar uma nova droga – de efeitos colaterais desconhecidos – quando existem indicações seguras de que essa nova droga é melhor do que a convencional.

Nos experimentos de competições de marcas ou de variedades, ao contrário, muitas vezes é preciso um teste com grande poder. Isto porque, nesses casos, o importante a alta probabilidade de discriminação. O erro de rejeitar a hipótese de que duas marcas ou duas variedades têm a mesma média – quando isso é verdade – tem importância menor.

✅ Considerações Finais

O teste de Scheffé tem excelentes propriedades matemáticas, mas é excessivamente conservador. Já o teste de Bonferoni é indicado apenas quando o número pequeno de comparações de médias, pois se torna conservador quando o número de médias em comparação é grande.

Todos os testes têm vantagens e desvantagens. Não existe um teste definitivamente “melhor” que todos os outros. Os procedimentos para a comparação de médias não são exatos. No entanto, é preciso adotar um procedimento formal para proceder à comparação de médias. Isto evita que as conclusões fiquem totalmente dependentes da opinião do pesquisador. De qualquer forma, existe uma grande margem de opção tanto na escolha do teste, como no estabelecimento do nível de significância.

Dicas

Os cálculos foram feitos usando o software SAS. Se você usar outro software ou fizer cálculos a mão pode ter pequenas diferenças devido arredondamento. As diferenças serão provavelmente maiores quando aplicar o teste SNK porque os valores são menos padronizados entre tabelas.

Doutora em Estatística pela USP

Livre Docente em Estatística pela Unicamp

Pós doctor na Universidade da California, Berkeley e Universidade Yale.

Além de diversos artigos em revistas nacionais e estrangeiras, publicou os livros:

1. Pela Editora Elsevier: Introdução à Bioestatística (5ed), Bioestatística: tópicos avançados (3ed), Estatística para a Qualidade 3ed), Metodologia Científica para a Área de Saúde (3ed), este último em co-autoria com William Saad Hossne.

2. Pela Editora Atlas: Elementos de Estatística (6ed), Como elaborar um questionário.

3. Pela Editora Cencage Learning: Estatística Básica.

4. Pela Editora Brasiliense: O que é Estatística (3ed).

Estão esgotados: Experimentação com seres humanos (Moderna), Como escrever uma tese (Atlas), Análise de variância (Atlas), Primeiro a gente chora (Cultura).

Possui um domínio online, no qual estão disponibilizadas algumas aulas de estatística elementar: https://profasoniavieira.wixsite.com/estatistica