Sonia Vieira: December 2016

Wednesday, December 21, 2016

Teste de Levene

Uma análise de variância só deve ser conduzida se estiverem satisfeitas algumas exigências.

1. Os grupos devem ser formados por unidades que proveem de populações com igual variância.

2. As unidades devem ser independentes, tanto dentro do mesmo grupo como entre os diferentes grupos.

3. As populações amostradas devem ter distribuição normal.

Vamos tratar aqui a questão de variâncias homogêneas ou, como preferem os estatísticos – da homocedasticia. Se os grupos tiverem o mesmo número de repetições, isto é, se r₁= r₁ =…= r_k,o analista pode pressupor variâncias iguais, a menos que uma das variâncias seja muito maior que as demais. Aliás, o uso de número igual² de repetições e, de preferência, maior do que 10 por grupo¹ é a melhor proteção contra os efeitos de variâncias desiguais ou, ou seja, da heterocedasticia. Se os grupos são similares, esta atitude será ainda mais defensável. E – em sendo uma pressuposição – o pesquisador não faz testes.

De qualquer forma, cumpre lembrar que transgressões à pressuposição de variâncias iguais têm importância em duas situações: 1) assimetria; 2) curtose positiva (maior do que 2). Se a distribuição for assimétrica, a variância tende a ser função da média, ou melhor, em geral a variância cresce quando a variável cresce. Se a curtose for positiva, o teste F não tem poder, ou seja, não rejeita a hipótese da nulidade, mesmo que essa hipótese seja incorreta. Esta é a situação mais grave de heterocedasticia.

Mas hoje, graças à facilidade de uso programas de estatística, é comum que o analista teste a igualdade de variâncias, isto é, teste a hipótese:

H_0:s²₁= s²₂= s²₃=...= s²_k(i=1, 2,… ,k)

contra a hipótese de que existe pelo menos uma variância diferente das demais.

Foram propostos diversos testes, embora nenhum deles tenha ampla recomendação. Provavelmente, hoje seja mais aplicado o teste de Levene, disponível em diversos programas de estatística para computador. Tambémsão conhecidos são os testes de Cochran, o teste de Hartley e o teste de Bartlett O teste de Bartlet, que também é bastante usado, tende a mascarar diferenças que existem quando a curtose é negativa e achar diferenças que não existem quando a curtose é positiva².

Mas veja aqui como se faz o teste de Levene. De posse dos dados, calcule os resíduos:

Depois, faça uma análise de variância com um critério de classificação (one way layout) dos quadrados desses resíduos.

A lógica do teste de Levene é simples: quanto maiores são os quadrados dos resíduos, maiores são as variâncias. Então, se as variâncias são homogêneas, o resultado do teste F para comparar as médias dos quadrados dos resíduos será não significante.

Para entender o procedimento, veja os dados da Tabela 1. No rodapé dessa tabela, estão as médias dos grupos. Os quadrados dos resíduos estão na Tabela 2.

Tabela 1 - Dados segundo o grupo

Tabela 2 - Quadrados dos resíduos segundo o grupo

A análise de variância dos quadrados dos resíduos que estão na Tabela 2 resíduos está apresentada na Tabela 3 (saída do SAS). Como o valor de F é não significante, não se rejeita a hipótese de que as variâncias são homogêneas.

Tabela 3. Teste de Levene (saída do SAS)

Existe outra forma de proceder ao teste de Levene. Calculam-se, como anteriormente, os resíduos da análise de variância. Depois se faz uma análise de variância com um critério de classificação dos valores absolutos dos resíduos. Veja o resultado dessa análise na Tabela 4. Este resultado é dado pelo SPSS.

Tabela 4. Teste de Levene (saída do SPSS)

É importante notar que os resultados são diferentes, mas a conclusão é a mesma: o valor de F é não significante. Não se rejeita a hipótese de homogeneidade de variâncias.

Também é preciso considerar que há outras maneiras de proceder ao teste de Levene. Aqui se partiu dos resíduos, considerando a média aritmética, mas também é possível fazer o teste usando, por exemplo, a média aparada (trimmed mean)³.

De qualquer forma, transgressões moderadas da pressuposição de variâncias iguais têm pouca, ou nenhuma importância prática, a não ser que haja 1) assimetria ou 2) curtose positiva.

Se a distribuição for assimétrica, a variância tende a ser função da média, ou melhor, em geral a variância cresce quando a variável cresce. Para verificar se isto está acontecendo, desenhe um diagrama de dispersão das médias contra os desvios padrões e estude a correlação. Se a pressuposição de igualdade de variâncias for razoável, não deve existir correlação entre essas estatísticas.

Se a curtose for positiva, o teste F não tem poder, ou seja, não rejeita a hipótese da nulidade, mesmo que essa hipótese seja incorreta[1]. Esta é a situação mais grave de heterocedasticia.

Referências

1. Dean, A. e Voss, D. Design and analysis of experiments. Springer, 1999.

2. Scheffé, H. The analysis of variance. New York : Wiley, 1959.

3. Zaiontz, C. Levene´s test http://www.real-statistics.com/one-way-analysis-of-variance-anova/homogeneity-variances/levenes-test/

Tuesday, December 13, 2016

Pressuposições para fazer uma ANOVA - um critério

A análise de variância (ANOVA) tem a finalidade de testar se existem diferenças significantes entre as médias de três ou mais grupos, desde que a variável em análise seja quantitativa. Logo, testa a hipótese:

H_0:m₁= m₂= m₃=...=m_k(i=1, 2,… ,k)

contra a hipótese de que existe pelo menos uma média de grupos diferente das demais.

Vamos considerar aqui apenas as análises de variância com um critério de classificação (one way layout anova), quando todos os grupos têm o mesmo número de repetições.

O valor observado na j-ésima (j = 1, 2,…,r) unidade do i-ésimo (i = 1, 2,… ,k) grupo é indicado por Y_ij. Esta é a variável dependente, porque seu valor depende do grupo ao qual a unidade pertence. Grupos são a variável independente.

Então, o modelo de uma análise de variância (ANOVA) com um critério de classificação é escrito como segue:

Y_ij = m_i + e_ij. i=1, 2,… ,k; j= 1, 2, …, r

A resposta de uma unidade (Y_ij)é dada pela média verdadeira de todas as respostas possíveis do grupo ao qual pertence (m_i), acrescida da quantidade e_ij, que é um erro aleatório (random error).

Ninguém conhece os parâmetros que ,neste caso, são as médias verdadeiras m_i dos grupos. O pesquisador faz um experimento exatamente para obter as estimativas dessas médias. E é com essas estimativas que o pesquisador procede à análise de variância, para testar a hipótese de igualdade das médias m_i dos grupos.

EXEMPLO

Veja os dados apresentados na Tabela 1. As médias verdadeiras m₁, m₂, m₃ e m₄ dos grupos A, B, C e D são desconhecidas. No entanto, os dados obtidos pelo pesquisador permitem obter as respectivas estimativas, que estão no rodapé da tabela.

A Tabela 2 apresenta a análise de variância dos dados da Tabela 1. As fórmulas necessárias para proceder a essa análise são encontradas em livros de estatística, mas use um programa de computador.

Tabela 1 – Dados obtidos em quatro grupos

Tabela 2 – Análise de variância dos dados da Tabela 1

Os erros aleatórios e_ijtambém são desconhecidosporque são definidos em função das médias verdadeiras m₁, m₂, m₃ e m₄. Mas erros aleatórios podem ser estimados fazendo a diferença entre cada valor observado e a média do grupo ao qual o dado pertence:

As estimativas dos erros recebem o nome de resíduos (residuals). Veja a Tabela 3, que mostra os resíduos dos dados da Tabela 1. É a análise de resíduos que permite determinar se a análise de variância é aceitável.

Isto porque a análise de variância exige pressuposições sobre os erros. A partir dos resíduos, o pesquisador pode testar hipóteses sobre os erros.

Tabela 3 – Resíduos de dados apresentados na Tabela 1

Pressuposições sobre os erros para a análise de variância

1. Os erros devem ser independentes, ou seja, o erro de uma observação não pode estar correlacionado com o erro em outra observação. Isto significa que as unidades dentro de um mesmo grupo devem ser totalmente independentes uma das outras e nenhuma unidade deve estar em mais de um grupo.

2. Os erros devem ser de mesma grandeza, ou seja, não deve haver dados discrepantes (outliers). Dados discrepantes são aqueles que não seguem o padrão da grande maioria dos dados coletados (por exemplo, em um estudo com 100 pessoas com idade entre 23 a 28 anos, uma pessoa com 52 anos seria discrepante).

3. Os erros devem ter distribuição normal ou aproximadamente normal. Pequenas violações da normalidade são aceitáveis, desde que a distribuição não seja assimétrica.

4. É necessário haver homocedasticia, ou seja, erros dentro de cada grupo devem ter grandezas similares (mesma variância).

Veja também: http://www.itl.nist.gov/div898/handbook/ppc/section2/ppc231.htm