Wednesday, December 21, 2016

Teste de Levene

Uma análise de variância só deve ser conduzida se estiverem satisfeitas algumas exigências.
1.    Os grupos devem ser formados por unidades que proveem de populações com igual variância.
2.    As unidades devem ser independentes, tanto dentro do mesmo grupo como entre os diferentes grupos.
3.          As populações amostradas devem ter distribuição normal.
Vamos tratar aqui a questão de variâncias homogêneas ou, como preferem os estatísticos – da homocedasticia. Se os grupos tiverem o mesmo número de repetições, isto é, se r1 = r1 =…= rk, o analista pode pressupor variâncias iguais, a menos que uma das variâncias seja muito maior que as demais. Aliás, o uso de número igual2 de repetições e, de preferência, maior do que 10 por grupo1 é a melhor proteção contra os efeitos de variâncias desiguais ou, ou seja, da heterocedasticia. Se os grupos são similares, esta atitude será ainda mais defensável. E – em sendo uma pressuposição – o pesquisador não faz testes.

De qualquer forma, cumpre lembrar que transgressões à pressuposição de variâncias iguais têm importância em duas situações: 1) assimetria; 2) curtose positiva (maior do que 2). Se a distribuição for assimétrica, a variância tende a ser função da média, ou melhor, em geral a variância cresce quando a variável cresce. Se a curtose for positiva, o teste F não tem poder, ou seja, não rejeita a hipótese da nulidade, mesmo que essa hipótese seja incorreta. Esta é a situação mais grave de heterocedasticia. 

Mas hoje, graças à facilidade de uso programas de estatística, é comum que o analista teste a igualdade de variâncias, isto é, teste a hipótese:
     H0: s21= s22= s23=...= s2k                    (i=1, 2,… ,k)
contra a hipótese de que existe pelo menos uma variância diferente das demais.
Foram propostos diversos testes, embora nenhum deles tenha ampla recomendação. Provavelmente, hoje seja mais aplicado o teste de Levene, disponível em diversos programas de estatística para computador. Tambémsão conhecidos são os testes de Cochran, o teste de Hartley e o teste de Bartlett O teste de Bartlet, que também é bastante usado, tende a mascarar diferenças que existem quando a curtose é negativa e achar diferenças que não existem quando a curtose é positiva2.

Mas veja aqui como se faz o teste de Levene. De posse dos dados, calcule os resíduos:
Depois, faça uma análise de variância com um critério de classificação (one way layout) dos quadrados desses resíduos.
A lógica do teste de Levene é simples: quanto maiores são os quadrados dos resíduos, maiores são as variâncias. Então, se as variâncias são homogêneas, o resultado do teste F para comparar as médias dos quadrados dos resíduos será não significante.
Para entender o procedimento, veja os dados da Tabela 1. No rodapé dessa tabela, estão as médias dos grupos. Os quadrados dos resíduos estão na Tabela 2.
Tabela 1 - Dados segundo o grupo

Tabela 2 - Quadrados dos resíduos segundo o grupo

A análise de variância dos quadrados dos resíduos que estão na Tabela 2 resíduos está apresentada na Tabela 3 (saída do SAS). Como o valor de F é não significante, não se rejeita a hipótese de que as variâncias são homogêneas.

Tabela 3. Teste de Levene (saída do SAS)

                            
                
Existe outra forma de proceder ao teste de Levene. Calculam-se, como anteriormente, os resíduos da análise de variância. Depois se faz uma análise de variância com um critério de classificação dos valores absolutos dos resíduos. Veja o resultado dessa análise na Tabela 4. Este resultado é dado pelo SPSS.

Tabela 4. Teste de Levene (saída do SPSS)


 É importante notar que os resultados são diferentes, mas a conclusão é a mesma: o valor de F é não significante. Não se rejeita a hipótese de homogeneidade de variâncias.

Também é preciso considerar que há outras maneiras de proceder ao teste de Levene. Aqui se partiu dos resíduos, considerando a média aritmética, mas também é possível fazer o teste usando, por exemplo, a média aparada (trimmed mean)3.

De qualquer forma, transgressões moderadas da pressuposição de variâncias iguais têm pouca, ou nenhuma importância prática, a não ser que haja 1) assimetria ou 2) curtose positiva.

Se a distribuição for assimétrica, a variância tende a ser função da média, ou melhor, em geral a variância cresce quando a variável cresce. Para verificar se isto está acontecendo, desenhe um diagrama de dispersão das médias contra os desvios padrões e estude a correlação. Se a pressuposição de igualdade de variâncias for razoável, não deve existir correlação entre essas estatísticas.

Se a curtose for positiva, o teste F não tem poder, ou seja, não rejeita a hipótese da nulidade, mesmo que essa hipótese seja incorreta[1]. Esta é a situação mais grave de heterocedasticia.

Referências
1.      Dean, A. e Voss, D. Design and analysis of experiments. Springer, 1999.

2.      Scheffé, H. The analysis of variance. New York : Wiley, 1959.



1. 




Tuesday, December 13, 2016

Pressuposições para fazer uma ANOVA - um critério

         A análise de variância (ANOVA) tem a finalidade de testar se existem diferenças significantes entre as médias de três ou mais grupos ou categorias, desde que a variável em análise seja numérica ou intervalar. Logo, testa a hipótese:
                               H0: m 1= m 2= m 3=...= mk                  (i=1, 2,… ,k)
contra a hipótese de que existe pelo menos uma média de grupos ou categorias diferente das demais.
           Vamos considerar aqui apenas as análises de variância com um critério de classificação (one way layout anova), quando todos os grupos ou categorias têm o mesmo número de repetições.
             O valor observado na j-ésima (j= 1, 2,…,r) unidade do i-ésimo (i=1, 2,… ,k) grupo ou categoria é indicado por Yij. Esta variável é referida como dependente, porque seu valor depende da categoria ou grupo ao qual a unidade pertence. Os diversos grupos ou categorias configuram a variável independente.
          Para proceder à ANOVA com um critério de classificação, é preciso fazer algumas pressuposições. Não é fácil entender todas as pressuposições, mas esse assunto ainda será tratado em novas postagens. Por ora, convém observar o modelo de uma análise de variância (ANOVA) com um critério de classificação:
              Yij = mi + eij.                        i=1, 2,… ,k;  j= 1, 2, …,r
  O modelo indica que a resposta de uma unidade é dada pela média verdadeira de todas as respostas possíveis do grupo ou categoria (mi) acrescida da quantidade eij, que é o erro aleatório (random error).
 Ninguém conhece os parâmetros, que neste caso são as médias verdadeiras mi dos grupos. No entanto, o pesquisador faz observações exatamente para obter as estimativas  dessas médias. É com essas estimativas que o pesquisador procede à análise de variância, para testar a hipótese de igualdade das médias mi dos grupos.
Veja o exemplo apresentado na Tabela 1. As médias verdadeiras m1, m2, m3 e m4 dos grupos A, B, C e D são desconhecidas, mas os dados permitiram obter as estimativas dessas médias, que estão no rodapé da tabela. A Análise de variância dos dados apresentados na Tabela 1 é dada na Tabela 2. As fórmulas necessárias para proceder a essa análise são facilmente encontradas em livros de estatística, mas use um programa de computador.
Tabela 1 – Dados obtidos em quatro grupos

Tabela 2 – Análise de variância dos dados da Tabela 1
Os erros aleatórios eij também são desconhecidos porque são definidos em função das médias verdadeiras m1, m2, m3 e m4. Mas erros aleatórios podem ser estimados fazendo a diferença entre cada dado observado e a média do grupo ao qual o dado pertence:

          As estimativas dos erros recebem o nome de resíduos (residuals). Veja a Tabela 3. É o estudo dessas estimativas, ou seja, é a análise de resíduos que ajuda verificar se a análise de variância é aceitável. Isto porque a análise de variância exige algumas pressuposições sobre os erros aleatórios. A partir dos resíduos, o pesquisador pode testar hipóteses sobre os erros. Veja as próximas postagens.
Tabela 3 – Resíduos de dados apresentados na Tabela 1



Pressuposições para a análise de variância - um critério
1. Os erros devem ser independentes, ou seja, o erro de uma observação é não-correlacionado com o erro em outra observação. Isto significa que as unidades dentro de um mesmo grupo devem ser diferentes e nenhuma unidade deve estar em mais de um grupo. Esta é uma pressuposição importante da ANOVA com um critério de classificação. Se a pesquisa não atende a essa pressuposição, deve ser feito outro tipo de análise de variância.
2. Não deve haver dados discrepantes (outliers). Dados discrepantes são aqueles que não seguem o padrão da grande maioria dos dados coletados (por exemplo, em um estudo de 100 alunos de um curso em que a média de idade é 23 anos com pouca variação, o aluno que tiver 52 anos é discrepante. Os dados discrepantes podem reduzir a validade dos resultados de uma ANOVA com um critério de classificação.
3. Os erros devem ter distribuição normal ou aproximadamente normal para cada categoria da variável independente. No entanto, a ANOVA é bastante robusta a violações da normalidade, ou seja, mesmo que esta pressuposição não seja atendida completamente, os resultados ainda assim permanecem válidos. Mas é importante que a distribuição dos dados não seja assimétrica.
4. É necessário haver homocedasticia, ou seja, homogeneidade de variâncias. Se esta pressuposição for falha, é preciso proceder à análise dos dados de outra forma.

             Veja também:       http://www.itl.nist.gov/div898/handbook/ppc/section2/ppc231.htm