Wednesday, December 21, 2016

Teste de Levene

Uma análise de variância só deve ser conduzida se estiverem satisfeitas algumas exigências.
1.    Os grupos devem ser formados por unidades que proveem de populações com igual variância.
2.    As unidades devem ser independentes, tanto dentro do mesmo grupo como entre os diferentes grupos.
3.          As populações amostradas devem ter distribuição normal.
Vamos tratar aqui a questão de variâncias homogêneas ou, como preferem os estatísticos – da homocedasticia. Se os grupos tiverem o mesmo número de repetições, isto é, se r1 = r1 =…= rk, o analista pode pressupor variâncias iguais, a menos que uma das variâncias seja muito maior que as demais. Aliás, o uso de número igual2 de repetições e, de preferência, maior do que 10 por grupo1 é a melhor proteção contra os efeitos de variâncias desiguais ou, ou seja, da heterocedasticia. Se os grupos são similares, esta atitude será ainda mais defensável. E – em sendo uma pressuposição – o pesquisador não faz testes.

De qualquer forma, cumpre lembrar que transgressões à pressuposição de variâncias iguais têm importância em duas situações: 1) assimetria; 2) curtose positiva (maior do que 2). Se a distribuição for assimétrica, a variância tende a ser função da média, ou melhor, em geral a variância cresce quando a variável cresce. Se a curtose for positiva, o teste F não tem poder, ou seja, não rejeita a hipótese da nulidade, mesmo que essa hipótese seja incorreta. Esta é a situação mais grave de heterocedasticia. 

Mas hoje, graças à facilidade de uso programas de estatística, é comum que o analista teste a igualdade de variâncias, isto é, teste a hipótese:
     H0: s21= s22= s23=...= s2k                    (i=1, 2,… ,k)
contra a hipótese de que existe pelo menos uma variância diferente das demais.
Foram propostos diversos testes, embora nenhum deles tenha ampla recomendação. Provavelmente, hoje seja mais aplicado o teste de Levene, disponível em diversos programas de estatística para computador. Tambémsão conhecidos são os testes de Cochran, o teste de Hartley e o teste de Bartlett O teste de Bartlet, que também é bastante usado, tende a mascarar diferenças que existem quando a curtose é negativa e achar diferenças que não existem quando a curtose é positiva2.

Mas veja aqui como se faz o teste de Levene. De posse dos dados, calcule os resíduos:
Depois, faça uma análise de variância com um critério de classificação (one way layout) dos quadrados desses resíduos.
A lógica do teste de Levene é simples: quanto maiores são os quadrados dos resíduos, maiores são as variâncias. Então, se as variâncias são homogêneas, o resultado do teste F para comparar as médias dos quadrados dos resíduos será não significante.
Para entender o procedimento, veja os dados da Tabela 1. No rodapé dessa tabela, estão as médias dos grupos. Os quadrados dos resíduos estão na Tabela 2.
Tabela 1 - Dados segundo o grupo

Tabela 2 - Quadrados dos resíduos segundo o grupo

A análise de variância dos quadrados dos resíduos que estão na Tabela 2 resíduos está apresentada na Tabela 3 (saída do SAS). Como o valor de F é não significante, não se rejeita a hipótese de que as variâncias são homogêneas.

Tabela 3. Teste de Levene (saída do SAS)

                            
                
Existe outra forma de proceder ao teste de Levene. Calculam-se, como anteriormente, os resíduos da análise de variância. Depois se faz uma análise de variância com um critério de classificação dos valores absolutos dos resíduos. Veja o resultado dessa análise na Tabela 4. Este resultado é dado pelo SPSS.

Tabela 4. Teste de Levene (saída do SPSS)


 É importante notar que os resultados são diferentes, mas a conclusão é a mesma: o valor de F é não significante. Não se rejeita a hipótese de homogeneidade de variâncias.

Também é preciso considerar que há outras maneiras de proceder ao teste de Levene. Aqui se partiu dos resíduos, considerando a média aritmética, mas também é possível fazer o teste usando, por exemplo, a média aparada (trimmed mean)3.

De qualquer forma, transgressões moderadas da pressuposição de variâncias iguais têm pouca, ou nenhuma importância prática, a não ser que haja 1) assimetria ou 2) curtose positiva.

Se a distribuição for assimétrica, a variância tende a ser função da média, ou melhor, em geral a variância cresce quando a variável cresce. Para verificar se isto está acontecendo, desenhe um diagrama de dispersão das médias contra os desvios padrões e estude a correlação. Se a pressuposição de igualdade de variâncias for razoável, não deve existir correlação entre essas estatísticas.

Se a curtose for positiva, o teste F não tem poder, ou seja, não rejeita a hipótese da nulidade, mesmo que essa hipótese seja incorreta[1]. Esta é a situação mais grave de heterocedasticia.

Referências
1.      Dean, A. e Voss, D. Design and analysis of experiments. Springer, 1999.

2.      Scheffé, H. The analysis of variance. New York : Wiley, 1959.



1. 




Tuesday, December 13, 2016

Pressuposições para fazer uma ANOVA - um critério

       
         Yij = mi + eij           i=1, 2,… ,k;  j= 1, 2, …, r

  A análise de variância (ANOVA) tem a finalidade de testar se existem diferenças significantes entre as médias de três ou mais grupos, desde que a variável em análise seja quantitativa. Logo, testa a hipótese:

             H0: m1m2m3=...=mk             (i=1, 2,… ,k)

contra a hipótese de que existe pelo menos uma média de grupos  diferente das demais.

        Vamos considerar aqui apenas as análises de variância com um critério de classificação (one way layout anova), quando todos os grupos têm o mesmo número de repetições.

         O valor observado na j-ésima (j = 1, 2,…,r) unidade do i-ésimo (= 1, 2,… ,k) grupo é indicado por Yij. Esta é  a variável dependente, porque seu valor depende do   grupo ao qual a unidade pertence. Grupos são a variável independente.

         Então, o modelo de uma análise de variância (ANOVA) com um critério de classificação é escrito como segue:

              Yijmieij           i=1, 2,… ,k;  j= 1, 2, …, r

  A resposta de uma unidade (Yijé dada pela média verdadeira de todas as respostas possíveis do grupo ao qual pertence (mi), acrescida da quantidade eij, que é um erro aleatório (random error).
 
Ninguém conhece os parâmetros que ,neste caso, são as médias verdadeiras mi dos grupos. O pesquisador faz um experimento exatamente para obter as estimativas  dessas médias. E é com essas estimativas que o pesquisador procede à análise de variância, para testar a hipótese de igualdade das médias mi dos grupos.

EXEMPLO

Veja os dados apresentados na Tabela 1. As médias verdadeiras m1m2m3m4 dos grupos A, B, C e D são desconhecidas. No entanto, os dados obtidos pelo pesquisador permitem obter as respectivas estimativas, que estão no rodapé da tabela.

 A Tabela 2 apresenta a análise de variância dos dados da Tabela 1. As fórmulas necessárias para proceder a essa análise são  encontradas em livros de estatística, mas use um programa de computador.

Tabela 1 – Dados obtidos em quatro grupos

Tabela 2 – Análise de variância dos dados da Tabela 1

Os erros aleatórios eij também são desconhecidos porque são definidos em função das médias verdadeiras m1m2m3m4. Mas erros aleatórios podem ser estimados fazendo a diferença entre cada valor observado e a média do grupo ao qual o dado pertence:

       As estimativas dos erros recebem o nome de resíduos (residuals). Veja a Tabela 3, que mostra os resíduos dos dados da Tabela 1. É a análise de resíduos que permite determinar se a análise de variância é aceitável. 
    Isto porque a análise de variância exige  pressuposições sobre os erros. A partir dos resíduos, o pesquisador pode testar hipóteses sobre os erros. 

Tabela 3 – Resíduos de dados apresentados na Tabela 1


Pressuposições sobre os erros para a análise de variância 

1. Os erros devem ser independentes, ou seja, o erro de uma observação não pode estar correlacionado com o erro em outra observação. Isto significa que as unidades dentro de um mesmo grupo devem ser totalmente independentes uma das outras e nenhuma unidade deve estar em mais de um grupo. 

2. Os erros devem ser de mesma grandeza, ou seja, não deve haver dados discrepantes (outliers). Dados discrepantes são aqueles que não seguem o padrão da grande maioria dos dados coletados (por exemplo, em um estudo com 100 pessoas com idade entre 23 a 28 anos, uma pessoa com 52 anos seria discrepante). 

3. Os erros devem ter distribuição normal ou aproximadamente normal. Pequenas violações da normalidade são aceitáveis, desde que  a distribuição não seja assimétrica.

4. É necessário haver homocedasticia, ou seja, erros dentro de cada grupo devem ter grandezas similares (mesma variância). 

             Veja também:       http://www.itl.nist.gov/div898/handbook/ppc/section2/ppc231.htm




Sunday, November 27, 2016

Comparando médias: com que teste?

Quando se comparam k populações por uma ANOVA, são possíveis m = k(k-1)/2 comparações de pares de médias. Se as comparações não foram planejadas com antecedência (unplanned comparisons), ou seja, foram escolhidas depois de o pesquisador ter visto as médias amostrais, em geral é mais apropriado aplicar um teste que mantenha o nível de significância para experimentos e não apenas o nível de significância para a comparação de médias. 
·      Nível de significância para comparação de médias (comparisonwise Type I error rate-CER) é a probabilidade de cometer erro Tipo I quando se faz a comparação de duas médias (pairwise comparison) de um conjunto de k médias.
·         Nível de significância para experimentos (experimentwise Type I error rate ou familywise Type I error rate) é a probabilidade de cometer pelo menos um erro Tipo I quando são feitas m comparações de pares de médias de um conjunto de k médias.
É preciso distinguir ainda:
·   Nível de significância para experimentos sob a hipótese de nulidade completa (the experimentwise error rate under the complete null hypothesis - EERC) – nesse caso, por hipótese, são iguais todas as médias das populações em comparação. 
·    Nível de significância para experimentos sob a hipótese de nulidade parcial – nesse caso, são iguais algumas médias das populações em comparação, mas outras diferem.
Os testes que controlam o nível de significância para experimentos são ditos conservadores, porque rejeitam a hipótese de igualdade de médias com baixa probabilidade. Assim, se o nível de significância para experimentos for 5%, o nível de significância para comparação de médias será menor do que 5%. Esses testes têm, portanto, menor poder. Em contraposição, os testes que controlam o nível de significância para comparações de médias apontam significância com mais facilidade. Estes testes são liberais, porque rejeitam a hipótese da nulidade com mais facilidade. Mas têm grande poder, pois nível de significância e poder do teste crescem juntos. 

Winner (1962) listou os testes de comparação de médias, do mais liberal ao mais conservador, como segue: MRT de Duncan, Student-Newman-Keuls, LSD de Fisher, HSD de Tukey, S de Scheffé. Isto significa que, se você aplicar o teste de Duncan, muito provavelmente apontará mais diferenças significantes de médias do que se aplicar o teste de Scheffé. Mas estão disponíveis, nos programas de computador, vários outros testes. Em outras postagens trataremos o teste de Tukey-Kramer, que deve ser aplicado quando os grupos têm tamanhos diferentes e do REGWQ.
De qualquer modo, vamos mostrar resultados de testes de médias a um conjunto de dados fictícios já apresentados em postagens anteriores. Foi utilizado o programa SAS e duas exigências estão satisfeitas: a primeira, de igualdade de variâncias (foi aplicado o teste de Levene, que será tratado em próxima postagem) e a segunda, de igualdade de tamanhos de grupos, necessária para alguns dos testes. Os grupos foram aqui denominados 1; 2; 3; 4; 5; 6 (o controle), em lugar de A: B; C; D; E; Controle como feito anteriormente, para não confundir com as letra A, B , C, ...usadas no SAS para indicar  a decisão (rejeitar/não rejeitar H0).
Tabela 1. Diminuição da pressão arterial, em milímetros de mercúrio, segundo o grupo

Grupo
1
2
3
4
5
6
25
10
18
23
11
8
17
–2
8
29
23
–6
27
12
4
25
5
6
21
4
14
35
17
0
15
16
6
33
9
2


 Tabela 2. Análise de variância

Causas de variação
GL
SQ
QM
F
p-valor
Tratamentos
Resíduo
5
24
2354,17
864,00
470,83
36,00
7.8319
0,000
Total
29
3218,17




O teste de amplitudes múltiplas de Duncan (Duncan’s multiple range test-MRT) o teste de Student-Newman-Keuls fornecem diversos valores para a diferença crítica entre médias, dependendo de quão próximas estão essas médias. Compare as amplitudes críticas: o teste de Duncan é mais liberal, ou seja, mostra significância com maior facilidade.
            Tabela 3 – Amplitude crítica: testes de Duncan e SNK         
Amplitude crítica
Número de médias
2
3
4
5
6
Duncan
7,832
8,226
8,479
8,657
8,791
SNK
7,832
9,747
10,468
11,179
11,733
                                             Duncan's Multiple Range Test for y

                           NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

   
                                            Alpha                        0.05
                                            Error Degrees of Freedom       24
                                            Error Mean Square              36


                                                        Number of Means          2          3             4            5           6
                                                            Critical Range       7.832      8.226      8.479      8.657      8.791


                                   Means with the same letter are not significantly different.


                                                                Duncan Grouping        Mean      N    Grupo

                                                                                       A        29.000      5       4

                                                                                       B        21.000      5        1

                                                                                        C        13.000      5      5
                                                                         
                                                                                 D    C        10.000      5      3
                         
                                                                                 D    C         8.000      5      2
                              
                                                                                 D              2.000      5        6


                                             Student-Newman-Keuls Test for y
                     
                       NOTE: This test controls the Type I experimentwise error rate under the complete null
                       hypothesis but not under partial null hypotheses.



                                                              Alpha                        0.05
                                                              Error Degrees of Freedom       24
                                                              Error Mean Square                 36


                                     Number of Means        2          3             4             5              6
                                      Critical Range       7.832      9.477      10.468      11.179      11.733


                                        Means with the same letter are not significantly different.


                                                               SNK Grouping          Mean      N    Grupo

                                                                           A               29.000       5        4

                                                                           B               21.000      5        1

                                                                          C                13.000      5        5
                                  
                                                                    D    C               10.000      5         3
                                  
                                                                    D    C                8.000      5         2
                              
                                                                            D              2.000      5         6


Conforme foi discutido, existem diferenças entre os testes a posteriori (post hoc) e, evidentemente, entre os resultados obtidos por esses testes. Compare as diferenças mínimas significantes pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé. 
Conforme foi discutido, existem diferenças entre os testes a posteriori (post hoc) e, evidentemente, entre os resultados obtidos por esses testes. Compare as diferenças mínimas significantes pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé.
            Tabela 4 – Diferença crítica: testes LSD, HSD,S
Teste
Diferença crítica
LSD
7,832
HSD
11,733
S
13,736

                                                                       
                                                                                         t Tests (LSD) for y

                                NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.



                                                          Alpha                            0.05
                                                          Error Degrees of Freedom           24
                                                          Error Mean Square                  36
                                                          Critical Value of t           2.06390
                                                           Least Significant Difference   7.8319


                                                    Means with the same letter are not significantly different.


                                                                      t Grouping          Mean      N    Grupo

                                                                               A               29.000      5     4

                                                                               B                21.000      5    1

                                                                               C                13.000      5    5
                                   
                                                                               C                10.000      5    3
                                   
                                                                               D      C         8.000      5    2
                              
                                                                                  D              2.000      5    6

                                          Tukey's Studentized Range (HSD) Test for y

                    NOTE: This test controls the Type I experimentwise error rate, but it generally has a higherType II error rate than                                      REGWQ.
       
                     
                                                             Alpha                                               0.05
                                                             Error Degrees of Freedom                  24
                                                             Error Mean Square                            36
                                                             Critical Value of Studentized Ran ge  4.37265
                                                              Minimum Significant Difference        11.733


                                                           Means with the same letter are not significantly different.


                                                                Tukey Grouping          Mean      N    Grupo

                                                                                  A            29.000      5       4
                                   
                                                                                 B    A       21.000      5      1
                              
                                                                                 B    C        13.000      5      5
                              
                                                                                 B    C        10.000      5      3
                                   
                                                                                       C         8.000      5      2
                                   
                                                                                       C         2.000      5      6



                                                                                Scheffe's Test for y

                                                          NOTE: This test controls the Type I experimentwise error rate.


                                                                       Alpha                              0.05
                                                                       Error Degrees of Freedom             24
                                                                       Error Mean Square                    36
                                                                      Critical Value of F             2.62065
                                                                      Minimum Significant Difference   13.736


                                                              Means with the same letter are not significantly different.


                                                                        Scheffe Grouping          Mean      N    Grupo

                                                                                                 A        29.000      5      4
                                   
                                                                                           B    A        21.000      5      1
                              
                                                                                           B    C        13.000      5      5
                              
                                                                                           B    C        10.000      5     3
                      
                                                                                           B    C         8.000      5     2
                               
                                                                                                   C         2.000      5    6



São recomendações de:
https://support.sas.com/.../cdl/.../statug_glm
1.       Você pode usar o teste LSD não-protegido de Fisher, se estiver interessado em várias comparações individuais e não estiver preocupado com os efeitos das múltiplas inferências.
2.       Se você estiver interessado em todas as comparações de médias duas a duas (pairwise comparisons), use o teste de Tukey.
3.        Para comparações de grupos tratados com um controle, você deve usar o teste de Dunnett.
4.       Se suas exigências inferenciais não forem grandes e, em particular, se você não quiser intervalos de confiança para as diferenças de médias, use o método REGWQ.

Algumas considerações (pessoais) 

Imagine um ensaio com mais de dois grupos (se o número de grupos for dois, os testes darão o mesmo resultado) cujos resultados foram submetidos a uma análise de variância com um critério de classificação, ao nível de significância de 5%.

Se o pesquisador pretende fazer comparações não planejadas de médias (unplanned comparisons), tem um leque de opções. Se aplicar o teste de Tukey ou o teste de Dunnett, o nível de significância para experimentos será de 5%, mas o nível de significância para as comparações de médias será menor do que 5%.

Se aplicar o teste LSD de Fisher (sem restrições), o teste de Duncan ou o teste de Newman Keuls, o nível de significância para comparações de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior ou muito maior (dependendo do número de tratamentos) do que 5%. Em compensação, o poder do teste (probabilidade de rejeitar H0 dado que essa hipótese é falsa) também será maior.

Portanto, se o pesquisador quiser segurança para rejeitar a hipótese de que as médias são iguais, ou seja, quiser ter baixa probabilidade de errar nessa decisão, deve optar pelo teste de Tukey ou pelo teste de Dunnett (ou mesmo pelo LSD de Fisher, desde que para comparações planejadas). Esses testes são conservadores (têm baixa probabilidade de rejeitar H0)

No entanto, se o pesquisador quiser ter alta probabilidade de rejeitar a hipótese de que as médias são iguais, deve optar pelo teste LSD de Fisher ou pelo teste de Duncan. Estes dois testes têm características similares, mas o teste LSD de Fisher é mais antigo e, talvez por isso, mais conhecido. Também é de aplicação mais fácil. Lembre-se de que  esses testes têm poder (probabilidade de rejeitar H0 dado que essa hipótese é falsa). Mas o pesquisador também poderia optar por aplicar o teste de Tukey ou de Dunnett, com nível de significância mais elevado. Estes testes teriam, então, poder maior. Por exemplo, o teste de Tukey a 10% tem mais poder do que o teste de Tukey a 5%.

A necessidade de aplicar um teste que só rejeite a hipótese de que as médias são iguais com muita confiança pode ocorrer quando se comparam novas drogas terapêuticas com uma droga conhecida. Toda droga tem efeitos colaterais. Então, muitas vezes só é razoável indicar uma nova droga – de efeitos colaterais desconhecidos – quando existem indicações seguras de que essa nova droga é melhor do que a convencional.

Nos experimentos de competições de marcas ou de variedades, ao contrário, muitas vezes é preciso um teste com grande poder. Isto porque, nesses casos, o importante a alta probabilidade de discriminação. O erro de rejeitar a hipótese de que duas marcas ou duas variedades têm a mesma média – quando isso é verdade – tem importância menor.

Finalmente, é bom lembrar que o teste de Scheffé tem excelentes propriedades matemáticas, mas é excessivamente conservador. Já o teste de Bonferoni é indicado apenas quando o número pequeno de comparações de médias, pois se torna conservador quando o número de médias em comparação cresce.

De qualquer forma, fica aqui um alerta: todos os procedimentos para a comparação de média têm vantagens e desvantagens. Ainda não existe um teste definitivamente “melhor” que todos os outros. Os procedimentos para a comparação de médias não são exatos. Mas é preciso adotar um procedimento formal para proceder à comparação de médias. Isto evita que as conclusões fiquem totalmente dependentes da opinião do pesquisador. Mesmo assim, existe uma grande margem de opção tanto na escolha do teste, como no estabelecimento do nível de significância.


Veja também:
1.Post Hoc Tests in ANOVA   http://pages.uoregon.edu/stevensj/posthoc.pdf
www-stat.wharton.upenn.edu/~dsmall/.../lecture/lecture13.ppt