Sunday, November 27, 2016

Comparando médias: com que teste?

Quando se comparam k populações por uma ANOVA, são possíveis m = k(k-1)/2 comparações de pares de médias. Se as comparações não foram planejadas com antecedência (unplanned comparisons), ou seja, foram escolhidas depois de o pesquisador ter visto as médias amostrais, em geral é mais apropriado aplicar um teste que mantenha o nível de significância para experimentos e não apenas o nível de significância para a comparação de médias. 
·      Nível de significância para comparação de médias (comparisonwise Type I error rate-CER) é a probabilidade de cometer erro Tipo I quando se faz a comparação de duas médias (pairwise comparison) de um conjunto de k médias.
·         Nível de significância para experimentos (experimentwise Type I error rate ou familywise Type I error rate) é a probabilidade de cometer pelo menos um erro Tipo I quando são feitas m comparações de pares de médias de um conjunto de k médias.
É preciso distinguir ainda:
·   Nível de significância para experimentos sob a hipótese de nulidade completa (the experimentwise error rate under the complete null hypothesis - EERC) – nesse caso, por hipótese, são iguais todas as médias das populações em comparação. 
·    Nível de significância para experimentos sob a hipótese de nulidade parcial – nesse caso, são iguais algumas médias das populações em comparação, mas outras diferem.
Os testes que controlam o nível de significância para experimentos são ditos conservadores, porque rejeitam a hipótese de igualdade de médias com baixa probabilidade. Assim, se o nível de significância para experimentos for 5%, o nível de significância para comparação de médias será menor do que 5%. Esses testes têm, portanto, menor poder. Em contraposição, os testes que controlam o nível de significância para comparações de médias apontam significância com mais facilidade. Estes testes são liberais, porque rejeitam a hipótese da nulidade com mais facilidade. Mas têm grande poder, pois nível de significância e poder do teste crescem juntos. 

Winner (1962) listou os testes de comparação de médias, do mais liberal ao mais conservador, como segue: MRT de Duncan, Student-Newman-Keuls, LSD de Fisher, HSD de Tukey, S de Scheffé. Isto significa que, se você aplicar o teste de Duncan, muito provavelmente apontará mais diferenças significantes de médias do que se aplicar o teste de Scheffé. Mas estão disponíveis, nos programas de computador, vários outros testes. Em outras postagens trataremos o teste de Tukey-Kramer, que deve ser aplicado quando os grupos têm tamanhos diferentes e do REGWQ.
De qualquer modo, vamos mostrar resultados de testes de médias a um conjunto de dados fictícios já apresentados em postagens anteriores. Foi utilizado o programa SAS e duas exigências estão satisfeitas: a primeira, de igualdade de variâncias (foi aplicado o teste de Levene, que será tratado em próxima postagem) e a segunda, de igualdade de tamanhos de grupos, necessária para alguns dos testes. Os grupos foram aqui denominados 1; 2; 3; 4; 5; 6 (o controle), em lugar de A: B; C; D; E; Controle como feito anteriormente, para não confundir com as letra A, B , C, ...usadas no SAS para indicar  a decisão (rejeitar/não rejeitar H0).
Tabela 1. Diminuição da pressão arterial, em milímetros de mercúrio, segundo o grupo

Grupo
1
2
3
4
5
6
25
10
18
23
11
8
17
–2
8
29
23
–6
27
12
4
25
5
6
21
4
14
35
17
0
15
16
6
33
9
2


 Tabela 2. Análise de variância

Causas de variação
GL
SQ
QM
F
p-valor
Tratamentos
Resíduo
5
24
2354,17
864,00
470,83
36,00
7.8319
0,000
Total
29
3218,17




O teste de amplitudes múltiplas de Duncan (Duncan’s multiple range test-MRT) o teste de Student-Newman-Keuls fornecem diversos valores para a diferença crítica entre médias, dependendo de quão próximas estão essas médias. Compare as amplitudes críticas: o teste de Duncan é mais liberal, ou seja, mostra significância com maior facilidade.
            Tabela 3 – Amplitude crítica: testes de Duncan e SNK         
Amplitude crítica
Número de médias
2
3
4
5
6
Duncan
7,832
8,226
8,479
8,657
8,791
SNK
7,832
9,747
10,468
11,179
11,733
                                             Duncan's Multiple Range Test for y

                           NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

   
                                            Alpha                        0.05
                                            Error Degrees of Freedom       24
                                            Error Mean Square              36


                                                        Number of Means          2          3             4            5           6
                                                            Critical Range       7.832      8.226      8.479      8.657      8.791


                                   Means with the same letter are not significantly different.


                                                                Duncan Grouping        Mean      N    Grupo

                                                                                       A        29.000      5       4

                                                                                       B        21.000      5        1

                                                                                        C        13.000      5      5
                                                                         
                                                                                 D    C        10.000      5      3
                         
                                                                                 D    C         8.000      5      2
                              
                                                                                 D              2.000      5        6


                                             Student-Newman-Keuls Test for y
                     
                       NOTE: This test controls the Type I experimentwise error rate under the complete null
                       hypothesis but not under partial null hypotheses.



                                                              Alpha                        0.05
                                                              Error Degrees of Freedom       24
                                                              Error Mean Square                 36


                                     Number of Means        2          3             4             5              6
                                      Critical Range       7.832      9.477      10.468      11.179      11.733


                                        Means with the same letter are not significantly different.


                                                               SNK Grouping          Mean      N    Grupo

                                                                           A               29.000       5        4

                                                                           B               21.000      5        1

                                                                          C                13.000      5        5
                                  
                                                                    D    C               10.000      5         3
                                  
                                                                    D    C                8.000      5         2
                              
                                                                            D              2.000      5         6


Conforme foi discutido, existem diferenças entre os testes a posteriori (post hoc) e, evidentemente, entre os resultados obtidos por esses testes. Compare as diferenças mínimas significantes pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé. 
Conforme foi discutido, existem diferenças entre os testes a posteriori (post hoc) e, evidentemente, entre os resultados obtidos por esses testes. Compare as diferenças mínimas significantes pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé.
            Tabela 4 – Diferença crítica: testes LSD, HSD,S
Teste
Diferença crítica
LSD
7,832
HSD
11,733
S
13,736

                                                                       
                                                                                         t Tests (LSD) for y

                                NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.



                                                          Alpha                            0.05
                                                          Error Degrees of Freedom           24
                                                          Error Mean Square                  36
                                                          Critical Value of t           2.06390
                                                           Least Significant Difference   7.8319


                                                    Means with the same letter are not significantly different.


                                                                      t Grouping          Mean      N    Grupo

                                                                               A               29.000      5     4

                                                                               B                21.000      5    1

                                                                               C                13.000      5    5
                                   
                                                                               C                10.000      5    3
                                   
                                                                               D      C         8.000      5    2
                              
                                                                                  D              2.000      5    6

                                          Tukey's Studentized Range (HSD) Test for y

                    NOTE: This test controls the Type I experimentwise error rate, but it generally has a higherType II error rate than                                      REGWQ.
       
                     
                                                             Alpha                                               0.05
                                                             Error Degrees of Freedom                  24
                                                             Error Mean Square                            36
                                                             Critical Value of Studentized Ran ge  4.37265
                                                              Minimum Significant Difference        11.733


                                                           Means with the same letter are not significantly different.


                                                                Tukey Grouping          Mean      N    Grupo

                                                                                  A            29.000      5       4
                                   
                                                                                 B    A       21.000      5      1
                              
                                                                                 B    C        13.000      5      5
                              
                                                                                 B    C        10.000      5      3
                                   
                                                                                       C         8.000      5      2
                                   
                                                                                       C         2.000      5      6



                                                                                Scheffe's Test for y

                                                          NOTE: This test controls the Type I experimentwise error rate.


                                                                       Alpha                              0.05
                                                                       Error Degrees of Freedom             24
                                                                       Error Mean Square                    36
                                                                      Critical Value of F             2.62065
                                                                      Minimum Significant Difference   13.736


                                                              Means with the same letter are not significantly different.


                                                                        Scheffe Grouping          Mean      N    Grupo

                                                                                                 A        29.000      5      4
                                   
                                                                                           B    A        21.000      5      1
                              
                                                                                           B    C        13.000      5      5
                              
                                                                                           B    C        10.000      5     3
                      
                                                                                           B    C         8.000      5     2
                               
                                                                                                   C         2.000      5    6



São recomendações de:
https://support.sas.com/.../cdl/.../statug_glm
1.       Você pode usar o teste LSD não-protegido de Fisher, se estiver interessado em várias comparações individuais e não estiver preocupado com os efeitos das múltiplas inferências.
2.       Se você estiver interessado em todas as comparações de médias duas a duas (pairwise comparisons), use o teste de Tukey.
3.        Para comparações de grupos tratados com um controle, você deve usar o teste de Dunnett.
4.       Se suas exigências inferenciais não forem grandes e, em particular, se você não quiser intervalos de confiança para as diferenças de médias, use o método REGWQ.

Algumas considerações (pessoais) 

Imagine um ensaio com mais de dois grupos (se o número de grupos for dois, os testes darão o mesmo resultado) cujos resultados foram submetidos a uma análise de variância com um critério de classificação, ao nível de significância de 5%.

Se o pesquisador pretende fazer comparações não planejadas de médias (unplanned comparisons), tem um leque de opções. Se aplicar o teste de Tukey ou o teste de Dunnett, o nível de significância para experimentos será de 5%, mas o nível de significância para as comparações de médias será menor do que 5%.

Se aplicar o teste LSD de Fisher (sem restrições), o teste de Duncan ou o teste de Newman Keuls, o nível de significância para comparações de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior ou muito maior (dependendo do número de tratamentos) do que 5%. Em compensação, o poder do teste (probabilidade de rejeitar H0 dado que essa hipótese é falsa) também será maior.

Portanto, se o pesquisador quiser segurança para rejeitar a hipótese de que as médias são iguais, ou seja, quiser ter baixa probabilidade de errar nessa decisão, deve optar pelo teste de Tukey ou pelo teste de Dunnett (ou mesmo pelo LSD de Fisher, desde que para comparações planejadas). Esses testes são conservadores (têm baixa probabilidade de rejeitar H0)

No entanto, se o pesquisador quiser ter alta probabilidade de rejeitar a hipótese de que as médias são iguais, deve optar pelo teste LSD de Fisher ou pelo teste de Duncan. Estes dois testes têm características similares, mas o teste LSD de Fisher é mais antigo e, talvez por isso, mais conhecido. Também é de aplicação mais fácil. Lembre-se de que  esses testes têm poder (probabilidade de rejeitar H0 dado que essa hipótese é falsa). Mas o pesquisador também poderia optar por aplicar o teste de Tukey ou de Dunnett, com nível de significância mais elevado. Estes testes teriam, então, poder maior. Por exemplo, o teste de Tukey a 10% tem mais poder do que o teste de Tukey a 5%.

A necessidade de aplicar um teste que só rejeite a hipótese de que as médias são iguais com muita confiança pode ocorrer quando se comparam novas drogas terapêuticas com uma droga conhecida. Toda droga tem efeitos colaterais. Então, muitas vezes só é razoável indicar uma nova droga – de efeitos colaterais desconhecidos – quando existem indicações seguras de que essa nova droga é melhor do que a convencional.

Nos experimentos de competições de marcas ou de variedades, ao contrário, muitas vezes é preciso um teste com grande poder. Isto porque, nesses casos, o importante a alta probabilidade de discriminação. O erro de rejeitar a hipótese de que duas marcas ou duas variedades têm a mesma média – quando isso é verdade – tem importância menor.

Finalmente, é bom lembrar que o teste de Scheffé tem excelentes propriedades matemáticas, mas é excessivamente conservador. Já o teste de Bonferoni é indicado apenas quando o número pequeno de comparações de médias, pois se torna conservador quando o número de médias em comparação cresce.

De qualquer forma, fica aqui um alerta: todos os procedimentos para a comparação de média têm vantagens e desvantagens. Ainda não existe um teste definitivamente “melhor” que todos os outros. Os procedimentos para a comparação de médias não são exatos. Mas é preciso adotar um procedimento formal para proceder à comparação de médias. Isto evita que as conclusões fiquem totalmente dependentes da opinião do pesquisador. Mesmo assim, existe uma grande margem de opção tanto na escolha do teste, como no estabelecimento do nível de significância.


Veja também:
1.Post Hoc Tests in ANOVA   http://pages.uoregon.edu/stevensj/posthoc.pdf
www-stat.wharton.upenn.edu/~dsmall/.../lecture/lecture13.ppt