Quando se comparam k populações por uma ANOVA, são
possíveis m = k(k-1)/2 comparações de pares de médias.
Se as comparações não foram planejadas com antecedência (unplanned comparisons), ou seja, foram escolhidas depois de o
pesquisador ter visto as médias amostrais, em geral é mais apropriado aplicar
um teste que mantenha o nível de significância para experimentos e não apenas o nível de
significância para a comparação de médias.
· Nível de
significância para comparação de médias (comparisonwise Type I error rate-CER) é
a probabilidade de cometer erro Tipo I quando se faz a comparação de duas
médias (pairwise comparison) de um
conjunto de k médias.
·
Nível de
significância para experimentos (experimentwise Type I error rate ou familywise Type I error rate) é
a probabilidade de cometer pelo menos um erro Tipo I quando são feitas m comparações de pares de médias de um
conjunto de k médias.
É preciso distinguir ainda:
· Nível de
significância para experimentos sob a hipótese de nulidade completa (the experimentwise error rate under the complete
null hypothesis - EERC) – nesse caso, por hipótese, são iguais todas
as médias das populações em comparação.
· Nível de significância
para experimentos sob a hipótese de nulidade parcial – nesse caso, são iguais algumas médias das
populações em comparação, mas outras diferem.
Os
testes que controlam o nível de significância para experimentos são ditos conservadores, porque rejeitam a hipótese de igualdade de
médias com baixa probabilidade. Assim, se o nível de significância para
experimentos for 5%, o nível de significância para comparação de médias será
menor do que 5%. Esses testes têm, portanto, menor poder. Em contraposição, os testes que
controlam o nível de significância para comparações de médias apontam
significância com mais facilidade. Estes testes são liberais, porque rejeitam a hipótese da nulidade com
mais facilidade. Mas têm grande poder, pois nível de significância e
poder do teste crescem juntos.
Winner (1962) listou os testes
de comparação de médias, do mais liberal ao mais conservador, como segue: MRT de Duncan, Student-Newman-Keuls, LSD de Fisher, HSD de Tukey, S de Scheffé. Isto significa que, se
você aplicar o teste de Duncan, muito provavelmente apontará mais diferenças
significantes de médias do que se aplicar o teste de Scheffé. Mas estão
disponíveis, nos programas de computador, vários outros testes. Em outras
postagens trataremos o teste de Tukey-Kramer, que deve ser aplicado quando os grupos têm tamanhos diferentes e do REGWQ.
De
qualquer modo, vamos mostrar resultados de testes de médias a um conjunto de
dados fictícios já apresentados em postagens anteriores. Foi utilizado o
programa SAS e duas exigências estão satisfeitas: a primeira, de igualdade de
variâncias (foi aplicado o teste de Levene, que será tratado em próxima
postagem) e a segunda, de igualdade de tamanhos de grupos, necessária para alguns
dos testes. Os grupos foram aqui denominados 1; 2; 3; 4; 5; 6 (o controle), em
lugar de A: B; C; D; E; Controle como feito anteriormente, para não confundir
com as letra A, B , C, ...usadas no SAS para indicar a decisão (rejeitar/não rejeitar H0).
Tabela 1. Diminuição da pressão
arterial, em milímetros de mercúrio, segundo o grupo
|
|
|
Grupo
|
|
|
1
|
2
|
3
|
4
|
5
|
6
|
25
|
10
|
18
|
23
|
11
|
8
|
17
|
–2
|
8
|
29
|
23
|
–6
|
27
|
12
|
4
|
25
|
5
|
6
|
21
|
4
|
14
|
35
|
17
|
0
|
15
|
16
|
6
|
33
|
9
|
2
|
Tabela 2. Análise
de variância
Causas
de variação
|
GL
|
SQ
|
QM
|
F
|
p-valor
|
Tratamentos
Resíduo
|
5
24
|
2354,17
864,00
|
470,83
36,00
|
7.8319
|
0,000
|
Total
|
29
|
3218,17
|
|
|
|
O teste de amplitudes
múltiplas de Duncan (Duncan’s multiple
range test-MRT) o teste de Student-Newman-Keuls fornecem diversos valores
para a diferença crítica entre médias, dependendo de quão próximas estão essas
médias. Compare as amplitudes críticas: o teste de Duncan é mais liberal, ou
seja, mostra significância com maior facilidade.
Tabela 3 – Amplitude crítica: testes
de Duncan e SNK
Amplitude
crítica
|
Número
de médias
|
2
|
3
|
4
|
5
|
6
|
Duncan
|
7,832
|
8,226
|
8,479
|
8,657
|
8,791
|
SNK
|
7,832
|
9,747
|
10,468
|
11,179
|
11,733
|
Duncan's
Multiple Range Test for y
NOTE: This test controls the Type I
comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of
Freedom 24
Error Mean
Square 36
Number of Means 2 3 4 5 6
Critical Range 7.832 8.226
8.479 8.657 8.791
Means with the same letter are not significantly different.
Duncan Grouping Mean N
Grupo
A 29.000 5 4
B 21.000 5 1
C 13.000 5 5
D
C 10.000 5 3
D
C 8.000 5 2
D 2.000 5 6
Student-Newman-Keuls Test for
y
NOTE: This test controls the Type I
experimentwise error rate under the complete null
hypothesis but not under
partial null hypotheses.
Alpha 0.05
Error Degrees of
Freedom 24
Error Mean
Square 36
Number of Means 2
3 4
5 6
Critical Range 7.832 9.477
10.468 11.179 11.733
Means with the same letter are not significantly different.
SNK Grouping Mean N
Grupo
A 29.000 5 4
B 21.000 5 1
C 13.000 5 5
D
C 10.000 5 3
D
C 8.000 5 2
D 2.000 5 6
Conforme foi discutido, existem
diferenças entre os testes a posteriori (post hoc) e, evidentemente, entre os
resultados obtidos por esses testes. Compare as diferenças mínimas
significantes pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé.
Conforme foi discutido, existem
diferenças entre os testes a posteriori (post hoc) e, evidentemente, entre os
resultados obtidos por esses testes. Compare as diferenças mínimas
significantes pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé.
Tabela 4 – Diferença crítica: testes
LSD, HSD,S
Teste
|
Diferença
crítica
|
LSD
|
7,832
|
HSD
|
11,733
|
S
|
13,736
|
t Tests (LSD) for y
NOTE: This test controls the Type I
comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of
Freedom 24
Error Mean
Square 36
Critical Value of
t 2.06390
Least Significant
Difference 7.8319
Means with the same letter are not significantly different.
t Grouping Mean N Grupo
A 29.000 5 4
B 21.000 5 1
C 13.000 5
5
C 10.000 5
3
D C 8.000 5
2
D 2.000 5
6
Tukey's Studentized Range (HSD)
Test for y
NOTE:
This test controls the Type I experimentwise error rate, but it generally has a
higherType II error rate than REGWQ.
Alpha 0.05
Error Degrees of
Freedom 24
Error Mean
Square 36
Critical Value of
Studentized Ran ge 4.37265
Minimum Significant
Difference 11.733
Means with the same letter are not significantly different.
Tukey Grouping Mean N
Grupo
A 29.000 5 4
B A 21.000 5
1
B
C 13.000 5
5
B
C 10.000 5
3
C 8.000 5
2
C 2.000 5
6
Scheffe's Test for y
NOTE: This test controls the Type I experimentwise error rate.
Alpha 0.05
Error Degrees of
Freedom 24
Error Mean
Square 36
Critical Value of F 2.62065
Minimum Significant
Difference 13.736
Means with the same letter are not significantly different.
Scheffe Grouping
Mean N Grupo
A 29.000 5 4
B A
21.000 5 1
B C 13.000 5 5
B
C 10.000 5 3
B
C 8.000 5 2
C 2.000 5
6
São recomendações de:
https://support.sas.com/.../cdl/.../statug_glm
1.
Você pode usar o teste LSD não-protegido de
Fisher, se estiver interessado em várias comparações individuais e não estiver
preocupado com os efeitos das múltiplas inferências.
2.
Se você estiver interessado em todas as
comparações de médias duas a duas (pairwise comparisons), use o teste de Tukey.
3.
Para comparações
de grupos tratados com um controle, você deve usar o teste de Dunnett.
4.
Se suas exigências inferenciais não forem
grandes e, em particular, se você não quiser intervalos de confiança para as
diferenças de médias, use o método REGWQ.
Algumas considerações (pessoais)
Imagine um ensaio com mais de
dois grupos (se o número de grupos for dois, os testes darão o mesmo resultado)
cujos resultados foram submetidos a uma análise de variância com um critério de
classificação, ao nível de significância de 5%.
Se o pesquisador pretende fazer
comparações não
planejadas de médias (unplanned
comparisons), tem um leque de
opções. Se aplicar o teste de Tukey ou o teste de Dunnett, o nível
de significância para experimentos será de 5%, mas o nível
de significância para as comparações de médias será menor do que 5%.
Se aplicar o teste LSD de
Fisher (sem restrições), o teste de Duncan ou o teste de Newman Keuls, o nível
de significância para comparações de médias será de aproximadamente
5%, mas o nível de significância para experimentos será maior ou muito
maior (dependendo do número de tratamentos) do que 5%. Em compensação, o poder do teste (probabilidade de
rejeitar H0 dado que essa hipótese é falsa) também será maior.
Portanto, se o pesquisador quiser
segurança para rejeitar a hipótese de
que as médias são iguais, ou seja, quiser ter baixa probabilidade de errar
nessa decisão, deve optar pelo teste de Tukey ou pelo teste de Dunnett (ou
mesmo pelo LSD de Fisher, desde que para comparações planejadas). Esses testes
são conservadores (têm baixa
probabilidade de rejeitar H0)
No entanto, se o pesquisador quiser
ter alta probabilidade de rejeitar a
hipótese de que as médias são iguais, deve optar pelo teste LSD de Fisher ou
pelo teste de Duncan. Estes dois testes têm características similares, mas o
teste LSD de Fisher é mais antigo e, talvez por isso, mais conhecido. Também é
de aplicação mais fácil. Lembre-se de que esses testes têm poder (probabilidade de
rejeitar H0 dado que essa hipótese é falsa). Mas o pesquisador
também poderia optar por aplicar o teste de Tukey ou de Dunnett, com nível de
significância mais elevado. Estes testes teriam, então, poder maior. Por
exemplo, o teste de Tukey a 10% tem mais poder do que o teste de Tukey a 5%.
A necessidade de aplicar um
teste que só rejeite a hipótese de que as médias são iguais com muita confiança
pode ocorrer quando se comparam novas drogas terapêuticas com uma droga
conhecida. Toda droga tem efeitos colaterais. Então, muitas vezes só é razoável
indicar uma nova droga – de efeitos colaterais desconhecidos – quando existem
indicações seguras de que essa nova droga é melhor do que a convencional.
Nos experimentos de competições
de marcas ou de variedades, ao contrário, muitas vezes é preciso um teste com
grande poder. Isto porque, nesses casos, o importante a alta probabilidade de
discriminação. O erro de rejeitar a hipótese de que duas marcas ou duas variedades
têm a mesma média – quando isso é verdade – tem importância menor.
Finalmente, é bom lembrar que o
teste de Scheffé tem excelentes propriedades matemáticas, mas é excessivamente
conservador. Já o teste de Bonferoni é indicado apenas quando o número pequeno de
comparações de médias, pois se torna conservador quando o número de médias em
comparação cresce.
De qualquer forma, fica aqui um
alerta: todos os procedimentos para a comparação de média têm vantagens e
desvantagens. Ainda não existe um teste definitivamente “melhor” que todos os
outros. Os procedimentos para a comparação de médias não são exatos. Mas é
preciso adotar um procedimento formal para proceder à comparação de médias.
Isto evita que as conclusões fiquem totalmente dependentes da opinião do
pesquisador. Mesmo assim, existe uma grande margem de opção tanto na escolha do
teste, como no estabelecimento do nível de significância.
Veja
também:
www-stat.wharton.upenn.edu/~dsmall/.../lecture/lecture13.ppt