1. Introdução
Uma análise de variância (ANOVA) pode mostrar
que existem diferenças significativas entre médias de grupos, mas não informa quais
grupos diferem entre si. Para isso, aplicamos testes post hoc — ou testes
de comparações múltiplas.
O mais conhecido é o teste de Tukey, mas
existem outros testes também conhecidos como o teste de Student
Newman Keuls e o teste de Duncan. Os três testes comparam médias
após a ANOVA, mas seguem lógicas diferentes. Neste texto, vamos ver o que cada
teste oferece e em que situações é mais adequado.
2. Questões de significância
O teste de Tukey, ou seja, o teste das
diferenças honestamente significantes (HSD – Honest Significant Difference) é
bastante conservador. Controla bem o erro tipo I (rejeita H0 quando
H0 é verdadeira). Na prática,
isto significa que, quando comparado aos outros dois testes, o teste de Tukey identifica
menor número de diferenças como estatisticamente significantes, mas isso
significa também que protege você de obter falsos resultados positivos.
O teste de Student -Newman-Keuls é menos conservador
que o teste de Tukey. Na prática, isto significa que tem a probabilidade de identificar
maior número de diferenças estatisticamente significantes que o teste de Tukey,
mas significa também que protege menos você de obter resultados falsos positivos.
O teste de Duncan, ou seja, o teste das amplitudes
múltiplas (MRT-multiple range test) é o mais liberal dos testes. Na prática, isto
significa que tem alta probabilidade de identificar diferenças estatisticamente
significantes, mas significa também que conduz a muitos resultados falsos
positivos. Por conta disso, muitos estatísticos não o recomendam.
Como é um teste conservador, o teste de Tukey pode deixar de detectar algumas diferenças sutis entre grupos. O teste de Student-Newman-Keuls, mais poderoso, pode revelar padrões que o Tukey não mostra. Duncan é o teste com maior poder (rejeitar H0 quando H0 é falsa), mas isso leva a um aumento deliberado do risco de erro tipo I para comparações, aceitandocom maior probabilidade os falsos positivos.
3. Diferenças conceituais
O
teste de Tukey utiliza um
único valor crítico da distribuição da amplitude studentizada para
todas as comparações. Controla o
erro do experimento inteiro (experimentwise error rate, EER).
O
teste de Student -Newman-Keuls usa o
mesmo α (geral, fixo, ex. 5%) quando faz o passo a passo do teste
sequencial. Controla apenas o erro por comparação (comparisonwise error rate, CER),
não o do experimento inteiro.
O
teste de Duncan também é stepwise, mas o nível de significância não é constante. Para
amplitudes menores (com poucos grupos), usa um valor maior de alfa, o que
facilita encontrar diferenças. Por isso, há tabelas próprias para teste de
Duncan (as de Harter, 1960 são clássicas).
4.Procedimento
Você encontra, para cada um dos três testes, o
respectivo procedimento em postagens deste mesmo blog. Mas vale lembrar que tanto
o teste de Tukey como o de Student-Newman-Keuls se baseiam na amplitude
estudentizada. A diferença está no fato de que o teste de Tukey usa um único valor crítico
da distribuição da amplitude studentizada para todas as comparações enquanto o Student-Newman-Keuls é um teste
sequencial (stepwise); começa comparando a maior amplitude, depois vai para
intervalos menores. O teste de
Duncan também
é sequencial (stepwise), mas o nível de significância não é constante. Para
amplitudes menores (com poucos grupos), usa um valor maior de alfa, o que
facilita encontrar diferenças.
5.
Quando usar cada um?
A escolha
entre os três testes apresentados não é apenas uma questão de estatística; é
também uma questão de ética, porque importam as consequências de decisão errada.
Utilize testes
tais tonservadores (Tukey, Scheffé) quando as consequências de um falso
positivo forem altas. Por exemplo, em ensaios farmacêuticos e pesquisas
clínicas ou qualquer cenário em que agir com base em uma falsa descoberta seja
custoso ou perigoso. Esses testes controlam rigorosamente a taxa de erro do
experimento.
Utilize o teste
de SNK quando quiser uma abordagem mais equilibrada e moderada. Você ainda está
interessado em poder, mas deseja mais controle sobre falsas descobertas do que
o oferecido por Duncan. É uma boa opção intermediária.
Utilize o teste de Duncan quando estiver em uma fase exploratória de geração de hipóteses. Você quer ter certeza de não perder nenhum efeito possível (precisa de alto poder) e está disposto a aceitar um número maior de falsos positivos. Isso é comum em pesquisas de degustação de vinhos e de café, onde diferenças sutis de aroma e sabor podem interessar mesmo que não sejam muito robustas estatisticamente.
6.
Exemplo prático (dados
fictícios)
Na Tabela 1 estão dados fictícios que foram
submetidos à análise de variância (ANOVA). O valor de
p (ANOVA) é 0,00105, o que é altamente significativo. Isso confirma que existem
diferenças estatisticamente significativas entre pelo menos algumas das médias
dos grupos. Justifica-se a realização de testes post-hoc. A comparação dos resultados está na Tabela
2.
Tabela 1. Dados
Tabela 2. Comparação de resultados
Interpretação
- Teste de Tukey: D está em seu próprio grupo, mas o teste não rejeita que D é diferente de B, nem que B seja diferente C e A
- SNK: mais poderoso que o Tukey, detecta que D é significativamente maior que B, C e A, o que Tukey não conseguiu fazer no nível de 5%.
- Duncan: coloca D como maior que todos os outros e A como menor que todos os outros.
7. Conclusão
Os testes post hoc ou testes de comparações múltiplas devem ser escolhidos levando em consideração a tolerância em relação ao erro tipo I vs. erro tipo II e não à busca do resultado desejado.
No comments:
Post a Comment