Thursday, August 28, 2025

Teste de Tukey (HSD), Teste de Student Newman Keuls (SNK)e teste de Duncan (DMRT)

      

        1.    Introdução

Uma análise de variância (ANOVA) pode mostrar que existem diferenças significativas entre médias de grupos, mas não informa quais grupos diferem entre si. Para isso, aplicamos testes post hoc — ou testes de comparações múltiplas.

O mais conhecido é o teste de Tukey, mas existem outros testes também conhecidos como o teste de Student Newman Keuls e o teste de Duncan. Os três testes comparam médias após a ANOVA, mas seguem lógicas diferentes. Neste texto, vamos ver o que cada teste oferece e em que situações é mais adequado.

2. Questões de significância

O teste de Tukey, ou seja, o teste das diferenças honestamente significantes (HSD – Honest Significant Difference) é bastante conservador. Controla bem o erro tipo I (rejeita H0 quando H0 é verdadeira).  Na prática, isto significa que, quando comparado aos outros dois testes, o teste de Tukey identifica menor número de diferenças como estatisticamente significantes, mas isso significa também que protege você de obter falsos resultados positivos.

O teste de Student -Newman-Keuls é menos conservador que o teste de Tukey. Na prática, isto significa que tem a probabilidade de identificar maior número de diferenças estatisticamente significantes que o teste de Tukey, mas significa também que protege menos você de obter resultados falsos positivos.

O teste de Duncan, ou seja, o teste das amplitudes múltiplas (MRT-multiple range test) é o mais liberal dos testes. Na prática, isto significa que tem alta probabilidade de identificar diferenças estatisticamente significantes, mas significa também que conduz a muitos resultados falsos positivos. Por conta disso, muitos estatísticos não o recomendam.

Como é um teste conservador, o teste de Tukey pode deixar de detectar algumas diferenças sutis entre grupos. O teste de Student-Newman-Keuls, mais poderoso, pode revelar padrões que o Tukey não mostra. Duncan é o teste com maior poder (rejeitar H0 quando H0 é falsa), mas isso leva a um aumento deliberado do risco de erro tipo I para comparações, aceitandocom maior probabilidade os falsos positivos.

3. Diferenças conceituais

O teste de Tukey utiliza um único valor crítico da distribuição da amplitude studentizada para todas as comparações. Controla o erro do experimento inteiro (experimentwise error rate, EER).

O teste de Student -Newman-Keuls usa o mesmo α (geral, fixo, ex. 5%) quando faz o passo a passo do teste sequencial. Controla apenas o erro por comparação (comparisonwise error rate, CER), não o do experimento inteiro.

O teste de Duncan também é stepwise, mas o nível de significância não é constante. Para amplitudes menores (com poucos grupos), usa um valor maior de alfa, o que facilita encontrar diferenças. Por isso, há tabelas próprias para teste de Duncan (as de Harter, 1960 são clássicas).

4.Procedimento 

Você encontra, para cada um dos três testes, o respectivo procedimento em postagens deste mesmo blog. Mas vale lembrar que tanto o teste de Tukey como o de Student-Newman-Keuls se baseiam na amplitude estudentizada. A diferença está no fato de que o teste de Tukey usa um único valor crítico da distribuição da amplitude studentizada para todas as comparações enquanto o Student-Newman-Keuls é um teste sequencial (stepwise); começa comparando a maior amplitude, depois vai para intervalos menores. O teste de Duncan também é sequencial (stepwise), mas o nível de significância não é constante. Para amplitudes menores (com poucos grupos), usa um valor maior de alfa, o que facilita encontrar diferenças.

5.     Quando usar cada um?

A escolha entre os três testes apresentados não é apenas uma questão de estatística; é também uma questão de ética, porque importam as consequências de decisão errada.

 

Utilize testes tais tonservadores (Tukey, Scheffé) quando as consequências de um falso positivo forem altas. Por exemplo, em ensaios farmacêuticos e pesquisas clínicas ou qualquer cenário em que agir com base em uma falsa descoberta seja custoso ou perigoso. Esses testes controlam rigorosamente a taxa de erro do experimento.

 

Utilize o teste de SNK quando quiser uma abordagem mais equilibrada e moderada. Você ainda está interessado em poder, mas deseja mais controle sobre falsas descobertas do que o oferecido por Duncan. É uma boa opção intermediária.

Utilize o teste de Duncan quando estiver em uma fase exploratória de geração de hipóteses. Você quer ter certeza de não perder nenhum efeito possível (precisa de alto poder) e está disposto a aceitar um número maior de falsos positivos. Isso é comum em pesquisas de degustação de vinhos e de café, onde diferenças sutis de aroma e sabor podem interessar mesmo que não sejam muito robustas estatisticamente.

6.     Exemplo prático (dados fictícios)

Na Tabela 1 estão dados fictícios que foram submetidos à análise de variância (ANOVA). O valor de p (ANOVA) é 0,00105, o que é altamente significativo. Isso confirma que existem diferenças estatisticamente significativas entre pelo menos algumas das médias dos grupos. Justifica-se a realização de testes post-hoc. A comparação dos resultados está na Tabela 2.

Tabela 1. Dados

   Tabela 2. Comparação de resultados



Interpretação

  • Teste de Tukey: D está em seu próprio grupo, mas o teste não rejeita que D é diferente de B, nem que B seja diferente C e A
  • SNK: mais poderoso que o Tukey, detecta que D é significativamente maior  que B, C e A, o que Tukey não conseguiu fazer no nível de 5%.
  • Duncan: coloca D  como maior que todos os outros e A como menor que todos os outros.

   7.    Conclusão

    Os testes post hoc ou testes de comparações múltiplas devem ser escolhidos levando em consideração a tolerância em relação ao erro tipo I vs. erro tipo II e não à busca do resultado desejado.


No comments: