Monday, August 28, 2017

Teste de Tukey: resultados diferentes?

Uma análise de variância (ANOVA) rejeita ou não a hipótese de igualdade de médias populacionais de diversos grupos, mas não determina quais grupos têm médias estatisticamente diferentes. Por essa razão, o teste F feito na análise de variância é considerado um teste global (omnibus test). Terminada a análise de variância, o pesquisador busca um novo teste para  comparar as médias de grupos.

Vamos tratar aqui o teste de Tukey. Você aplica o teste  de Tukey para comparar médias duas a duas (pairwise comparison). Veja isso como uma vantagem do teste: você compara todos os pares de médias que tiver.

No Brasil, para proceder ao teste de Tukey, o mais comum é calcular a diferença mínima que deve haver entre duas médias para que elas possam ser consideradas diferentes ao nível de significância a. Essa diferença é conhecida como diferença mínima significante e, em geral, indicada pela letra grega ∆ (lê-se delta).
      Nessa fórmula:
  • q(k,gl,a) é denominado amplitude estudentizada e é encontrado na tabela de amplitude estudentizada q, ao nível de significância a, para k tratamentos e gl graus de liberdade do resíduo da ANOVA.
  • QMR é o quadrado médio do resíduo da análise de variância;
  • r é o número de repetições de cada um dos grupos.

Na língua inglesa, porém, Least Significant Difference (LSD), ou seja, diferença mínima significante é terminologia usada no teste de Fisher (Fisher’s LSD).

John W. Tukey, autor do teste de Tukey, chamou a diferença mínima que deve haver entre duas médias para que elas possam ser consideradas diferentes ao nível de significância a de honestly significant difference (HSD), ou seja, diferença honestamente significante. De qualquer forma, o valor da diferença honestamente significante (HSD) pelo teste de Tukey é indicado, em língua inglesa, como segue:

Mas vamos a mais um detalhe: na busca da “significância”, os pesquisadores querem comparar todos os pares de médias de grupos que possam ser calculados. São possíveis ½t(t-1) comparações de pares de médias de grupos, mas só há t-1 graus de liberdade para grupos. Obviamente, nem todas as comparações são independentes e ortogonais. Ainda, um dos pares a serem comparados é o da maior média com a menor. Então, mesmo que o F da ANOVA para todos os grupos tenha sido não-significante, uma diferença extrema pode atingir o nível de significância. Mas não é valido comparar somente as médias com valores extremos.

Vamos, então, um pouco mais fundo. Seja X uma variável aleatória com distribuição normal de média m e desvio padrão s.  Seja s a estimativa do desvio padrão de uma amostra de tamanho n dessa variável. Sabemos que, em qualquer amostra, há sempre um valor mais alto e um valor menor. A diferença entre eles é a amplitude, que é medida na mesma unidade dos dados. Dividindo a amplitude por s, expressamos a amplitude em unidades de s

Temos então q, a amplitude estudentizada (homenagem adequada a Student, que “estudentizou” a diferença de médias), que não tem unidade de medida. A distribuição amostral de q é conhecida há muito tempo. Varia com o tamanho da amostra e os graus de liberdade de s.

Mas voltemos ao problema de comparar diferenças de duas médias de grupos: o problema está relacionado com a distribuição de q, a amplitude estudentizada. Para comparações do tipo

A tabela publicada de amplitude estudentizada que hoje achamos em livros e na internet está “convertida” em uma tabela de Tukey. No que consiste essa conversão? O antigo valor de q está, quase sempre, multiplicado por raiz de 2, ou seja:

Veja bem: uma ANOVA com dois grupos para comparação, seis repetições em cada grupo, fica assim: 
Causas de variação
GL
Grupos
1
Resíduo
10
Total
11

Os valores críticos, para decidir rejeitar H0 são, para o teste de Student, ANOVA e Tukey: t =2,23, F = 4,96, q = 3,15. Qualquer dos testes leva ao mesmo resultado. Os cálculos são feitos, cada um no seu jeito, mas t2 = F, t =q/√2. Verifique, fazendo os três testes para qualquer exemplo seu (dois grupos).  

Agora, a explicação para o título: cuidado com a tabela de q que você usa. Verifique sempre e verifique o programa que você usa.