Sunday, November 27, 2016

Comparando médias: como escolher entre testes liberais e conservadores?

Quando se comparam k populações por meio de uma ANOVA, são possíveis m = k(k-1)/2 comparações entre pares de médias. Se essas comparações não foram planejadas previamente (unplanned comparisons), ou seja, foram escolhidas depois de o pesquisador olhar as médias amostrais, é mais adequado utilizar um teste que controle o nível de significância para o experimento e não apenas o nível de significância para a comparação de médias. 

Definições Importantes

 🔸Nível de significância para comparação de médias (comparisonwise Type I error rate-CER) é a probabilidade de cometer erro Tipo I ao comparar duas médias (pairwise comparison) de um conjunto de k médias.

   🔸Nível de significância para experimentos (experimentwise Type I error rate ou familywise Type I error rateé a probabilidade de cometer pelo menos um erro Tipo I ao realizar todas as m comparações de pares de médias de um conjunto de k médias.

       Distinguem-se ainda:

🔸Nível de significância para o experimento sob a hipótese de nulidade completa (EERC): quando todas as médias populacionais comparadas são iguais.

🔸Nível de significância para o experimento sob a hipótese de nulidade parcial: quando algumas médias são iguais, outras diferem.

Testes que controlam o nível de significância para experimentos são conservadores rejeitam a hipótese de igualdade de médias com menos facilidade, resultando em menor poder estatístico. Já os testes que controlam o nível de significância para comparações de médias apontam significância com mais facilidade. Estes testes são liberais, porque rejeitam a hipótese da nulidade com mais facilidade e têm, portanto, maior poder. 

Classificação dos Testes: Liberal x Conservador

Segundo Winner (1962), os testes de comparação de médias podem ser ordenados do mais liberal ao mais conservador, como segue:

1.        Teste de Duncan (Duncan´s multiple range test -MRT)

2.       Teste de Student-Newman-Keuls

3.       Teste de Fisher (Fisher’s least significant difference- LSD)

4.       Teste de Tukey (Tukey’s honestly significant difference- HSD)

5.       Teste de Scheffé (Scheffé’s test)

Isso significa que, se você aplicar o teste de Duncan, provavelmente encontrará mais diferenças significantes entre médias do que se utilizar o teste de Scheffé. Mas há vários outros testes para comparação de médias.

Apresentamos a seguir os resultados de testes de comparação de médias aplicados a um conjunto de dados fictícios.

Tabela 1

Diminuição da pressão arterial, mmHg,

 segundo o grupo



Tabela 2


Análise de variância


teste de amplitudes múltiplas de Duncan (Duncan’s multiple range test-MRT) e o teste de Student-Newman-Keuls fornecem diversos valores para a diferença crítica entre médias, dependendo de quão próximas estão essas médias. Compare as amplitudes críticas: o teste de Duncan é mais liberal, ou seja, mostra significância com maior facilidade (note que as diferenças mínimas significantes são menores pelo teste de Duncan).                               

Tabela 3

Amplitude crítica: testes de Duncan e

Student-Newman-Keuls (SNK)

Compare agora as diferenças críticas pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé (este para comparar duas médias, para permitir a comparação). Compare as diferenças críticas : o teste de Fisher é mais liberal, ou seja, mostra significância com maior facilidade. Note que as diferenças críticas  são menores do que as calculadas pelo teste de Tukey e estas menores do que as calculadas pelo teste de Scheffé  .                       

Tabela 4

                       Diferença crítica: testes LSD, HSD, Scheffé


📜 Recomendações – Manual SAS/STAT 9.2

1.  Use o teste LSD não protegido se estiver interessado em várias comparações individuais e não estiver preocupado com múltiplas inferências.

2.   Para todas as comparações duas a duas, use o teste de Tukey.

3.   Para comparações com um controle, use o teste de Dunnett.

📢  Algumas considerações 

Imagine um ensaio com mais de dois grupos (se o número de grupos for dois, os testes darão o mesmo resultado) cujos resultados foram submetidos a uma análise de variância com um critério de classificação, no nível de significância de 5%.


Se o pesquisador pretende fazer comparações não planejadas (unplanned comparisons), tem várias opções.


🔸Se aplicar o teste de Tukey ou o teste de Dunnett, o nível de significância para experimentos será de 5%, mas o nível de significância para as comparações de médias será menor do que 5%.

  

🔸Se usar o teste LSD de Fisher (sem restrições), o teste de Duncan ou o teste de Newman Keuls, o nível de significância para comparações de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior ou muito maior (dependendo do número de tratamentos) do que 5%. Em compensação, o poder do teste será maior.

Escolha do Teste

🔺 Se quiser segurança para rejeitar H0, opte por Tukey, Dunnett ou LSD planejado — são conservadores.

🔺Se quiser poder elevado, opte por LSD não-protegido ou Duncan. O LSD é mais antigo, mais conhecido e de aplicação fácil.Também é possível usar Tukey ou Dunnett com nível de significância mais alto. Por exemplo, Tukey a 10% tem mais poder que Tukey a 5%.

A necessidade de aplicar um teste que só rejeite a hipótese de que as médias são iguais com muita confiança pode ocorrer quando se comparam novas drogas terapêuticas com uma droga conhecida. Toda droga tem efeitos colaterais. Então, muitas vezes só é razoável indicar uma nova droga – de efeitos colaterais desconhecidos – quando existem indicações seguras de que essa nova droga é melhor do que a convencional.

 

Nos experimentos de competições de marcas ou de variedades, ao contrário, muitas vezes é preciso um teste com grande poder. Isto porque, nesses casos, o importante a alta probabilidade de discriminação. O erro de rejeitar a hipótese de que duas marcas ou duas variedades têm a mesma média – quando isso é verdade – tem importância menor.

✅ Considerações Finais

O teste de Scheffé tem excelentes propriedades matemáticas, mas é excessivamente conservador. Já o teste de Bonferoni é indicado apenas quando o número pequeno de comparações de médias, pois se torna conservador quando o número de médias em comparação é grande. 

Todos os testes têm vantagens e desvantagens. Não existe um teste definitivamente “melhor” que todos os outros. Os procedimentos para a comparação de médias não são exatos. No entanto, é preciso adotar um procedimento formal para proceder à comparação de médias. Isto evita que as conclusões fiquem totalmente dependentes da opinião do pesquisador. De qualquer forma, existe uma grande margem de opção tanto na escolha do teste, como no estabelecimento do nível de significância.

        Dicas

Os cálculos foram feitos usando o software SAS. Se você usar outro software ou fizer cálculos a mão pode ter pequenas diferenças devido arredondamento. As diferenças serão provavelmente maiores quando aplicar o teste SNK porque os valores são menos padronizados entre tabelas.

                                 



No comments: