Sunday, November 27, 2016

Comparando médias: como escolher entre testes liberais e conservadores?

Quando se comparam k populações por meio de uma ANOVA, são possíveis m = k(k-1)/2 comparações entre pares de médias. Se essas comparações não foram planejadas previamente (unplanned comparisons), ou seja, foram escolhidas depois de o pesquisador olhar as médias amostrais, é mais adequado utilizar um teste que controle o nível de significância para o experimento e não apenas o nível de significância para a comparação de médias. 

Definições Importantes

 🔸Nível de significância para comparação de médias (comparisonwise Type I error rate-CER) é a probabilidade de cometer erro Tipo I ao comparar duas médias (pairwise comparison) de um conjunto de k médias.

   🔸Nível de significância para experimentos (experimentwise Type I error rate ou familywise Type I error rateé a probabilidade de cometer pelo menos um erro Tipo I ao realizar todas as m comparações de pares de médias de um conjunto de k médias.

       Distinguem-se ainda:

🔸Nível de significância para o experimento sob a hipótese de nulidade completa (EERC): quando todas as médias populacionais comparadas são iguais.

🔸Nível de significância para o experimento sob a hipótese de nulidade parcial: quando algumas médias são iguais, outras diferem.

Testes que controlam o nível de significância para experimentos são conservadores rejeitam a hipótese de igualdade de médias com menos facilidade, resultando em menor poder estatístico. Já os testes que controlam o nível de significância para comparações de médias apontam significância com mais facilidade. Estes testes são liberais, porque rejeitam a hipótese da nulidade com mais facilidade e têm, portanto, maior poder. 

Classificação dos Testes: Liberal x Conservador

Segundo Winner (1962), os testes de comparação de médias podem ser ordenados do mais liberal ao mais conservador, como segue:

1.        Teste de Duncan (Duncan´s multiple range test -MRT)

2.       Teste de Student-Newman-Keuls

3.       Teste de Fisher (Fisher’s least significant difference- LSD)

4.       Teste de Tukey (Tukey’s honestly significant difference- HSD)

5.       Teste de Scheffé (Scheffé’s test)

Isso significa que, se você aplicar o teste de Duncan, provavelmente encontrará mais diferenças significantes entre médias do que se utilizar o teste de Scheffé. Mas há vários outros testes para comparação de médias.

Apresentamos a seguir os resultados de testes de comparação de médias aplicados a um conjunto de dados fictícios.

Tabela 1

Diminuição da pressão arterial, mmHg,

 segundo o grupo



Tabela 2


Análise de variância


teste de amplitudes múltiplas de Duncan (Duncan’s multiple range test-MRT) e o teste de Student-Newman-Keuls fornecem diversos valores para a diferença crítica entre médias, dependendo de quão próximas estão essas médias. Compare as amplitudes críticas: o teste de Duncan é mais liberal, ou seja, mostra significância com maior facilidade (note que as diferenças mínimas significantes são menores pelo teste de Duncan).                               

Tabela 3

Amplitude crítica: testes de Duncan e

Student-Newman-Keuls (SNK)

Compare agora as diferenças críticas pelos testes LSD de Fisher, DHS de Tukey e o S de Scheffé (este para comparar duas médias, para permitir a comparação). Compare as diferenças críticas : o teste de Fisher é mais liberal, ou seja, mostra significância com maior facilidade. Note que as diferenças críticas  são menores do que as calculadas pelo teste de Tukey e estas menores do que as calculadas pelo teste de Scheffé  .                       

Tabela 4

                       Diferença crítica: testes LSD, HSD, Scheffé


📜 Recomendações – Manual SAS/STAT 9.2

1.  Use o teste LSD não protegido se estiver interessado em várias comparações individuais e não estiver preocupado com múltiplas inferências.

2.   Para todas as comparações duas a duas, use o teste de Tukey.

3.   Para comparações com um controle, use o teste de Dunnett.

📢  Algumas considerações 

Imagine um ensaio com mais de dois grupos (se o número de grupos for dois, os testes darão o mesmo resultado) cujos resultados foram submetidos a uma análise de variância com um critério de classificação, no nível de significância de 5%.


Se o pesquisador pretende fazer comparações não planejadas (unplanned comparisons), tem várias opções.


🔸Se aplicar o teste de Tukey ou o teste de Dunnett, o nível de significância para experimentos será de 5%, mas o nível de significância para as comparações de médias será menor do que 5%.

  

🔸Se usar o teste LSD de Fisher (sem restrições), o teste de Duncan ou o teste de Newman Keuls, o nível de significância para comparações de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior ou muito maior (dependendo do número de tratamentos) do que 5%. Em compensação, o poder do teste será maior.

Escolha do Teste

🔺 Se quiser segurança para rejeitar H0, opte por Tukey, Dunnett ou LSD planejado — são conservadores.

🔺Se quiser poder elevado, opte por LSD não-protegido ou Duncan. O LSD é mais antigo, mais conhecido e de aplicação fácil.Também é possível usar Tukey ou Dunnett com nível de significância mais alto. Por exemplo, Tukey a 10% tem mais poder que Tukey a 5%.

A necessidade de aplicar um teste que só rejeite a hipótese de que as médias são iguais com muita confiança pode ocorrer quando se comparam novas drogas terapêuticas com uma droga conhecida. Toda droga tem efeitos colaterais. Então, muitas vezes só é razoável indicar uma nova droga – de efeitos colaterais desconhecidos – quando existem indicações seguras de que essa nova droga é melhor do que a convencional.

 

Nos experimentos de competições de marcas ou de variedades, ao contrário, muitas vezes é preciso um teste com grande poder. Isto porque, nesses casos, o importante a alta probabilidade de discriminação. O erro de rejeitar a hipótese de que duas marcas ou duas variedades têm a mesma média – quando isso é verdade – tem importância menor.

✅ Considerações Finais

O teste de Scheffé tem excelentes propriedades matemáticas, mas é excessivamente conservador. Já o teste de Bonferoni é indicado apenas quando o número pequeno de comparações de médias, pois se torna conservador quando o número de médias em comparação é grande. 

Todos os testes têm vantagens e desvantagens. Não existe um teste definitivamente “melhor” que todos os outros. Os procedimentos para a comparação de médias não são exatos. No entanto, é preciso adotar um procedimento formal para proceder à comparação de médias. Isto evita que as conclusões fiquem totalmente dependentes da opinião do pesquisador. De qualquer forma, existe uma grande margem de opção tanto na escolha do teste, como no estabelecimento do nível de significância.

        Dicas

Os cálculos foram feitos usando o software SAS. Se você usar outro software ou fizer cálculos a mão pode ter pequenas diferenças devido arredondamento. As diferenças serão provavelmente maiores quando aplicar o teste SNK porque os valores são menos padronizados entre tabelas.

                                 



Saturday, November 12, 2016

Teste de Student-Newman-Keuls para comparação de médias

O teste Student-Newman-Keuls (SNK) e o teste de Tukey (HSD) são métodos post-hoc para a comparação de médias após uma ANOVA. Ambos se baseiam na distribuição da amplitude estudentizada q. A principal vantagem do SNK sobre o Tukey é ter maior poder estatístico.

 

Isto acontece porque o SNK é um teste passo a passo (stepwise). As médias são ordenadas e comparadas passo a passo, começando pela maior e pela menor. O valor crítico diminui à medida que diminui o número de médias entre os grupos em comparação.  Por isso, o SNK é mais poderoso que o Tukey em certas situações. Mas qual é a explicação?

 

Tukey x SNK: qual é a diferença? 

 O teste de Tukey usa um único valor crítico para todas as comparações.

🔸 O teste SNK, por sua vez, é um teste stepwise (passo a passo) e usa valores críticos diferentes, que diminuem conforme as médias comparadas estão mais próximas na lista ordenada.

👉 Por isso, o SNK costuma ter maior poder estatístico, ou seja, maior chance de detectar diferenças reais quando elas existem.

Procedimento para os testes

Imagine que você tem quatro grupos (k = 4) com médias já ordenadas:

O teste de Tukey compara todas as médias duas a duas, sempre com o mesmo valor crítico.  Já o teste SNK:

·        Ordena as médias

·        Compara a maior média com a menor (m = 4)

·        Depois, compara pares com uma média intermediária entre elas (m = 3)

·        E por fim, compara médias consecutivas (m = 2).

Veja o esquema:

O valor crítico diminui com o número de médias (m) que ficam entre as médias em comparação. Quanto menor é o valor de m menor, menor é o valor crítico do teste.

 

                               Conservador ou liberal?

A escolha entre os testes depende do compromisso entre rigor e sensibilidade:

🔸  O teste de Tukey é mais conservador, controla melhor o erro Tipo I (falsos positivos).

🔸 O teste SNK é mais liberal; tem, portanto, mais chance de encontrar diferenças reais, mas não controla a taxa de erro do experimento como um todo.

📌 Conclusão:

                    🔸Se o controle do erro Tipo I for prioritário, use o teste de Tukey.

🔸Quando se busca maior sensibilidade, principalmente nas análises exploratórias, use o teste SNK.


📢 Procedimento para o teste SNK


Para cada par de médias a serem comparadas, calcule a diferença mínima significativa dm:

Onde:


qa,m,GL  é o valor da amplitude estudentizada para o nível de significância α, número m de médias ordenadas entre os grupos e GL graus de liberdade do resíduo da ANOVA;


QMR é quadrado médio do resíduo da ANOVA;


 r é o número de observações por grupo (pressupõe-se grupos de mesmo tamanho).

Duas médias são consideradas estatisticamente diferentes se a diferença observada entre elas for maior ou igual a dm.

 📢  Exemplo

Considere os dados (fictícios) de diminuição da pressão arterial apresentados na Tabela 1. Esses dados foram submetidos à análise de variância, que está apresentada na Tabela 2. Como o valor de F é significante ao nível de 5%, existe pelo menos uma média diferente das demais. As médias amostrais calculadas estão na Tabela 3.

 

Tabela 1 - Diminuição da pressão arterial, em mmHg, 

segundo o grupo


  Tabela 2 - Análise de variância

  

Tabela 3 - Média de diminuição da pressão arterial, em mmHg,

 segundo o grupo

  

Quais são as médias estatisticamente diferentes?  A pergunta pode ser respondida com a aplicação do teste de Student-Newman-Keuls. Para proceder ao teste, é preciso escrever as médias de grupos em ordem crescente (ou decrescente), como mostra a Tabela 4. 

 

Tabela 4 - Média de diminuição da pressão arterial em mmHg,

 na ordem decrescente, segundo o grupo

                     

A lista ordenada de = 6 médias do nosso exemplo está na Tabela 4. A maior média amostral é 29, do grupo D e a menor é 2, do controle. Vamos calcular a diferença crítica dm  para comparar essas médias. Então = 6. Já sabemos, da Tabela 2, que o resíduo da ANOVA tem 24 graus de liberdade e quadrado médio  QMR = 36,00. Na Tabela 1, temos = 5. O valor de qa,m é 4,3727. Então

A diferença entre o tratamento D e o controle (29-2=27) é maior do que a diferença crítica 11,733. Então em média o tratamento D determina maior diminuição da pressão arterial que o controle.

 

Vamos calcular a dm para comparar médias que abrangem m = 5 médias ordenadas médias. 

Então, para comparar as médias de D com B e de A com o controle: a diferença das médias dos grupos D e B (29-8=21) e A e controle (21-2=19) são   maiores do que 11,179. São, portanto, significantes no nível de 5%.


Considerações finais

O teste SNK é mais flexível e sensível que o Tukey em alguns cenários, especialmente com muitos grupos e diferenças graduais entre médias. No entanto, não é ideal quando se busca rigor no controle do erro Tipo I.

🔍 Use com cautela e sempre considere o contexto da pesquisa e os objetivos da análise.



Sunday, November 06, 2016

O Teste de Bonferroni Protege as Conclusões nas Comparações de Médias Duas a Duas


As análises de variância (ANOVA) são muito frequentes na literatura científica, sempre seguidas por testes de comparação de médias. No entanto, é comum que os autores não expliquem por que escolheram determinado teste nem mencionem as limitações associadas à escolha. Em muitos trabalhos, o teste utilizado sequer é citado.

Neste post, trataremos das comparações a posteriori (ou não planejadas, unplanned comparisons) de médias duas a duas, utilizando testes paramétricos. Tais testes baseiam-se nas distribuições t, F ou q (amplitude studentizada). Nenhum deles é universalmente superior aos demais — cada um tem seus prós e contras.

O teste LSD de Fisher

O teste mais simples é o LSD de Fisher (least significant difference), que utiliza a distribuição t com os graus de liberdade do quadrado médio do resíduo da ANOVA. É um teste poderoso, mas fixa o erro tipo I por comparação (comparisonwise Type I error rate). Quando usado para múltiplas comparações entre grupos, o erro tipo I global (experimentwise error rate) aumenta rapidamente.

Por isso, Fisher recomendou que o LSD fosse aplicado apenas quando o teste F da ANOVA for significante — o chamado LSD protegido.

Ajuste de Bonferroni

O ajuste de Bonferroni é uma forma simples e conservadora de controlar o erro tipo I global. A ideia é a seguinte: se há m comparações a serem feitas, e se desejamos manter o nível de significância do experimento em α, então devemos aplicar cada teste com um nível de significância α/m.

Exemplo ilustrativo

Considere três grupos: A, B e C. As comparações possíveis são:

·     A × B

·     A × C

·     B × C

Total: m = 3 comparações.

Se o nível de significância do experimento é α = 0,05, então cada comparação deve ser testada com 

                                          αajustado = α/m = 0,05/3 ≈ 0,0167.

Com isso, garantimos que a probabilidade de cometer pelo menos um erro tipo I em todas as comparações será, no máximo, α.

Como aplicar o teste de Bonferroni

1.   Calcule o número total de comparações m=k(k−1)2, onde k é o número de grupos.

2.   Determine o nível ajustado de significância:

3.   Realize os testes duas a duas, usando esse novo nível de significância.

4.   Compare as diferenças entre as médias: considere significativas aquelas cujos valores absolutos ultrapassarem o limite calculado.

Exemplo aplicado

A Tabela 1 apresenta os dados de um ensaio fictício com seis tratamentos, medindo a redução da pressão arterial (em mmHg) ao longo do tempo.

Tabela 1. Diminuição da pressão arterial segundo o tratamento

A análise de variância desses dados resultou em um F significante (ver Tabela 2), indicando diferenças entre as médias.

Tabela 2. Resultados da ANOVA

Como o F foi significante, procedemos às comparações duas a duas pelo teste de Bonferroni. Para k = 6, o número de comparações possíveis é

Com α = 0,05, o nível de significância por comparação será:

A Tabela 3 apresenta as comparações de médias duas a duas, com asterisco (*) indicando diferenças significantes no nível de significância ajustado. Veja também a Figura 1, que ajuda na percepção das diferenças.

Tabela 3. Comparação de médias pelo teste de Bonferroni

Figura 1. Comparação de médias pelo teste de Bonferroni



LIVROS