Sunday, October 30, 2016

Teste de Médias: Escolher o Mais Liberal ou o Mais Conservador?

 

Após realizar uma análise de variância (ANOVA) para testar a hipótese de igualdade entre médias populacionais, e constatada a significância do teste F, o pesquisador busca uma forma de comparar as médias entre si. Para isso, são aplicados os chamados testes post hoc ou a posteriori.

Diversos testes estão disponíveis na literatura e nos softwares estatísticos. Mas surge a dúvida: qual deles escolher?

Segundo Winner (1962), os testes de comparação de médias podem ser ordenados do mais liberal ao mais conservador da seguinte forma:

🔹        MRT de Duncan

🔹        Student-Newman-Keuls

🔹       LSD de Fisher

🔹        HSD de Tukey

🔹        S de Scheffé

Testes mais liberais apontam mais facilmente diferenças significantes entre médias. Assim, espera-se que o teste de Duncan identifique mais diferenças do que o teste de Scheffé. Mas... seria adequado escolher sempre o teste que acusa mais diferenças?

                      🔔   A ESCOLHA DEVE SER DEFENSÁVEL

O critério fundamental para a escolha do teste é a sua adequação ao contexto experimental. Por exemplo:

Se um pesquisador da área da saúde compara o efeito de uma nova droga com medicamentos convencionais no tratamento de uma doença grave, deve aplicar um teste mais conservador, como o de Tukey ou o de Scheffé. Nesses casos, não se deve proclamar uma descoberta sem um grau razoável de certeza.

Já em experimentos da área agrícola, como a comparação entre 12 linhagens de soja em fase preliminar de avaliação, a aplicação de um teste mais liberal, como o de Duncan, pode ser vantajosa. Ele permite reduzir o número de linhagens a serem mantidas para testes futuros, economizando tempo e recursos.

🔔 A IMPORTÂNCIA DO NÚMERO DE COMPARAÇÕES

Na prática, pesquisadores raramente são questionados sobre os critérios que adotaram para escolher um teste de médias. No entanto, quanto maior for o número de comparações realizadas, maior será a probabilidade de obter conclusões diferentes, dependendo do teste aplicado.

Se apenas dois grupos forem comparados, todos os testes listados anteriormente levarão à mesma conclusão. Mas com vários grupos, as diferenças aparecem.

Considere um experimento com k grupos. Suponha que você decida comparar todas as médias duas a duas após uma ANOVA. Haverá

                                       

comparações, cada uma realizada com nível de significância α.

Se a hipótese nula de igualdade das médias for verdadeira, o risco de rejeição incorreta (erro tipo I) em uma comparação é α. A probabilidade de não cometer erro tipo I em uma comparação é 1−α. Em m comparações, a probabilidade de nenhum erro tipo I ocorrer é (1−α)m. Assim, a probabilidade de pelo menos um erro tipo I ocorrer (ou seja, de rejeitar H₀ em pelo menos uma comparação) é:  

                            

        EXEMPLO                     

Após uma ANOVA com três grupos — A, B e C — você decide aplicar comparações duas a duas, com nível de significância de 5%. As médias populacionais são, na verdade, iguais.

Se você optar por um teste liberal, pode esperar mais rejeições da hipótese nula. Utilizando a distribuição binomial, você pode calcular as probabilidades de aceitar (A) ou rejeitar (R) H₀ nas três comparações:

                                              A x B

                                              A x C

                                              B x C

A tabela abaixo ilustra os possíveis desfechos (A = aceitar H₀, R = rejeitar H₀) e suas respectivas probabilidades.

Comparações

Probabilidade

A, A, A

0,857375

R, A, A

0,045125

A, R, A

0,045125

A, A, R

0,045125

R, R, A

0,002375

R, A, R

0,002375

A, R, R

0,002375

R, R, R

0,000125

A soma das probabilidades em que ao menos uma hipótese é rejeitada (ou seja, ocorre erro tipo I) é:

                                0,045125 × 3 + 0,002375 × 3 + 0,000125= 0,142625

Assim, mesmo tendo adotado α=0,05, a probabilidade real de cometer pelo menos um erro tipo I nas três comparações é de aproximadamente 14,3%.

📝 CONSIDERAÇÕES FINAIS

A escolha do teste post hoc não deve ser feita de forma automática, nem baseada apenas no número de diferenças que ele aponta. O contexto do experimento, as possíveis consequências da decisão e o objetivo da pesquisa devem guiar essa escolha.

Em ciência, a estatística é essencial — mas deve ser usada com uma boa dose de ética e bom senso.


        VEJA:

      1. Winner (1962) Apud Kris E. Berg e Richard W. Latin Research Methods in Health, Physical Education,             Exercise Sciences and Recreation. 3ed. Lippincott. 2008. p 155.

      2.  Megan Goldman. disponível em http://www.stat.berkeley.edu/users/mgoldman. Acesso em 29 de                          outubro de 2016.

Monday, October 03, 2016

Comparações múltiplas: como evitar conclusões erradas?

Quando fazemos uma análise de variância (ANOVA) para comparar grupos, o teste F nos diz se existe diferença entre médias — mas não   diz entre quais grupos está a diferença. Por isso, quando o teste F rejeita a hipótese de que todas as médias são iguais, o pesquisador quer um teste para comparar as médias, duas a duas, ou em grupos de seu interesse. É aí que entram os testes a posteriori (post hoc).

Mas para escolher o teste, o pesquisador precisa tomar uma decisão importante: o que ele quer?

🔺   Controlar o risco de erro em cada comparação de duas médias?
                                       (comparisonwise error rate)

🔺  Controlar o risco de erro no conjunto de comparações feitas?

(experimentwise error rate)

Vamos entender este dilema com exemplos.

                                         Exemplo: 3 grupos (A, B e C)

Imagine que queremos comparar três tratamentos(grupos). São possíveis 3 comparações de médias: A e B, A e C e B e C. Vamos repetir esse experimento 10 vezes. Então, no total, serão feitas 30 comparações, como mostra a Tabela 1.

Tabela 1

   

Vamos supor que todas as médias populacionais são iguais (não sabemos disso quando fazemos o experimento). Para comparar médias, podemos escolher:

🔺    Um teste que controle o risco de erro Tipo I em cada comparação de médias. Neste caso, se – para cada comparação de duas médias – for estabelecido um nível de significância de 10%, espera-se que cerca de 10% das 30 comparações (ou seja, 3) indiquem, erradamente (erro tipo I), diferença que não existe. Note bem: essas 3 comparações erradamente significantes podem estar em só. ou em 3 dos 10 experimentos.

🔺  Um teste que controle o risco de erro Tipo I por experimento. Neste caso, se – para cada experimento – for estabelecido o nível de significância de 10%, espera-se que apenas 1 dos 10 experimentos (ou seja, 10%) indique, erradamente (erro tipo I), diferença que não existe.

                                  Exemplo: 20 grupos

Vamos pensar agora em um cenário maior: vamos comparar 20 tratamentos (grupos) dois a dois. São possíveis combinação de 20, dois a dois, que é (20x19) /2 = 190 comparações de médias. Vamos repetir esse experimento 10 vezes. Então, no total, serão feitas 190 x 10 = 1.900 comparações de médias. Novamente, vamos supor que as médias são todas iguais. Não sabemos disso, mas podemos escolher:

🔺 Um teste que controle o erro tipo I em cada comparação de médias. Se for estabelecido o nível de 10% de significância podem ocorrer até 190 falsos positivos (10% das 1.900 comparações de médias). Então quase todo experimento teria erros. O nível de erro se aproximaria, portanto, de 100%!

🔺  Um teste que controle o risco de erro Tipo I por experimento. Se for estabelecido o nível de significância de 10%, espera-se que ocorra erro tipo I em apenas 1 experimento, mesmo com 1.900 comparações no total.

                                       Comparação entre os testes

O teste DMS de Fisher e o teste das amplitudes múltiplas de Duncan não controlam o nível de significância de experimentos. São testes liberais, pois apontam significância com muita facilidade. Mas têm grande poder, pois nível de significância e poder do teste crescem juntos. De qualquer modo, é preciso evitar o "fishing for significance". Comparar muitas médias sem controle aumenta o risco de achar diferenças que não existem.

 

Já o teste DHS de Tukey, o teste de Dunnet e o teste S de Scheffé são conservadores, pois controlam o nível de significância de experimentos. Se o nível de significância para experimentos for 5%, o nível de significância para comparação de médias será menor do que 5%. Conclusões baseadas em experimentwise α são mais confiáveis em estudos com múltiplos grupos.

 

No entanto, quando se comparam apenas dois grupos, o nível de significância para experimentos é igual ao nível de significância para comparação de médias. Mas é preciso cuidado quando se comparam vários grupos, pois pode haver diferença nas conclusões.

                                                     Conclusão

     🔺  Testes liberais (como DMS e Duncan) têm maior poder, mas também maior risco de erro tipo I.

     🔺  Testes conservadores (como Tukey, Dunnett e Scheffé) protegem melhor contra erros, mas podem deixar de detectar diferenças reais.

    🔺  Em poucas comparações, a diferença entre os erros é pequena.

  🔺 Em muitas comparações, o controle do erro por experimento é essencial.