Sunday, October 30, 2016

Comparisonwise Type I error rate

Feita a análise de variância para testar a hipótese de igualdade de médias populacionais, o pesquisador busca um teste para comparar essas médias. São os testes post hoc ou a posteriori. Diversos testes estão disponíveis na literatura de estatística ou nos programas para computadores. Qual deles o pesquisador deve selecionar?

Testes liberais revelam significância mais facilmente do que testes conservadores. Winner (1962) listou os testes de comparação de médias, do mais liberal ao mais conservador, como segue: MRT de Duncan, Student-Newman-Keuls, LSD de Fisher, HSD de Tukey, S de Scheffé. Isto significa que, se você aplicar o teste de Duncan, muito provavelmente apontará mais diferenças significantes de médias do que se aplicar o teste de Scheffé. É adequado usar o teste mais liberal?

Veja bem: o pesquisador deve escolher o teste que seja experimentalmente defensável. Por exemplo, se um pesquisador da área da saúde comparar o efeito de uma nova droga contra drogas convencionais para doença séria, deveria ter o bom senso de não proclamar uma descoberta, a menos que esteja razoavelmente seguro. Então, teste de Scheffé. Por outro lado, se um pesquisador da área agrícola compara, por exemplo, 12 linhagens de soja em fase de avaliação, o teste de Duncan poderia, muito provavelmente, reduzir o número de linhagens a serem comparadas em uma nova avaliação.

A verdade é que os pesquisadores raramente são questionados sobre a racional para a escolha de um teste a posteriori. De qualquer forma, a possibilidade de diferença nas conclusões é pequena, embora o teste de Duncan possa “ajudar” o pesquisador que tem o objetivo de “provar” uma diferença.

É muito provável achar diferença significante em testes que controlam o nível de significância para comparações? Para que isso fique mais claro, suponha que você tem um ensaio com k grupos e pretende, feita a análise de variância, testar a igualdade de médias populacionais, duas a duas. São possíveis

comparações de médias, ao nível de significância a.

 Se as hipóteses de nulidade são verdadeiras, o risco de, em um teste, rejeitar essa hipótese é a. Então a probabilidade de que não ocorra erro tipo I nesse teste é 1 - a.

Em m testes, a probabilidade de que o erro tipo I não ocorra em nenhuma das comparações é (1 – a)m. Então a probabilidade de ocorrer pelo menos um erro tipo I em m testes é


Como exemplo, imagine que você deve fazer três comparações de médias, ao nível de significância de 0,05:
                                 H0: mA = mB
                                 H0: mA = mC
                                 H0: mB = mC
As médias populacionais são iguais. Você faz os testes e pode não rejeitar ou aceitar H0 (A) ou rejeitar H0 (R). Veja as probabilidades, usando a distribuição binomial:
  
 A soma das probabilidades em vermelho, que é 0,142625, é a probabilidade de ter pelo menos um resultado errado. Então a probabilidade de rejeitar H0 em pelo menos uma das comparações é aproximadamente 14,3%.

 



VEJA:

Winner (1962) Apud Kris E. Berg e Richard W. Latin Research Methods in Health, Physical Education, Exercise Sciences and Recreation. 3ed. Lippincott. 2008. p 155.


Megan Goldman. disponível em http://www.stat.berkeley.edu/users/mgoldman. Acesso em 29 de outubro de 2016.

Monday, October 03, 2016

Comparisonwise ou experimentwise?

Quando, na análise de um experimento inteiramente ao acaso, o teste F rejeita a hipótese de igualdade de médias, a conclusão de que as médias populacionais não são iguais não basta ao pesquisador. Ele sai em busca de métodos que permitam fazer novas inferências sobre as médias populacionais, ou seja, dos chamados testes post hoc ou a posteriori. Quais qualidades esses testes devem ter?

O pesquisador precisa escolher entre:
 a) um teste que mantenha o nível de significância para comparações de médias   (comparisonwise Type I error rate) ou
 b) um teste que mantenha o nível de significância para experimentos       (experimentwise Type I error rate ou familywise Type I error rate).

 Vamos entender isso com um exemplo.

Considere um ensaio para comparar três grupos, A, B, e C. São possíveis três hipóteses para a comparação de médias duas a duas (pairwise comparison):
H0: mA = mB
H0: mA = mC
H0: mB = mC
Se forem conduzidos dez ensaios com o mesmo delineamento (inteiramente ao acaso) para testar essas hipóteses, serão possíveis 10 x 3 = 30 testes. Vamos imaginar que as médias populacionais dos três grupos são iguais. Nesse caso, o teste que der resultado significante levará a conclusão errada. Lembre-se de que:

Nível de significância é a probabilidade de rejeitar
 a hipótese de que as médias são iguais,
 quando as médias são iguais.

Um teste que mantenha o nível de significância para comparação de médias (comparisonwise Type I error rate) em 10%,  tem probabilidade de apontar como significantes até três das trinta comparações de médias (10%).

Por outro lado, um teste que mantenha o nível de significância para experimentos (experimentwise Type I error rate) em 10%, tem probabilidade de apontar significância em um experimento (10%), podendo ser significantes  uma, duas ou três comparações de médias nesse experimento.

Imagine que você tem um ensaio com 20 grupos. São possíveis (20 X 19)/2 =190 comparações de médias, duas a duas. Se forem conduzidos 10 ensaios com o mesmo delineamento para comparar esses mesmos 20 grupos, podem ser feitas 1900 comparações de médias, duas a duas.

Vamos imaginar que as médias populacionais são iguais.

Um teste que mantiver o nível de significância para comparação de médias (comparisonwise Type I error rate) em 10%, tem probabilidade de apontar como significantes 190 comparações de médias (10%), que podem estar distribuídas em até 10 dos 10 experimentos. Então o nível de significância para experimentos poderá chegar a 100%.

No entanto, um teste de comparação de médias com nível de significância para experimentos (experimentwise Type I error rate) em 10%, tem a probabilidade de apontar um experimento com comparação de médias significante (10%).

Fixar o nível de significância para experimentos é procedimento mais conservador do que fixar o nível de significância para comparação de médias.  É verdade que, quando se comparam apenas dois grupos, o nível de significância para experimentos é igual ao nível de significância para comparação de médias. Mas quando se comparam vários grupos, pode haver diferença nas conclusões.

Em postagens anteriores, mostramos o procedimento para alguns testes de médias. Mas é importante saber se esses testes mantêm ou o nível de significância para experimentos ou nível de significância para comparação de médias.

O teste DMS de Fisher e o teste das amplitudes múltiplas de Duncan não controlam o nível de significância de experimentos. São testes liberais, pois apontam significância com muita facilidade. Mas têm grande poder, pois nível de significância e poder do teste crescem juntos.

Poder do teste é a probabilidade de rejeitar
 a hipótese de que as médias são iguais,
 quando as médias são diferentes.

Já o teste DHS de Tukey, o teste de Dunnet  e o teste S de Scheffé são conservadores, pois controlam o nível de significância de experimentos. Se o nível de significância para experimentos for 5%, o nível de significância para comparação de médias será menor do que 5%. Esses testes têm, portanto, menor poder.