Para entender a questão do p-valor, é preciso um pouco de história da Estatística. Existem duas escolas de pensamento sobre testes de significância. O primeiro foi popularizado por Ronald A. Fisher na década de 1920. Fisher via o p-valor não como uma parte de um procedimento formal para testar hipóteses, mas como um método informal de ver quão surpreendente pode ser um conjunto de dados. O p-valor, quando combinado com a experiência do pesquisador e seu conhecimento do assunto, pode ser útil para interpretar novos dados.
Depois que o trabalho de Fisher foi
apresentado, Jerzy Neyman e Egon Pearson abordaram a questão de outra forma. É
preciso lembrar que, em ciência, é importante limitar dois tipos de erros: falsos positivos, quando você acha que é
real algo que não existe, e falsos
negativos, quando você acha que algo que ocorre não é real.
Apenas como exemplo, considere um
teste laboratorial para o diagnóstico de determinada doença. O teste pode
apresentar dois tipos de erros: falso
positivo, quando diz que o paciente é doente, mas não é; e falso negativo, quando diz que o
paciente não é doente, mas é. Em Estatística, é convenção chamar o falso
positivo de erro Tipo I e o falso
negativo de erro tipo II.
Erro Tipo I
(falso positivo): quando você diz que um tratamento tem efeito (afirma) e esse tratamento
não tem efeito.
Erro Tipo II (falso negativo): quando você diz um tratamento não tem efeito (nega) e esse tratamento
tem efeito.
Falsos positivos e falsos negativos
são erros, mas é totalmente impossível eliminá-los. Se você se precipitar querendo
achar efeitos de tratamentos, estará propenso a obter mais falsos positivos (ou
seja, mais erro Tipo I); se você for conservador, isto é, não se apressar em
apontar efeitos de tratamentos, estará propenso a obter mais falsos negativos (ou
seja, mais erro Tipo II).
Neyman e Pearson raciocinaram que,
embora seja impossível eliminar totalmente os falsos positivos e falsos
negativos, é possível desenvolver um processo de tomada de decisão que garanta
que falsos positivos ocorrerão com probabilidade predefinida. Eles chamaram
essa probabilidade de a
(nível de significância) e sua ideia era que os pesquisadores definissem a com base em suas experiências e
expectativas. Por exemplo, quem estiver disposto a tolerar uma probabilidade de
10% de falsos positivos, define a = 0,1. Mas se precisar ser mais
conservador, pode definir a
em 0,01 ou menos.
Como isso funciona na prática? No
sistema de Neyman-Pearson, definem-se duas hipóteses: a hipótese de nulidade, isto é, uma hipótese de que determinado tratamento
não tem efeito - bem como uma hipótese
alternativa, de que o tratamento tem efeito. Escreve-se:
H0: efeito igual a zero
H1: efeito diferente de
zero
Em seguida, é feito um teste estatístico
para determinar a probabilidade de obter resultado igual ou maior do que o conseguido
quando a hipótese da nulidade é verdadeira. Esse é o p-valor e o procedimento de Neyman-Pearson consiste em rejeitar a
hipótese da nulidade sempre que p-valor
< a.
Ao contrário do procedimento de
Fisher, este método não usa, deliberadamente, a força da evidência obtida em um
experimento em particular; decide, simplesmente, rejeitar ou não a hipótese da
nulidade. O tamanho do p-valor não é
usado para comparar experimentos, nem para tirar conclusões além de "A
hipótese da nulidade deve (ou não) ser rejeitada.”.
Embora a abordagem de Neyman e
Pearson seja conceitualmente diferente da de Fisher, os pesquisadores fundem as
duas. A abordagem de Neyman e Pearson é onde obtemos "significância
estatística", com um valor a
pré-escolhido, que garante as probabilidades de falsos positivos no longo
prazo. Mas suponha que você conduza um experimento e obtenha p-valor = 0,032. Se o seu limite for o
convencional a
= 0,05, você obteve um resultado estatisticamente significante. É tentador – embora esteja errado
- dizer "A probabilidade de erro Tipo I é de 3,2%". Isso não faz
sentido, porque um único experimento não determina uma probabilidade de erro
Tipo I. Compare seu experimento com outros, vendo apenas o valor de a.
Quando se diminui um tipo de erro,
aumenta-se o outro, considerando o mesmo problema, sendo resolvido pelo mesmo
teste de significância. Mas há testes com mais poder do que outros. Denomina-se poder do
teste a probabilidade de rejeitar a hipótese da nulidade quando ela é falsa.
Então o melhor teste é aquele que tem a menor probabilidade de falsos negativos
para uma determinada escolha de a.
COMENTÁRIO
Esta postagem foi escrita com base em:
REINHART, A. Statististics doing wrong. San Francisco, No Starch Press. 2015.