Sunday, December 05, 2021

Nível de significância ou p-valor?

 

Para entender a questão do p-valor, é preciso um pouco de história da Estatística. Existem duas escolas de pensamento sobre testes de significância. O primeiro foi popularizado por Ronald A. Fisher na década de 1920. Fisher via o p-valor não como uma parte de um procedimento formal para testar hipóteses, mas como um método informal de ver quão surpreendente pode ser um conjunto de dados. O p-valor, quando combinado com a experiência do pesquisador e seu conhecimento do assunto, pode ser útil para interpretar novos dados.

Depois que o trabalho de Fisher foi apresentado, Jerzy Neyman e Egon Pearson abordaram a questão de outra forma. É preciso lembrar que, em ciência, é importante limitar dois tipos de erros: falsos positivos, quando você acha que é real algo que não existe, e falsos negativos, quando você acha que algo que ocorre não é real.

Apenas como exemplo, considere um teste laboratorial para o diagnóstico de determinada doença. O teste pode apresentar dois tipos de erros: falso positivo, quando diz que o paciente é doente, mas não é; e falso negativo, quando diz que o paciente não é doente, mas é. Em Estatística, é convenção chamar o falso positivo de erro Tipo I e o falso negativo de erro tipo II.

Erro Tipo I (falso positivo): quando você diz que um tratamento tem efeito (afirma) e esse tratamento não tem efeito.

Erro Tipo II (falso negativo): quando você diz um tratamento não tem efeito (nega) e esse tratamento tem efeito.

Falsos positivos e falsos negativos são erros, mas é totalmente impossível eliminá-los. Se você se precipitar querendo achar efeitos de tratamentos, estará propenso a obter mais falsos positivos (ou seja, mais erro Tipo I); se você for conservador, isto é, não se apressar em apontar efeitos de tratamentos, estará propenso a obter mais falsos negativos (ou seja, mais erro Tipo II).

Neyman e Pearson raciocinaram que, embora seja impossível eliminar totalmente os falsos positivos e falsos negativos, é possível desenvolver um processo de tomada de decisão que garanta que falsos positivos ocorrerão com probabilidade predefinida. Eles chamaram essa probabilidade de a (nível de significância) e sua ideia era que os pesquisadores definissem a com base em suas experiências e expectativas. Por exemplo, quem estiver disposto a tolerar uma probabilidade de 10% de falsos positivos, define a = 0,1. Mas se precisar ser mais conservador, pode definir a em 0,01 ou menos.

Como isso funciona na prática? No sistema de Neyman-Pearson, definem-se duas hipóteses: a hipótese de nulidade, isto é, uma hipótese de que determinado tratamento não tem efeito - bem como uma hipótese alternativa, de que o tratamento tem efeito. Escreve-se:

H0: efeito igual a zero

H1: efeito diferente de zero

Em seguida, é feito um teste estatístico para determinar a probabilidade de obter resultado igual ou maior do que o conseguido quando a hipótese da nulidade é verdadeira. Esse é o p-valor e o procedimento de Neyman-Pearson consiste em rejeitar a hipótese da nulidade sempre que p-valor < a.

Ao contrário do procedimento de Fisher, este método não usa, deliberadamente, a força da evidência obtida em um experimento em particular; decide, simplesmente, rejeitar ou não a hipótese da nulidade. O tamanho do p-valor não é usado para comparar experimentos, nem para tirar conclusões além de "A hipótese da nulidade deve (ou não) ser rejeitada.”.

Embora a abordagem de Neyman e Pearson seja conceitualmente diferente da de Fisher, os pesquisadores fundem as duas. A abordagem de Neyman e Pearson é onde obtemos "significância estatística", com um valor a pré-escolhido, que garante as probabilidades de falsos positivos no longo prazo. Mas suponha que você conduza um experimento e obtenha p-valor = 0,032. Se o seu limite for o convencional a = 0,05, você obteve um resultado estatisticamente significante. É tentador – embora esteja errado - dizer "A probabilidade de erro Tipo I é de 3,2%". Isso não faz sentido, porque um único experimento não determina uma probabilidade de erro Tipo I. Compare seu experimento com outros, vendo apenas o valor de a.

Quando se diminui um tipo de erro, aumenta-se o outro, considerando o mesmo problema, sendo resolvido pelo mesmo teste de significância. Mas há testes com mais poder do que outros. Denomina-se poder do teste a probabilidade de rejeitar a hipótese da nulidade quando ela é falsa. Então o melhor teste é aquele que tem a menor probabilidade de falsos negativos para uma determinada escolha de a.

COMENTÁRIO

Esta postagem foi escrita com base em:

REINHART, A. Statististics doing wrong. San Francisco, No Starch Press. 2015.



No comments: