Monday, December 09, 2019

p-valor pequeno traz validade ao trabalho?




A grande maioria dos trabalhos em ciência experimental tem como objetivo testar o efeito de uma intervenção ou das diferenças entre os efeitos de diversas intervenções. Por exemplo, diante da pergunta: ”Esta nova droga tem efeito?”, quer você busque a resposta na literatura, quer conduza um experimento, a estatística certamente entrará na história. E como a estatística entra na história? Os estatísticos calculam a diferença estatisticamente significante que permite ao pesquisador tomar decisão em condições de incerteza. Vamos discutir isso.
Imagine que você quer testar uma nova droga para diminuir a duração de um resfriado. Para fazer isso, acha 100 pacientes com resfriado e, para 50 deles tomados ao acaso, fornece a nova droga (grupo tratado). Aos outros 50 fornece um placebo (grupo controle). Os pacientes serão examinados duas vezes ao dia para registrar o tempo de duração dos resfriados de cada um. Mas resfriados não têm a mesma duração: algumas pessoas têm resfriados com duração mais longa, outros com duração mais curta. É a variabilidade, que o estatísticos medem calculando o desvio padrão. De qualquer forma, imagine que, terminado o experimento você verifica que nos 50 pacientes do grupo tratado os resfriados perduram em média dois dias a menos que nos pacientes do grupo controle. Você pode dizer que a nova droga realmente funciona?
A resposta é dada por um teste de hipóteses, também conhecido como teste de significância. Aplicando o teste, você terá resposta para a pergunta: “Se a nova droga não tem efeito, qual é a probabilidade de o experimento ter chegado a um resultado igual, ou mais extremo do que o obtido?” É possível calcular essa probabilidade. Para isso, é preciso formalizar a hipótese da nulidade (H0), que pode ser escrita como segue:
                    H0: a nova droga não tem efeito.
Considerando verdadeira a hipótese da nulidade, calcula-se a probabilidade de serem obtidos resultados iguais, ou mais extremos dos que o que foram obtidos. É o que se chama p-valor. Pense bem: p-valor muito pequeno significa que:
1)     Ou você obteve um resultado extremamente improvável
2)    Ou a nova droga tem efeito, logo a hipótese de nulidade deve ser rejeitada.
Entenda, por favor: o p-valor não mede “quão certo você está” nem mede “quão importante é a diferença”. O p-valor mede apenas a probabilidade de você errar dizendo que uma  droga tem efeito quando não tem.  Então os pesquisadores querem um p-valor pequeno. Quão pequeno deve ser o p-valor para que você rejeite a hipótese da nulidade? Se p-valor for menor que 0,05, a regra é dizer que o efeito da droga é estatisticamente significante. A escolha do valor 0,05 de probabilidade para rejeitar uma hipótese da nulidade não tem qualquer razão matemática; é apenas um valor que se tornou convencional depois de décadas e décadas de uso.
Vamos pensar mais um pouco: se você tivesse testado a nova droga em uma única pessoa, o fato de ela ter um resfriado de curta duração não provaria nada, mas se o experimento descrito tivesse sido feito com 1.000 pessoas e aquelas que receberam a nova droga tivessem tido resfriados com duração mais curta que os controles, seria razoável acreditar que a nova droga realmente tem efeito sobre  um resfriado.

   Então - como você já deve estar pensando - o p-valor depende tanto do tamanho da amostra como do tamanho do efeito. Portanto, o p-valor tem limitações.  Quanto maior é a amostra, mais seguro é o resultado. Quanto maior é o efeito da intervenção que você está estudando, mais fácil é detectar a significância.
Mas significância estatística não quer dizer resultado verdadeiro, isto é, somente um p-valor pequeno não basta para conferir validade a um trabalho. Um trabalho precisa ter, além da competente análise estatística, bons dados e boas hipóteses em teste. Se a métrica da sua pesquisa estiver errada ou mesmo inadequada, a análise estatística só irá conferir a ela um ar espúrio de respeitabilidade, nada mais. 
Aliás, cabe lembrar que, se os dados são bons e as hipóteses são pertinentes, mesmo com estatísticas inadequadas eles podem ter valor: basta refazer as estatísticas. Isto se faz com artigos publicados em revistas internacionais, quando se suspeita das conclusões. Buscam-se os dados (que devem estar arquivados) e se refazem as estatísticas. Mas nada se pode fazer com dados  incorretos: a boa métrica é crucial.  De qualquer forma, um trabalho só é valido se for válido por inteiro.