A grande maioria dos trabalhos em ciência
experimental tem como objetivo testar o efeito de uma intervenção ou das diferenças
entre os efeitos de diversas intervenções. Por exemplo, diante da pergunta: ”Esta nova
droga tem efeito?”, quer você busque a resposta na literatura, quer conduza um
experimento, a estatística certamente entrará na história. E como a estatística
entra na história? Os estatísticos calculam a diferença estatisticamente significante que permite ao pesquisador
tomar decisão em condições de incerteza. Vamos discutir isso.
Imagine que você quer testar uma nova droga para
diminuir a duração de um resfriado. Para fazer isso, acha 100 pacientes com
resfriado e, para 50 deles tomados ao acaso, fornece a nova droga (grupo
tratado). Aos outros 50 fornece um placebo (grupo controle). Os pacientes serão
examinados duas vezes ao dia para registrar o tempo de duração dos resfriados
de cada um. Mas resfriados não têm a mesma duração: algumas pessoas têm resfriados com duração mais longa, outros
com duração mais curta. É a variabilidade, que o estatísticos medem calculando o desvio padrão. De qualquer forma, imagine que, terminado o experimento você verifica que nos 50 pacientes do
grupo tratado os resfriados perduram em média dois dias a menos que nos
pacientes do grupo controle. Você pode dizer que a nova droga realmente
funciona?
A resposta é dada por um teste de hipóteses, também conhecido como teste de significância. Aplicando o teste, você terá resposta para
a pergunta: “Se a nova droga não tem efeito, qual é a probabilidade de o experimento ter chegado a um resultado igual,
ou mais extremo do que o obtido?” É possível calcular essa probabilidade. Para
isso, é preciso formalizar a hipótese da
nulidade (H0), que pode ser escrita como segue:
H0: a nova droga não tem efeito.
Considerando verdadeira
a hipótese da nulidade, calcula-se
a probabilidade de serem obtidos resultados iguais, ou mais extremos dos que o
que foram obtidos. É o que se chama p-valor.
Pense bem: p-valor muito pequeno significa que:
1)
Ou você obteve
um resultado extremamente improvável
2) Ou a nova droga
tem efeito, logo a hipótese de nulidade deve ser rejeitada.
Entenda, por favor: o p-valor não mede “quão certo
você está” nem mede “quão importante
é a diferença”. O p-valor
mede apenas a probabilidade de você errar dizendo que uma droga
tem efeito quando não tem. Então os pesquisadores querem um p-valor pequeno. Quão pequeno
deve ser o p-valor para que você rejeite a hipótese da nulidade? Se p-valor for menor que 0,05, a regra é dizer que o efeito da droga é estatisticamente significante. A
escolha do valor 0,05 de probabilidade para rejeitar uma hipótese da nulidade não tem qualquer razão matemática; é
apenas um valor que se tornou convencional depois de décadas e décadas de uso.
Vamos pensar mais um pouco: se você tivesse testado
a nova droga em uma única pessoa, o fato de ela ter um resfriado de curta
duração não provaria nada, mas se o experimento descrito tivesse sido feito com
1.000 pessoas e aquelas que receberam a nova droga tivessem tido resfriados com duração mais curta que os controles, seria
razoável acreditar que a nova droga realmente tem efeito sobre um resfriado.
Então - como você já deve estar pensando - o p-valor depende tanto do tamanho da amostra como do tamanho do efeito. Portanto, o p-valor tem limitações. Quanto maior é a amostra, mais seguro é o resultado. Quanto maior é o efeito da intervenção que você está estudando, mais fácil é detectar a significância.
Então - como você já deve estar pensando - o p-valor depende tanto do tamanho da amostra como do tamanho do efeito. Portanto, o p-valor tem limitações. Quanto maior é a amostra, mais seguro é o resultado. Quanto maior é o efeito da intervenção que você está estudando, mais fácil é detectar a significância.
Mas significância estatística não quer dizer
resultado verdadeiro, isto é, somente um p-valor pequeno não basta para conferir validade a um trabalho. Um trabalho precisa ter, além da competente análise estatística, bons dados e boas hipóteses em teste. Se a métrica da sua pesquisa estiver errada ou mesmo inadequada, a análise estatística só irá conferir a ela um ar espúrio de respeitabilidade, nada mais.
Aliás, cabe lembrar que, se os dados são bons e as hipóteses são pertinentes, mesmo com estatísticas inadequadas eles podem ter valor: basta refazer as estatísticas. Isto se faz com artigos publicados em revistas internacionais, quando se suspeita das conclusões. Buscam-se os dados (que devem estar arquivados) e se refazem as estatísticas. Mas nada se pode fazer com dados incorretos: a boa métrica é crucial. De qualquer forma, um trabalho só é valido se for válido por inteiro.