A inferência só vale para a população de onde foram obtidos os
participantes incluídos no trabalho. Por exemplo, para estudar pessoas sadias
usam-se, em geral, voluntários sadios recrutados entre estudantes
universitários, empregados de empresas, jovens que estão prestando serviço
militar, enfermeiros e técnicos de laboratório, em vez de a população em geral.
A rigor, os achados de tais estudos só podem ser aplicados à população da qual
a amostra foi retirada.
Mas quantas unidades são necessárias para formar um
grupo, ou seja, que tamanho deve ter a amostra? Essa é, possivelmente, a
pergunta que mais ouvem os estatísticos. Mas já esta firmando a ideia de que o
pesquisador deve considerar o critério estatístico para o cálculo do tamanho da
amostra. Basicamente, a amostra deve ser:
·
tanto maior quanto
maior é a variabilidade;
·
tanto maior quanto
menor é a diferença que se quer detectar como significante.
Se um pesquisador quiser estudar o efeito de exercícios físicos sobre a
velocidade de corrida, deve comparar resultados obtidos no grupo de
participantes submetidos a exercícios físicos periodicamente (braço ativo) com
o grupo de participantes não submetidos a exercícios físicos (braço de não
intervenção). Se os participantes dos dois grupos variarem muito em relação às
variáveis que afetam a velocidade de corrida (como sexo, idade, sobrepeso), a
comparação exigirá grupos muito grandes. Os grupos serão menores se o
pesquisador recrutar apenas universitários saudáveis, homens, com idade entre
18 e 20 anos, com peso normal. Por quê? Porque neste segundo grupo a velocidade
de corrida deve variar menos (variância menor).
A variabilidade é medida pela
variância e obtida de dados. E onde o pesquisador acha os dados? Só existem
dois caminhos: o pesquisador pode buscar informações na literatura ou fazer uma
amostra piloto. Se o pesquisador tiver uma estimativa da variância da
literatura, precisa ficar atento porque a variabilidade do seu material pode
ser maior do que a variabilidade do material usado por outros pesquisadores.
Então é mais seguro determinar o tamanho da amostra usando uma amostra piloto.
Para isso, o pesquisador toma uma pequena amostra da população que pretende
estudar – por exemplo, 20 pacientes – trata da maneira convencional e faz as
medidas que pretende fazer na pesquisa em planejamento. Com base nesses dados,
é possível ter uma estimativa da variância para calcular o tamanho da amostra.
Existem fórmulas para isso.
Vamos entender agora que a amostra aumenta em função da grandeza da
diferença que se quer perceber. Se o efeito da intervenção é dramático – por
exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para
20% – uma amostra relativamente pequena é suficiente. No entanto, se o efeito
da intervenção é bem discreto – por exemplo, reduz a taxa de mortalidade por
determinada causa, que era de 80% para 75% – é preciso uma amostra muito maior.[1]
Dessa última afirmativa que é, até certo ponto, intuitiva, é fácil
entender que para comparar o grupo experimental, que recebe uma nova droga, com
o grupo controle, que recebe apenas placebo, é razoável usar amostra menor do
que a que seria usada se a proposta fosse a de comparar um grupo experimental,
que recebe uma nova droga, com o controle positivo, que recebe uma droga
conhecida. Isso porque se espera maior diferença do grupo que recebeu a droga
com o grupo que recebeu placebo, do que com o grupo que recebeu uma droga
conhecida (controle positivo).
Quando se calcula o tamanho da amostra, é comum adotar – embora não haja qualquer justificativa teórica para isso – nível de significância de 5% e poder de teste de 80%. Isto significa que se admite até 5% de probabilidade de errar ao dizer que os grupos são diferentes e 20% de probabilidade de não detectar uma diferença que realmente existe. Portanto, se o cálculo da amostra foi feito levando em conta um poder de teste de 80%, a conclusão de que não há diferença entre as intervenções provavelmente estará errada em um de cada cinco ensaios.
Existem hoje vários programas que calculam o tamanho da amostra, mas,
para fazer o cálculo, o pesquisador precisa fornecer alguns valores, sejam eles
da literatura ou de amostras piloto. Existem, também, tabelas. A tabela
apresentada aqui vem de um livro clássico da área[2]. Essa tabela só pode ser
utilizada quando o resultado do ensaio é uma variável dicotômica, isto é,
sucesso e fracasso. Para usar a tabela, o pesquisador precisa de uma estimativa
da probabilidade de sucesso da intervenção de menor sucesso (geralmente, a taxa
de sucesso da intervenção padrão). Este porcentual deve ser procurado na
primeira coluna da Tabela 3. Depois, precisa fornecer uma estimativa da
diferença que espera para o aumento de sucesso com a nova intervenção (baseado
em testes pré-clínicos). Este porcentual deve ser procurado na primeira linha
da Tabela 3. No cruzamento, o pesquisador encontra três números em coluna: o
primeiro é para nível de significância a = 5% e poder do teste de b=80%; o
segundo é para a= 5% e b = 90%; o terceiro é para a= 5% e b= 95%.
Número de pacientes necessários no grupo experimental e no grupo
controle para uma dada probabilidade de obter resultado significante (teste
bilateral)
Fonte:
Gehan, E A. Clinical Trials in Cancer
Research.
Environmental Health Perspectives. Vol. 32, pp. 3148, 1979
Um pesquisador quer verificar se uma nova intervenção reduz a taxa de
mortalidade por determinada causa, que era de 90%, para 25%, conforme indicam
pesquisas pré-clínicas. Então a menor taxa de sucesso (coluna da Tabela 3.1) é
10% (os que não morriam). A diferença entre as duas taxas de sucesso é 65%
(75%, que com a nova intervenção 75% não morrem, menos 10%). Para a= 5% e b=
80%, no cruzamento da coluna 10% com a linha 65% está, em primeiro lugar, 11.
Então, para um primeiro ensaio, o pesquisador precisaria de, no mínimo 20
pacientes para um teste bilateral. É razoável aumentar a amostra calculada em
20% – ou seja, começar o ensaio com 24 participantes. No entanto, se a nova
intervenção reduz a taxa de mortalidade por determinada causa em apenas 10%,
isto é, passa de 90% para 80%, a menor taxa de sucesso é 10% e a redução é 10%.
Cada grupo precisa de 195 participantes, ou seja, um mínimo de 390.
Acrescentando 20%, chega-se a 468 participantes para um teste bilateral.
Amostras pequenas têm pouco poder de teste – a menos
que o efeito da nova intervenção seja dramático. É, pois, quase certo que
alguns tratamentos tenham sido descartados prematuramente pelo fato de terem
sido testados em ensaios que, em razão do tamanho reduzido, não poderiam,
mesmo, dar respostas conclusivas.[3] Mas hoje os pesquisadores
têm cuidado para aumentar o poder do teste. As amostras aumentaram de tamanho,
há um uso maior de resultados compostos (composite
outcomes) e de resultados substitutos (surrogate
outcomes), que serão tratados no Capítulo 4 deste livro.
Para aumentar os tamanhos das amostras, em vários países já se faz
recrutamento de pacientes por meio da Internet. O NIH (National Institutes of Health), órgão do governo americano, oferece
informações sobre ensaios clínicos que estão recrutando participantes, já não
estão recrutando participantes ou suspenderam, temporariamente, o recrutamento
em todos os Estados Unidos da América (www.clinicaltrials.gov). Outra fonte de ensaios
clínicos na Web: www.Center Watch.com.
O pesquisador também pode conseguir participantes para um ensaio clínico
fazendo recrutamento público por meio de cartazes fixados em lugares de
bastante trânsito, anúncios em jornais ou em rádios.[4] Esse sistema, ainda pouco
usado no Brasil, é comum em diversos países.
[1] Existem fórmulas
para determinar o tamanho da amostra. Veja: Cochran, W. G., Sampling
techniques; Nova York: Wiley, 1977.
[2] Cochran, W. G. e Cox, GM.
Experimental design. Nova York, Wiley, 2ª ed. 1957.
[3] Falando em uma
reunião do FDA, o Dr. Robert Temple, diretor do Office of Drug Evaluation, isto
é, Departamento de Avaliação de Drogas, órgão subordinado ao FDA, considerou “ridículo”
um experimento com sete pacientes por grupo.
[4] A Resolução
251/97 do Conselho Nacional de Saúde, Ministério da Saúde, estabelece, no item
V.d, que avisos em meios de comunicação para recrutar participantes de pesquisa
precisam ser autorizados pelo Comitê de Ética em Pesquisa.