Sunday, July 13, 2014

Meta-análise

Meta-análise (meta-analysis) significa “análise das análises”. É uma técnica de revisão da literatura que sintetiza, de forma objetiva, os achados de vários trabalhos clínicos de qualidade 1. Para fazer uma meta-análise, o primeiro passo é levantar os trabalhos relevantes sobre o assunto que se quer analisar. Alguns analistas adotam o critério de pedir, a todo primeiro autor de bons trabalhos na área, quaisquer outros que tenha escrito, mesmo que não tenham sido publicados. A ideia é a de que a inclusão de trabalhos não publicados possa reduzir o potencial de viés, devido à preferência dos editores por significância estatística.
Reunidos os artigos, passa-se ao segundo passo, que é a avaliação da qualidade. Essa avaliação deve ser feita por pelo menos dois pesquisadores independentes, usando folhas de verificação previamente organizadas. Os estudos não podem diferir muito quanto ao delineamento, isto é, devem ser combináveis. Portanto, os critérios de inclusão e a exclusão de artigos devem ser cuidadosamente especificados. É usual incluir apenas ensaios clínicos randomizados e estudos prospectivos porque se entende que outros tipos de estudo não são adequados, embora possam, eventualmente, ser considerados. As discordâncias entre avaliadores são resolvidas por consenso. Mas a validade da meta-análise depende, sobretudo, da similaridade dos estudos que foram combinados.
Escolhidos os artigos que passaram pelo critério de qualidade e podem ser combinados, passa-se à terceira fase em que, por procedimentos estatísticos, combinam-se os resultados de estudos clínicos individuais. A meta-análise então generaliza os resultados de estudos quantitativos.
É difícil fazer uma meta-análise, mas dela se tiram conclusões com base em uma série de bons artigos e de maneira objetiva, isto é, independentemente da opinião de seus autores. As metas-análises tornaram-se muito importantes para as ciências da saúde. No entanto, evidências obtidas por meio de meta-análise mostram, muitas vezes, notórias discrepâncias com as recomendações feitas por especialistas. Algumas das causas que poderiam explicar a falta de concordância entre resultado de meta-análise e recomendações dos especialistas:
       Grande quantidade de ensaios clínicos: o número de ensaios clínicos randomizados na literatura de qualquer especialidade é muito grande para que um especialista da área possa ler e entender todos eles ou, até mesmo, a simples maioria.

       Ensaios clínicos randomizados “negativos”: alguns revisores podem não entender que um pequeno ensaio, cujos resultados não sejam estatisticamente significantes, não é, necessariamente, um ensaio negativo, no sentido de que sugere que o tratamento não funciona. Por outro lado, pode ser que alguns especialistas adotem sempre uma atitude conservadora em relação aos pequenos ensaios, mesmo que tenham mostrado resultados estatisticamente significantes, esperando a publicação de grandes ensaios.

       Pouca ou nenhuma familiaridade com a meta-análise: a técnica estatística da meta-análise só ficou comum na literatura clínica recentemente. Portanto, muitos revisores podem não saber interpretar os resultados desse tipo de análise; outros talvez tenham reservas quanto ao processo de combinar os resultados de ensaios múltiplos.

       Confiança na própria experiência: um exemplo interessante de que confiar na própria experiência é sempre muito problemático é o fato, registrado, de os autores de revisões e capítulos de livros sobre enfarte do miocárdio terem apresentado a tendência de ignorar os trombolíticos, que provaram reduzir a mortalidade e se entusiasmar com a lidocaína, que não tem efeito. Isto se explica pelo fato de o clínico muitas vezes raciocinar apenas com base em alguns eventos que presenciou, de baixa taxa de ocorrência. No primeiro caso, dos trombolíticos, os médicos podem ter visto o efeito colateral da hemorragia, depois de tratar alguns poucos pacientes, ou podem ter ouvido sobre isso; no segundo caso, da lidocaína, eles podem ter visto arritmias ventriculares que imaginaram ser precursor de morte súbita, diminuir com a medicação.

       Disponibilidade no mercado: A disponibilidade da droga no mercado facilita a prescrição dessa droga para outro uso, que não aquele para a qual foi desenvolvida (off-label). Os betabloqueadores são bom exemplo disso, porque foram recomendados para uso em uma grande variedade de condições cardiovasculares. Logo foram prescritos para reduzir a mortalidade nos casos de infarto do miocárdio, com muito mais frequência do que vasodilatadores e anticoagulantes, dois tipos de drogas cuja eficiência na redução da mortalidade já era conhecida.
Finalmente, cabe enfatizar que os ensaios clínicos randomizados multicêntricos ou aqueles abalizados numa meta-análise constituem, sem dúvida alguma, o “padrão ouro” para comparar intervenções. Mas o FDA4 faz, no caso de drogas, mais exigências para ter evidência substancial, que define como a evidência obtida de investigação adequada e bem controlada, incluindo ensaios clínicos conduzidos por especialistas qualificados e cientificamente bem treinados, com experiência na avaliação da eficácia da droga considerada.

Referências
1.            Hunter, J. E. & Schimidt, F. I. “Methods of meta-analysis”, Newbury Park, CA, Sage, 1990.
2.            Hedges, L. V.; Olkin, I., Statistical Methods For Meta-Analysis; Orlando: Academic Press, 1985.
3.            Antman, E. M. et al., “A Comparison of Results of Meta-analyses of Randomized Control Trials and Recommendations of Clinical Experts”; JAMA, 1992, V. 268, no  2. 240 -248.
4.            Food, Drug, and Cosmetic Act, chapter 5, subchapter A, section 501



Monday, June 23, 2014

Randomização blocada

Nos ensaios clínicos randomizados, os participantes são designados aos diferentes braços do ensaio de forma aleatória. Esse procedimento pode resultar em ensaios desbalanceados. Por exemplo, se duas intervenções, A e B, são designadas totalmente ao acaso para 100 participantes, pode acontecer de a intervenção A ser sorteada para, por exemplo, 68 participantes e a intervenção B para 32. O ensaio ficaria desbalanceado porque a intervenção A teria mais que o dobro de participantes. Para garantir que o número de participantes designados para cada intervenção fique próximo, usa-se randomização blocada.

Randomização blocada (blocked randomization) é o modelo de intervenção em que os participantes – no momento em que se apresentam – são organizados em blocos.  O número de participantes por bloco é igual ou múltiplo do número de braços do ensaio, mas o mesmo em todos os blocos. Os participantes são designados ao acaso aos diferentes braços do ensaio, mas dentro dos blocos.

Exemplo
Para comparar duas intervenções, A e B, os blocos podem ser formados por 2, ou 4, ou 6, ou 8 etc. participantes. Se forem organizados blocos de quatro participantes, cada bloco terá dois participantes submetidos à intervenção A e dois submetidos à intervenção B. Essas intervenções são designadas aos participantes de um mesmo bloco ao acaso. Pode ocorrer qualquer uma das sequências: AABB; ABAB, BAAB, BABA, BBAA, ABBA; na figura, um bloco com a primeira dessas sequências.
Se forem 100 os participantes, o ensaio terá 25 blocos de quatro participantes cada um. Serão designados ao acaso dois participantes para a intervenção A e dois para a intervenção B, em cada bloco, como mostra a figura dada em seguida.


A grande vantagem da randomização blocada é garantir número balanceado de participantes nos diferentes braços do ensaio. Mas tem outras vantagens: 1. os participantes podem ser diferentes se o tempo de recrutamento for longo, se eles vierem de lugares diferentes ou se os mais doentes forem primeiro atendidos; nesses casos, a randomização blocada produz braços mais comparáveis. 2. a randomização blocada garante número equilibrado de participantes por intervenção se o ensaio for suspenso.

A desvantagem do uso de randomização blocada é o procedimento para randomização, mais complicado e a análise estatística, mais difícil. Alguns pesquisadores procedem à randomização blocada e depois a ignoram na análise, o que está errado. É preciso que a análise estatística seja coerente com o delineamento.
Exemplo da literatura
 Para comparar a velocidade de ação de duas drogas (ticagrelor e clopidogrel) indicadas para prevenir a formação de coágulos de sangue que possam causar infarto agudo do miocárdio ou acidente vascular cerebral (AVC), foi conduzido um ensaio clínico1. Foram recrutados 154 pacientes, após triagem. Todos eles fizeram washout, mas 31 foram dispensados logo em seguida, devido a falhas de avaliação na triagem.

Os 123 pacientes restantes entraram no ensaio sequencialmente. A proposta era ter 12 pacientes submetidos a placebo. Organizou-se, então, uma randomização blocada até se conseguir 12 participantes no braço placebo. Como havia duas drogas em comparação, ticagrelor e clopidogrel, mais o braço placebo, foram organizados seis blocos de seis pacientes.
 Quando se constituiu o primeiro bloco com seis pacientes, foi sorteado ticagrelor para dois, clopidogrel para outros dois e os dois pacientes restantes receberam placebo. O mesmo procedimento foi adotado para outros cinco blocos. Conseguidos os 12 pacientes submetidos ao placebo, passou-se a designar apenas as duas drogas, aleatoriamente, aos demais participantes do ensaio.

Referência

Paul A. Gurbel, Kevin P. Bliden, Kathleen Butler, Udaya S. Tantry, Tania Gesheff, Cheryl Wei, Renli Teng, Mark J. Antonino, Shankar B. Patil, Arun Karunakaran, Dean J. Kereiakes, Cordel, Parris. The ONSET/OFFSET Study:Effects of Ticagrelor Versus Clopidogrel in Patients With Stable Coronary Artery Disease Assessment of the ONSET and OFFSET of the Antiplatelet. Circulation. 2009; 120:2577-2585.

Wednesday, June 11, 2014

Delineamentos de ensaios clínicos

Pertencem à História da Medicina os casos de novas intervenções cuja superioridade foi detectada sem qualquer ensaio clínico. É sempre citada a penicilina, que foi introduzida na prática médica sem muita pesquisa. No entanto, histórias de intervenções com efeitos benéficos tão dramáticos são raras. Hoje são continuamente propostas novas intervenções, mas que trazem contribuição apenas moderada e só podem ser percebidas mediante muitos e grandes ensaios clínicos. E isso é importante.

Por exemplo, Collins et al. 1 argumentam que reduzir a mortalidade por infarto do miocárdio de 14,9% para 11,4% representa um volume imenso de mortes evitadas, dada a elevada incidência do problema. Mais exatamente, são evitadas 35 mortes de cada 1000 infartados. Essa redução, mediante terapia anticoagulante na ausência de aspirina, só foi percebida por meio de uma meta análise com 26 artigos que relatavam ensaios randomizados envolvendo 5020 pacientes, tendo sido designados 2484 para a terapia anticoagulante e 2536 para o grupo controle.

  Por outro lado, não conduzir ensaios clínicos adequados no devido tempo pode ter conseqüências sérias. Um argumento a favor dos ensaios clínicos é o fato de algumas intervenções terem sido abandonadas logo depois de serem acolhidas com entusiasmo, por absoluta falta de evidência de superioridade ou, até mesmo, pelo fato de terem se mostrado prejudiciais. Exemplos clássicos de intervenções introduzidas na prática médica sem experimentação e que posteriormente se revelaram prejudiciais são a técnica de resfriamento no caso de úlcera gástrica e o uso de talidomida como antiemético para gestantes. Os ensaios clínicos são, portanto, essenciais.

Ensaio clínico é uma pesquisa na qual um ou mais seres humanos são prospectivamente designados a uma ou mais intervenções (que podem incluir placebo ou outro controle) para avaliar os efeitos dessas intervenções sobre resultados biomédicos ou comportamentais relacionados com a saúde 2.


Delineamento do ensaio (trial design) ou modelo de intervenção (intervention model) é a descrição do procedimento adotado para designar as intervenções em estudo aos diversos participantes de um mesmo ensaio clínico. Existem vários modelos de intervenção: ensaio clínico randomizado, randomização blocada, randomização estratificada, delineamento cruzado, ensaios clínicos “antes e depois”, delineamentos fatoriais. Estes são os delineamentos mais utilizados. Há que estudá-los, antes de planejar um ensaio clínico.


Referências
(1) Collins, R; MacMahon, S; Flather, M; Baigent, C; Remvig, L;Mortensen,S; Appleby,P;  Godwin, J;  Yusuf, S; Peto,R Clinical effects of anticoagulant therapy in suspected acute myocardial infarction: systematic overview of randomized trials. BMJ volume 313 14 September 1996.


https: //grants.nih.gov/grants/.../NOT-OD-15-015.ht...


Wednesday, May 07, 2014

Validade de um questionário


Um questionário tem validade quando mede o que propõe medir.

Tipos de validade: de face, de conteúdo, preditiva e de construção.

Validade de face é o grau com que o questionário aparentemente mede o que foi projetado para medir. A validade de face é, em geral, determinada por:
 a) especialistas na questão, que consideram se o instrumento mede o que foi projetado para medir;
 b) uma amostra de respondentes, que dirão se o instrumento parece medir o que deveria medir.

Exemplo: Um exame de aritmética para a quarta série do ensino fundamental constituído de problemas de aritmética terá validade de face se, aparentemente, medir o conhecimento de aritmética que se ensina na quarta série do ensino fundamental. A validação do instrumento deve ser feita por professores dessa série e pelos alunos, que se submeterão ao exame.

Validade do conteúdo é a extensão com que as questões do questionário fornecem a informação que se quer obter, em todas as dimensões.

Exemplo: Um questionário para avaliar candidatos a um emprego deve medir diversas dimensões como interesse, conhecimento e aptidão dos candidatos. Não teria validade de conteúdo o questionário que avaliasse somente o interesse dos candidatos em preencher a vaga.

Existe relação entre validade de conteúdo e validade de face, embora os conceitos sejam diferentes. A validade de face é um conceito mais frouxo porque diz apenas se o instrumento “parece” válido. Já a validade de conteúdo exige avaliação de especialistas e, em geral, tratamento estatístico.

Validade preditiva é a extensão com que os resultados de um questionário predizem futuros desempenhos. É, portanto, o grau com que os resultados do questionário estarão, possivelmente, correlacionados com medidas que serão obtidas no futuro.

Exemplo: O resultado de um teste de aptidão aplicado aos candidatos ao vestibular de uma Faculdade de Odontologia deve estar relacionado com o desempenho que os alunos terão na clínica, durante e depois do curso.

Validade de construção é o grau com que os resultados do questionário se correlacionam com os resultados obtidos de outra forma – de validade conhecida, isto é, que se sabe serem corretos.

Exemplo: Gassen (1) comparou os resultados obtidos por meio de um questionário respondido em entrevista face a face para avaliar a disfunção temporomandibular com os resultados de um exame clínico que, sabidamente, mostra o grau de disfunção. Participaram da pesquisa 136 mulheres com idades que variavam de 18 até 54 anos, inclusive.

   O questionário também tem validade de construção se as respostas dos respondentes se correlacionam com as expectativas baseadas na teoria.

Exemplo: Os resultados de um questionário para medir ansiedade devem dar valores mais altos se os respondentes estiverem em ambiente que causa ansiedade.

   Ainda, o questionário tem validade de construção se as respostas dos respondentes se correlacionam com uma medida inquestionável, de acordo com especialistas da área.

Exemplo: O Teste de Inteligência Stanford Binet é longo e exaustivo e exige alto grau de treinamento de quem o administra, mas é bem aceito como medida de inteligência. Se você quiser desenvolver um teste pequeno e fácil de QI, pode determinar a sua validade preditiva administrando seu teste a pessoas que já fizeram o Stanford Binet e, em seguida, determinar se os resultados obtidos pelo seu teste estão correlacionados com os resultados do Teste de Inteligência Stanford Binet.

Existe relação entre validade preditiva e validade de construção, embora esses conceitos sejam diferentes. A validade preditiva diz respeito à predição, isto é, quão bem os resultados de um questionário predizem comportamento futuro. Já a validade de construção exige avaliação imediata, com outra forma de medir o conceito que seja reconhecida mesmo não sendo um padrão ouro. 

Referência

1. GASSEN, W. S. Análise da efetividade do questionário de Helkimo para avaliação da disfunção temporomandibular. 2006. Dissertação (mestrado) Centro de Pós-Graduação CPO São Leopoldo Mandic. Campinas.



Saturday, April 26, 2014

CONFIABILIDADE DE QUESTIONÁRIOS


   Confiabilidade de um instrumento de medição (reliability of a measurement instrument) é a extensão em que o instrumento produz resultados reprodutíveis.



Um instrumento de medição pode ser confiável e não ser válido. No entanto, um instrumento de medição só será válido se for confiável.

Vamos discorrer aqui sobre a confiabilidade de um questionário. Um questionário é confiável se fornecer resultados consistentes quando replicado em condições similares. Existem dois tipos de confiabilidade: a interna e a externa.

Confiabilidade externa (external reliability) refere-se à extensão com que os resultados de um questionário variam quando aplicados em ocasiões diferentes (estabilidade) ou por examinadores diferentes (equivalência), aos mesmos participantes de pesquisa.

Dizemos, então, que o questionário tem estabilidade se forem obtidos os mesmos resultados quando aplicado duas ou mais vezes às mesmas pessoas. Para medir a estabilidade, usamos o método do teste re-teste.

Dizemos que o questionário apresenta equivalência se dois ou mais examinadores obtiverem os mesmos resultados, quando o administrarem às mesmas pessoas. Para medir equivalência, calculamos a confiabilidade entre examinadores.

Método de teste re-teste (test-retest method): avalia a estabilidade, ou seja, a extensão com que as pessoas respondem as mesmas perguntas da mesma forma, depois de certo tempo. Para isso, o questionário é administrado duas vezes (primeiro o teste, depois o re-teste), para o mesmo grupo de pessoas. A aplicação do método exige, porém, duas pressuposições, nem sempre realistas: primeiramente, nada deve acontecer no período que decorre entre o teste e o re-teste que modifique a opinião dos respondentes e, segundo, eles não devem estar lembrados,quando fazem o re-teste, das respostas dadas no teste.

Uma medida estatística da estabilidade das respostas no teste e re-teste de um questionário é o coeficiente de correlação de Pearson. Calcula-se a correlação entre o escore (total) dos respondentes no “teste” e o escore (total) quando o questionário foi aplicado pela segunda vez – o “re-teste”. O coeficiente de correlação é usado como índice da confiabilidade do questionário.

Exemplo
MESQUITA e VIEIRA (2009)1 administraram o questionário conhecido como Perfil do Impacto de Saúde Oral, conhecido como OHIP, (Oral Health Impact Profile) para 916 funcionários e professores da rede estadual de ensino de Montes Claros, MG (2). Os questionários estavam numerados, mas foram distribuídos aleatoriamente e respondidos anonimamente. Quando distribuiu os questionários, a pesquisadora explicou aos respondentes que deveriam memorizar o número escrito no questionário, embora esse número não os identificasse. Isto porque eles seriam chamados novamente para responder o mesmo questionário. Os que aceitassem o convite deveriam então colocar, no segundo questionário, o número do primeiro, pois seria o re-teste do questionário.  


Confiabilidade entre examinadores (Inter-rater reliability): Se o mesmo questionário puder ser aplicado aos mesmos respondentes por dois ou mais pesquisadores, é possível obter uma medida da confiabilidade entre examinadores, de duas maneiras diferentes:

          ·      Calculando a proporção de escores que estão em perfeita concordância;
        ·     Calculando o coeficiente de correlação entre os escores obtidos pelos participantes com os dois entrevistadores. Se forem mais de dois examinadores, calcule a média dos coeficientes de correlação dos escores obtidos por participante com cada par de entrevistadores.

Exemplo
Lobbestael, J; Leurgans M; Arntz (2011)2 administraram o questionário conhecido como Manual de Entrevista Clínica Estruturada para o Diagnóstico e a Estatística de Transtornos Mentais a 151 pacientes internados e ambulatoriais e controles, não-pacientes. Os examinadores administravam os questionário independentemente, sem saber os resultados obtidos pelos outros. Depois, analisaram os resultados, que revelaram concordância entre os examinadores.

Confiabilidade interna ou consistência interna de um questionário 1 é a extensão em que os diversos itens que o compõem o questionário conduzem às mesmas respostas.

Existem vários métodos para estimar a confiabilidade interna de um questionário, mas os mais conhecidos são:

                     ·       Método da divisão em metades
                     ·       Alfa de Cronbach
                         
Método da divisão em metades (split-half method): para usar este método, divide-se o questionário em duas partes iguais: por exemplo, a metade superior e a metade inferior, ou o conjunto dos itens de número par e o conjunto dos itens de número impar. Calcula-se, então, a correlação entre “o somatório dos escores obtidos pelos respondentes quando se aplicou a primeira metade do questionário” e “o somatório dos escores obtidos pelos respondentes quando se aplicou a segunda metade do questionário”. O coeficiente de correlação, nesse caso, ajustado para o tamanho inicial do questionário, é um indicador da confiabilidade.

Exemplo
O diretor de uma escola quer saber se um professor mostra conhecer a disciplina que leciona. Fez então um questionário de auto-aplicação para os alunos. Para estudar a confiabilidade pelo método da divisão em metades, o diretor deve aplicar o questionário e depois dividir em dois, com metade das questões em cada parte. Calcula, então, a correlação (que deve ser alta) entre os pontos obtidos nas duas metades.

Alfa de Cronbach: é uma medida da consistência interna de um questionário – um dos aspectos de confiabilidade. Definitivamente, é a medida mais usada, não só por ser fácil de calcular como também poder ser calculada mesmo quando se aplica o questionário uma única vez. Mas nem sempre é bem entendida nem bem interpretada. Veja mais sobre o alfa de Cronbach em outra postagem, deste mesmo blog.


Referências

1.     Mesquita FAB, Vieira S. Impacto da condição auto-avaliada de saúde bucal na qualidade de vida: um estudo em Montes Claros. RGO. 2009.
2.       Lobbestael, J; Leurgans M; Arntz, A Inter-rater reliability of the Structured Clinical Interview for DSM-IV Axis I Disorders (SCID I) and Axis II Disorders (SCID II). Clinical Psychology & Psychotherapy. Volume 18, Issue 1, pages 75–79, January/February 2011




Sunday, April 06, 2014

Sete Ferramentas Estatísticas da Qualidade

As Sete Ferramentas Estatísticas da Qualidade são um conjunto de técnicas gráficas usadas para compreender e melhorar um processo de produção. A denominação Sete Ferramentas Estatísticas da Qualidade surgiu no Japão logo após a Segunda Guerra Mundial1, quando as empresas precisaram capacitar grande quantidade de mão de obra para o controle da qualidade. Como não era possível ensinar estatística para todos os trabalhadores, concentraram esforços no treinamento de pessoas para desenhar gráficos que fossem simples, mas resolvessem a maior parte das questões. Esses gráficos constituem as Sete Ferramentas Estatísticas da Qualidade 2 .
1.   Fluxograma é a representação visual da sequência de passos do processo3.
2.  Diagrama de causa e efeito é a ferramenta estatística que mostra a relação entre todos os fatores (as causas) que levam a determinada situação (o efeito). As causas primárias, depois de identificadas são subdivididas em causas secundárias 4 .
3. Folha de verificação é uma planilha previamente preparada para o registro de informações que devem ser coletadas em passos específicos do processo.
4.   Diagrama de Pareto é um gráfico de barras ordenadas da maior para a menor. No eixo horizontal são colocados os tipos de perdas e no eixo vertical as quantidades perdidas, de maneira que a ordem das barras mostre a importância relativa dos tipos de perdas.
5.   Histograma é o gráfico que mostra, por meio das barras verticais desenhadas lado a lado, a distribuição de frequências de uma variável, revelando padrões difíceis de reconhecer quando os dados estão apresentados somente em tabela.
6.   Diagrama de dispersão é um gráfico que permite visualizar a possível relação entre duas variáveis numéricas.
7.  Gráfico de controle é o método mais usado para monitorar o desempenho de um processo ao longo do tempo.

Referências


1.  Kume, H. Statistical methods for statistical improvement. Tóquio, The Association of Overseas Technical Scholarship. 1988
2.     Vieira, S. Estatística para a Qualidade. 3 ed. Rio de Janeiro, Elsevier, 2014
3.     Quality Glossary http://asq.org/glossary/p.html




Tuesday, March 25, 2014

Tamanho da amostra


A inferência só vale para a população de onde foram obtidos os participantes incluídos no trabalho. Por exemplo, para estudar pessoas sadias usam-se, em geral, voluntários sadios recrutados entre estudantes universitários, empregados de empresas, jovens que estão prestando serviço militar, enfermeiros e técnicos de laboratório, em vez de a população em geral. A rigor, os achados de tais estudos só podem ser aplicados à população da qual a amostra foi retirada.
Mas quantas unidades são necessárias para formar um grupo, ou seja, que tamanho deve ter a amostra? Essa é, possivelmente, a pergunta que mais ouvem os estatísticos. Mas já esta firmando a ideia de que o pesquisador deve considerar o critério estatístico para o cálculo do tamanho da amostra. Basicamente, a amostra deve ser:

·                     tanto maior quanto maior é a variabilidade;
·                     tanto maior quanto menor é a diferença que se quer detectar como significante.

Se um pesquisador quiser estudar o efeito de exercícios físicos sobre a velocidade de corrida, deve comparar resultados obtidos no grupo de participantes submetidos a exercícios físicos periodicamente (braço ativo) com o grupo de participantes não submetidos a exercícios físicos (braço de não intervenção). Se os participantes dos dois grupos variarem muito em relação às variáveis que afetam a velocidade de corrida (como sexo, idade, sobrepeso), a comparação exigirá grupos muito grandes. Os grupos serão menores se o pesquisador recrutar apenas universitários saudáveis, homens, com idade entre 18 e 20 anos, com peso normal. Por quê? Porque neste segundo grupo a velocidade de corrida deve variar menos (variância menor).
 A variabilidade é medida pela variância e obtida de dados. E onde o pesquisador acha os dados? Só existem dois caminhos: o pesquisador pode buscar informações na literatura ou fazer uma amostra piloto. Se o pesquisador tiver uma estimativa da variância da literatura, precisa ficar atento porque a variabilidade do seu material pode ser maior do que a variabilidade do material usado por outros pesquisadores. Então é mais seguro determinar o tamanho da amostra usando uma amostra piloto. Para isso, o pesquisador toma uma pequena amostra da população que pretende estudar – por exemplo, 20 pacientes – trata da maneira convencional e faz as medidas que pretende fazer na pesquisa em planejamento. Com base nesses dados, é possível ter uma estimativa da variância para calcular o tamanho da amostra. Existem fórmulas para isso.
Vamos entender agora que a amostra aumenta em função da grandeza da diferença que se quer perceber. Se o efeito da intervenção é dramático – por exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para 20% – uma amostra relativamente pequena é suficiente. No entanto, se o efeito da intervenção é bem discreto – por exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para 75% – é preciso uma amostra muito maior.[1]
Dessa última afirmativa que é, até certo ponto, intuitiva, é fácil entender que para comparar o grupo experimental, que recebe uma nova droga, com o grupo controle, que recebe apenas placebo, é razoável usar amostra menor do que a que seria usada se a proposta fosse a de comparar um grupo experimental, que recebe uma nova droga, com o controle positivo, que recebe uma droga conhecida. Isso porque se espera maior diferença do grupo que recebeu a droga com o grupo que recebeu placebo, do que com o grupo que recebeu uma droga conhecida (controle positivo).

Quando se calcula o tamanho da amostra, é comum adotar – embora não haja qualquer justificativa teórica para isso – nível de significância de 5% e poder de teste de 80%. Isto significa que se admite até 5% de probabilidade de errar ao dizer que os grupos são diferentes e 20% de probabilidade de não detectar uma diferença que realmente existe. Portanto, se o cálculo da amostra foi feito levando em conta um poder de teste de 80%, a conclusão de que não há diferença entre as intervenções provavelmente estará errada em um de cada cinco ensaios.


Existem hoje vários programas que calculam o tamanho da amostra, mas, para fazer o cálculo, o pesquisador precisa fornecer alguns valores, sejam eles da literatura ou de amostras piloto. Existem, também, tabelas. A tabela apresentada aqui vem de um livro clássico da área[2]. Essa tabela só pode ser utilizada quando o resultado do ensaio é uma variável dicotômica, isto é, sucesso e fracasso. Para usar a tabela, o pesquisador precisa de uma estimativa da probabilidade de sucesso da intervenção de menor sucesso (geralmente, a taxa de sucesso da intervenção padrão). Este porcentual deve ser procurado na primeira coluna da Tabela 3. Depois, precisa fornecer uma estimativa da diferença que espera para o aumento de sucesso com a nova intervenção (baseado em testes pré-clínicos). Este porcentual deve ser procurado na primeira linha da Tabela 3. No cruzamento, o pesquisador encontra três números em coluna: o primeiro é para nível de significância a = 5% e poder do teste de b=80%; o segundo é para a= 5% e b = 90%; o terceiro é para a= 5% e b= 95%.
Número de pacientes necessários no grupo experimental e no grupo controle para uma dada probabilidade de obter resultado significante (teste bilateral)


                                                          Fonte: Gehan, E A.  Clinical Trials in Cancer Research. 
                                                              Environmental Health Perspectives.  Vol. 32, pp. 3148, 1979
Um pesquisador quer verificar se uma nova intervenção reduz a taxa de mortalidade por determinada causa, que era de 90%, para 25%, conforme indicam pesquisas pré-clínicas. Então a menor taxa de sucesso (coluna da Tabela 3.1) é 10% (os que não morriam). A diferença entre as duas taxas de sucesso é 65% (75%, que com a nova intervenção 75% não morrem, menos 10%). Para a= 5% e b= 80%, no cruzamento da coluna 10% com a linha 65% está, em primeiro lugar, 11. Então, para um primeiro ensaio, o pesquisador precisaria de, no mínimo 20 pacientes para um teste bilateral. É razoável aumentar a amostra calculada em 20% – ou seja, começar o ensaio com 24 participantes. No entanto, se a nova intervenção reduz a taxa de mortalidade por determinada causa em apenas 10%, isto é, passa de 90% para 80%, a menor taxa de sucesso é 10% e a redução é 10%. Cada grupo precisa de 195 participantes, ou seja, um mínimo de 390. Acrescentando 20%, chega-se a 468 participantes para um teste bilateral.

Amostras pequenas têm pouco poder de teste – a menos que o efeito da nova intervenção seja dramático. É, pois, quase certo que alguns tratamentos tenham sido descartados prematuramente pelo fato de terem sido testados em ensaios que, em razão do tamanho reduzido, não poderiam, mesmo, dar respostas conclusivas.[3] Mas hoje os pesquisadores têm cuidado para aumentar o poder do teste. As amostras aumentaram de tamanho, há um uso maior de resultados compostos (composite outcomes) e de resultados substitutos (surrogate outcomes), que serão tratados no Capítulo 4 deste livro.

Para aumentar os tamanhos das amostras, em vários países já se faz recrutamento de pacientes por meio da Internet. O NIH (National Institutes of Health), órgão do governo americano, oferece informações sobre ensaios clínicos que estão recrutando participantes, já não estão recrutando participantes ou suspenderam, temporariamente, o recrutamento em todos os Estados Unidos da América (www.clinicaltrials.gov). Outra fonte de ensaios clínicos na Web: www.Center Watch.com.
O pesquisador também pode conseguir participantes para um ensaio clínico fazendo recrutamento público por meio de cartazes fixados em lugares de bastante trânsito, anúncios em jornais ou em rádios.[4] Esse sistema, ainda pouco usado no Brasil, é comum em diversos países.


[1] Existem fórmulas para determinar o tamanho da amostra. Veja: Cochran, W. G., Sampling techniques; Nova York: Wiley, 1977.
[2] Cochran, W. G. e Cox, GM. Experimental design. Nova York, Wiley, 2ª ed. 1957.
[3] Falando em uma reunião do FDA, o Dr. Robert Temple, diretor do Office of Drug Evaluation, isto é, Departamento de Avaliação de Drogas, órgão subordinado ao FDA, considerou “ridículo” um experimento com sete pacientes por grupo.
[4] A Resolução 251/97 do Conselho Nacional de Saúde, Ministério da Saúde, estabelece, no item V.d, que avisos em meios de comunicação para recrutar participantes de pesquisa precisam ser autorizados pelo Comitê de Ética em Pesquisa.