Tuesday, March 25, 2014

Tamanho da amostra


A inferência só vale para a população de onde foram obtidos os participantes incluídos no trabalho. Por exemplo, para estudar pessoas sadias usam-se, em geral, voluntários sadios recrutados entre estudantes universitários, empregados de empresas, jovens que estão prestando serviço militar, enfermeiros e técnicos de laboratório, em vez de a população em geral. A rigor, os achados de tais estudos só podem ser aplicados à população da qual a amostra foi retirada.
Mas quantas unidades são necessárias para formar um grupo, ou seja, que tamanho deve ter a amostra? Essa é, possivelmente, a pergunta que mais ouvem os estatísticos. Mas já esta firmando a ideia de que o pesquisador deve considerar o critério estatístico para o cálculo do tamanho da amostra. Basicamente, a amostra deve ser:

·                     tanto maior quanto maior é a variabilidade;
·                     tanto maior quanto menor é a diferença que se quer detectar como significante.

Se um pesquisador quiser estudar o efeito de exercícios físicos sobre a velocidade de corrida, deve comparar resultados obtidos no grupo de participantes submetidos a exercícios físicos periodicamente (braço ativo) com o grupo de participantes não submetidos a exercícios físicos (braço de não intervenção). Se os participantes dos dois grupos variarem muito em relação às variáveis que afetam a velocidade de corrida (como sexo, idade, sobrepeso), a comparação exigirá grupos muito grandes. Os grupos serão menores se o pesquisador recrutar apenas universitários saudáveis, homens, com idade entre 18 e 20 anos, com peso normal. Por quê? Porque neste segundo grupo a velocidade de corrida deve variar menos (variância menor).
 A variabilidade é medida pela variância e obtida de dados. E onde o pesquisador acha os dados? Só existem dois caminhos: o pesquisador pode buscar informações na literatura ou fazer uma amostra piloto. Se o pesquisador tiver uma estimativa da variância da literatura, precisa ficar atento porque a variabilidade do seu material pode ser maior do que a variabilidade do material usado por outros pesquisadores. Então é mais seguro determinar o tamanho da amostra usando uma amostra piloto. Para isso, o pesquisador toma uma pequena amostra da população que pretende estudar – por exemplo, 20 pacientes – trata da maneira convencional e faz as medidas que pretende fazer na pesquisa em planejamento. Com base nesses dados, é possível ter uma estimativa da variância para calcular o tamanho da amostra. Existem fórmulas para isso.
Vamos entender agora que a amostra aumenta em função da grandeza da diferença que se quer perceber. Se o efeito da intervenção é dramático – por exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para 20% – uma amostra relativamente pequena é suficiente. No entanto, se o efeito da intervenção é bem discreto – por exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para 75% – é preciso uma amostra muito maior.[1]
Dessa última afirmativa que é, até certo ponto, intuitiva, é fácil entender que para comparar o grupo experimental, que recebe uma nova droga, com o grupo controle, que recebe apenas placebo, é razoável usar amostra menor do que a que seria usada se a proposta fosse a de comparar um grupo experimental, que recebe uma nova droga, com o controle positivo, que recebe uma droga conhecida. Isso porque se espera maior diferença do grupo que recebeu a droga com o grupo que recebeu placebo, do que com o grupo que recebeu uma droga conhecida (controle positivo).

Quando se calcula o tamanho da amostra, é comum adotar – embora não haja qualquer justificativa teórica para isso – nível de significância de 5% e poder de teste de 80%. Isto significa que se admite até 5% de probabilidade de errar ao dizer que os grupos são diferentes e 20% de probabilidade de não detectar uma diferença que realmente existe. Portanto, se o cálculo da amostra foi feito levando em conta um poder de teste de 80%, a conclusão de que não há diferença entre as intervenções provavelmente estará errada em um de cada cinco ensaios.


Existem hoje vários programas que calculam o tamanho da amostra, mas, para fazer o cálculo, o pesquisador precisa fornecer alguns valores, sejam eles da literatura ou de amostras piloto. Existem, também, tabelas. A tabela apresentada aqui vem de um livro clássico da área[2]. Essa tabela só pode ser utilizada quando o resultado do ensaio é uma variável dicotômica, isto é, sucesso e fracasso. Para usar a tabela, o pesquisador precisa de uma estimativa da probabilidade de sucesso da intervenção de menor sucesso (geralmente, a taxa de sucesso da intervenção padrão). Este porcentual deve ser procurado na primeira coluna da Tabela 3. Depois, precisa fornecer uma estimativa da diferença que espera para o aumento de sucesso com a nova intervenção (baseado em testes pré-clínicos). Este porcentual deve ser procurado na primeira linha da Tabela 3. No cruzamento, o pesquisador encontra três números em coluna: o primeiro é para nível de significância a = 5% e poder do teste de b=80%; o segundo é para a= 5% e b = 90%; o terceiro é para a= 5% e b= 95%.
Número de pacientes necessários no grupo experimental e no grupo controle para uma dada probabilidade de obter resultado significante (teste bilateral)


                                                          Fonte: Gehan, E A.  Clinical Trials in Cancer Research. 
                                                              Environmental Health Perspectives.  Vol. 32, pp. 3148, 1979
Um pesquisador quer verificar se uma nova intervenção reduz a taxa de mortalidade por determinada causa, que era de 90%, para 25%, conforme indicam pesquisas pré-clínicas. Então a menor taxa de sucesso (coluna da Tabela 3.1) é 10% (os que não morriam). A diferença entre as duas taxas de sucesso é 65% (75%, que com a nova intervenção 75% não morrem, menos 10%). Para a= 5% e b= 80%, no cruzamento da coluna 10% com a linha 65% está, em primeiro lugar, 11. Então, para um primeiro ensaio, o pesquisador precisaria de, no mínimo 20 pacientes para um teste bilateral. É razoável aumentar a amostra calculada em 20% – ou seja, começar o ensaio com 24 participantes. No entanto, se a nova intervenção reduz a taxa de mortalidade por determinada causa em apenas 10%, isto é, passa de 90% para 80%, a menor taxa de sucesso é 10% e a redução é 10%. Cada grupo precisa de 195 participantes, ou seja, um mínimo de 390. Acrescentando 20%, chega-se a 468 participantes para um teste bilateral.

Amostras pequenas têm pouco poder de teste – a menos que o efeito da nova intervenção seja dramático. É, pois, quase certo que alguns tratamentos tenham sido descartados prematuramente pelo fato de terem sido testados em ensaios que, em razão do tamanho reduzido, não poderiam, mesmo, dar respostas conclusivas.[3] Mas hoje os pesquisadores têm cuidado para aumentar o poder do teste. As amostras aumentaram de tamanho, há um uso maior de resultados compostos (composite outcomes) e de resultados substitutos (surrogate outcomes), que serão tratados no Capítulo 4 deste livro.

Para aumentar os tamanhos das amostras, em vários países já se faz recrutamento de pacientes por meio da Internet. O NIH (National Institutes of Health), órgão do governo americano, oferece informações sobre ensaios clínicos que estão recrutando participantes, já não estão recrutando participantes ou suspenderam, temporariamente, o recrutamento em todos os Estados Unidos da América (www.clinicaltrials.gov). Outra fonte de ensaios clínicos na Web: www.Center Watch.com.
O pesquisador também pode conseguir participantes para um ensaio clínico fazendo recrutamento público por meio de cartazes fixados em lugares de bastante trânsito, anúncios em jornais ou em rádios.[4] Esse sistema, ainda pouco usado no Brasil, é comum em diversos países.


[1] Existem fórmulas para determinar o tamanho da amostra. Veja: Cochran, W. G., Sampling techniques; Nova York: Wiley, 1977.
[2] Cochran, W. G. e Cox, GM. Experimental design. Nova York, Wiley, 2ª ed. 1957.
[3] Falando em uma reunião do FDA, o Dr. Robert Temple, diretor do Office of Drug Evaluation, isto é, Departamento de Avaliação de Drogas, órgão subordinado ao FDA, considerou “ridículo” um experimento com sete pacientes por grupo.
[4] A Resolução 251/97 do Conselho Nacional de Saúde, Ministério da Saúde, estabelece, no item V.d, que avisos em meios de comunicação para recrutar participantes de pesquisa precisam ser autorizados pelo Comitê de Ética em Pesquisa.

Saturday, March 15, 2014

GRÁFICO DE CONTROLE PARA A PROPORÇÃO DE NÃO-CONFORMES

A qualidade das soldas inoxidáveis é estudada por meio de exame radiográfico. Foram anotados, durante um ano, o número de tomadas radiográficas e o número de soldas reprovadas por mês. Os dados estão apresentados na tabela apresentada em seguida.

Número de radiografias e de reprovações radiográficas em solda inoxidável, segundo o mês

Deve ser feito um gráfico de controle para a proporção de não-conformes, isto é, um gráfico de controle p para amostras com diferentes tamanhos. A figura dada em seguida apresenta o gráfico de controle com limites de controle para cada amostra. 

Gráfico de controle p para os dados apresentados

O gráfico de controle mostra que o processo está fora de controle: a proporção de reprovações radiográficas está
·         fora dos limites de controle em fevereiro (2)
·         muito próxima do LSC em abril (4)
·         muito próxima do LIC em agosto (8).
 Note ainda o deslocamento de abril para agosto. O exame do gráfico de controle sugere uma redução substancial na proporção de reprovações de junho a dezembro. Deve existir uma causa especial para esse deslocamento. Parece ter havido uma intervenção e – como conseqüência – melhoria da qualidade. Foi então desenhado um gráfico de controle p para esse período (de junho a dezembro). Veja o gráfico de controle abaixo: o processo está "sob controle".


Gráfico de controle p para os dados de junho a dezembro 


Compare as duas figuras: a média, 0,025 com todos os pontos, mudou para p = 0,0167, com os valores de junho a dezembro. A sugestão é procurar manter o processo sob controle usando os limites de controle dados na segunda figura. 

                                                    
                                            Se quiser saber mais sobre gráfico de controle, leia:


































































A qualidade das soldas inoxidáveis é estudada por meio de exame radiográfico (1). Foram anotados, durante um ano, o número de tomadas radiográficas e o número de soldas reprovadas por mês. Os dados estão apresentados na tabela dada abaixo.

Número de radiografias e de reprovações radiográficas em solda inoxidável,
 segundo o mês.   

Deve, então, ser feito um gráfico de controle para a proporção de não-conformes, isto é, um gráfico de controle p para amostras com diferentes tamanhos. A figura dada em seguida apresenta o gráfico de controle com limites de controle para cada amostra.

Gráfico de controle p para os dados apresentados

O processo está fora de controle: a proporção de reprovações radiográficas está fora dos limites de controle em fevereiro (2), muito próxima do LSC em abril (4) e muito próxima do LIC em agosto (8). Ainda, há um deslocamento de abril para agosto. O exame do gráfico de controle sugere uma redução substancial na proporção de reprovações de junho a dezembro. Deve existir uma causa especial para esse deslocamento. Parece ter havido uma intervenção e – como conseqüência – melhoria da qualidade. Foi então desenhado um gráfico de controle p para esse período. Veja a figura abaixo: o processo está "sob controle".
Gráfico de controle p para os dados de junho a dezembro

Compare as duas figuras: a média com todos os pontos), mudou para  0,0167 (de junho a dezembro). A sugestão é procurar manter o processo sob controle usando os limites de controle dados na segunda figura.

REFERÊNCIA

1. Vieira, S. Estatística para a Qualidade. São Paulo, Elsevier, 3 ed. 2014.

Saturday, March 08, 2014

Máxima verossimilhança

Os pesquisadores usam dados de amostras para estimar os parâmetros das populações de onde essas amostras foram retiradas. Há vários métodos que produzem bons estimadores, mas vamos dar aqui ideia sobre um desses métodos, o de máxima verossimilhança (method of maximum likelihood).

Imagine uma urna com grande quantidade de bolas verdes e amarelas 1. Você não sabe qual das cores ocorre com maior frequência, mas sabe que são três bolas de determinada cor para cada bola da outra cor. Se a razão de cores for três bolas verdes para cada amarela


a probabilidade p de alguém tirar uma bola verde dessa urna é ¾. Se a razão de cores for uma bola verde para cada três bolas amarelas


a probabilidade p de alguém tirar uma bola verde dessa urna é ¼. 

Se forem retiradas n bolas da urna sempre com reposição, o número x de bolas verdes que podem ocorrer é dado pela distribuição binomial.
                          
para x=0,1,2...n
                          

Sabemos que a probabilidade de ocorrer uma bola verde só pode ser

                                

                                     p = ¼ ou p = ¾.     


Você retira n = 3 bolas da urna, com reposição. Podem ocorrer, quando se retiram três bolas dessa urna, zero, 1, 2 ou 3 bolas verdes. Estimar o valor de p fica fácil porque você tem apenas de escolher entre dois números, p = ¼ ou p = ¾. Como você faz essa escolha?

Veja, na Tabela 1, as probabilidades associadas à ocorrência de x = 0,1, 2, ou 3 bolas verdes para n = 3 retiradas, em função dos dois valores possíveis de p.

Tabela 1: Probabilidades associadas à ocorrência de x bolas verdes para n =3 retiradas em função de dois valores de p
  
Se você não tirar bola verde (x = 0), a estimativa p = ¼ seria preferível. Por quê? É mais provável ocorrer x = 0 (nenhuma bola verde) quando é p = ¼ do que é ¾.  Veja a Tabela 1: a probabilidade de ocorrer x = 0 é 27/64 se p = ¼; é 1/64 se p= ¾.  Então, você diria:

·  Se sair uma ou nenhuma bola verde (x = 0 ou 1), então p = ¼;
·  Se saírem duas ou três bolas verdes (x = 2 ou 3), então p =¾.

No exemplo que acabamos de ver, p só pode ter um de dois valores. Você estimou p usando o estimador de máxima verossimilhança, isto é, aquele que torna máxima a probabilidade de ocorrer o que foi observado. A idéia subjacente à estimativa da máxima verossimilhança, na distribuição binomial, embora seja simples, às vezes é difícil de aplicar2. Mas você toma, como estimativa do parâmetro p, o valor que torna mais provável acontecer o que foi observado.

Mas pense agora em outra situação: um experimento produz apenas sucessos (S) ou falhas (F). A população toda não pode ser observada, o que significa que o parâmetro nunca será conhecido. Mas você pode observar amostras. Uma amostra poderia resultar em S, S, F, F, S, F. Uma estimativa intuitiva para o parâmetro p de sucessos em um ensaio que produz apenas sucessos ou falhas é a proporção de sucessos observados em muitas tentativas. Neste exemplo (em que o número de observações é propositalmente para facilitar a exposição),
Esta é sua estimativa de máxima verossimilhança, porque para n = 6 e x = 3, é mais provável que o número de sucessos nessa distribuição seja 3/6. Veja a Tabela 2.
 Tabela 2: Probabilidades associadas à ocorrência de x sucessos em amostras de tamanho n =6
  
 O estimador de máxima verossimilhança de p (prova-se isto matematicamente) é a proporção de sucessos em n tentativas.


Referências
1.           Mood A. M. e Graybill, F. A. Introduction to the theory of statistics. McGraw. 1963. P178-180.
2.            MstatArray Programming Language  www.mcardle.wisc.edu/mstat/help/.../Notes-03.html
 Veja, sobre distribuição binomial: