Wednesday, June 11, 2014

Delineamentos de ensaios clínicos

Pertencem à História da Medicina os casos de novas intervenções cuja superioridade foi detectada sem qualquer ensaio clínico. É sempre citada a penicilina, que foi introduzida na prática médica sem muita pesquisa. No entanto, histórias de intervenções com efeitos benéficos tão dramáticos são raras. Hoje são continuamente propostas novas intervenções, mas que trazem contribuição apenas moderada e só podem ser percebidas mediante muitos e grandes ensaios clínicos. E isso é importante.

Por exemplo, Collins et al. 1 argumentam que reduzir a mortalidade por infarto do miocárdio de 14,9% para 11,4% representa um volume imenso de mortes evitadas, dada a elevada incidência do problema. Mais exatamente, são evitadas 35 mortes de cada 1000 infartados. Essa redução, mediante terapia anticoagulante na ausência de aspirina, só foi percebida por meio de uma meta análise com 26 artigos que relatavam ensaios randomizados envolvendo 5020 pacientes, tendo sido designados 2484 para a terapia anticoagulante e 2536 para o grupo controle.

  Por outro lado, não conduzir ensaios clínicos adequados no devido tempo pode ter conseqüências sérias. Um argumento a favor dos ensaios clínicos é o fato de algumas intervenções terem sido abandonadas logo depois de serem acolhidas com entusiasmo, por absoluta falta de evidência de superioridade ou, até mesmo, pelo fato de terem se mostrado prejudiciais. Exemplos clássicos de intervenções introduzidas na prática médica sem experimentação e que posteriormente se revelaram prejudiciais são a técnica de resfriamento no caso de úlcera gástrica e o uso de talidomida como antiemético para gestantes. Os ensaios clínicos são, portanto, essenciais.

Ensaio clínico é uma pesquisa na qual um ou mais seres humanos são prospectivamente designados a uma ou mais intervenções (que podem incluir placebo ou outro controle) para avaliar os efeitos dessas intervenções sobre resultados biomédicos ou comportamentais relacionados com a saúde 2.


Delineamento do ensaio (trial design) ou modelo de intervenção (intervention model) é a descrição do procedimento adotado para designar as intervenções em estudo aos diversos participantes de um mesmo ensaio clínico. Existem vários modelos de intervenção: ensaio clínico randomizado, randomização blocada, randomização estratificada, delineamento cruzado, ensaios clínicos “antes e depois”, delineamentos fatoriais. Estes são os delineamentos mais utilizados. Há que estudá-los, antes de planejar um ensaio clínico.


Referências
(1) Collins, R; MacMahon, S; Flather, M; Baigent, C; Remvig, L;Mortensen,S; Appleby,P;  Godwin, J;  Yusuf, S; Peto,R Clinical effects of anticoagulant therapy in suspected acute myocardial infarction: systematic overview of randomized trials. BMJ volume 313 14 September 1996.


https: //grants.nih.gov/grants/.../NOT-OD-15-015.ht...


Wednesday, May 07, 2014

Validade de um questionário


Um questionário tem validade quando mede o que propõe medir.

Tipos de validade: de face, de conteúdo, preditiva e de construção.

Validade de face é o grau com que o questionário aparentemente mede o que foi projetado para medir. A validade de face é, em geral, determinada por:
 a) especialistas na questão, que consideram se o instrumento mede o que foi projetado para medir;
 b) uma amostra de respondentes, que dirão se o instrumento parece medir o que deveria medir.

Exemplo: Um exame de aritmética para a quarta série do ensino fundamental constituído de problemas de aritmética terá validade de face se, aparentemente, medir o conhecimento de aritmética que se ensina na quarta série do ensino fundamental. A validação do instrumento deve ser feita por professores dessa série e pelos alunos, que se submeterão ao exame.

Validade do conteúdo é a extensão com que as questões do questionário fornecem a informação que se quer obter, em todas as dimensões.

Exemplo: Um questionário para avaliar candidatos a um emprego deve medir diversas dimensões como interesse, conhecimento e aptidão dos candidatos. Não teria validade de conteúdo o questionário que avaliasse somente o interesse dos candidatos em preencher a vaga.

Existe relação entre validade de conteúdo e validade de face, embora os conceitos sejam diferentes. A validade de face é um conceito mais frouxo porque diz apenas se o instrumento “parece” válido. Já a validade de conteúdo exige avaliação de especialistas e, em geral, tratamento estatístico.

Validade preditiva é a extensão com que os resultados de um questionário predizem futuros desempenhos. É, portanto, o grau com que os resultados do questionário estarão, possivelmente, correlacionados com medidas que serão obtidas no futuro.

Exemplo: O resultado de um teste de aptidão aplicado aos candidatos ao vestibular de uma Faculdade de Odontologia deve estar relacionado com o desempenho que os alunos terão na clínica, durante e depois do curso.

Validade de construção é o grau com que os resultados do questionário se correlacionam com os resultados obtidos de outra forma – de validade conhecida, isto é, que se sabe serem corretos.

Exemplo: Gassen (1) comparou os resultados obtidos por meio de um questionário respondido em entrevista face a face para avaliar a disfunção temporomandibular com os resultados de um exame clínico que, sabidamente, mostra o grau de disfunção. Participaram da pesquisa 136 mulheres com idades que variavam de 18 até 54 anos, inclusive.

   O questionário também tem validade de construção se as respostas dos respondentes se correlacionam com as expectativas baseadas na teoria.

Exemplo: Os resultados de um questionário para medir ansiedade devem dar valores mais altos se os respondentes estiverem em ambiente que causa ansiedade.

   Ainda, o questionário tem validade de construção se as respostas dos respondentes se correlacionam com uma medida inquestionável, de acordo com especialistas da área.

Exemplo: O Teste de Inteligência Stanford Binet é longo e exaustivo e exige alto grau de treinamento de quem o administra, mas é bem aceito como medida de inteligência. Se você quiser desenvolver um teste pequeno e fácil de QI, pode determinar a sua validade preditiva administrando seu teste a pessoas que já fizeram o Stanford Binet e, em seguida, determinar se os resultados obtidos pelo seu teste estão correlacionados com os resultados do Teste de Inteligência Stanford Binet.

Existe relação entre validade preditiva e validade de construção, embora esses conceitos sejam diferentes. A validade preditiva diz respeito à predição, isto é, quão bem os resultados de um questionário predizem comportamento futuro. Já a validade de construção exige avaliação imediata, com outra forma de medir o conceito que seja reconhecida mesmo não sendo um padrão ouro. 

Referência

1. GASSEN, W. S. Análise da efetividade do questionário de Helkimo para avaliação da disfunção temporomandibular. 2006. Dissertação (mestrado) Centro de Pós-Graduação CPO São Leopoldo Mandic. Campinas.



Saturday, April 26, 2014

CONFIABILIDADE DE QUESTIONÁRIOS


   Confiabilidade de um instrumento de medição (reliability of a measurement instrument) é a extensão em que o instrumento produz resultados reprodutíveis.



Um instrumento de medição pode ser confiável e não ser válido. No entanto, um instrumento de medição só será válido se for confiável.

Vamos discorrer aqui sobre a confiabilidade de um questionário. Um questionário é confiável se fornecer resultados consistentes quando replicado em condições similares. Existem dois tipos de confiabilidade: a interna e a externa.

Confiabilidade externa (external reliability) refere-se à extensão com que os resultados de um questionário variam quando aplicados em ocasiões diferentes (estabilidade) ou por examinadores diferentes (equivalência), aos mesmos participantes de pesquisa.

Dizemos, então, que o questionário tem estabilidade se forem obtidos os mesmos resultados quando aplicado duas ou mais vezes às mesmas pessoas. Para medir a estabilidade, usamos o método do teste re-teste.

Dizemos que o questionário apresenta equivalência se dois ou mais examinadores obtiverem os mesmos resultados, quando o administrarem às mesmas pessoas. Para medir equivalência, calculamos a confiabilidade entre examinadores.

Método de teste re-teste (test-retest method): avalia a estabilidade, ou seja, a extensão com que as pessoas respondem as mesmas perguntas da mesma forma, depois de certo tempo. Para isso, o questionário é administrado duas vezes (primeiro o teste, depois o re-teste), para o mesmo grupo de pessoas. A aplicação do método exige, porém, duas pressuposições, nem sempre realistas: primeiramente, nada deve acontecer no período que decorre entre o teste e o re-teste que modifique a opinião dos respondentes e, segundo, eles não devem estar lembrados,quando fazem o re-teste, das respostas dadas no teste.

Uma medida estatística da estabilidade das respostas no teste e re-teste de um questionário é o coeficiente de correlação de Pearson. Calcula-se a correlação entre o escore (total) dos respondentes no “teste” e o escore (total) quando o questionário foi aplicado pela segunda vez – o “re-teste”. O coeficiente de correlação é usado como índice da confiabilidade do questionário.

Exemplo
MESQUITA e VIEIRA (2009)1 administraram o questionário conhecido como Perfil do Impacto de Saúde Oral, conhecido como OHIP, (Oral Health Impact Profile) para 916 funcionários e professores da rede estadual de ensino de Montes Claros, MG (2). Os questionários estavam numerados, mas foram distribuídos aleatoriamente e respondidos anonimamente. Quando distribuiu os questionários, a pesquisadora explicou aos respondentes que deveriam memorizar o número escrito no questionário, embora esse número não os identificasse. Isto porque eles seriam chamados novamente para responder o mesmo questionário. Os que aceitassem o convite deveriam então colocar, no segundo questionário, o número do primeiro, pois seria o re-teste do questionário.  


Confiabilidade entre examinadores (Inter-rater reliability): Se o mesmo questionário puder ser aplicado aos mesmos respondentes por dois ou mais pesquisadores, é possível obter uma medida da confiabilidade entre examinadores, de duas maneiras diferentes:

          ·      Calculando a proporção de escores que estão em perfeita concordância;
        ·     Calculando o coeficiente de correlação entre os escores obtidos pelos participantes com os dois entrevistadores. Se forem mais de dois examinadores, calcule a média dos coeficientes de correlação dos escores obtidos por participante com cada par de entrevistadores.

Exemplo
Lobbestael, J; Leurgans M; Arntz (2011)2 administraram o questionário conhecido como Manual de Entrevista Clínica Estruturada para o Diagnóstico e a Estatística de Transtornos Mentais a 151 pacientes internados e ambulatoriais e controles, não-pacientes. Os examinadores administravam os questionário independentemente, sem saber os resultados obtidos pelos outros. Depois, analisaram os resultados, que revelaram concordância entre os examinadores.

Confiabilidade interna ou consistência interna de um questionário 1 é a extensão em que os diversos itens que o compõem o questionário conduzem às mesmas respostas.

Existem vários métodos para estimar a confiabilidade interna de um questionário, mas os mais conhecidos são:

                     ·       Método da divisão em metades
                     ·       Alfa de Cronbach
                         
Método da divisão em metades (split-half method): para usar este método, divide-se o questionário em duas partes iguais: por exemplo, a metade superior e a metade inferior, ou o conjunto dos itens de número par e o conjunto dos itens de número impar. Calcula-se, então, a correlação entre “o somatório dos escores obtidos pelos respondentes quando se aplicou a primeira metade do questionário” e “o somatório dos escores obtidos pelos respondentes quando se aplicou a segunda metade do questionário”. O coeficiente de correlação, nesse caso, ajustado para o tamanho inicial do questionário, é um indicador da confiabilidade.

Exemplo
O diretor de uma escola quer saber se um professor mostra conhecer a disciplina que leciona. Fez então um questionário de auto-aplicação para os alunos. Para estudar a confiabilidade pelo método da divisão em metades, o diretor deve aplicar o questionário e depois dividir em dois, com metade das questões em cada parte. Calcula, então, a correlação (que deve ser alta) entre os pontos obtidos nas duas metades.

Alfa de Cronbach: é uma medida da consistência interna de um questionário – um dos aspectos de confiabilidade. Definitivamente, é a medida mais usada, não só por ser fácil de calcular como também poder ser calculada mesmo quando se aplica o questionário uma única vez. Mas nem sempre é bem entendida nem bem interpretada. Veja mais sobre o alfa de Cronbach em outra postagem, deste mesmo blog.


Referências

1.     Mesquita FAB, Vieira S. Impacto da condição auto-avaliada de saúde bucal na qualidade de vida: um estudo em Montes Claros. RGO. 2009.
2.       Lobbestael, J; Leurgans M; Arntz, A Inter-rater reliability of the Structured Clinical Interview for DSM-IV Axis I Disorders (SCID I) and Axis II Disorders (SCID II). Clinical Psychology & Psychotherapy. Volume 18, Issue 1, pages 75–79, January/February 2011




Sunday, April 06, 2014

Sete Ferramentas Estatísticas da Qualidade

As Sete Ferramentas Estatísticas da Qualidade são um conjunto de técnicas gráficas usadas para compreender e melhorar um processo de produção. A denominação Sete Ferramentas Estatísticas da Qualidade surgiu no Japão logo após a Segunda Guerra Mundial1, quando as empresas precisaram capacitar grande quantidade de mão de obra para o controle da qualidade. Como não era possível ensinar estatística para todos os trabalhadores, concentraram esforços no treinamento de pessoas para desenhar gráficos que fossem simples, mas resolvessem a maior parte das questões. Esses gráficos constituem as Sete Ferramentas Estatísticas da Qualidade 2 .
1.   Fluxograma é a representação visual da sequência de passos do processo3.
2.  Diagrama de causa e efeito é a ferramenta estatística que mostra a relação entre todos os fatores (as causas) que levam a determinada situação (o efeito). As causas primárias, depois de identificadas são subdivididas em causas secundárias 4 .
3. Folha de verificação é uma planilha previamente preparada para o registro de informações que devem ser coletadas em passos específicos do processo.
4.   Diagrama de Pareto é um gráfico de barras ordenadas da maior para a menor. No eixo horizontal são colocados os tipos de perdas e no eixo vertical as quantidades perdidas, de maneira que a ordem das barras mostre a importância relativa dos tipos de perdas.
5.   Histograma é o gráfico que mostra, por meio das barras verticais desenhadas lado a lado, a distribuição de frequências de uma variável, revelando padrões difíceis de reconhecer quando os dados estão apresentados somente em tabela.
6.   Diagrama de dispersão é um gráfico que permite visualizar a possível relação entre duas variáveis numéricas.
7.  Gráfico de controle é o método mais usado para monitorar o desempenho de um processo ao longo do tempo.

Referências


1.  Kume, H. Statistical methods for statistical improvement. Tóquio, The Association of Overseas Technical Scholarship. 1988
2.     Vieira, S. Estatística para a Qualidade. 3 ed. Rio de Janeiro, Elsevier, 2014
3.     Quality Glossary http://asq.org/glossary/p.html




Tuesday, March 25, 2014

Tamanho da amostra


A inferência só vale para a população de onde foram obtidos os participantes incluídos no trabalho. Por exemplo, para estudar pessoas sadias usam-se, em geral, voluntários sadios recrutados entre estudantes universitários, empregados de empresas, jovens que estão prestando serviço militar, enfermeiros e técnicos de laboratório, em vez de a população em geral. A rigor, os achados de tais estudos só podem ser aplicados à população da qual a amostra foi retirada.
Mas quantas unidades são necessárias para formar um grupo, ou seja, que tamanho deve ter a amostra? Essa é, possivelmente, a pergunta que mais ouvem os estatísticos. Mas já esta firmando a ideia de que o pesquisador deve considerar o critério estatístico para o cálculo do tamanho da amostra. Basicamente, a amostra deve ser:

·                     tanto maior quanto maior é a variabilidade;
·                     tanto maior quanto menor é a diferença que se quer detectar como significante.

Se um pesquisador quiser estudar o efeito de exercícios físicos sobre a velocidade de corrida, deve comparar resultados obtidos no grupo de participantes submetidos a exercícios físicos periodicamente (braço ativo) com o grupo de participantes não submetidos a exercícios físicos (braço de não intervenção). Se os participantes dos dois grupos variarem muito em relação às variáveis que afetam a velocidade de corrida (como sexo, idade, sobrepeso), a comparação exigirá grupos muito grandes. Os grupos serão menores se o pesquisador recrutar apenas universitários saudáveis, homens, com idade entre 18 e 20 anos, com peso normal. Por quê? Porque neste segundo grupo a velocidade de corrida deve variar menos (variância menor).
 A variabilidade é medida pela variância e obtida de dados. E onde o pesquisador acha os dados? Só existem dois caminhos: o pesquisador pode buscar informações na literatura ou fazer uma amostra piloto. Se o pesquisador tiver uma estimativa da variância da literatura, precisa ficar atento porque a variabilidade do seu material pode ser maior do que a variabilidade do material usado por outros pesquisadores. Então é mais seguro determinar o tamanho da amostra usando uma amostra piloto. Para isso, o pesquisador toma uma pequena amostra da população que pretende estudar – por exemplo, 20 pacientes – trata da maneira convencional e faz as medidas que pretende fazer na pesquisa em planejamento. Com base nesses dados, é possível ter uma estimativa da variância para calcular o tamanho da amostra. Existem fórmulas para isso.
Vamos entender agora que a amostra aumenta em função da grandeza da diferença que se quer perceber. Se o efeito da intervenção é dramático – por exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para 20% – uma amostra relativamente pequena é suficiente. No entanto, se o efeito da intervenção é bem discreto – por exemplo, reduz a taxa de mortalidade por determinada causa, que era de 80% para 75% – é preciso uma amostra muito maior.[1]
Dessa última afirmativa que é, até certo ponto, intuitiva, é fácil entender que para comparar o grupo experimental, que recebe uma nova droga, com o grupo controle, que recebe apenas placebo, é razoável usar amostra menor do que a que seria usada se a proposta fosse a de comparar um grupo experimental, que recebe uma nova droga, com o controle positivo, que recebe uma droga conhecida. Isso porque se espera maior diferença do grupo que recebeu a droga com o grupo que recebeu placebo, do que com o grupo que recebeu uma droga conhecida (controle positivo).

Quando se calcula o tamanho da amostra, é comum adotar – embora não haja qualquer justificativa teórica para isso – nível de significância de 5% e poder de teste de 80%. Isto significa que se admite até 5% de probabilidade de errar ao dizer que os grupos são diferentes e 20% de probabilidade de não detectar uma diferença que realmente existe. Portanto, se o cálculo da amostra foi feito levando em conta um poder de teste de 80%, a conclusão de que não há diferença entre as intervenções provavelmente estará errada em um de cada cinco ensaios.


Existem hoje vários programas que calculam o tamanho da amostra, mas, para fazer o cálculo, o pesquisador precisa fornecer alguns valores, sejam eles da literatura ou de amostras piloto. Existem, também, tabelas. A tabela apresentada aqui vem de um livro clássico da área[2]. Essa tabela só pode ser utilizada quando o resultado do ensaio é uma variável dicotômica, isto é, sucesso e fracasso. Para usar a tabela, o pesquisador precisa de uma estimativa da probabilidade de sucesso da intervenção de menor sucesso (geralmente, a taxa de sucesso da intervenção padrão). Este porcentual deve ser procurado na primeira coluna da Tabela 3. Depois, precisa fornecer uma estimativa da diferença que espera para o aumento de sucesso com a nova intervenção (baseado em testes pré-clínicos). Este porcentual deve ser procurado na primeira linha da Tabela 3. No cruzamento, o pesquisador encontra três números em coluna: o primeiro é para nível de significância a = 5% e poder do teste de b=80%; o segundo é para a= 5% e b = 90%; o terceiro é para a= 5% e b= 95%.
Número de pacientes necessários no grupo experimental e no grupo controle para uma dada probabilidade de obter resultado significante (teste bilateral)


                                                          Fonte: Gehan, E A.  Clinical Trials in Cancer Research. 
                                                              Environmental Health Perspectives.  Vol. 32, pp. 3148, 1979
Um pesquisador quer verificar se uma nova intervenção reduz a taxa de mortalidade por determinada causa, que era de 90%, para 25%, conforme indicam pesquisas pré-clínicas. Então a menor taxa de sucesso (coluna da Tabela 3.1) é 10% (os que não morriam). A diferença entre as duas taxas de sucesso é 65% (75%, que com a nova intervenção 75% não morrem, menos 10%). Para a= 5% e b= 80%, no cruzamento da coluna 10% com a linha 65% está, em primeiro lugar, 11. Então, para um primeiro ensaio, o pesquisador precisaria de, no mínimo 20 pacientes para um teste bilateral. É razoável aumentar a amostra calculada em 20% – ou seja, começar o ensaio com 24 participantes. No entanto, se a nova intervenção reduz a taxa de mortalidade por determinada causa em apenas 10%, isto é, passa de 90% para 80%, a menor taxa de sucesso é 10% e a redução é 10%. Cada grupo precisa de 195 participantes, ou seja, um mínimo de 390. Acrescentando 20%, chega-se a 468 participantes para um teste bilateral.

Amostras pequenas têm pouco poder de teste – a menos que o efeito da nova intervenção seja dramático. É, pois, quase certo que alguns tratamentos tenham sido descartados prematuramente pelo fato de terem sido testados em ensaios que, em razão do tamanho reduzido, não poderiam, mesmo, dar respostas conclusivas.[3] Mas hoje os pesquisadores têm cuidado para aumentar o poder do teste. As amostras aumentaram de tamanho, há um uso maior de resultados compostos (composite outcomes) e de resultados substitutos (surrogate outcomes), que serão tratados no Capítulo 4 deste livro.

Para aumentar os tamanhos das amostras, em vários países já se faz recrutamento de pacientes por meio da Internet. O NIH (National Institutes of Health), órgão do governo americano, oferece informações sobre ensaios clínicos que estão recrutando participantes, já não estão recrutando participantes ou suspenderam, temporariamente, o recrutamento em todos os Estados Unidos da América (www.clinicaltrials.gov). Outra fonte de ensaios clínicos na Web: www.Center Watch.com.
O pesquisador também pode conseguir participantes para um ensaio clínico fazendo recrutamento público por meio de cartazes fixados em lugares de bastante trânsito, anúncios em jornais ou em rádios.[4] Esse sistema, ainda pouco usado no Brasil, é comum em diversos países.


[1] Existem fórmulas para determinar o tamanho da amostra. Veja: Cochran, W. G., Sampling techniques; Nova York: Wiley, 1977.
[2] Cochran, W. G. e Cox, GM. Experimental design. Nova York, Wiley, 2ª ed. 1957.
[3] Falando em uma reunião do FDA, o Dr. Robert Temple, diretor do Office of Drug Evaluation, isto é, Departamento de Avaliação de Drogas, órgão subordinado ao FDA, considerou “ridículo” um experimento com sete pacientes por grupo.
[4] A Resolução 251/97 do Conselho Nacional de Saúde, Ministério da Saúde, estabelece, no item V.d, que avisos em meios de comunicação para recrutar participantes de pesquisa precisam ser autorizados pelo Comitê de Ética em Pesquisa.

Saturday, March 15, 2014

GRÁFICO DE CONTROLE PARA A PROPORÇÃO DE NÃO-CONFORMES

A qualidade das soldas inoxidáveis é estudada por meio de exame radiográfico. Foram anotados, durante um ano, o número de tomadas radiográficas e o número de soldas reprovadas por mês. Os dados estão apresentados na tabela apresentada em seguida.

Número de radiografias e de reprovações radiográficas em solda inoxidável, segundo o mês

Deve ser feito um gráfico de controle para a proporção de não-conformes, isto é, um gráfico de controle p para amostras com diferentes tamanhos. A figura dada em seguida apresenta o gráfico de controle com limites de controle para cada amostra. 

Gráfico de controle p para os dados apresentados

O gráfico de controle mostra que o processo está fora de controle: a proporção de reprovações radiográficas está
·         fora dos limites de controle em fevereiro (2)
·         muito próxima do LSC em abril (4)
·         muito próxima do LIC em agosto (8).
 Note ainda o deslocamento de abril para agosto. O exame do gráfico de controle sugere uma redução substancial na proporção de reprovações de junho a dezembro. Deve existir uma causa especial para esse deslocamento. Parece ter havido uma intervenção e – como conseqüência – melhoria da qualidade. Foi então desenhado um gráfico de controle p para esse período (de junho a dezembro). Veja o gráfico de controle abaixo: o processo está "sob controle".


Gráfico de controle p para os dados de junho a dezembro 


Compare as duas figuras: a média, 0,025 com todos os pontos, mudou para p = 0,0167, com os valores de junho a dezembro. A sugestão é procurar manter o processo sob controle usando os limites de controle dados na segunda figura. 

                                                    
                                            Se quiser saber mais sobre gráfico de controle, leia:


































































A qualidade das soldas inoxidáveis é estudada por meio de exame radiográfico (1). Foram anotados, durante um ano, o número de tomadas radiográficas e o número de soldas reprovadas por mês. Os dados estão apresentados na tabela dada abaixo.

Número de radiografias e de reprovações radiográficas em solda inoxidável,
 segundo o mês.   

Deve, então, ser feito um gráfico de controle para a proporção de não-conformes, isto é, um gráfico de controle p para amostras com diferentes tamanhos. A figura dada em seguida apresenta o gráfico de controle com limites de controle para cada amostra.

Gráfico de controle p para os dados apresentados

O processo está fora de controle: a proporção de reprovações radiográficas está fora dos limites de controle em fevereiro (2), muito próxima do LSC em abril (4) e muito próxima do LIC em agosto (8). Ainda, há um deslocamento de abril para agosto. O exame do gráfico de controle sugere uma redução substancial na proporção de reprovações de junho a dezembro. Deve existir uma causa especial para esse deslocamento. Parece ter havido uma intervenção e – como conseqüência – melhoria da qualidade. Foi então desenhado um gráfico de controle p para esse período. Veja a figura abaixo: o processo está "sob controle".
Gráfico de controle p para os dados de junho a dezembro

Compare as duas figuras: a média com todos os pontos), mudou para  0,0167 (de junho a dezembro). A sugestão é procurar manter o processo sob controle usando os limites de controle dados na segunda figura.

REFERÊNCIA

1. Vieira, S. Estatística para a Qualidade. São Paulo, Elsevier, 3 ed. 2014.