Thursday, April 21, 2016

Erros sistemáticos e aleatórios nas medições

Antes de tratar erros em medições, vamos deixar claro que não estamos falando do resultado incorreto por desleixo ou incompetência ou de fraude. Resultados de medições de variáveis contínuas (como comprimento, peso, velocidade, pressão) estão associados a erro. Mas é melhor ver antes algumas definições.

Grandeza é o atributo de um fenômeno, corpo ou substância que pode ser distinguido qualitativamente e determinado quantitativamente.
               Exemplos:1- grandeza em sentido geral: pressão, altura, vazão, volume; 2-grandeza específica:altura da cerca, volume do reservatório.

Valor de uma grandeza é a expressão quantitativa de uma grandeza específica, geralmente na forma de um número seguido da unidade de medida. Exemplo: a água está à temperatura de 28 º C.

Valor verdadeiro (de uma quantidade) é o valor que seria obtido por uma medição perfeita2. Como isso é impossível, o valor verdadeiro é, em geral, desconhecido

Valor verdadeiro convencional ou valor convencional é valor atribuído a uma grandeza específica para uma dada finalidade e aceito pela comunidade científica em lugar do verdadeiro, dado ser impossível descobrir o valor verdadeiro dessa grandeza.
Medir é determinar o valor de uma grandeza em termos do valor de uma unidade, tomada como padrão.
Mensurando é a grandeza que queremos medir. Pode ser, por exemplo, o volume de uma caixa d’água, a altura de um armário, o comprimento de um termômetro.
Resultado de uma medição é o valor atribuído a uma grandeza por  medição1. Por exemplo, a altura do armário é 1,20 m. 
Erro de medição é a diferença entre o resultado da medição e o valor verdadeiro do mensurando1

ERRO DE MEDIÇÃO

O valor verdadeiro de um mensurando é, em geral, desconhecido porque o resultado de uma medição depende de diversos fatores,  como o sistema de medição, o operador, o procedimento utilizado, o ambiente. Vamos definir aqui dois tipos de erro de medição: o erro sistemático e o erro aleatório.

Erro sistemático é a diferença entre o resultado de um número infinito de medições do mensurando, feitas nas mesmas condições e seu valor verdadeiro 1.  

O erro sistemático aparece devido às limitações humanas, físicas ou dos instrumentos. É difícil, ou mesmo impossível,  detectar erros sistemáticos que apareçam devido ao equipamento defeituoso, à falta de calibração, ao procedimento incorreto. De nada adianta repetir as medições nas mesmas condições, pois erros sistemáticos ocorrem sempre no mesmo sentido.

EXEMPLOS

1.    Se a balança não estiver calibrada, não há como você saber, olhando apenas os resultados das medições, que eles estão errados.

2.    Imagine que você vai medir o período de oscilação de um pêndulo com um cronômetro. Se o ritmo do cronômetro estiver lento, sucessivas repetições das medidas produzirão sempre medidas abaixo do valor real. 

Embora o erro sistemático não possa ser eliminado, pode ser reduzido pela calibração cuidadosa dos instrumentos ou pela mudança de procedimento, por exemplo. Por essa razão, os instrumentos e sistemas de medição devem ser calibrados ou ajustados por meio de materiais de referência e de padronizações. No entanto, as incertezas associadas a esses padrões e materiais precisam ser sempre levadas em conta.

EXEMPLO

Para medir a cor de diversas substâncias em pó, pode ser usado um colorímetro 2. Uma amostra de cor branca, que tem valor 100, pode ser usada como material de referência.


Como o valor verdadeiro é, no mais das vezes, desconhecido, trabalhamos com estimativas de erro sistemático. Denominamos tendência ou viés (em inglês, bias) à diferença entre a média dos resultados da medição e o valor convencional.

EXEMPLO

Um colorímetro será usado para medir a cor de diversas substâncias em pó. Uma amostra de cor branca, que tem valor 100 foi usada como valor de referência (VR). Um técnico de laboratório mediu 10 vezes a cor da amostra branca e obteve os resultados apresentados na tabela abaixo. 

Leituras da cor de uma amostra branca


A média é 


A tendência ou “bias”, dada pela diferença entre a média e o valor de referência é:


De qualquer modo, o erro sistemático é uma indicação de que o resultado da medição de uma grandeza está associado a um desvio. Se esse desvio se originar de um fator conhecido, que sabidamente afeta o resultado da medição, isto é, que tem efeito sistemático quantificável sobre o resultado da medição, deve ser proposto um fator de correção. Supõe-se que, após a correção, o valor esperado do erro provocado por esse efeito sistemático seja zero.


Erro aleatório é a diferença entre o resultado da medição e a média que resultaria de um número infinito de medições do mesmo mensurando, repetidas em iguais condições 2.

Evidentemente, é impossível fazer um número infinito de medições. Então trabalhamos com estimativas de erros aleatórios. Tomamos amostras, isto é, um número n de medições e obtemos os desvios da média da amostra.

Dizemos que os erros são aleatórios porque, numa série de medições repetidas nas mesmas condições, não é possível prever o resultado de uma nova medição com base nos valores obtidos anteriormente.

EXEMPLO

Com um cronômetro na mão para medir o período de oscilação de um pêndulo, você fez n=5 medições. Os resultados, em segundos, foram: 3,9; 3,5; 3,7; 3,4; 3,5. A média das n=5 medidas é 
Resultados das medições do período de oscilação de um pêndulo 
e desvios em relação à média

Veja a tabela acima: há valores acima e abaixo da média, mas a variabilidade ocorre ao acaso. Se você estiver fazendo muitas medições, não há como saber se o próximo resultado que irá obter estará abaixo ou acima da média que ainda vai calcular. Isto acontece porque os erros aleatórios são causados por flutuações desconhecidas ou imprevisíveis.

Estimativas de erros aleatórios são obtidas da distribuição aleatória dos resultados das medições em torno da sua média.  

Ainda como exemplo, a tensão em uma rede de energia elétrica é  função da variação do consumo durante o dia. Há horários conhecidos de picos de consumo, mas também ocorrem, aleatoriamente, momentos de alta e baixa tensão.  

Finalmente, não se pode deixar de falar aqui nos chamados erros grosseiros (é a tradução possível para mistake ou blunder, palavras da língua inglesa). Esses são erros ilegítimos e precisam ser corrigidos, repetindo as operações.  



VEJA:

1.     International Vocabulary of Basic and General Terms in Metrology (VIM)
2.     International Organization for Standardization (ISO)
4.     Automotive Industry Action Group. http://www.aiag.org/scriptcontent/index.cfm
6.     https://phys.columbia.edu/~tutorial/rand_v_sys/

7.     Mello, G. Erro de medição. http://www.exactusmetrologia.com.br/content/erro-de-medicao

8.     Avaliação de dados de medição — Guia para a expressão de incerteza de medição. http://www.inmetro.gov.br/noticias/conteudo/iso_gum_versao_site.pdf
10.  Definitions of Measurement Uncertainty Terms.http://www.spcforexcel.com/variable-measurement-systems-part-2-bias
12.  Avaliação de dados de medição — Uma introdução ao “Guia para a expressão de incerteza em medição” e a documentos correlatos - INTROGUM - 2009 -
  
                                           




Sunday, April 10, 2016

Questões de amostragem

População ou universo é conjunto de unidades sobre o qual desejamos obter informação.

Amostra é subconjunto de unidades retiradas da população para obter a informação desejada.


Censo é o levantamento de dados de toda a população.
Amostragem é o levantamento de dados de parte da população para obter a informação desejada.

Por que se toma uma amostra?

·       Custo e da demora dos censos. Avaliar toda a população pode ser impossível para o pesquisador, porque levaria muito tempo e seria muito caro.
·         Há populações tão grandes que estudá-las por inteiro seria impossível.
·  Fica impossível estudar toda a população quando o estudo destrói as unidades.
·   O estudo cuidadoso de uma amostra tem maior valor científico do que o estudo sumário de toda a população.

 Parâmetro é um valor desconhecido que representa determinada característica da população. Em uma dada população e em dado momento, o parâmetro é um valor fixo.
Estatística é uma quantidade calculada com os dados de uma amostra. É usada para estimar o parâmetro correspondente, na população de onde foi retirada.

Exemplo 1
O trabalho é antigo1, mas perfeito para nosso exemplo. Os pesquisadores queriam verificar se o hábito de tomar café é fator predisponente para câncer de pâncreas. Optaram por um estudo retrospectivo, caso-controle. Precisavam, portanto, medir a variável “proporção de pessoas que tomam muito café” em duas populações: a de doentes e a de não doentes.

É obvio que os pesquisadores só poderiam trabalhar com pessoas que pudessem ter acesso. É o chamamos de amostra não probabilística. Os pesquisadores precisavam também detalhar os critérios de inclusão, lembrando que os participantes da pesquisa deveriam responder um questionário. Foram consideradas elegíveis pessoas com menos de 80 anos, brancas, residentes nos Estados Unidos da América, que não tivessem dificuldades de linguagem e não estivessem muito doentes.

Mas onde achar pessoas com a doença para formar um grupo? Os pesquisadores buscaram pessoas com a doença nos quatro hospitais onde trabalhavam. Foram identificados 598 casos de câncer de pâncreas. No entanto, não eram elegíveis:


Dos 598 casos de câncer de pâncreas identificados nos hospitais, 112, ou seja, 18,7% não atingiam os critérios de elegibilidade. Os pesquisadores começaram a buscar os pacientes com câncer, mas 20 já haviam morrido e 35 tinham tido alta. Dos que estavam hospitalizados, 26 se recusaram a participar da pesquisa.  Então a pesquisa começou com 405 participantes. No entanto, respondidos os questionários, os pesquisadores ainda houveram por bem descartar 16 respondentes, por não achá-los confiáveis.

 Da amostra configurada – a amostra de 598 possíveis pacientes que os pesquisadores pretendiam acessar – apenas 389 participaram efetivamente da pesquisa, ou seja, 65%. Não havia sido calculado o tamanho da amostra para cada grupo – não era usual na época – mas veja a perda não da amostra, mas da configuração inicial.

Como o estudo foi planejado para ser caso-controle, obtidas as respostas dos 389 casos, foi preciso buscar controles, em tudo similares aos casos, exceto pelo fato de não ter a doença.

Amostras diferentes tomadas da mesma população apresentam resultados diferentes?   

Sem dúvida. Cada amostra fornece uma estatística, mas todas devem estar em torno do parâmetro.
Erro de amostragem é a diferença entre a estatística (resultado obtido da amostra) e o parâmetro (que seria obtido se fosse avaliada toda a população).

Exemplo 2

Veja aqui o exemplo de uma população muito pequena, isto é, de quatro unidades, da qual ninguém pensaria em tomar uma amostra de duas unidades para estimar uma estatística. Mas vamos fazer isso, porque, se tivéssemos uma população de 30.000 pessoas para tirar dela amostras de 100, a matemática seria a mesma. Só que o trabalho de cálculo seria muito maior.

Quatro alunos de mesma idade e da mesma série fizeram uma mesma prova. As notas (e a média dos quatro, que é a média da população) são dadas na tabela abaixo. Veja os erros de amostragem: a primeira amostra (João e José) tem erro +3, a quinta amostra (José e Pedro) tem erro -2.


Veja agora as amostras possíveis de tamanhos dois, com reposição (porque quem sai para uma amostra é reposto na população e pode sair em outra amostra), com as respectivas médias e a média dessas médias.
 

 A média das médias das amostras é 5, que é a mesma média da população. Isto NÃO é coincidência. Se de uma população finita você tirar todas as amostras possíveis de tamanho n, a média dessas amostras será igual à média da população. Daí a importância de ter muitas amostras.
  
Referência

1. MacMahon, B et allii.  Coffee and cancer of the pancreas.
The New England of Medicine, March 12, 1981. 




Sunday, March 27, 2016

Soma de desvios padrões????

Uma doutoranda da Unicamp que não conheço me apontou gentilmente, por e-mail, o que ela considerou um “pequeno erro de cálculo” em meu livro, Análise de variância: o resultado do coeficiente de variação (CV), que consta na página 47, estaria errado. Claro, busquei rapidamente o texto e me pus na frente do computador.

Mas vamos ao que está no livro: é dado um exemplo fictício de experimento com dois tratamentos, A e B, e cinco repetições por tratamento. Os dados são poucos porque têm a finalidade única de mostrar como se fazem os cálculos. Veja a tabela de dados e a tabela de análise de variância.


Em qualidade, não é usual proceder a uma análise de variância. Calculam-se médias, desvios padrões, gráficos de controle. Então a doutoranda, que é da área de qualidade, calculou como sempre fez as médias e os desvios padrões do exemplo dado. Obteve:



Está tudo bem até aqui. Mas depois, estudando no meu livro Análise de variância, a doutoranda leu: Pode existir interesse em relacionar o desvio padrão com a média, para se ter ideia da grandeza da dispersão em relação à grandeza da média. Por definição, coeficiente de variação, que se indica por CV, é a razão entre o desvio padrão e a média dos dados, isto é
Havia, também, esta informação: na análise de variância, o desvio padrão é dado pela raiz quadrada do quadrado médio do resíduo. Reconheço que o que está escrito no livro não é suficiente para esclarecer um aluno. De qualquer forma, ali está apresentado o valor correto para do coeficiente de variação para o exemplo dado acima:


Mas vamos aos fatos. A análise de variância não é técnica comum entre pesquisadores da área de qualidade. Então a doutoranda NÃO tinha o cálculo do quadrado médio do resíduo (QMR). O coeficiente de variação foi calculado fazendo a média das médias e a média dos desvios padrões, com base nos resultados apresentados na tabela de médias e desvios padrões. Está errado:



 Para explicar isso, resolvi recorrer ao Dr. Math (Doctor Schwa, The Math Forum http://mathforum.org/dr.math/) e apresentar um pouco de matemática.


       Vamos voltar ao coeficiente de variação. Na tabela de médias e desvios padrões apresentada acima, deveriam ter sido apresentadas as variâncias de cada grupo, além de médias e os desvios padrões.

















 




Demorei muito para entender que a fórmula, como está na definição dada em meu livro, Análise de variância, e é a comumente apresentada nos livros didáticos de estatística, pode levar a erro. No livro está escrito:

Por definição, coeficiente de variação, que se indica por CV, é a razão entre o desvio padrão e a média dos dados, isto é
A fórmula está correta desde que em análise haja uma única variável em um só grupo. Nos experimentos ou ensaios completamente randômicos, uma variável é observada em k grupos. Se for calculada a média e o desvio padrão de cada grupo, o coeficiente de variação (geral) será dado pela divisão da raiz quadrada do quadrado médio do resíduo da análise de variância pela média geral. O quadrado médio do resíduo (QMR), desde que todos os grupos tenham r repetições, é
      em que SQR é a soma de quadrados do resíduo, dada por


        Verifique que
  

          é a variância do i-ésimo tratamento e o QMR é a média das variâncias de cada grupo.



 Procure o livro em http://www.saraiva.com.br/analise-de-variancia-anova-1100479.html





Thursday, March 24, 2016

What is research methodology?

Broadly speaking, research can be done according to two methods identified as:
a) Qualitative research
b) Quantitative research

Qualitative research aims a better understanding of people´s behavior, their attitudes, their beliefs and their fears. Its goal is to gather information the way people understand the world in which we live and to the meaning they attribute to their own experiences. Data are collected by means of interviews, focus groups, observations, analysis of documents and speeches.

By the other hand, typical objective of quantitative research is to count, organize and measure in order to describe, explain and predict. Quantitative research gathers data in numerical form for estimating averages, standard errors, confidence levels and margins of errors, test hypothesis, find patterns of relations between variables.

Qualitative research can be done involving only a few people in order, for instance, to collect words or expressions that were used to describe feelings experienced in a given situation – such as a huge fire. Following this, a quantitative research should be done by organizing a questionnaire with the words or expressions collected during the qualitative research. These would then be applied to a large number of respondents to compare the statistical distribution of the feelings expressed by different groups, considering age, sex, social class.

As another example, the researcher who wants to study the subjective experience of a mental illness would have to interview several patients and make a detailed analysis of the facts. But to describe the frequency and distribution of the illness in the population, the quantitative researcher must collect data of a representative sample of the population, which means participants selected at random. It follows that the two research methods are neither opposed nor opponents; on the contrary, they are complementary.

In some fields, researchers get involved in actual battles in order to determine the “best” research method; but the right thing to do would be to study the strategies in parallel. Qualitative research, as the less structured method, is required when facing lesser known realities, but in fields where knowledge is deeper, quantitative research is indicated. Therefore, qualitative research should precede quantitative research.

But researchers are right when they say that there is no point in arguing over which of the two is the most adequate research method. A researcher chooses the method according to the question he/she intends to answer and completes every job always bearing in mind that a quantitative study may raise questions that need to be dealt with by the qualitative method, and vice-versa. Competence of the researcher and a well designed study count most.

Historically, qualitative researches are rejected in health fields of study because extremely small samples sizes; they are not repeatable neither reproducible, so there is a risk of bias. For this reason they are considered by some as soft science. Anyway, neither quantitative nor qualitative research method can provide the truth about everything.

Let us give some examples where both methods qualitative and quantitative, can be used. Usually, research on voter´s intentions is done using the quantitative method. The researcher asks a large number of people the following question, “If the election was today, who would you vote for?”The percentage of votes for each candidate is then calculated, with margins of error at a level of significance. Then the research can declare quite confidently, “If the election was today, X would probably win.

On the occasion of election previews, the importance of qualitative research is much commented upon. In this kind of research, the interviewer would ask people, for example, “What qualities should a President of the Republic have?” or “What are the country´s main problems?” and afterwards he or she would analyse the answers.

As another example: in order to find the answer to the query “Taking into account sex and age groups, what proportion of smokers has already attempted to stop smoking?” a quantitative research would be needed. The researcher invites people to reply to a questionnaire. Then he/she calculates the percentages per sex and age group and makes generalizations within a certain margin of error. This is quantitative research.

But to find out what prevents people from giving up smoking, a qualitative research is required. The researcher would first ask the question “Why don´t you stop smoking?” Then, he/she would have a long conversation with each member of a small group trying to bring up reasons and opinions. Further analysis of data is fundamental.

As a final example, to find out what people understand by the legalization of drugs, the researcher would engage in qualitative research, interviewing a few individuals (about 20).To discover the percentage of individuals who are favorable to the legalization of drugs, and the distribution of this percentage by sex, age group, education level, social and economic levels, and region, the researcher would engage in quantitative research, interviewing many people (around 2000)