Sonia Vieira: Questões de amostragem

Definições

População ou universo é conjunto de unidades sobre o qual desejamos informação.

Amostra é subconjunto de unidades retiradas da população para obter a informação desejada.

Censo é o levantamento de dados de toda a população.

Amostragem é o levantamento de dados de parte da população para obter a informação desejada.

Parâmetro representa determinada característica da população. Em uma dada população e em dado momento, o parâmetro não varia, é um valor fixo. Em geral, o parâmetro é desconhecido (e, portanto, precisa ser estimado).

Estatística é uma quantidade calculada com os dados de uma amostra. É usada para estimar o parâmetro correspondente da população de onde foi retirada.

Erro de amostragem é a diferença entre a estatística obtida da amostra e o parâmetro que se quer estimar.

Exemplo

Veja aqui o exemplo de uma população fictícia muito pequena, isto é, de quatro unidades, da qual ninguém pensaria em tomar uma amostra aleatória de duas unidades para estimar uma estatística. Não teria sentido, nem para o estatístico, nem para o pesquisador.

Mas como simples exemplo didático, ajuda a entender as definições dadas. Além disso, o procedimento para tomar amostras seria o mesmo, caso tivéssemos uma população de 30.000 pessoas para dela tirar amostras de 100.

Imagine então que quatro alunos, de mesma idade e da mesma série, fizeram a mesma prova. Esses alunos serão considerados como população e as notas como dados observados dessa população. As notas e a média das quatro notas (que é a média da população) estão na tabela abaixo.

Notas dos alunos

Nome	Nota
João	10
José	6
Paulo	4
Pedro	0
Média	5

Vamos agora expor todas as amostras possíveis de tamanho dois com reposição, com as respectivas médias e a média dessas médias. Por que amostra com reposição? Porque na vida real, se alguém quiser tomar uma amostra de dois alunos, toma uma e uma só amostra.

Média das notas para a respectiva amostra

Amostra	Média
João e José	8
João e Paulo	7
João e Pedro	5
José e Paulo	5
José e Pedro	3
Paulo e Pedro	2
Média das amostras	5

A média das médias das amostras é 5, que é a mesma média da população. Isto NÃO é coincidência. Se, de uma população finita, você tirar todas as amostras possíveis de tamanho n, a média dessas amostras será igual à média da população. Daí a importância que se dá, em ciência, da repetição das pesquisas em iguais condições. Isso permite que se possa, posteriormente, agrupar todas as pesquisas feitas nas mesmas condições em uma análise conjunta (meta análise) e obter assim melhor informação.

Com uma única amostra, é possível obter o parâmetro? Não, o que se obtém é uma estimativa. As estimativas têm erros – e é possível estimar as margens de erro das estimativas dos parâmetros. Por ora, vamos ver os erros de amostragem. Veja a tabela.

Erros das médias das amostras

Amostra	Média	Erro
João e José	8	8-5=3
João e Paulo	7	7-5=2
João e Pedro	5	5-5=0
José e Paulo	5	5-5=0
José e Pedro	3	3-5=-2
Paulo e Pedro	2	2-5=-3
Média	5	0

A média dos erros de amostragem é zero, o que NÃO ocorreu por acaso. Se, de uma população finita, você tirar todas as amostras possíveis de tamanho n, a média dos erros de amostragem será igual a zero. E existe ainda outra propriedade, do qual essa decorre: os erros se distribuem em torno da média zero.

Este exemplo fictício e extremante simples ajuda a entender definições. Mas como é a amostragem na vida real? Pesquisadores não têm acesso a toda a população. Mais ainda, pesquisadores de áreas técnicas só têm acesso às unidades com as quais trabalha.

Exemplo

O trabalho é antigo¹, mas perfeito para nosso exemplo. Pesquisadores queriam verificar se o hábito de tomar café em excesso é fator predisponente para câncer de pâncreas. É obvio que os pesquisadores só poderiam trabalhar com as pessoas que tivessem acesso. É o chamamos de amostra não probabilística. Mas precisavam medir a variável “proporção de pessoas que tomam café em excesso” em duas populações: a de doentes (câncer de pâncreas) e a de não doentes, para comparação.

Os pesquisadores optaram por um estudo retrospectivo, caso-controle. Mas antes de começar a recrutar pacientes, precisavam detalhar os critérios de inclusão, lembrando que os participantes da pesquisa deveriam responder um questionário. Foram consideradas elegíveis pessoas com menos de 80 anos, brancas, residentes nos Estados Unidos da América, que não tivessem dificuldades de linguagem e não estivessem muito doentes.

Mas onde achar pessoas com a doença para formar um grupo? Os pesquisadores buscaram pessoas com a doença nos quatro hospitais onde trabalhavam. Foram identificados 598 casos de câncer de pâncreas. Desses 598 casos, 112, ou seja, 18,7% não atingiam os critérios de elegibilidade; ainda, 20 já haviam morrido e 35 tinham tido alta. Dos que estavam hospitalizados, 26 se recusaram a participar da pesquisa. Então a pesquisa começou com 405 participantes. No entanto, respondidos os questionários, os pesquisadores ainda descartaram 16 respondentes, por não os considerar confiáveis.

Portanto, da amostra configurada de 598 possíveis pacientes que os pesquisadores pretendiam acessar, apenas 389 participaram efetivamente da pesquisa, ou seja, 65%. Como o estudo foi planejado para ser caso-controle, obtidas as respostas dos 389 casos, foi preciso buscar controles, em tudo similares aos casos, exceto pelo fato de não ter a doença. Formou-se, assim, uma amostra não probabilística para estudo de caso-controle.

Referência

1. MacMahon, B et allii. Coffee and cancer of the pancreas.

The New England of Medicine, March 12, 1981.

Sonia Vieira

Sunday, April 10, 2016

Questões de amostragem

No comments: