Definições
População ou universo é
conjunto de unidades sobre o qual desejamos informação.
Amostra é subconjunto
de unidades retiradas da população para obter a informação desejada.
Censo é o
levantamento de dados de toda a população.
Amostragem é o
levantamento de dados de parte da população para obter a informação desejada.
Parâmetro representa determinada característica da população. Em uma dada população e em dado momento, o parâmetro não varia, é um valor fixo. Em geral, o parâmetro é desconhecido (e, portanto, precisa ser estimado).
Estatística é uma quantidade calculada com os dados de uma amostra. É usada para estimar o parâmetro correspondente da população de onde foi retirada.
Erro de amostragem é
a diferença entre a estatística obtida da amostra e o parâmetro que
se quer estimar.
Exemplo
Veja
aqui o exemplo de uma população fictícia muito pequena, isto é, de quatro unidades, da
qual ninguém pensaria em tomar uma amostra aleatória de duas unidades para
estimar uma estatística. Não teria sentido, nem para o estatístico, nem para o
pesquisador.
Mas
como simples exemplo didático, ajuda a entender as definições dadas. Além
disso, o procedimento para tomar amostras seria o mesmo, caso tivéssemos uma
população de 30.000 pessoas para dela tirar amostras de 100.
Imagine
então que quatro alunos, de mesma idade e da mesma série, fizeram a mesma
prova. Esses alunos serão considerados como população e as notas como dados
observados dessa população. As notas e a média das quatro notas (que é a média da
população) estão na tabela abaixo.
Notas dos alunos
Nome |
Nota |
João |
10 |
José |
6 |
Paulo |
4 |
Pedro |
0 |
Média |
5 |
Vamos
agora expor todas as amostras possíveis de tamanho dois com reposição, com as
respectivas médias e a média dessas médias. Por que amostra com reposição?
Porque na vida real, se alguém quiser tomar uma amostra de dois alunos, toma uma e uma
só amostra.
Média das notas para a respectiva amostra
Amostra |
Média |
João e
José |
8 |
João e
Paulo |
7 |
João e
Pedro |
5 |
José e
Paulo |
5 |
José e
Pedro |
3 |
Paulo e
Pedro |
2 |
Média das
amostras |
5 |
A
média das médias das amostras é 5, que é a mesma média da população. Isto NÃO é
coincidência. Se, de uma população finita, você tirar todas as amostras
possíveis de tamanho n, a média dessas amostras será igual à média da
população. Daí a importância que se dá, em ciência, da repetição das
pesquisas em iguais condições. Isso permite que se possa, posteriormente,
agrupar todas as pesquisas feitas nas mesmas condições em uma análise conjunta (meta
análise) e obter assim melhor informação.
Com
uma única amostra, é possível obter o parâmetro? Não, o que se obtém é uma
estimativa. As estimativas têm erros – e é possível estimar as margens de erro
das estimativas dos parâmetros. Por ora, vamos ver os erros de amostragem. Veja
a tabela.
Erros das médias das
amostras
Amostra |
Média |
Erro |
João e
José |
8 |
8-5=3 |
João e
Paulo |
7 |
7-5=2 |
João e
Pedro |
5 |
5-5=0 |
José e
Paulo |
5 |
5-5=0 |
José e
Pedro |
3 |
3-5=-2 |
Paulo e
Pedro |
2 |
2-5=-3 |
Média |
5 |
0 |
A
média dos erros de amostragem é zero, o que NÃO ocorreu por acaso. Se, de uma
população finita, você tirar todas as amostras possíveis de tamanho n, a
média dos erros de amostragem será igual a zero. E existe ainda outra
propriedade, do qual essa decorre: os erros se distribuem em torno da média
zero.
Este exemplo fictício e extremante simples
ajuda a entender definições. Mas como é a amostragem na vida real?
Pesquisadores não têm acesso a toda a população. Mais ainda, pesquisadores de
áreas técnicas só têm acesso às unidades com as quais trabalha.
Exemplo
O
trabalho é antigo1, mas perfeito para nosso exemplo. Pesquisadores
queriam verificar se o hábito de tomar café em excesso é fator predisponente
para câncer de pâncreas. É obvio que os pesquisadores só poderiam trabalhar com as pessoas que tivessem acesso. É o chamamos de amostra não
probabilística. Mas precisavam medir a variável “proporção de pessoas que
tomam café em excesso” em duas populações: a de doentes (câncer de pâncreas) e
a de não doentes, para comparação.
Os
pesquisadores optaram por um estudo retrospectivo, caso-controle. Mas antes de
começar a recrutar pacientes, precisavam detalhar os critérios de inclusão,
lembrando que os participantes da pesquisa deveriam responder um questionário.
Foram consideradas elegíveis pessoas com menos de 80 anos, brancas, residentes
nos Estados Unidos da América, que não tivessem dificuldades de linguagem e não
estivessem muito doentes.
Mas onde achar pessoas com a doença para
formar um grupo? Os pesquisadores buscaram pessoas com a doença nos quatro
hospitais onde trabalhavam. Foram identificados 598 casos de câncer de
pâncreas. Desses 598 casos, 112, ou seja, 18,7% não atingiam os critérios de
elegibilidade; ainda, 20 já haviam morrido e 35 tinham tido alta. Dos que
estavam hospitalizados, 26 se recusaram a participar da pesquisa. Então a
pesquisa começou com 405 participantes. No entanto, respondidos os
questionários, os pesquisadores ainda descartaram 16
respondentes, por não os considerar confiáveis.
Portanto,
da amostra configurada de 598 possíveis pacientes que os pesquisadores
pretendiam acessar, apenas 389 participaram efetivamente da pesquisa, ou seja,
65%. Como o estudo foi planejado para ser caso-controle, obtidas as respostas
dos 389 casos, foi preciso buscar controles, em tudo similares aos casos,
exceto pelo fato de não ter a doença. Formou-se, assim, uma amostra não probabilística para estudo de caso-controle.
No comments:
Post a Comment