Sonia Vieira: January 2016

Wednesday, January 27, 2016

Tamanho de amostra para estimar uma proporção

Como se determina o tamanho da amostra? Muitas vezes, o tamanho da amostra é determinado mais por considerações reais ou imaginárias a respeito do custo de cada unidade amostrada do que por técnicas estatísticas. De qualquer modo, as amostras não devem ser muito grandes, porque isso seria perda de recursos. Também não devem ser muito pequenas, porque o resultado do trabalho seria de pouca utilidade.

O certo é calcular o tamanho da amostra por critério estatístico. Depois, o pesquisador precisa considerar o custo e o tempo para examinar cada unidade. Também precisa considerar o que é usual na área. E se seu tempo for curto ou seu orçamento pequeno para o tamanho de amostra calculado, refaça seu projeto de pesquisa e tente enquadrar nele uma pesquisa menos ambiciosa.

Vamos mostrar aqui, por meio de um exemplo^1, como calcular o tamanho de amostra para estimar uma proporção populacional (parâmetro).

Imagine que um antropólogo está estudando os habitantes de uma ilha isolada e que, entre outras coisas, quer estimar a porcentagem de pessoas dessa ilha com sangue tipo O. Quantas pessoas (tamanho da amostra) devem ser examinadas? O tamanho da amostra pode ser determinado por uma equação. No entanto, essa equação não pode ser resolvida sem resposta para algumas questões.

A primeira questão que um estatístico faria ao antropólogo seria a seguinte: “Com que precisão quer estimar a porcentagem de pessoas da ilha com sangue tipo O?”. Imagine que o antropólogo diz ficar satisfeito com uma margem de erro de d = ±5%. Isso significa que, se 43% das pessoas da amostra tiverem sangue tipo O, a verdadeira porcentagem de pessoas com sangue tipo O na ilha deverá estar no intervalo 43% ± 5%, isto é, entre 38% e 48%.

Neste ponto, convém avisar o antropólogo de que, coletando uma só amostra, existe o risco de essa amostra seja pouco representativa, por puro azar. O antropólogo então concorda em admitir a probabilidade de uma amostra errada em cada 20. Isto significa que a probabilidade de obter a verdadeira porcentagem de sangue tipo O dentro do intervalo calculado é 19/20 = 0,95. Temos então o nível de confiança: 95%.

Vamos indicar por P a verdadeira porcentagem de pessoas com sangue tipo O na ilha e por p a porcentagem na amostra, que estima P. E vamos pressupor, por ora, que p tenha distribuição normal em torno de P. Então P cai no intervalo P ± 2s(p) em 19 de cada 20 amostras, ou seja, a probabilidade de P cair no intervalo P ± 2s(p) é 95%

O antropólogo disse ficar satisfeito com uma margem de erro de ±5%. Então, tomamos, da distribuição normal, Z =1,96≈2,00. Sabemos que

Temos uma fórmula para calcular n, mas precisamos de uma estimativa preliminar do valor de P, que não temos, porque é exatamente esse valor que procuramos. O que fazer? O antropólogo então sugere que, com base no que sabe sobre outras populações, é razoável esperar que essa porcentagem esteja entre 40 e 60%. Ótimo, esta informação é suficiente para acharmos um tamanho de amostra. Vamos fazer P = 50% e calcular n.

É preciso, neste ponto, discutir a pressuposição de normalidade. Se n = 400 e P estiver entre 40 e 60%, a distribuição de p deve ser aproximadamente normal. Mas tudo depende também do tamanho da população da ilha. Se for maior do que 8000, a fração amostrada é menor do que 5%. Então, tudo bem.

1. O exemplo está em: COCHRAN, W. Sampling techniques. Nova York, Wiley, 1977.

Sunday, January 24, 2016

Alfa de Cronbach: como calcular manualmente

Pesquisadores que utilizam questionários devem avaliar a confiabilidade do instrumento. O coeficiente alfa de Cronbach mede a consistência interna das respostas, isto é, o quanto os itens do questionário avaliam um mesmo construto.

Para o cálculo, as respostas precisam ser numéricas. Respostas binárias podem ser codificadas: 1 para (“sim”) e 0 para (“não”). Respostas escalonadas devem seguir uma escala, como a de Likert. Por exemplo, 1 para nunca, 2 para às vezes, 3 para muitas vezes, 4 para sempre.

A fórmula do alfa de Cronbach é:

onde:

· k = número de itens (questões);

· σ_i² = variância do item i;

· σ²_soma = variância da soma das pontuações dos itens (por respondente).

Exemplo numérico

Suponha um questionário com 3 itens respondido por 5 pessoas

1. Calcule a variância de cada item:

· σ₁²=0,7

· σ₂²=0,7

· o₃²=0,5

2. Calcule a variância da soma:

· σ²_soma=5,2

3. Aplique na fórmula:

✅ Conclusão: O valor de alfa é 0,95, indicando grande confiabilidade.

⚠️ Importante: Este é apenas um exemplo para praticar o cálculo manual. Na prática, a amostra é muitíssimo pequena.

Thursday, January 21, 2016

Análise de conteúdo?

Definição

Na definição de Bernard Berelson¹, análise de conteúdo é uma técnica para a descrição objetiva, sistemática e quantitativa do conteúdo manifesto das comunicações. A análise de conteúdo² busca, portanto, palavras, frases, temas e conceitos dentro de um texto e os quantifica de maneira sistemática e objetiva. O resultado é usado para fazer inferência sobre as mensagens dentro do texto. Das análises de conteúdo, a mais comum é a análise de categorias³.

Tipos de dados para análise de conteúdo

Textos aos quais se atribuem significados convencionais, como os discursos verbais e os documentos escritos, são fontes adequadas de dados para a análise de conteúdo. Portanto jornais, revistas, livros, programas de radio e televisão, filmes, histórias em quadrinhos são os maiores fornecedores de dados para esse tipo de análise. Mas a técnica também tem sido aplicada para dados não públicos como cartas pessoais, conversas de crianças, registros audiovisuais de terapias, depoimento de testemunhas em juízo, respostas de entrevistas em profundidade. Ainda, dados que têm significado apenas para grupos menores – como depoimentos de pessoas com doenças degenerativas, pais de crianças com doenças graves, falas de profissionais que trabalham em situação de estresse como enfermeiros intensivistas – também podem ser analisados por meio de análise de conteúdo.

Razões para o uso da análise de conteúdo

Pesquisadores leem grande volume de material e podem se tornar seletivos no que absorvem. A análise de conteúdo dá a oportunidade para entender o texto e explicar o fenômeno, de maneira mais objetiva. A inferência raramente é óbvia. Por exemplo, será que a frequência de determinada referência explica a atenção que a pessoa dá ao assunto?

Todo pesquisador deve usar conhecimentos estabelecidos para explicar como os dados coletados se relacionam com o fenômeno que pretende conhecer. No entanto, raramente deve fazer descrição literal do conteúdo da comunicação que analisa. Constitui exceção, por exemplo, a citação das palavras exatas de um político em seus discursos de campanha.

Limitações da técnica⁴

Uma análise de conteúdo almeja inferir sobre o que não pode ser observado diretamente, nem tem evidência válida disponível. Logo, apesar das alegações de que a inferência feita por uma análise de conteúdo é generalizável, existem limitações.

A primeira refere-se à questão da tomada de decisão com base em pequenas amostras. Uma análise estatística, para embasar a tomada de decisão, precisa de amostra constituída por um número razoavelmente grande de unidades. Não se analisam comunicações únicas ou poucos discursos. A segunda limitação da análise de conteúdo refere-se à questão da replicabilidade. Uma análise estatística exige sistema de medição estabelecido, que independa do analista. Terceira limitação da análise de conteúdo: se as categorias forem estabelecidas do próprio material analisado, os achados não são generalizáveis. Se as categorias são estabelecidas a priori, a análise perde as características do material em análise.

Referências

1. Berelson, B. Content analysis in communication research. New York, Free Press, 1952. In: Palmquist, MContent Analysis. http://www.colostate.edu/Depts/WritingCenter/references/research/content/page2.htm

2. Stemler, S. An Overview of Content

3. Bardin, L Análise de conteúdo. São Paulo, Edições 70, 2011.

4. Krippendorff, K. (1989). Content analysis. In E. Barnouw, G. Gerbner, W. Schramm, T. L. Worth, & L. Gross (Eds.), International encyclopedia of communication (Vol. 1, pp. 403-407). New York, NY: Oxford University Press. Retrieved from http://repository.upenn.edu/asc_papers/226

Doutora em Estatística pela USP

Livre Docente em Estatística pela Unicamp

Pós doctor na Universidade da California, Berkeley e Universidade Yale.

Além de diversos artigos em revistas nacionais e estrangeiras, publicou os livros:

1. Pela Editora Elsevier: Introdução à Bioestatística (5ed), Bioestatística: tópicos avançados (3ed), Estatística para a Qualidade 3ed), Metodologia Científica para a Área de Saúde (3ed), este último em co-autoria com William Saad Hossne.

2. Pela Editora Atlas: Elementos de Estatística (6ed), Como elaborar um questionário.

3. Pela Editora Cencage Learning: Estatística Básica.

4. Pela Editora Brasiliense: O que é Estatística (3ed).

Estão esgotados: Experimentação com seres humanos (Moderna), Como escrever uma tese (Atlas), Análise de variância (Atlas), Primeiro a gente chora (Cultura).

Possui um domínio online, no qual estão disponibilizadas algumas aulas de estatística elementar: https://profasoniavieira.wixsite.com/estatistica