Wednesday, January 27, 2016

Tamanho de amostra para estimar uma proporção


Como se determina o tamanho da amostra? Muitas vezes, o tamanho da amostra é determinado mais por considerações reais ou imaginárias a respeito do custo de cada unidade amostrada do que por técnicas estatísticas. De qualquer modo, as amostras não devem ser muito grandes, porque isso seria perda de recursos. Também não devem ser muito pequenas, porque o resultado do trabalho seria de pouca utilidade.

 

O certo é calcular o tamanho da amostra por critério estatístico. Depois, o pesquisador precisa considerar o custo e o tempo para examinar cada unidade. Também precisa considerar o que é usual na área. E se seu tempo for curto ou seu orçamento pequeno para o tamanho de amostra calculado, refaça seu projeto de pesquisa e tente enquadrar nele uma pesquisa menos ambiciosa.

 

Vamos mostrar aqui, por meio de um exemplo1, como calcular o tamanho de amostra para estimar uma proporção populacional (parâmetro).

 

Imagine que um antropólogo está estudando os habitantes de uma ilha isolada e que, entre outras coisas, quer estimar a porcentagem de pessoas dessa ilha com sangue tipo O. Quantas pessoas (tamanho da amostra) devem ser examinadas? O tamanho da amostra pode ser determinado por uma equação. No entanto, essa equação não pode ser resolvida sem resposta para algumas questões.

 

A primeira questão que um estatístico faria ao antropólogo seria a seguinte: “Com que precisão quer estimar a porcentagem de pessoas da ilha com sangue tipo O?”. Imagine que o antropólogo diz ficar satisfeito com uma margem de erro de d = ±5%. Isso significa que, se 43% das pessoas da amostra tiverem sangue tipo O, a verdadeira porcentagem de pessoas com sangue tipo O na ilha deverá estar no intervalo 43% ± 5%, isto é, entre 38% e 48%.

                

 Neste ponto, convém avisar o antropólogo de que, coletando uma só amostra, existe o risco de essa amostra seja pouco representativa, por puro azar. O antropólogo então concorda em admitir a probabilidade de uma amostra errada em cada 20. Isto significa que a probabilidade de obter a verdadeira porcentagem de sangue tipo O dentro do intervalo calculado é 19/20 = 0,95.  Temos então o nível de confiança: 95%.


 

Vamos indicar por P a verdadeira porcentagem de pessoas com sangue tipo O na ilha e por p a porcentagem na amostra,  que estima P. E vamos pressupor, por ora, que tenha distribuição normal em torno de P. Então cai no intervalo P ± 2s(p) em 19 de cada 20 amostras, ou seja, a probabilidade de P cair no intervalo P ± 2s(p) é 95%

                    

O antropólogo disse ficar satisfeito com uma margem de erro de ±5%. Então, tomamos, da distribuição normal, Z =1,96≈2,00. Sabemos que

 

Temos uma fórmula para calcular n, mas precisamos de uma estimativa preliminar do valor de P, que não temos, porque é exatamente esse valor que procuramos. O que fazer? O antropólogo então sugere que, com base no que sabe sobre outras populações, é razoável esperar que essa porcentagem esteja entre 40 e 60%. Ótimo, esta informação é suficiente para acharmos um tamanho de amostra. Vamos fazer P = 50% e calcular n.

É preciso, neste ponto, discutir a pressuposição de normalidade. Se n = 400 e P estiver entre 40 e 60%, a distribuição de deve ser aproximadamente normal. Mas tudo depende também do tamanho da população da ilha. Se for maior do que 8000, a fração amostrada é menor do que 5%. Então, tudo bem.

  

    1. O exemplo está em: COCHRAN, W. Sampling techniques. Nova York, Wiley, 1977.


                                                      

Sunday, January 24, 2016

Alfa de Cronbach: questionários com respostas escalonadas


Pesquisadores que levantam dados por meio de questionários são instados a analisar a confiabilidade do instrumento de medida que utilizaram.

Se você aplicou um questionário uma única vez e foi o único entrevistador, calcule o alfa de Cronbach para analisar a confiabilidade de seu questionário.

Diversos programas de computador calculam essa estatística e as complementares, como testes de hipóteses, intervalos de confiança, poder estatístico e os requisitos de tamanho de amostra. Mas a questão, aqui, é explicar o alfa de Cronbach, para que você possa interpretar o resultado de seu cálculo.

A única exigência para o cálculo do alfa de Cronbach é que as respostas sejam transformadas em números. Mas a fórmula é a mesma, quer o questionário peça respostas binárias (como “sim” e “não”), ou peça respostas escalonadas.

Se as respostas são binárias, você pode atribuir valor 1 à resposta “sim” e valor zero à resposta “não”. Se as respostas são escalonadas, use a escala de Likert.

 Lembre-se de que a escala Likert é um método de atribuir valores quantitativos a dados qualitativos, para facilitar a análise estatística. A cada opção de resposta é atribuído um número. No final, é calculado um resultado único para todas as respostas de cada respondente.

                                 EXEMPLO

 

Imagine um questionário com k= 10 questões. Cada questão tem sete opções de resposta, como segue:

                               

 

Se forem atribuídos escores zero para “Nunca”, 1 para “Muito provavelmente não” e assim por diante, até o escore 6 para “Sempre”, um respondente pode responder as dez questões e obter, por exemplo, os escores dados em seguida, que somam 29. O resultado, para esse respondente, é 29.


A fórmula do alfa de Cronbach é


Nessa fórmula, k é o número de questões (ou itens), s2é a variância dos escores das n pessoas para i-ésima questão (i = 1, ..., k), s2soma é a variância dos totais de escores de cada respondente. Veja o uso dessa fórmula no exemplo. 

                                 EXEMPLO

 

O questionário com k= 10 questões, cada questão com sete opções de resposta, como no exemplo anterior, foi respondido por 15 pessoas. Os dados obtidos estão na tabela apresentada em seguida.

 

   Escores de n=15 respondentes para o             questionário de k=15 questõe

 Fonte: Charles Zaiontz. Cronbach’s Alpha

 http://www.real-statistics.com/reliability/cronbachs-alpha/

 

A variância, para o cálculo de alfa de Cronbach, é obtida pela fórmula:

                   

 

Veja a fórmula de alfa. No exemplo, =10. No rodapé da tabela é dada, para cada uma das =10 questões, a variância dos escores das = 15 pessoas.  A soma dessas variâncias é


2,73 + 1,17 +…+ 1,98 = 19,02

 

A variância dos resultados obtidos para cada respondente (os totais de linhas) é:


Variância (29 + 41 +…+33) = 40,69

               

 O valor de alfa é pobre, usando a classificação dada na tabela abaixo.

 

A maneira prática de julgar o valor de alfa é comparar o valor calculado com o valor preconizado por diferentes autores em tabelas apresentadas na literatura. A regra é imprecisa, mas serve como primeira aproximação, desde que se tenha a precaução de levar em conta as limitações dessa estatística. Veja, por exemplo, a tabela abaixo.

 

Consistência interna do questionário segundo o valor de alfa


Fonte: George, D & Mallery, P. SPSS for Windows step by step: A simple guide and reference. 4th ed. Boston: Allyn & Bacon. (2003). Apud: Gliem, JA e Gliem, RR Calculating, interpreting and reporting Cronback’s alpha reliability coefficient for Likert-type scales. https://scholarworks.iupui.edu/bitstream/handle/. Acesso em outubro de 2013.


IMPORTANTE: Alguém que se assina apenas Sérgio, comentou que a estimativa da variância deveria ser a variância amostral, isto é, o denominador deveria ser n-1. De acordo, mas o resultado do alfa é o mesmo, porque os denominadores das variâncias se cancelam (veja a fórmula). De qualquer modo, concordo com o Sérgio: variância amostral é dividida por n-1, para ser estimativa não tendenciosa do parâmetro. No entanto, mantive o que fez o autor que estou citando  que propôs o exemplo,  Charles Zaiontz,.  

 

 


Thursday, January 21, 2016

Análise de conteúdo?

  
  Definição

 

Na definição de Bernard Berelson1análise de conteúdo é uma técnica para a descrição objetiva, sistemática e quantitativa do conteúdo manifesto das comunicações. A análise de conteúdo2 busca, portanto, palavras, frases, temas e conceitos dentro de um texto e os quantifica de maneira sistemática e objetiva. O resultado é usado para fazer inferência sobre as mensagens dentro do texto. Das análises de conteúdo, a mais comum é a análise de categorias3.

 

Tipos de dados para análise de conteúdo

 

Textos aos quais se atribuem significados convencionais, como os discursos verbais e os documentos escritos, são fontes adequadas de dados para a análise de conteúdo. Portanto jornais, revistas, livros, programas de radio e televisão, filmes, histórias em quadrinhos são os maiores fornecedores de dados para esse tipo de análise. Mas a técnica também tem sido aplicada para dados não públicos como cartas pessoais, conversas de crianças, registros audiovisuais de terapias, depoimento de testemunhas em juízo, respostas de entrevistas em profundidade. Ainda, dados que têm significado apenas para grupos menores – como depoimentos de pessoas com doenças degenerativas, pais de crianças com doenças graves, falas de profissionais que trabalham em situação de estresse como enfermeiros intensivistas – também podem ser analisados por meio de análise de conteúdo.

Razões para o uso da análise de conteúdo

Pesquisadores leem grande volume de material e podem se tornar seletivos no que absorvem. A análise de conteúdo dá a oportunidade para entender o texto e explicar o fenômeno, de maneira mais objetiva. A inferência raramente é óbvia. Por exemplo, será que a frequência de determinada referência explica a atenção que a pessoa dá ao assunto?

Todo pesquisador deve usar conhecimentos estabelecidos para explicar como os dados coletados se relacionam com o fenômeno que pretende conhecer. No entanto, raramente deve fazer descrição literal do conteúdo da comunicação que analisa. Constitui exceção, por exemplo, a citação das palavras exatas de um político em seus discursos de campanha.

 

Limitações da técnica4

 

Uma análise de conteúdo almeja inferir sobre o que não pode ser observado diretamente, nem tem evidência válida disponível. Logo, apesar das alegações de que a inferência feita por uma análise de conteúdo é generalizável, existem limitações.

A primeira refere-se à questão da tomada de decisão com base em pequenas amostras. Uma análise estatística, para embasar a tomada de decisão, precisa de amostra constituída por um número razoavelmente grande de unidades. Não se analisam comunicações únicas ou poucos discursos. A segunda limitação da análise de conteúdo refere-se à questão da replicabilidade. Uma análise estatística exige sistema de medição estabelecido, que independa do analista. Terceira limitação da análise de conteúdo: se as categorias forem estabelecidas do próprio material analisado, os achados não são generalizáveis. Se as categorias são estabelecidas a priori, a análise perde as características do material em análise.

   

Referências

1.       Berelson, B.  Content analysis in communication research. New York, Free Press, 1952. In: Palmquist, MContent Analysis.  http://www.colostate.edu/Depts/WritingCenter/references/research/content/page2.htm

   2.       Stemler, S. An Overview of Content

 3.       Bardin, L Análise de conteúdo. São Paulo, Edições 70, 2011.

   4.       Krippendorff, K. (1989). Content analysis. In E. Barnouw, G. Gerbner, W. Schramm, T. L. Worth, & L. Gross (Eds.), International encyclopedia of communication (Vol. 1, pp. 403-407). New York, NY: Oxford University Press. Retrieved from http://repository.upenn.edu/asc_papers/226