Wednesday, January 27, 2016

Tamanho de amostra para estimar uma proporção

Como se determina o tamanho da amostra? Muitas vezes, o tamanho da amostra é determinado mais por considerações reais ou imaginárias a respeito do custo de cada unidade amostrada do que por técnicas estatísticas. De qualquer modo, as amostras não devem ser muito grandes, porque isso seria perda de recursos. Também não devem ser muito pequenas, porque o resultado do trabalho seria de pouca utilidade.

O certo é calcular o tamanho da amostra por critério estatístico. Depois, o pesquisador precisa considerar o custo e o tempo para examinar cada unidade. Também precisa considerar o que é usual na área. E se seu tempo for curto ou seu orçamento pequeno para o tamanho de amostra calculado, refaça seu projeto de pesquisa e tente enquadrar nele uma pesquisa menos ambiciosa.

Vamos mostrar aqui, por meio de um exemplo 1, como calcular o tamanho de amostra para estimar uma proporção populacional (parâmetro).

Imagine que um antropólogo está estudando os habitantes de uma ilha isolada e que, entre outras coisas, quer estimar a porcentagem de pessoas dessa ilha com sangue tipo O. Quantas pessoas (tamanho da amostra) devem ser examinadas? O tamanho da amostra pode ser determinado por uma equação. No entanto, essa equação não pode ser resolvida sem resposta para algumas questões.


A primeira questão que um estatístico faria ao antropólogo seria a seguinte: “Com que precisão quer estimar a porcentagem de pessoas da ilha com sangue tipo O?”. Imagine que o antropólogo diz ficar satisfeito com uma margem de erro de ±5%. Isso significa que, se 43% das pessoas da amostra tiverem sangue tipo O, a verdadeira porcentagem de pessoas com sangue tipo O na ilha deverá estar no intervalo 43% ± 5%, isto é, entre 38% e 48%.


Neste ponto, convém avisar o antropólogo de que, coletando uma só amostra, existe o risco de essa amostra seja pouco representativa, por puro azar. O antropólogo então concorda em admitir a probabilidade de uma amostra errada em cada 20. Isto significa que a probabilidade de obter a verdadeira porcentagem de sangue tipo O dentro do intervalo calculado é 19/20 = 0,95.  Temos então o nível de confiança: 95%.

Vamos indicar por P a verdadeira porcentagem de pessoas com sangue tipo O na ilha e por p a porcentagem na amostra. E vamos pressupor, por ora, que p tenha distribuição normal em torno de P. Então P cai no intervalo P ± 2s(p) em 19 de cada 20 amostras, ou seja, a probabilidade de P cair no intervalo P ± 2s(p) é 95%


O antropólogo disse ficar satisfeito com uma margem de erro de ±5%. Então


Temos uma fórmula para calcular n, mas precisamos do valor de P, que não temos, porque é exatamente esse valor que procuramos. O que fazer? O antropólogo então sugere que, com base no que sabe sobre outras populações, é razoável esperar que essa porcentagem esteja entre 40 e 60%. Ótimo, esta informação é suficiente para acharmos um tamanho de amostra. Vamos fazer P = 50% e calcular n.
É preciso, neste ponto, discutir a pressuposição de normalidade. Se n = 400 e P estiver entre 40 e 60%, a distribuição de p deve ser aproximadamente normal. Mas tudo depende também do tamanho da população da ilha. Se for maior do que 8000, a fração amostrada é menor do que 5%. Então, tudo bem.
  
1.    O exemplo está em: COCHRAN, W. Sampling techniques. Nova York, Wiley, 1977.

                                                      Veja também;

Monday, January 25, 2016

Alfa de Cronbach: impacto da retirada de questão


Dados apresentados em um trabalho só têm sentido se o instrumento de medida for confiável. Existem diferentes estatísticas para estimar confiabilidade, estudadas em Qualidade.  No caso de questionários, também se define uma estatística para medir consistência interna 1 que é a extensão em que as questões medem o mesmo construto.

Para medir consistência interna, Lee J. Cronbach desenvolveu o coeficiente alfa em 19512. Essa estatística é fácil de calcular, pode ser obtida mesmo quando se administra o questionário uma única vez 3 e pode ser aplicada tanto para questionários com respostas binárias como para questionários com alternativas múltiplas de resposta, com escala do tipo Likert, por exemplo. No entanto, embora tenha diversas vantagens e seja muito usado, o coeficiente alfa de Cronbach nem sempre é bem compreendido4. Vamos apresentar aqui um pouco dessa estatística. 

O valor de alfa é dado pela formula:
                                      

O valor máximo para o alfa de Cronbach  é 1 e seu valor mínimo é 0, embora possam, eventualmente, ocorrerem valores negativos.Em geral, entende-se que o questionário tem confiabilidade aceitável se o valor de alfa for maior do que 0,7 (alguns dizem que 0,6) e tem boa confiabilidade se o valor de alfa for maior do que 0,8. No entanto, não é desejável que o valor de alfa seja muito alto (como 0,95 ou mais), pois isso pode estar indicando redundância das questões. Estas são apenas diretrizes porque o valor real do alfa de Cronbach vai depender de outras coisas, tais como:

1.   Quando o número de questões aumenta, o valor do alfa de Cronbach tende a aumentar, mesmo sem qualquer aumento de consistência interna.

2.   Quando as correlações entre as questões aumentam, o valor do alfa de Cronbach geralmente aumenta. Isto está certo, porque todas as questões devem buscar medir um só construto (também dito fator, dimensão). Por exemplo, existe um questionário para medir o impacto da saúde bucal na qualidade de vida de pessoas adultas. Nesse caso, renda, profissão e escolaridade configuram uma dimensão, enquanto grupo de idade pertence à outra dimensão. No entanto, não pode haver redundância, ou seja, correlações conseguidas com o fato de se fazer praticamente a mesma pergunta. Para identificar as dimensões em um questionário, é preciso fazer uma análise fatorial.

3.   Quando o questionário tem codificação inversa, o valor do alfa de Cronbach erradamente diminui, se a codificação for mantida na contagem de pontos. Então, se você faz duas perguntas sobre a mesma coisa, mas invertendo a redação, para calcular o coeficiente alfa você precisa inverter, também, os pontos obtidos nessas perguntas. Por exemplo, se a primeira questão do questionário for “Você gosta de acompanhar as novelas na televisão?” e a resposta só puder ser “Sim” ou “Não”, valendo 1 e zero pontos, respectivamente e a décima questão for “ Você detesta novelas?”  e a resposta só puder ser “Sim” ou “Não”, valendo 1 e zero pontos, na contagem, inverta os pontos.

Para determinar o impacto da i-ésima questão, i = 1,..,k, sobre a consistência interna de um questionário com k questões, calcula-se o valor de alfa depois de excluída a i-ésima questão. Esse procedimento é repetido para cada i ≤ k. De maneira mais prática, para determinar o efeito de cada questão sobre a consistência interna do questionário: 1) elimine a primeira questão e recalcule o valor de alfa; 2) re-introduza a primeira questão, elimine a segunda e recalcule o valor de alfa; 3) re-introduza a segunda questão, elimine a terceira, recalcule o valor de alfa e assim por diante, até que a k-ésima questão seja retirada. Serão obtidos k valores de alfa. Se o coeficiente alfa aumentar depois de uma questão ser excluída, pode-se presumir que essa questão não está altamente correlacionada com as demais. 

Exemplo

Os dados (fictícios) apresentados na Tabela 1 são as respostas de n = 12 pessoas para k = 11 questões5. Para obter o valor de alfa estão apresentados, na Tabela 1, os totais de linhas (soma dos pontos de cada respondente) e os totais de colunas (soma dos pontos dados em cada questão por todos os respondentes). Também estão apresentadas as variâncias populacionais (divididas por n) dos dados de cada coluna.


Tabela 1: Respostas binárias de 12 respondentes para 11 questões
            


É preciso obter a soma das variâncias apresentados no rodapé da Tabela 1:
0,1389 + 0,1875 +…+ 0,0764 = 2,1458
Depois, calcule a variância populacional dos totais de linhas:
V(11 + 9 +…+2) = 6,5208
O valor de alfa é

Para determinar o impacto da primeira questão sobre a consistência interna do questionário cujas respostas estão na Tabela 1, vamos calcular o valor de alfa depois de excluída a primeira questão. Veja a Tabela 2.
     Tabela 2: Respostas binárias de 12 respondentes para 10 questões da Tabela 1, excluída a primeira questão


A soma das variâncias apresentados no rodapé da Tabela 2 é:
0,1875 + 0,1875 +…+ 0,0764 = 2,0069
Depois, calcule a variância populacional dos totais de linhas:
V(9 + 9 +…+2) = 6,4097
O valor de alfa (retirada a primeira questão) é

Calculando os 10 valores de alfa, sempre eliminada uma questão, você obtém os valores apresentados na Tabela 3. Note que cada coluna tem no rodapé o valor de alfa quando a questão indicada no cabeçalho foi removida. Como é fácil ver, a omissão de qualquer das questões não altera muito o valor de alfa de Cronbach. É a remoção da questão 8 que mais afeta o resultado. Mas o questionário é consistente: o valor de alfa, para todas as questões é 0,7380 ( considerado bom) e nenhuma questão deve ser retirada.

 Tabela 3: Valores de alfa, quando eliminada uma questão


Referências
1. Wei Tang1 , Ying Cui2 , Oksana Babenko. Internal Consistency: Do We Really Know What It Is and How to Assess It? Journal of Psychology and Behavioral Science June 2014, Vol. 2, No. 2, pp. 205-220.
2.                Cronbach L J. Coefficient Alpha and the internal structure of tests. Psychometrika 16:297-334, 1951.
3.                Gliem, Joseph A. Gliem, Rosemary R Cronbach’s Calculating, Interpreting, and Reporting Cronbach's Alpha ... Midwest Research to Practice Conference in Adult, Continuing, and Community Education 2003 www.ssnpstudents.com/wp/wp.../Gliem-Gliem.pdf
4.                Tavakol, Mohsen et al. Editorial. Making sense of Cronbach's Alpha. InternationalInternational Journal of Medical Education. 2011; 2:53-55. 2011.www.ncbi.nlm.nih.gov › ... › PubMed Central (PMC)
5.                O exemplo é de Charles Zaiontz. Você encontra em Cronbach’s Alpha http://www.real-statistics.com/reliability/cronbachs-alpha/




Sunday, January 24, 2016

Alfa de Cronbach: questionários com respostas escalonadas

Pesquisadores que levantam dados por meio de questionários são instados a analisar a confiabilidade do instrumento de medida que utilizaram.

Se você aplicou um questionário uma única vez e foi o único entrevistador, calcule o alfa de Cronbach para analisar a confiabilidade de seu questionário.

Diversos programas de computador calculam essa estatística e as complementares, como testes de hipóteses, intervalos de confiança, poder estatístico e os requisitos de tamanho de amostra. Mas a questão, aqui, é explicar o alfa de Cronbach, para que você possa interpretar o resultado de seu cálculo.

A única exigência para o cálculo do alfa de Cronbach é que as respostas sejam transformadas em números. Mas a fórmula é a mesma, quer o questionário peça respostas binárias (como “sim” e “não”), ou peça respostas escalonadas.

Se as respostas são binárias, você pode atribuir valor 1 à resposta “sim” e valor zero à resposta “não”. Se as respostas são escalonadas, use a escala de Likert.

 Lembre-se de que a escala Likert é um método de atribuir valores quantitativos a dados qualitativos, para facilitar a análise estatística. A cada opção de resposta é atribuído um número. No final, é calculado um resultado único para todas as respostas de cada respondente.


EXEMPLO

Imagine um questionário com k= 10 questões. Cada questão tem sete opções de resposta, como segue:
Se forem atribuídos escores zero para “Nunca”, 1 para “Muito provavelmente não” e assim por diante, até o escore 6 para “Sempre”, um respondente pode responder as dez questões e obter, por exemplo, os escores dados em seguida, que somam 29. O resultado, para esse respondente, é 29.

3
2
4
1
4
5
1
4
3
2

A fórmula do alfa de Cronbach é


Nessa fórmula, k é o número de questões (ou itens), s2i é a variância dos escores das n pessoas para a i- ésima questão (i = 1, ..., k), s2soma é a variância dos totais de escores de cada respondente. Veja o uso dessa fórmula no exemplo. 

EXEMPLO

O questionário com k= 10 questões, cada questão com sete opções de resposta, como no exemplo anterior, foi respondido por 15 pessoas. Os dados obtidos estão na tabela apresentada em seguida.

   Escores de n=15 respondentes para o questionário de k=15 questões 
 Fonte: Charles Zaiontz. Cronbach’s Alpha

A variância, para o calculo de alfa de Cronbach, é obtida pela fórmula:


Veja a fórmula de alfa. No exemplo, k =10. No rodapé da tabela é dada, para cada uma das k =10 questões, a variância dos escores das n = 15 pessoas.  A soma dessas variâncias é
2,73 + 1,17 +…+ 1,98 = 19,02

A variância dos resultados obtidos para cada respondente (os totais de linhas) é:
Variância (29 + 41 +…+33) = 40,69
               
 O valor de alfa é pobre, como propõe a tabela dada abaixo.


            A maneira prática de julgar o valor de alfa é comparar o valor         calculado com o valor preconizado por diferentes autores em tabelas apresentadas na literatura.   A regra é imprecisa, mas serve como primeira aproximação, desde que se tenha a precaução de levar em conta as limitações dessa estatística. Veja a tabela abaixo.

Consistência interna do questionário segundo o valor de alfa
Fonte: George, D & Mallery, P. SPSS for Windows step by step: A simple guide and reference. 4th ed. Boston: Allyn & Bacon. (2003). Apud: Gliem, JA e Gliem, RR Calculating, interpreting and reporting Cronback’s alpha reliability coefficient for Likert-type scales. https://scholarworks.iupui.edu/bitstream/handle/. Acesso em outubro de 2013.

IMPORTANTE: Alguém que se assina apenas Sérgio, comentou que a estimativa da variância deveria ser a variância amostral, isto é, o denominador deveria ser n-1. De acordo, mas o resultado do alfa é o mesmo, porque os denominadores das variâncias se cancelam (veja a fórmula). De qualquer modo, concordo com o Sérgio: variância amostral é dividida por n-1, para ser estimativa não tendenciosa do parâmetro.No entanto, mantive o que fez o autor que estou citando  que propôs o exemplo,  Charles Zaiontz,.  

Thursday, January 21, 2016

O que é análise de conteúdo?

Definição
Na definição de Bernard Berelson 1, análise de conteúdo é uma técnica para a descrição objetiva, sistemática e quantitativa do conteúdo manifesto das comunicações. A análise de conteúdo 2 busca, portanto, palavras, frases, temas e conceitos dentro de um texto e os quantifica de maneira sistemática e objetiva. O resultado é usado para fazer inferência sobre as mensagens dentro do texto. Das análises de conteúdo, a mais comum é a análise de categorias 3.
Tipos de dados para análise de conteúdo
Textos aos quais se atribuem significados convencionais, como os discursos verbais e os documentos escritos, são fontes adequadas de dados para a análise de conteúdo. Portanto jornais, revistas, livros, programas de radio e televisão, filmes, histórias em quadrinhos são os maiores fornecedores de dados para esse tipo de análise. Mas a técnica também tem sido aplicada para dados não públicos como cartas pessoais, conversas de crianças, registros audiovisuais de terapias, depoimento de testemunhas em juízo, respostas de entrevistas em profundidade. Ainda, dados que têm significado apenas para grupos menores – como depoimentos de pessoas com doenças degenerativas, pais de crianças com doenças graves, falas de profissionais que trabalham em situação de estresse como enfermeiros intensivistas – também podem ser analisados por meio de análise de conteúdo.
Razões para o uso da análise de conteúdo
Pesquisadores leem grande volume de material e podem se tornar seletivos no que absorvem. A análise de conteúdo dá a oportunidade para entender o texto e explicar o fenômeno, de maneira mais objetiva. A inferência raramente é óbvia. Por exemplo, será que a frequência de determinada referência explica a atenção que a pessoa dá ao assunto?
Todo pesquisador deve usar conhecimentos estabelecidos para explicar como os dados coletados se relacionam com o fenômeno que pretende conhecer. No entanto, raramente deve fazer descrição literal do conteúdo da comunicação que analisa. Constitui exceção, por exemplo, a citação das palavras exatas de um político em seus discursos de campanha.
Limitações da técnica 4
Uma análise de conteúdo almeja inferir sobre o que não pode ser observado diretamente, nem tem evidência válida disponível. Logo, apesar das alegações de que a inferência feita por uma análise de conteúdo é generalizável, existem limitações.
A primeira refere-se à questão da tomada de decisão com base em pequenas amostras. Uma análise estatística, para embasar a tomada de decisão, precisa de amostra constituída por um número razoavelmente grande de unidades. Não se analisam comunicações únicas ou poucos discursos. A segunda limitação da análise de conteúdo refere-se à questão da replicabilidade. Uma análise estatística exige sistema de medição estabelecido, que independa do analista. Terceira limitação da análise de conteúdo: se as categorias forem estabelecidas do próprio material analisado, os achados não são generalizáveis. Se as categorias são estabelecidas a priori, a análise perde as características do material em análise.
Referências
1.       Berelson, B.  Content analysis in communication research. New York, Free Press, 1952. In: Palmquist, MContent Analysis.  http://www.colostate.edu/Depts/WritingCenter/references/research/content/page2.htm
   2.       Stemler, S. An Overview of Content
     3.       Bardin, L Análise de conteúdo. São Paulo, Edições 70, 2011.

   4.       Krippendorff, K. (1989). Content analysis. In E. Barnouw, G. Gerbner, W. Schramm, T. L. Worth, & L. Gross (Eds.), International encyclopedia of communication (Vol. 1, pp. 403-407). New York, NY: Oxford University Press. Retrieved from http://repository.upenn.edu/asc_papers/226