Monday, January 06, 2025

Alfa de Cronbach: impacto da retirada de uma questão

 

Dados apresentados em um trabalho só têm sentido se o instrumento de medida for confiável. Existem diferentes estatísticas para estimar confiabilidade, estudadas em Qualidade.  No caso de questionários, também se define uma estatística para medir consistência interna1 que é a extensão em que as questões medem o mesmo construto.

 

Para medir consistência interna, Lee J. Cronbach desenvolveu o coeficiente alfa em 19512. Essa estatística é fácil de calcular, pode ser obtida mesmo quando se administra o questionário uma única veze pode ser aplicada tanto para questionários com respostas binárias como para questionários com alternativas múltiplas de resposta, com escala do tipo Likert, por exemplo. No entanto, embora tenha diversas vantagens e seja muito usado, o coeficiente alfa de Cronbach nem sempre é bem compreendido4. Vamos apresentar aqui um pouco dessa estatística. 


    O valor de alfa é dado pela formula:

                                      

    O valor máximo para o alfa de Cronbach é 1 e seu valor mínimo é zero, embora possam, eventualmente, ocorrerem valores negativos. Em geral, entende-se que o questionário tem confiabilidade aceitável se o valor de alfa for maior do que 0,7 (alguns dizem 0,6) e tem boa confiabilidade se o valor de alfa for maior do que 0,8. No entanto, não é desejável que o valor de alfa seja muito alto (como 0,95 ou mais), pois isso pode estar indicando redundância das questões. Estes valores  são apenas diretrizes porque o valor real do alfa de Cronbach depende de outros fatores, tais como:

 

1.   Quando o número de questões aumenta, o valor do alfa de Cronbach tende a aumentar, mesmo sem qualquer aumento de consistência interna.

 

2.   Quando as correlações entre as questões aumentam, o valor do alfa de Cronbach geralmente aumenta. Isto está certo, porque todas as questões devem buscar medir um só construto (também dito fator, dimensão). Por exemplo, existe um questionário para medir o impacto da saúde bucal na qualidade de vida de pessoas adultas. Nesse caso, renda, profissão e escolaridade configuram uma dimensão, enquanto grupo de idade pertence à outra dimensão. No entanto, não pode haver redundância, ou seja, correlações conseguidas com o fato de se fazer praticamente a mesma pergunta. Para identificar as dimensões em um questionário, é preciso fazer uma análise fatorial.

 

3.   Quando o questionário tem codificação inversa, o valor do alfa de Cronbach erradamente diminui, se a codificação for mantida na contagem de pontos. Então, se você faz duas perguntas sobre a mesma coisa, mas invertendo a redação, para calcular o coeficiente alfa você precisa inverter, também, os pontos obtidos nessas perguntas. Por exemplo, se a primeira questão do questionário for “Você gosta de acompanhar as novelas na televisão?” e a resposta só puder ser “Sim” ou “Não”, valendo 1 e zero pontos, respectivamente e a décima questão for “Você detesta novelas?”  e a resposta só puder ser “Sim” ou “Não”, valendo 1 e zero, na contagem dos pontos inverta os valores.

 

Para determinar o impacto da i-ésima questão, i = 1,..,k, sobre a consistência interna de um questionário com questões, calcula-se o valor de alfa depois de excluída a i-ésima questão. Esse procedimento é repetido para cada questão, ou seja i ≤ k. De maneira mais prática, para determinar o efeito de cada questão sobre a consistência interna do questionário:


1) elimine a primeira questão e recalcule o valor de alfa;

2) reintroduza a primeira questão, elimine a segunda e recalcule o valor de alfa;

3) reintroduza a segunda questão, elimine a terceira, recalcule o valor de alfa e assim por diante, até que a k-ésima questão seja retirada.


    Serão obtidos k valores de alfa. Se o coeficiente alfa aumentar depois de uma questão ser excluída, pode-se presumir que essa questão não está altamente correlacionada com as demais. 

Exemplo

 

Os dados (fictícios) apresentados na Tabela 1 são as respostas de n = 12 pessoas para k = 11 questões5. Para obter o valor de alfa estão apresentados, na Tabela 1, os totais de linhas (soma dos pontos de cada respondente) e os totais de colunas (soma dos pontos dados em cada questão por todos os respondentes). Também estão apresentadas as variâncias populacionais (divididas por n) dos dados de cada coluna.

 

                                                          Tabela 1

 Respostas binárias de 12 respondentes para 11 questões

            


    É preciso obter a soma das variâncias apresentados no rodapé da Tabela 1:

0,1389 + 0,1875 +…+ 0,0764 = 2,1458


    Depois, calcule a variância populacional dos totais de linhas:

V (11 + 9 +…+2) = 6,5208


    O valor de alfa é 



                                                                 

 Para determinar o impacto da primeira questão sobre a consistência interna do questionário cujas respostas estão na Tabela 1, vamos calcular o valor de alfa depois de excluída a primeira questão. 


   Tabela 2

Respostas binárias de 12 respondentes para 10 questões da Tabela 1, excluída a primeira questão

 


     A soma das variâncias apresentados no rodapé da Tabela 2 é:

0,1875 + 0,1875 +…+ 0,0764 = 2,0069


    Depois, calcule a variância populacional dos totais de linhas:

V(9 + 9 +…+2) = 6,4097


    O valor de alfa (retirada a primeira questão) é


    Calculando os 10 valores de alfa, sempre eliminada uma questão, você obtém os valores apresentados na Tabela 3. Note que cada coluna tem no rodapé o valor de alfa quando a questão indicada no cabeçalho foi removida. Como é fácil ver, a omissão de qualquer das questões não altera muito o valor de alfa de Cronbach. É a remoção da questão 8 que mais afeta o resultado. Mas o questionário é consistente: o valor de alfa, para todas as questões é 0,7380 (considerado bom) e nenhuma questão deve ser retirada.

 

 Tabela 3

 Valores de alfa, quando eliminada uma questão




Thursday, December 19, 2024

Outlier

 

lote de garrafa de rótulo variado

Imagine que você, estatístico, recebeu um conjunto de dados com a pergunta: “devo eliminar os outliers do conjunto de dados 15 90 198 164 103 490 39 190 22 30?” Comece calculando algumas estatísticas descritivas:

·     Tamanho da amostra

·     Média

·     Mediana

·     Máximo

·     Mínimo

·     Amplitude

·     Primeiro quartil

·     Terceiro quartil

·     Desvio padrão

Você pode pensar então em verificar, por critério estatístico, se no conjunto de dados que lhe foi fornecido há um valor discrepante. Lembre-se de que um valor é considerado discrepante (outlier) se estiver significativamente distante dos outros valores do conjunto.

     Mas como se pode verificar se um valor é discrepante? Existem vários métodos para identificar discrepâncias, mas os mais comuns são:

1. Faça gráficos

            ·    Boxplot: Este gráfico usa mediana e quartis para mostrar outliers.

          ·    Histograma: Pode indicar valores que não se encaixem bem no padrão do conjunto.

2. Padronize a variável

Um valor padronizado z diz quão longe (em desvios-padrão) ele está da média.

          Procedimento

1.    Calcule a média (ȳ).

2.   Calcule o desvio padrão (s).

3.   Identifique o valor Y que se presume outlier.

4.   Calcule:


 5.   Critério: Valores ǀ Z ǀ > 3 são considerados outliers.

3. Método da distância interquartílica

             Procedimento

1.        Organize os dados em ordem crescente.

2.       Calcule o primeiro quartil (Q1): 25% dos dados estão abaixo desse valor.

3.       Calcule o terceiro quartil (Q3): 75% dos dados estão abaixo desse valor.

4.       Encontre a distância interquartílica (DIQ)

  5.       Defina os limites

                                           


    6.       Critério: Qualquer valor fora desses limites é um outlier.

4. Teste Grubbs (para um único valor discrepante)

O teste de Grubbs é usado para estabelecer se o valor mais extremo de um conjunto de dados univariados com distribuição normal é um valor discrepante (outlier).

Procedimento

Hipóteses do teste

·     Hipótese nula (H0): Não há outliers no conjunto de dados.

·     Hipótese alternativa (H1): Existe pelo menos um outlier no conjunto de dados.

1.    Calcular G:

o   Identifique o valor mais extremo no conjunto (maior ou menor).

o   Calcule G por meio da fórmula:

·     G: estatística de Grubbs.

·     y: valor extremo, que se presume outlier (máximo ou mínimo).

·     ȳ: média do conjunto de dados.

·     s: desvio padrão do conjunto de dados.

2.   Compare a estatística G calculada com o limite crítico:

O limite crítico depende do número de observações (n) e do nível de significância (α). Pode ser encontrado na internet.

Critério: Se G exceder o limite crítico, rejeita-se H0 e o valor extremo é considerado um outlier.

3.   Nota: O limite crítico é calculado a partir da distribuição t de Student, para um nível de significância escolhido (α).

 

4.   Remoção iterativa (opcional)

Após identificar um outlier, ele pode ser removido, e o teste pode ser aplicado novamente para verificar se outros valores são outliers.

Vantagens e limitações do teste de Grubbs

Vantagens

·     Simples de aplicar.

·     Muito eficiente para conjuntos de dados pequenos.

Limitações

·     Requer que os dados sigam uma distribuição normal.

·     Não é recomendado para conjuntos de dados grandes ou para identificar múltiplos outliers de uma só vez.

                                                     Exemplo

Dados 15 90 198 164 103 490 39 190 22 30, existe um outlier?

 

Comece conhecendo a amostra. Para isso, calcule as estatísticas.

·     Tamanho da amostra =10

·     Média = 134,1

·     Mediana = 96,5

·     Máximo = 490,0

·     Mínimo = 15,0

·     Amplitude = 475,0

·     Primeiro quartil = 28,0

·     Terceiro quartil = 192,0

·     Desvio padrão =143,1

Para identificar outliers, desenhe gráficos: histograma e boxplot.

O histograma mostra um valor discrepante. Esse valor é o número 490.

O boxplot mostra o outlier.

2. Padronize a variável

         Calcule:

                 
Critério: Valores ǀ Z ǀ > 3 são considerados outliers.

Padronizando a variável, o valor 490 não é considerado outlier.

              3.  Aplique o método da distância interquartílica

                Calcule a distância interquartílica (DIQ)

                             
   Defina os limites

Critério: Valores menores que -218,0 e maiores que 438 são considerados outliers.

Portanto, o valor 490 é considerado outlier.

NOTE: O método DIQ é mais sensível a outliers em distribuições não normais, enquanto a variável padronizada Z pressupõe distribuição aproximadamente normal. Neste exemplo, o valor 490 é considerado um outlier pelo método IQR, mas não pelo Z.

                4.     Faça o teste de Grubbs

             Calcule a estatística



O valor crítico, para o teste de Grubbs com n= 10 e α =0,05 é 2,290. Então o valor 490 foi identificado como um outlier neste conjunto de dados, com base no teste de Grubbs ao nível de significância de 5% (α=0.05).

 

Os métodos de análise mostrados aqui valem para amostras pequenas. Para grande quantidade de dados, use métodos computacionais.