Thursday, December 21, 2017

Estatística para Ciências Sociais: EXEMPLOS

1. Média, mediana e moda são...?

  1. Medidas de significância estatística.
  2. Medidas de tendência central.
  3. Medidas de desvio padrão.
  4. Medidas de erro padrão.
2. Um pesquisador quer estudar os efeitos da música alta na aprendizagem. Um grupo de 30 alunos é selecionado para participar do estudo. O grupo de estudantes é...?
                                                            
  1. A população.
  2. A variável independente.
  3. O desvio padrão.
  4. A amostra.

3. Qual das seguintes opções não é uma estatística descritiva?

  1.  A renda média de um homem americano de 25 anos é de US $ 22.000 por ano.
  2.  Em 2011, 91% das mortes no local de trabalho aconteceram com homens.
  3.  Os consumidores gastaram US $ 1,2 bilhão em smartphones no ano passado.
  4.  Fumar aumenta a chance de morrer em 37%.


4. Qual das frases mais bem descreve correlação?

  1.  É um método para determinar a probabilidade de um resultado futuro específico.
  2.  É um método para descobrir relações causais.
  3.  É um método para medir o grau de relação entre variáveis.
  4.  É um método para analisar diferenças entre os grupos.


5. A média de uma distribuição de dez escores é 6. Existem dois escores na distribuição que são iguais a 6. Você os remove. A média  agora é:

  1.  Maior que 6.
  2.  A mesma.
  3.  Menor que 6.
  4.  Não há dados suficientes para saber.

6. O que é uma amostra aleatória?

  1. Um conjunto de unidades retiradas de uma população onde algumas unidades têm maior probabilidade ​​do que outras de serem tomadas para a amostra.
  2.  Um conjunto de unidades retiradas de uma população de forma não estruturada.
  3.  Um conjunto de unidades retiradas de uma população onde cada unidade da população tem probabilidade aleatória de compor a amostra.
  4.  Um conjunto de unidades retiradas de uma população onde cada unidade na população tem a mesma probabilidade de compor a amostra.

7. O que é amplitude de uma distribuição?

  1.  A distância entre o menor e o maior valor.
  2.  A distância entre a média e o maior valor.
  3.  A distância entre a moda e o valor mais alto.
  4.  A distância entre a mediana e o valor mais alto.


8. Um pesquisador classifica o estresse dos participantes de uma pesquisa em uma escala de 0 a 10. Qual é o nível de medição?

  1.  Discreta.
  2.  Ordinal.
  3.  Nominal.
  4.  Contínua.


9. Se, em um teste, você tiver nota igual ao 40º percentil...

  1. 40% das pessoas tiveram nota igual maior que a sua.
  2.  Sua nota no teste foi 60%.
  3.  O resultado do teste foi de 40%.
  4.  40% das pessoas tiveram nota igual ou menor que a sua.


10.  Um pesquisador está analisando o efeito do cansaço físico sobre o resultado dos alunos em uma prova. Qual é a variável dependente?

  1.  O tamanho da amostra do estudo.
  2.  O nível da variável de cansaço.
  3.  O grupo de controle.
  4.  O resultado dos alunos em uma prova.


As questões (e as respostas) deste teste você encontra, em inglês, em

O teste pretende ser um auxílio de estudo para estudantes das ciências sociais e humanas, seguindo o conteúdo padrão dos programas de estatística desses cursos nos Estados Unidos. Se quiser, me pergunte as respostas.

Thursday, October 12, 2017

Teste de Kruskal-Wallis não compara médias

O teste de Kruskal-Wallis é também conhecido como análise de variância de Kruskal-Wallis, ANOVA de Kruskal-Wallis, ANOVA não paramétrica. Talvez essa nomenclatura, reportando o teste de Kruskal-Wallis à análise de variância e ao F de Snedcor, faça com que muitos se confundam e pensem que o teste de Kruskal-Wallis compara médias. Errado.

O teste de Kruskal-Wallis não trabalha com hipóteses sobre os parâmetros. Não testa, portanto, a hipótese a igualdade de médias, nem testa a igualdade de medianas. O teste de Kruskal-Wallis é indicado para testar a hipótese de que três ou mais populações têm igual distribuição.

Logo, quando se aplica um teste de Kruskal-Wallis, não devem ser apresentadas médias, medianas ou gráficos com essas estatísticas. O teste de Kruskal-Wallis trabalha com postos – não com dados coletados.

Para deixar isso claro, é apresentado um exemplo bastante engenhoso[1] que compara três grupos. O resultado do teste de Kruskal-Wallis é significante (p-valor = 0,025). No entanto, os três grupos têm a mesma média (43,5) e mesma mediana (27,5). Apresentar as médias ou as medianas dos três grupos seria enganoso. Afinal, essas estatísticas – além de não estar em teste – não mostrariam que as distribuições são diferentes. Os postos médios são diferentes: 34,6; 27,5 e 20,4, respectivamente. Eles é que devem ser apresentados.






[1] MCDONALD, JH. Handbook of Biological Statistics. Baltimore. Sparky House Publishing, 2nd ed. p. 165-172, 2009.

Wednesday, October 11, 2017

Odds ratio (razão de chances)

 Não confunda probabilidade com chance! Embora as duas palavras nos remetam à ideia de uma medida do possível, elas não dão medidas iguais.

Exemplo
  Você joga um dado. Ganha se sair o número 6. Qual é a probabilidade de você ganhar?
   Quais são suas chances nesse jogo?
                                        1 : 5
       ou seja, espere perder cinco vezes para cada vez que               ganhar.

Probabilidade é a fração do número de tentativas que devem ser feitas para que se possa esperar determinada ocorrência.
Chance mostra a razão entre o número de vezes que se espera um evento ocorrer e o número de vezes em que esse evento não ocorrerá.
 
  No exemplo, a probabilidade mostra que você deve esperar o número 6 em 1/6 dos lançamentos. Já a chance diz que você terá “um” numero 6 para “cinco” que não são 6.
   Muito cuidado, também, ao comparar valores de probabilidades e de chances 1. Uma probabilidade de 9/10 é bem alta, mas uma chance de 9: 10 é baixa. Será? Veja bem:
   Probabilidade de 9/10 significa que você “acerta” 9 de 10 tentativas. Chance 9:10 significa que, para 9 que você “acerta”, erra 10. Pense bem: probabilidade 9/10 significa chance de 9:1. Difícil? Mas existe uma fórmula para calcular chance.

Por definição, chance, que indicaremos por w, é a razão entre a probabilidade de determinado evento ocorrer (p) e a probabilidade (q) de esse evento não ocorrer.
                                                  
  Evidentemente,
                             p + q = 1.

Exemplo
 Lembre-se dos primeiros experimentos de Genética, conduzidos por Mendel: ervilhas verdes cruzadas com ervilhas amarelas produzem ervilhas amarelas, que cruzadas entre si segregam na proporção de três amarelas para cada verde.

   Então, a probabilidade de ocorrer ervilha amarela quando se cruzam ervilhas amarelas heterozigotas é
e a probabilidade de ocorrer ervilha verde é
                   
A chance é
 O interesse da pesquisa é estabelecer comparações que possam ser feitas de diversas maneiras. Para comparar as chances de determinada ocorrência em dois grupos, é comum calcular a razão de chances (odds ratio).

Razão de chances, que indicaremos pela letra o (de odds), é definida pela fórmula:
                        
    A razão de chances (OR) é uma das várias estatísticas que se tornaram muito importantes na pesquisa clínica e na tomada de decisões. É particularmente útil porque fornece informação clara aos clínicos sobre qual é o tratamento que tem as melhores chances de beneficiar o paciente.

Exemplo 
 Vinte amigos vão a uma lanchonete para uma comemoração: 7 pedem um sanduíche a base de peixe, 13 pedem um sanduíche a base de carne 2. Dos 7 que comeram peixe, 5 se sentiram mal depois e dos 13 que comeram carne, 3 se sentiram mal. Compare as chances de passar mal, dos dois grupos.

Chance de passar mal com o sanduíche de peixe
 
Chance de passar mal com o sanduíche de carne
                           Razão de chances
    
O que isto significa?   Quem consumiu peixe teve 8,33 vezes mais chance do  efeito adverso. Mas muita atenção aqui:
                 Associação não significa causa!

   1. Probability vs. Odds Ratio - Math Forum - Ask Dr.Math    mathforum.org/library/drmath/view/71943.html
  2.  https://beanaroundtheworld.wordpress.com/2011/10/07/epidemiology-odds-ratio-or/ 

Wednesday, September 13, 2017

Erro padrão da média e graus de liberdade

Para explicar erro padrão da média e mostrar a lógica dos graus de liberdade, vamos usar um exemplo irreal, mas que ajuda entender essa questão.
Imagine uma urna com três bolas numeradas. Os números são 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola na urna e retira uma segunda bola. Novamente, anota o número e retorna a bola. Depois calcula a média, que são seus pontos no jogo.
Em termos teóricos, você tem uma população infinita de bolas numeradas (porque você retira uma bola da urna e a retorna) e esse jogo pode ser jogado um número infinito de vezes. A média m da variável em análise é
Nessa fórmula, i = 1, 2,…; xi pode assumir somente os valores 4, 10 ou 16, todos com probabilidade pi =1/3. Então:
                                  
É importante notar que temos a média m da população, um parâmetro. Então a variância não está associada a graus de liberdade. A dispersão da variável em torno da média m é dada por:
No caso, temos:

Considere, agora, cada resultado possível no jogo. O primeiro número retirado da urna pode ser 4, ou 10 ou 16.  O segundo número também pode ser 4, ou 10 ou 16. Logo, pode ocorrer qualquer dos resultados apresentados na Tabela 1. Nessa tabela também são dadas as médias e as variâncias dos resultados que podem ser obtidos por um jogador.
Tabela 1 - Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias

Observe os resultados apresentados na Tabela 1: a média das médias de todas as amostras possíveis é igual à média da população e a média das variâncias de todas as amostras possíveis é igual à média da variância da população. Mas veja bem: para que a média das variâncias de todas as amostras seja igual à variância da população, é preciso que as variâncias das amostras tenham sido obtidas com o divisor n - 1.
Dizemos então que a média de uma amostra é uma estimativa não tendenciosa da média da população e a variância de uma amostra (com o divisor n - 1) é uma estimativa não tendenciosa da variância da população. Por que “não tendenciosa”? Porque elas tendem para os valores dos parâmetros.
Sabemos que a média das médias é dada pela soma dos produtos das médias das amostras pelas respectivas probabilidades pi:
Para o exemplo, a Tabela 1 apresenta os nove arranjos que podem ocorrer quando se tomam amostras de tamanho 2 da população estudada.  Note que:
·                     as médias 4 e 16 ocorrem com probabilidade 1/9;
·                     as médias 7 e 13 ocorrem com probabilidade 2/9;
·                     a média 10 ocorre com probabilidade 3/9.

Então a média das médias é

As médias das amostras estão dispersas em torno da média m da população. Será possível medir o grau de dispersão das médias das amostras em torno da média da população?

É importante notar que temos a média m da população, que é um parâmetro. Então não associamos graus de liberdade à variância. A dispersão das médias das amostras em torno da média m da população é dada pela variância da média:



em que  pi é a probabilidade de cada média ocorrer. Para as médias apresentadas na Tabela 1, a variância da média é:



Na prática, é impossível calcular a variância da média pela fórmula apresentada: o pesquisador dispõe de uma única amostra — e não de todas as amostras possíveis. Existe, porém, uma solução: já se demonstrou que a estimativa da variância da média é dada pela fórmula:

                                                       

em que  s2 é a variância da amostra e n é o tamanho da amostra.

Uma amostra permite, portanto, estimar a variância da média que, como vimos, é uma estimativa da variabilidade das médias que seriam obtidas, caso o pesquisador tivesse tomado, nas mesmas condições, todas as amostras possíveis. Podemos calcular o desvio padrão da média, mais conhecido como erro padrão da média, que se indica por sx e é dado por:


Erro padrão da média é a raiz quadrada com sinal positivo da variância da média.