Thursday, December 21, 2017

Você sabe estatística? Faça o teste.

     1. Média, mediana e moda são...? 
  1. Medidas de significância estatística.
  2. Medidas de tendência central.
  3. Medidas de desvio padrão.
  4. Medidas de erro padrão.
                  2.   Um pesquisador quer estudar os efeitos da música alta na aprendizagem. 
               Um grupo de 30 alunos é selecionado para participar do estudo. O grupo de estudantes é...?      

  1. A população.
  2. A variável independente.
  3. O desvio padrão.
  4. A amostra.
 3. Qual das seguintes opções não é uma estatística descritiva?
  1.  A renda média de um homem americano de 25 anos é de US $ 22.000 por ano.
  2.  Em 2011, 91% das mortes no local de trabalho aconteceram com homens.
  3.  Os consumidores gastaram US $ 1,2 bilhão em smartphones no ano passado.
  4.  Fumar aumenta a chance de morrer em 37%.
4. Qual das frases mais bem descreve correlação?
  1.  É um método para determinar a probabilidade de um resultado futuro específico.
  2.  É um método para descobrir relações causais.
  3.  É um método para medir o grau de relação entre variáveis.
  4.  É um método para analisar diferenças entre os grupos.
5. A média de uma distribuição de dez escores é 6. Existem dois escores na distribuição que são iguais a 6. Você os remove. A média  agora é:
  1.  Maior que 6.
  2.  A mesma.
  3.  Menor que 6.
  4.  Não há dados suficientes para saber.
6. O que é uma amostra aleatória?
  1. Um conjunto de unidades retiradas de uma população onde algumas unidades têm maior probabilidade ​​do que outras de serem tomadas para a amostra.
  2.  Um conjunto de unidades retiradas de uma população de forma não estruturada.
  3.  Um conjunto de unidades retiradas de uma população onde cada unidade da população tem probabilidade aleatória de compor a amostra.
  4.  Um conjunto de unidades retiradas de uma população onde cada unidade na população tem a mesma probabilidade de compor a amostra.
7. O que é amplitude de uma distribuição?
  1.  A distância entre o menor e o maior valor.
  2.  A distância entre a média e o maior valor.
  3.  A distância entre a moda e o valor mais alto.
  4.  A distância entre a mediana e o valor mais alto.
8. Um pesquisador classifica o estresse dos participantes de uma pesquisa em uma escala de 0 a 10. Qual é o nível de medição?
  1.  Discreta.
  2.  Ordinal.
  3.  Nominal.
  4.  Contínua.
9. Se, em um teste, você tiver nota igual ao 40º percentil...
  1. 40% das pessoas tiveram nota igual maior que a sua.
  2.  Sua nota no teste foi 60%.
  3.  O resultado do teste foi de 40%.
  4.  40% das pessoas tiveram nota igual ou menor que a sua.
10.  Um pesquisador está analisando o efeito do cansaço físico sobre o resultado dos alunos em uma prova. Qual é a variável dependente?
  1.  O tamanho da amostra do estudo.
  2.  O nível da variável de cansaço.
  3.  O grupo de controle.
  4.  O resultado dos alunos em uma prova.


As questões (e as respostas) deste teste você encontra, em inglês, em

O teste pretende ser um auxílio de estudo para estudantes das ciências sociais e humanas, seguindo o conteúdo padrão dos programas de estatística desses cursos nos Estados Unidos. Se quiser, me pergunte as respostas.

Thursday, October 12, 2017

Médias iguais, distribuições diferentes? experimente o Kruskal-Wallis

O teste de Kruskal-Wallis também é conhecido por nomes como análise de variância de Kruskal-Wallis, ANOVA de Kruskal-Wallis ou mesmo ANOVA não paramétrica. Essa associação com a ANOVA tradicional — e com o teste F de Snedecor — pode levar a um mal-entendido comum: o de que o teste de Kruskal-Wallis compara médias. Mas isso está errado.

O teste de Kruskal-Wallis não testa hipóteses sobre parâmetros populacionais, como médias. Ele também não verifica se as medianas são iguais. O que o teste avalia, na verdade, é se três ou mais populações têm distribuições iguais.

Por esse motivo, ao aplicar o teste de Kruskal-Wallis, não se deve apresentar médias ou medianas dos grupos, nem construir gráficos com base nessas estatísticas. O teste trabalha com postos, ou seja, com os ranks dos dados — e não com os valores brutos coletados.

Para ilustrar essa ideia, considere um exemplo engenhoso [1] com três grupos. Os dados estão apresentados na Tabela 1. Todos eles têm a mesma média (43,5) e a mesma mediana (27,5). Olhando apenas para essas estatísticas, não percebemos que as distribuições são diferentes. Mas os postos são diferentes: Grupo 1: 20,4; Grupo 2:27,5; Grupo 3: 34,6.

Tabela 1

       Dados segundo o grupo               

💡 O teste de Kruskal-Wallis pode captar diferenças na distribuição. Se aplicarmos o teste formalmente, a estatística H pode até indicar uma diferença significativa — dependendo do nível de significância e da variabilidade.

                           Resultados do teste de Kruskal-Wallis

              🔸 Estatística H = 7,36

              🔸 p-valor = 0,025

📌 Interpretação

Apesar de as médias serem iguais nos três grupos (43,5), o teste de Kruskal-Wallis rejeita a hipótese de que as três populações têm a mesma distribuição (p = 0,025). Ou seja, foi detectada diferença nas distribuições — e isso aparece nos postos dos dados, não nas médias.

Veja a Figura 1, que apresenta um gráfico de barras para os postos médios do exemplo. Ele reforça o que já se mostrou, que embora as médias aritméticas sejam iguais, os ranks (postos) dos grupos são diferentes, o que motivou o resultado significativo no teste de Kruskal-Wallis.

                                                Figura 1

 

Veja também o boxplot para os três grupos apresentado na Figura 2. Ele mostra claramente:

Figura 2 


 🔸A presença de valores extremos (outliers) nos Grupos 1 (valor 342) e 2 (valor 193),  não afetam o teste de Kruskal-Wallis, pois ele usa postos, e não os valores brutos (mas afetam a ANOVA).

🔸Diferenças nas distribuições internas dos grupos, reforçando que eles não são equivalentes, mesmo com médias aritméticas iguais.

💡Este exemplo mostra o ponto central do Kruskal-Wallis: ele não testa igualdade de médias, mas sim igualdade de distribuições. Mas veja a fórmula para calcular a estatística H. Se for fazer o teste para um trabalho, melhor buscar uma calculadora on line ou  um software estatístico. Faça exercícios (por que não do livro citado?) 






[1] MCDONALD, JH. Handbook of Biological Statistics. Baltimore. Sparky House Publishing, 2nd ed. p. 165-172, 2009.

Wednesday, October 11, 2017

Odds Ratio em linguagem clara: entenda sem medo!

🎯 Não confunda probabilidade com chance!

Embora as palavras probabilidade e chance estejam associadas à ideia de medir o que é possível, elas não representam a mesma coisa.

Exemplo: probabilidade vs chance

Você lança um dado e ganha se sair o número 6.

🔸Qual é a probabilidade de você ganhar?
A probabilidade de ganhar é 1/6.

🔸E quais são as suas chances nesse jogo?

As chances são de 1:5, 1 (evento favorável) para 5 (eventos desfavoráveis).

🔸 Probabilidade representa a fração de tentativas em que se espera que um evento ocorra.
🔸 Chance (ou odds) expressa a razão entre o número de vezes que se espera que o evento ocorra e o número de vezes que ele não ocorra.

🎯Cuidado ao comparar valores de probabilidade

com valores de chance!

🔸  Uma probabilidade de 9/10 é alta: espera-se acertar 9 a cada 10 vezes.

🔸Uma chance de 9:10 é baixa: para 9 acertos, são esperados 10 erros.

Probabilidade de 9/10 corresponde a uma chance de 9:1, não 9:10.

🎯    Cálculo da chance

Por definição, a chance (w) é a razão entre a probabilidade de o evento ocorrer (p) e a probabilidade de ele não ocorrer (q):

                             

E, evidentemente:

p + q = 1

Exemplo da Genética: chance

Lembre-se dos experimentos de Mendel: no cruzamento de ervilhas amarelas heterozigotas, a proporção esperada é 3 amarelas para cada verde.

        🔸 Probabilidade de nascer ervilha amarela: ¾.

        🔸 Probabilidade de nascer ervilha verde: ¼.

        🔸 Chance de nascer ervilha amarela:

🎯 Razão de chances

A pesquisa científica frequentemente se baseia em comparações. A forma comum de comparar chances entre dois grupos é por meio da razão de chances. Esta estatística é mais conhecida no Brasil pelo termo em inglês, odds ratio, que se abrevia por OR.

Razão de chances, que se indica pela letra o (de odds) é dada pela fórmula:

                        

A razão de chances tornou-se uma ferramenta essencial na pesquisa clínica, pois fornece aos profissionais de saúde uma medida clara sobre qual tratamento tem maior chance de beneficiar o paciente.

                                         Exemplo

Vinte amigos vão a uma lanchonete.

·  7 pedem sanduíche de peixe; 5 passam mal.

·  13 pedem sanduíche de carne; 3 passam mal.


Chance de passar mal com o sanduíche de peixe:

Chance de passar mal com o sanduíche de carne:


Razão de chances (peixe vs. carne):

                           O que isso significa?

Quem comeu sanduíche de peixe teve cerca de 8,33 vezes mais chance de passar mal, comparado a quem comeu carne.

🛑 Associação não significa causa!

 1. Probability vs. Odds Ratio - Math Forum - Ask Dr.Math    mathforum.org/library/drmath/view/71943.html
  2.  https://beanaroundtheworld.wordpress.com/2011/10/07/epidemiology-odds-ratio-or/ 
Veja mais em:


Wednesday, September 13, 2017

Por que usamos "n - 1" na variância? Um exemplo simples explica


RESUMO: Um exemplo simples com bolas numeradas ajuda a entender por que usamos "n - 1" na variância e como surge o erro padrão da média. Inclui gráficos para facilitar a visualização.

Para explicar o erro padrão da média e apresentar a lógica dos graus de liberdade associados à variância da amostra, vamos usar um exemplo irreal — mas útil para compreender esses conceitos.

Imagine uma urna contendo três bolas numeradas: 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola à urna e faz uma nova retirada. Novamente, anota o número e retorna a bola. Em seguida, calcula a média dos dois números obtidos, que será sua pontuação no jogo.

Do ponto de vista teórico, temos uma população infinita de bolas numeradas (já que a bola é devolvida à urna após cada retirada), e esse   jogo pode ser repetido indefinidamente. A média populacional μ da variável em estudo é:

Como xi  pode assumir os valores 4, 10 ou 16, todos com probabilidade pi=13,  temos:                                              

                                                            

É importante notar que temos a média m da população, que é um parâmetro. Portanto, a variância populacional associada a essa média não envolve graus de liberdade. A dispersão da variável em torno da média m é dada por:                                   

                             

No caso do exemplo:

Vamos agora analisar os possíveis resultados do jogo. Como tanto a primeira quanto a segunda retirada podem resultar em 4, 10 ou 16, temos 9 combinações possíveis. A Tabela 1 mostra todas essas amostras de tamanho 2, suas médias e variâncias. 

Tabela 1

 Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias



Ao observar a Tabela 1, notamos dois fatos importantes: 

1.    A média das médias de todas as amostras possíveis é igual à média da população.

2.   A média das variâncias de todas as amostras possíveis é igual à variância da população, desde que as variâncias das amostras tenham sido calculadas com o divisor n−1 (isto é, com a variância amostral).

Dizemos, então, que:

🔺A média de uma amostra é uma estimativa não tendenciosa da média populacional.

🔺A variância de uma amostra (com divisor n−1) é uma estimativa não tendenciosa da variância populacional.

🔔 Por que "não tendenciosa"? Porque essas estimativas tendem, em média, aos valores verdadeiros dos parâmetros da população.

No nosso exemplo, as médias das amostras têm diferentes probabilidades:

🔸 Médias 4 e 16, cada uma ocorre 1 vez : probabilidade 1/9

🔸 Médias 7 e 13, cada uma ocorre 2 vezes: probabilidade 2/9

🔸 Média 10, ocorre 3 vezes: probabilidade 3/9

A fórmula da média das médias ponderada pelas probabilidades é:

                                                  

Substituindo os valores da Tabela 1:

                        

Como as médias das amostras estão distribuídas em torno da média populacional, podemos medir essa dispersão: é a variância da média dada por:

                                

Substituindo os valores da Tabela 1:  

 

🔔 Na prática, porém, não temos acesso a todas as amostras possíveis — o pesquisador normalmente dispõe de apenas uma amostra. Mesmo assim, é possível estimar a variância da média por meio da por meio da fórmula:

                                                                                                            

Onde:

· s2 é a variância da amostra (calculada com divisor n−1),

· n é o tamanho da amostra.

Essa fórmula permite estimar a variabilidade esperada da média da amostra, caso o estudo fosse repetido várias vezes. O desvio padrão da média, conhecido como erro padrão da média, é então:

Portanto, erro padrão da média é a raiz quadrada com sinal positivo da variância da média.

Esse valor nos diz o quanto a média obtida em uma amostra pode variar em torno da verdadeira média populacional, sendo fundamental para construções de intervalos de confiança e testes de hipóteses.

                                      🟩 Conclusão

O exemplo simples que desenvolvemos, com bolas numeradas e todas as combinações possíveis de amostras, mostra como conceitos muitas vezes abstratos na estatística — como erro padrão da média, variância amostral e graus de liberdade — têm uma base lógica clara e visual. Ao calcular todas as médias e variâncias possíveis, conseguimos entender por que a média amostral é uma boa estimativa da média da população e por que a variância deve ser dividida por n−1n - 1n−1 para não subestimar a variabilidade real.

Mais do que decorar fórmulas, é importante compreender a intuição por trás delas. E nada melhor do que um exemplo pequeno e completo, acompanhado de gráficos, para transformar teoria em compreensão.