Wednesday, September 13, 2017

Por que usamos "n - 1" na variância? Um exemplo simples explica


RESUMO: Um exemplo simples com bolas numeradas ajuda a entender por que usamos "n - 1" na variância e como surge o erro padrão da média. Inclui gráficos para facilitar a visualização.

Para explicar o erro padrão da média e apresentar a lógica dos graus de liberdade associados à variância da amostra, vamos usar um exemplo irreal — mas útil para compreender esses conceitos.

Imagine uma urna contendo três bolas numeradas: 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola à urna e faz uma nova retirada. Novamente, anota o número e retorna a bola. Em seguida, calcula a média dos dois números obtidos, que será sua pontuação no jogo.

Do ponto de vista teórico, temos uma população infinita de bolas numeradas (já que a bola é devolvida à urna após cada retirada), e esse   jogo pode ser repetido indefinidamente. A média populacional μ da variável em estudo é:

Como xi  pode assumir os valores 4, 10 ou 16, todos com probabilidade pi=13,  temos:                                              

                                                            

É importante notar que temos a média m da população, que é um parâmetro. Portanto, a variância populacional associada a essa média não envolve graus de liberdade. A dispersão da variável em torno da média m é dada por:                                   

                             

No caso do exemplo:

Vamos agora analisar os possíveis resultados do jogo. Como tanto a primeira quanto a segunda retirada podem resultar em 4, 10 ou 16, temos 9 combinações possíveis. A Tabela 1 mostra todas essas amostras de tamanho 2, suas médias e variâncias. 

Tabela 1

 Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias



Ao observar a Tabela 1, notamos dois fatos importantes: 

1.    A média das médias de todas as amostras possíveis é igual à média da população.

2.   A média das variâncias de todas as amostras possíveis é igual à variância da população, desde que as variâncias das amostras tenham sido calculadas com o divisor n−1 (isto é, com a variância amostral).

Dizemos, então, que:

🔺A média de uma amostra é uma estimativa não tendenciosa da média populacional.

🔺A variância de uma amostra (com divisor n−1) é uma estimativa não tendenciosa da variância populacional.

🔔 Por que "não tendenciosa"? Porque essas estimativas tendem, em média, aos valores verdadeiros dos parâmetros da população.

No nosso exemplo, as médias das amostras têm diferentes probabilidades:

🔸 Médias 4 e 16, cada uma ocorre 1 vez : probabilidade 1/9

🔸 Médias 7 e 13, cada uma ocorre 2 vezes: probabilidade 2/9

🔸 Média 10, ocorre 3 vezes: probabilidade 3/9

A fórmula da média das médias ponderada pelas probabilidades é:

                                                  

Substituindo os valores da Tabela 1:

                        

Como as médias das amostras estão distribuídas em torno da média populacional, podemos medir essa dispersão: é a variância da média dada por:

                                

Substituindo os valores da Tabela 1:  

 

🔔 Na prática, porém, não temos acesso a todas as amostras possíveis — o pesquisador normalmente dispõe de apenas uma amostra. Mesmo assim, é possível estimar a variância da média por meio da por meio da fórmula:

                                                                                                            

Onde:

· s2 é a variância da amostra (calculada com divisor n−1),

· n é o tamanho da amostra.

Essa fórmula permite estimar a variabilidade esperada da média da amostra, caso o estudo fosse repetido várias vezes. O desvio padrão da média, conhecido como erro padrão da média, é então:

Portanto, erro padrão da média é a raiz quadrada com sinal positivo da variância da média.

Esse valor nos diz o quanto a média obtida em uma amostra pode variar em torno da verdadeira média populacional, sendo fundamental para construções de intervalos de confiança e testes de hipóteses.

                                      🟩 Conclusão

O exemplo simples que desenvolvemos, com bolas numeradas e todas as combinações possíveis de amostras, mostra como conceitos muitas vezes abstratos na estatística — como erro padrão da média, variância amostral e graus de liberdade — têm uma base lógica clara e visual. Ao calcular todas as médias e variâncias possíveis, conseguimos entender por que a média amostral é uma boa estimativa da média da população e por que a variância deve ser dividida por n−1n - 1n−1 para não subestimar a variabilidade real.

Mais do que decorar fórmulas, é importante compreender a intuição por trás delas. E nada melhor do que um exemplo pequeno e completo, acompanhado de gráficos, para transformar teoria em compreensão.

 

 




Friday, September 01, 2017

Amplitude estudentizada (studentized range): você sabe o que é?

Seja Y uma variável aleatória com distribuição normal, média μ e desvio padrão σ. Ao coletar uma amostra de tamanho n, obtemos uma estimativa s para o desvio padrão populacional. Ordenando os dados, identificamos facilmente o valor mínimo e o valor máximo da amostra. A diferença entre esses dois valores é chamada amplitude.

Dividindo a amplitude pelo desvio padrão amostral s, obtemos a amplitude estudentizada, uma estatística adimensional:

Esse nome amplitude estudentizada – é uma homenagem a  Student, pseudônimo usado por William Sealy Gosset, um dos fundadores da estatística moderna.

A distribuição da estatística q — a amplitude estudentizada — é conhecida há bastante tempo. Depende de dois fatores:

·     do nível de significância adotado (α).

·     dos graus de liberdade associados à variância amostral

Várias amostras

Considere agora que dispomos de k amostras independentes, todas de tamanho r, da variável aleatória Y, normalmente distribuída. Cada amostra é submetida a um tratamento e gera uma estimativa de média μi, i=1, 2, …, k.  Vamos supor variâncias iguais (homocedasticidade). Para testar a hipótese

                           H0: m1 = m2= … mk

contra a hipótese de que pelo menos uma amostra tem média diferente das demais, é feita uma análise de variância. A variância ponderada das k estimativas da variância σ2 é dada pelo quadrado médio do resíduo da ANOVA (QMR).

Quando a ANOVA rejeita H0, queremos saber quais pares de médias diferem significativamente. Para isso, precisamos de um teste.

                        E o teste de Tukey?

Tukey criticou o uso indiscriminado do teste t após uma ANOVA, pois o erro tipo I se acumula com o número de comparações. Propôs então o teste da Diferença Honestamente Significante (HSD – Honestly Significant Difference) para comparar médias duas a duas, sem aumentar o nível de significância.

A estatística usada no teste de Tukey é:

onde:

               

  QMR é o quadrado médio do resíduo da ANOVA,

   r é o número de observações por grupo.

A estatística q segue uma distribuição de amplitude estudentizada. A distribuição dessa estatística depende

·     do nível de significância adotado (α).

·     do número de médias em comparação.

·     dos graus de liberdade associados ao quadrado médio do resíduo da ANOVA.

                  Atenção: as tabelas mudaram!

As tabelas antigas de q (como as publicadas em Pearson & Hartley) traziam o valor original da amplitude estudentizada.

Muitas das tabelas modernas estão “convertidas” para uso direto no teste de Tukey, ou seja, o valor original de q foi multiplicado por √2:

Ambas usam o símbolo q, mas representam valores diferentes! Confira sempre a legenda da tabela.

           Exemplo de procedimento para o teste de Tukey

  São dadas as concentrações de estrôncio (mg/ml) na água de cinco locais diferentes[1]. Vamos fazer a análise de variância e comparar as médias pelo teste de Tukey, usando o programa SAS.  

 Concentrações de estrôncio (mg/ml) na água de cinco locais diferentes

                                         OUTPUT                                           

Para apresentar os resultados em um trabalho, é razoável escrever:

                           Análise de variância

              Comparação das médias pelo teste de Tukey

 

Local

Repetições

Média

Agrupamento

5

6

58,3

A

 

 

3

6

44,08

 

B

 

4

6

41,1

 

B

 

2

6

40,23

 

B

 

1

6

32,08

 

 

C

Nota: Médias que não compartilham a mesma letra são

significantemente diferentes entre si

Conclusão: A concentração de estrôncio (mg/ml) na água do Local 5 é significantemente maior do que em todos os outros. Nos locais 3, 4 e 2 A concentração de estrôncio (mg/ml) na água não tem diferença estatística. No local 1 A concentração de estrôncio (mg/ml) na água é significantemente menor do que em todos os outros.

 NOTAS

1.O exemplo apresentado é de
Zar, J.J.H. Biostatistical Analysis. New Jersey, Prentice Hall. 4ª ed. 1999, p.210.
2.Você encontra a Tabela de amplitude estudentizada de Tukey, por exemplo, em