Wednesday, September 13, 2017

Por que usamos "n - 1" na variância? Um exemplo simples explica


RESUMO: Um exemplo simples com bolas numeradas ajuda a entender por que usamos "n - 1" na variância e como surge o erro padrão da média. Inclui gráficos para facilitar a visualização.

Para explicar o erro padrão da média e apresentar a lógica dos graus de liberdade associados à variância da amostra, vamos usar um exemplo irreal — mas útil para compreender esses conceitos.

Imagine uma urna contendo três bolas numeradas: 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola à urna e faz uma nova retirada. Novamente, anota o número e retorna a bola. Em seguida, calcula a média dos dois números obtidos, que será sua pontuação no jogo.

Do ponto de vista teórico, temos uma população infinita de bolas numeradas (já que a bola é devolvida à urna após cada retirada), e esse   jogo pode ser repetido indefinidamente. A média populacional μ da variável em estudo é:

Como xi  pode assumir os valores 4, 10 ou 16, todos com probabilidade pi=13,  temos:                                              

                                                            

É importante notar que temos a média m da população, que é um parâmetro. Portanto, a variância populacional associada a essa média não envolve graus de liberdade. A dispersão da variável em torno da média m é dada por:                                   

                             

No caso do exemplo:

Vamos agora analisar os possíveis resultados do jogo. Como tanto a primeira quanto a segunda retirada podem resultar em 4, 10 ou 16, temos 9 combinações possíveis. A Tabela 1 mostra todas essas amostras de tamanho 2, suas médias e variâncias. 

Tabela 1

 Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias



Ao observar a Tabela 1, notamos dois fatos importantes: 

1.    A média das médias de todas as amostras possíveis é igual à média da população.

2.   A média das variâncias de todas as amostras possíveis é igual à variância da população, desde que as variâncias das amostras tenham sido calculadas com o divisor n−1 (isto é, com a variância amostral).

Dizemos, então, que:

🔺A média de uma amostra é uma estimativa não tendenciosa da média populacional.

🔺A variância de uma amostra (com divisor n−1) é uma estimativa não tendenciosa da variância populacional.

🔔 Por que "não tendenciosa"? Porque essas estimativas tendem, em média, aos valores verdadeiros dos parâmetros da população.

No nosso exemplo, as médias das amostras têm diferentes probabilidades:

🔸 Médias 4 e 16, cada uma ocorre 1 vez : probabilidade 1/9

🔸 Médias 7 e 13, cada uma ocorre 2 vezes: probabilidade 2/9

🔸 Média 10, ocorre 3 vezes: probabilidade 3/9

A fórmula da média das médias ponderada pelas probabilidades é:

                                                  

Substituindo os valores da Tabela 1:

                        

Como as médias das amostras estão distribuídas em torno da média populacional, podemos medir essa dispersão: é a variância da média dada por:

                                

Substituindo os valores da Tabela 1:  

 

🔔 Na prática, porém, não temos acesso a todas as amostras possíveis — o pesquisador normalmente dispõe de apenas uma amostra. Mesmo assim, é possível estimar a variância da média por meio da por meio da fórmula:

                                                                                                            

Onde:

· s2 é a variância da amostra (calculada com divisor n−1),

· n é o tamanho da amostra.

Essa fórmula permite estimar a variabilidade esperada da média da amostra, caso o estudo fosse repetido várias vezes. O desvio padrão da média, conhecido como erro padrão da média, é então:

Portanto, erro padrão da média é a raiz quadrada com sinal positivo da variância da média.

Esse valor nos diz o quanto a média obtida em uma amostra pode variar em torno da verdadeira média populacional, sendo fundamental para construções de intervalos de confiança e testes de hipóteses.

                                      🟩 Conclusão

O exemplo simples que desenvolvemos, com bolas numeradas e todas as combinações possíveis de amostras, mostra como conceitos muitas vezes abstratos na estatística — como erro padrão da média, variância amostral e graus de liberdade — têm uma base lógica clara e visual. Ao calcular todas as médias e variâncias possíveis, conseguimos entender por que a média amostral é uma boa estimativa da média da população e por que a variância deve ser dividida por n−1n - 1n−1 para não subestimar a variabilidade real.

Mais do que decorar fórmulas, é importante compreender a intuição por trás delas. E nada melhor do que um exemplo pequeno e completo, acompanhado de gráficos, para transformar teoria em compreensão.

 

 




Friday, September 01, 2017

Amplitude estudentizada (studentized range)

   Seja Y uma variável aleatória com distribuição normal de média m e desvio padrão s.  Uma amostra de tamanho r dessa variável fornece uma estimativa s do desvio padrão s. Se os dados dessa amostra forem organizados em ordem crescente, você acha facilmente o valor mínimo e o valor máximo. A diferença entre esses dois valores é a amplitude, que tem a mesma unidade de medida dos dados. Dividindo a amplitude pelo desvio padrão s, você obtém a amplitude estudentizada, que se indica pela letra q e é adimensional porque as unidades de medida da amplitude e do desvio padrão são as mesmas. Então:
 
Imagine agora que você tem k amostras de tamanho r da variável aleatória Y que tem distribuição normal de média m  e variância s2. Cada amostra fornece uma estimativa da média m  e uma estimativa da variância s2. Haverá uma média maior e uma média menor. A amplitude das médias das k amostras é
 Como estamos considerando apenas o caso de amostras de mesmo tamanho, a variância ponderada  das estimativas  (i = 1, 2, ..., k) da variância s2 é a média das estimativas fornecidas por cada uma das k amostras.

Então, a estimativa da variância da amplitude estudentizada das k médias independentes, é

                       
             
A distribuição da estatística

                    
depende do nível de significância a, do número k de amostras e do número n – k  de graus de liberdade associados à estimativa da variância ponderada, em que n = kr

John W. Tukey, um dos grandes estatísticos do século XX, considerava "cientificamente desonesto" fazer uma análise de variância e depois aplicar o teste t de Fisher para comparar médias duas a duas, porque o erro tipo I aumenta com o número de médias em comparação. Ele propôs então a HSD, ou diferença honestamente significante (Honestly Significant Differences).

Para achar a diferença honestamente significante (honestly significant difference), ou seja, a diferença que deve haver entre duas médias para que elas possam ser consideradas estatisticamente diferentes a determinado nível de significância a, calcule:
    Nessa fórmula, a variância ponderada das k amostras é estimada pelo quadrado médio do resíduo QMR da ANOVA, que está associado a n-k graus de liberdade. Mas na HDS, o valor de qa,k,n-k incorpora a √2. É a amplitude estudentizada q de Tukey.

As tabelas que exibem a distribuição da amplitude estudentizada q de Tukey são mais comuns, mas também há tabelas que exibem a distribuição da amplitude estudentizada q sem estar multiplicado por √2. Ocorrem as duas formas em tabelas. Então preste atenção, porque ambas usam o mesmo símbolo.

  Exemplo de procedimento para o teste de Tukey

 São dadas as concentrações de estrôncio (mg/ml) na água de cinco locais diferentes[1]. Vamos fazer a análise de variância e comparar as médias pelo teste de Tukey, usando o programa SAS.  

Concentrações de estrôncio (mg/ml) na água de cinco locais diferentes


Análise de variância

Como o quadrado médio do resíduo obtido na análise de variância é QMR = 9,765, a variância da média é:
                                           

           Logo, o erro padrão da média é:

         

          Para comparar as médias obtidas no exemplo duas a duas, no nível de significância de 5%, como k = 5 e n-k = 25, temos:

                            Saída do SAS



Mas para comparar duas médias usando a amplitude total estudentizada, é possível proceder de outra forma. Dado contraste de médias:


A variância do contraste, desde que as médias sejam independentes, é
  
                
        Para o exemplo:
        


e o  erro padrão do contrate de médias é
  


Então para comparar a média do Local 1 com o Local 2, calcule:



       O valor de q aqui calculado não pode ser comparado com o valor de q da tabela de amplitude estudentizada de Tukey. Para isso, precisa ser multiplicado por  √2. Você tem então

                           4,517 x √2 = 6,388


maior que o valor crítico da amplitude estudentizada de Tukey. Logo, há mais estrôncio no Local 2 que no Local 1.   

Veja agora a saída do SPSS. Note que está indicado como erro padrão é o erro padrão de um contraste de duas médias. Compare com a saída do SAS, em que o que se identifica como erro padrão é o erro padrão de uma média.                

Saída do SPSS

NOTAS
1.O exemplo apresentado é de
Zar, J.J.H. Biostatistical Analysis. New Jersey, Prentice Hall. 4ª ed. 1999, p.210.

2.Você encontra a Tabela de amplitude estudentizada de Tukey, por exemplo, em


3. Amplitude estudentizada: amplitude é a diferença entre valor máximo e valor mínimo de um conjunto de dados. Estudentizada, porque está dividida por s. O adjetivo é uma homenagem a Student, pseudônimo de William S. Gosset, que propôs o teste t.