Para explicar erro padrão da média e mostrar a
lógica dos graus de liberdade, vamos usar um exemplo irreal, mas que ajuda
entender essa questão.
Imagine uma urna com três bolas numeradas. Os
números são 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a
bola na urna e retira uma segunda bola. Novamente, anota o número e retorna a
bola. Depois calcula a média, que são seus pontos no jogo.
Em termos
teóricos, você tem uma população infinita de bolas numeradas (porque você
retira uma bola da urna e a retorna) e esse jogo pode ser jogado um número
infinito de vezes. A média m da
variável em análise é
Nessa
fórmula, i = 1, 2,…; xi pode assumir somente os
valores 4, 10 ou 16, todos com probabilidade pi =1/3. Então:
É importante notar que temos a média m da população, um parâmetro. Então a variância não está associada a graus de
liberdade. A dispersão da variável em torno da média m é dada por:
No
caso, temos:
Considere, agora, cada resultado possível no jogo. O
primeiro número retirado da urna pode ser 4, ou 10 ou 16. O segundo número também pode ser 4, ou 10 ou
16. Logo, pode ocorrer qualquer dos resultados apresentados na Tabela 1.
Nessa tabela também são dadas as médias e as variâncias dos resultados que
podem ser obtidos por um jogador.
Tabela 1 - Amostras de dois números
que podem ser obtidas da população constituída por números 4, 10 e 16, com as
respectivas médias e variâncias
Observe os resultados apresentados na Tabela 1: a
média das médias de todas as amostras possíveis é igual à média da população e
a média das variâncias de todas as amostras possíveis é igual à média da
variância da população. Mas veja bem: para que a média das variâncias de todas
as amostras seja igual à variância da população, é preciso que as variâncias
das amostras tenham sido obtidas com o divisor n - 1.
Dizemos
então que a média de uma amostra é uma estimativa
não tendenciosa da média da população e a variância de uma amostra (com o divisor n
- 1) é uma estimativa não tendenciosa da variância da população. Por que “não
tendenciosa”? Porque elas tendem para os valores dos parâmetros.
Para o exemplo, a Tabela 1 apresenta os nove
arranjos que podem ocorrer quando se tomam amostras de tamanho 2 da população
estudada. Note que:
·
as médias 4 e 16
ocorrem com probabilidade 1/9;
·
as médias 7 e 13
ocorrem com probabilidade 2/9;
·
a média 10
ocorre com probabilidade 3/9.
Então a média das médias é
As médias das amostras estão dispersas em torno da
média m da população. Será possível medir o grau de dispersão das médias das amostras
em torno da média da população?
É importante notar que temos a média m da população, que é um parâmetro. Então não
associamos graus de liberdade à variância. A dispersão das médias das amostras
em torno da média m da
população é dada pela variância da média:
em que pi é a probabilidade de cada
média ocorrer. Para as médias apresentadas na Tabela 1, a variância da média
é:
Na prática, é impossível calcular a variância da média pela fórmula apresentada: o pesquisador dispõe de uma única amostra — e não de todas as amostras possíveis. Existe, porém, uma solução: já se demonstrou que a estimativa da variância da média é dada pela fórmula:
Na prática, é impossível calcular a variância da média pela fórmula apresentada: o pesquisador dispõe de uma única amostra — e não de todas as amostras possíveis. Existe, porém, uma solução: já se demonstrou que a estimativa da variância da média é dada pela fórmula:
em
que s2 é a variância da
amostra e n é o tamanho da amostra.
Uma amostra permite, portanto, estimar a variância da média que, como vimos, é uma estimativa da variabilidade das
médias que seriam obtidas, caso o pesquisador tivesse tomado, nas mesmas
condições, todas as amostras possíveis. Podemos calcular o desvio padrão da
média, mais conhecido como erro padrão da
média, que se indica por sx e é dado por:
Erro padrão da média é a raiz quadrada com sinal positivo da variância da média.