Wednesday, September 13, 2017

Por que usamos "n - 1" na variância? Um exemplo simples explica


RESUMO: Um exemplo simples com bolas numeradas ajuda a entender por que usamos "n - 1" na variância e como surge o erro padrão da média. Inclui gráficos para facilitar a visualização.

Para explicar o erro padrão da média e apresentar a lógica dos graus de liberdade associados à variância da amostra, vamos usar um exemplo irreal — mas útil para compreender esses conceitos.

Imagine uma urna contendo três bolas numeradas: 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola à urna e faz uma nova retirada. Novamente, anota o número e retorna a bola. Em seguida, calcula a média dos dois números obtidos, que será sua pontuação no jogo.

Do ponto de vista teórico, temos uma população infinita de bolas numeradas (já que a bola é devolvida à urna após cada retirada), e esse   jogo pode ser repetido indefinidamente. A média populacional μ da variável em estudo é:

Como xi  pode assumir os valores 4, 10 ou 16, todos com probabilidade pi=13,  temos:                                              

                                                            

É importante notar que temos a média m da população, que é um parâmetro. Portanto, a variância populacional associada a essa média não envolve graus de liberdade. A dispersão da variável em torno da média m é dada por:                                   

                             

No caso do exemplo:

Vamos agora analisar os possíveis resultados do jogo. Como tanto a primeira quanto a segunda retirada podem resultar em 4, 10 ou 16, temos 9 combinações possíveis. A Tabela 1 mostra todas essas amostras de tamanho 2, suas médias e variâncias. 

Tabela 1

 Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias



Ao observar a Tabela 1, notamos dois fatos importantes: 

1.    A média das médias de todas as amostras possíveis é igual à média da população.

2.   A média das variâncias de todas as amostras possíveis é igual à variância da população, desde que as variâncias das amostras tenham sido calculadas com o divisor n−1 (isto é, com a variância amostral).

Dizemos, então, que:

🔺A média de uma amostra é uma estimativa não tendenciosa da média populacional.

🔺A variância de uma amostra (com divisor n−1) é uma estimativa não tendenciosa da variância populacional.

🔔 Por que "não tendenciosa"? Porque essas estimativas tendem, em média, aos valores verdadeiros dos parâmetros da população.

No nosso exemplo, as médias das amostras têm diferentes probabilidades:

🔸 Médias 4 e 16, cada uma ocorre 1 vez : probabilidade 1/9

🔸 Médias 7 e 13, cada uma ocorre 2 vezes: probabilidade 2/9

🔸 Média 10, ocorre 3 vezes: probabilidade 3/9

A fórmula da média das médias ponderada pelas probabilidades é:

                                                  

Substituindo os valores da Tabela 1:

                        

Como as médias das amostras estão distribuídas em torno da média populacional, podemos medir essa dispersão: é a variância da média dada por:

                                

Substituindo os valores da Tabela 1:  

 

🔔 Na prática, porém, não temos acesso a todas as amostras possíveis — o pesquisador normalmente dispõe de apenas uma amostra. Mesmo assim, é possível estimar a variância da média por meio da por meio da fórmula:

                                                                                                            

Onde:

· s2 é a variância da amostra (calculada com divisor n−1),

· n é o tamanho da amostra.

Essa fórmula permite estimar a variabilidade esperada da média da amostra, caso o estudo fosse repetido várias vezes. O desvio padrão da média, conhecido como erro padrão da média, é então:

Portanto, erro padrão da média é a raiz quadrada com sinal positivo da variância da média.

Esse valor nos diz o quanto a média obtida em uma amostra pode variar em torno da verdadeira média populacional, sendo fundamental para construções de intervalos de confiança e testes de hipóteses.

                                      🟩 Conclusão

O exemplo simples que desenvolvemos, com bolas numeradas e todas as combinações possíveis de amostras, mostra como conceitos muitas vezes abstratos na estatística — como erro padrão da média, variância amostral e graus de liberdade — têm uma base lógica clara e visual. Ao calcular todas as médias e variâncias possíveis, conseguimos entender por que a média amostral é uma boa estimativa da média da população e por que a variância deve ser dividida por n−1n - 1n−1 para não subestimar a variabilidade real.

Mais do que decorar fórmulas, é importante compreender a intuição por trás delas. E nada melhor do que um exemplo pequeno e completo, acompanhado de gráficos, para transformar teoria em compreensão.

 

 




5 comments:

. said...

Obrigada, Dr. Sonia, por compartilhar seus conhecimentos através desta plataforma.

Unknown said...

Prezada Dra. Sonia. Tenho uma questão que não sei resolver. Pode me ajudar? POR EXEMPLO: Se cada um dos médicos que eu consulto tem uma probabilidade de 20% de acertar meu diagnóstico, quantos médicos eu precisarei consultar para assegurar que se tenha uma probabilidade de 90% daquele primeiro diagnóstico estar correto? Se puder me ajudar, agradeço muito

Unknown said...

Desculpe-me, mas ainda não consegui calcular a resposta. Agradeço se puder me dar a resposta, e a partir daí vou tentar estudar o "processo" do cálculo. Sou Engenheiro, aposentado, 67 anos e sinceramente não tenho muito mais lembranças dos tempos de escola. Agradeço sua gentileza e parabenizo-a pelo seu blog.

Sonia Vieira said...

Calcular a resposta de qual pergunta? Seria, por acaso, a questão feita no comentário anterior? Obrigada pelos cumprimentos.

Sonia Vieira said...

A questão talvez não se refira especificamente a um diagnóstico médico. Mas se a probabilidade de acerto de um diagnóstico (em qualquer área) for p = 0,2, a probabilidade de erro é q = 0,8.
Vamos então perguntar: para ter 90% de certeza de que há pelo menos um diagnóstico correto, quantos especialistas devem ser consultados? Esta é uma questão que envolve a distribuição binomial, mas tem um aspecto que não permite solução exata. Por quê?
A distribuição binomial é discreta. O gráfico da distribuição não é uma curva contínua, que permite determinar um valor de probabilidade com intervalo pequeno. Além disso, a probabilidade de acerto seria p = 0,2 para todos os médicos. Esta é uma premissa falsa.
Um trabalho intitulado Diagnostic error in Internal Medicine, publicado em 2005 no Arquives of Internal Medicine, diz que a probabilidade de um diagnóstico correto (nas condições do estudo referenciado) é 0,85. Este é, obviamente, um valor alto para nossas condições, mas, segundo o estudo, erros de diagnóstico são explicados por:
Sintomas incomuns, ou devido ao paciente ser não cooperativo ou enganador.
Falha no equipamento ou resultados laboratoriais errados.
Conhecimento médico inadequado ou erro do médico no uso da informação disponível.
Combinação dos motivos anteriores.
Para nós, ainda há a acrescentar a corrupção: indica-se uma artroplastia de joelho desnecessária para se compartilhar do lucro na venda prótese ou se indica a extração de um dente para fazer um implante.

A probabilidade de erro de diagnóstico não é, portanto, igual para todos os médicos. É fato conhecido que, para se prevenir quanto ao erro de diagnóstico, deve-se buscar uma segunda e até uma terceira opinião, desde que independentes e bem abalizadas.
Mas veja a tabela dada em seguida, que apresenta a probabilidade de x ser igual ou maior que 1, para n = 1, 2,...10, p = 0,2.

P(X=x)=n!/x!(n-x)! p^x q^((n-x))

Soma P(X=0) P(X ≥1)

1,0000 0,8000 0,2000
1,0000 0,6400 0,3600
1,0000 0,5120 0,4880
1,0000 0,4096 0,5904
1,0000 0,3277 0,6723
1,0000 0,2621 0,7379
1,0000 0,2097 0,7903
1,0000 0,1678 0,8322
1,0000 0,1342 0,8658
1,0000 0,1074 0,8926

O número de médicos que deveriam ser consultados para ter probabilidade de aproximadamente 90% de pelo menos um diagnóstico correto seria n = 10. Só que não se saberia qual, ou quais diagnósticos seriam os corretos.
De qualquer forma, é um falso problema considerar que se possa calcular a probabilidade de ter primeiramente tirado “seis” em um jogo de um dado balanceado, jogando o dado muitas outras vezes.
Qual é a probabilidade de um diagnóstico correto? Depende do problema, é claro. Mas um médico com bom conhecimento na área em que o problema se enquadra, que saiba fazer um exame físico, reconheça sinais e sintomas, tenha acesso a um bom laboratório e um bom centro de imagens, tem maior probabilidade de acerto, é claro.