Sonia Vieira: Erro padrão da média e graus de liberdade

Wednesday, September 13, 2017

Erro padrão da média e graus de liberdade

Para explicar erro padrão da média e mostrar a lógica dos graus de liberdade, vamos usar um exemplo irreal, mas que ajuda entender essa questão.

Imagine uma urna com três bolas numeradas. Os números são 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola na urna e retira uma segunda bola. Novamente, anota o número e retorna a bola. Depois calcula a média, que são seus pontos no jogo.

Em termos teóricos, você tem uma população infinita de bolas numeradas (porque você retira uma bola da urna e a retorna) e esse jogo pode ser jogado um número infinito de vezes. A média m da variável em análise é

Nessa fórmula, i = 1, 2,…; x_i pode assumir somente os valores 4, 10 ou 16, todos com probabilidade p_i =1/3. Então:

É importante notar que temos a média m da população, um parâmetro. Então a variância não está associada a graus de liberdade. A dispersão da variável em torno da média m é dada por:

No caso, temos:

Considere, agora, cada resultado possível no jogo. O primeiro número retirado da urna pode ser 4, ou 10 ou 16. O segundo número também pode ser 4, ou 10 ou 16. Logo, pode ocorrer qualquer dos resultados apresentados na Tabela 1. Nessa tabela também são dadas as médias e as variâncias dos resultados que podem ser obtidos por um jogador.

Tabela 1 - Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias

Observe os resultados apresentados na Tabela 1: a média das médias de todas as amostras possíveis é igual à média da população e a média das variâncias de todas as amostras possíveis é igual à média da variância da população. Mas veja bem: para que a média das variâncias de todas as amostras seja igual à variância da população, é preciso que as variâncias das amostras tenham sido obtidas com o divisor n - 1.

Dizemos então que a média de uma amostra é uma estimativa não tendenciosa da média da população e a variância de uma amostra (com o divisor n - 1) é uma estimativa não tendenciosa da variância da população. Por que “não tendenciosa”? Porque elas tendem para os valores dos parâmetros.

Sabemos que a média das médias é dada pela soma dos produtos das médias das amostras pelas respectivas probabilidades p_i:

Para o exemplo, a Tabela 1 apresenta os nove arranjos que podem ocorrer quando se tomam amostras de tamanho 2 da população estudada. Note que:

· as médias 4 e 16 ocorrem com probabilidade 1/9;

· as médias 7 e 13 ocorrem com probabilidade 2/9;

· a média 10 ocorre com probabilidade 3/9.

Então a média das médias é

As médias das amostras estão dispersas em torno da média m da população. Será possível medir o grau de dispersão das médias das amostras em torno da média da população?

É importante notar que temos a média m da população, que é um parâmetro. Então não associamos graus de liberdade à variância. A dispersão das médias das amostras em torno da média m da população é dada pela variância da média:

em que p_i é a probabilidade de cada média ocorrer. Para as médias apresentadas na Tabela 1, a variância da média é:

Na prática, é impossível calcular a variância da média pela fórmula apresentada: o pesquisador dispõe de uma única amostra — e não de todas as amostras possíveis. Existe, porém, uma solução: já se demonstrou que a estimativa da variância da média é dada pela fórmula:

em que s² é a variância da amostra e n é o tamanho da amostra.

Uma amostra permite, portanto, estimar a variância da média que, como vimos, é uma estimativa da variabilidade das médias que seriam obtidas, caso o pesquisador tivesse tomado, nas mesmas condições, todas as amostras possíveis. Podemos calcular o desvio padrão da média, mais conhecido como erro padrão da média, que se indica por s_x e é dado por:

Erro padrão da média é a raiz quadrada com sinal positivo da variância da média.

5 comments:

. said...: Obrigada, Dr. Sonia, por compartilhar seus conhecimentos através desta plataforma.; 10:49 AM
Unknown said...: Prezada Dra. Sonia. Tenho uma questão que não sei resolver. Pode me ajudar? POR EXEMPLO: Se cada um dos médicos que eu consulto tem uma probabilidade de 20% de acertar meu diagnóstico, quantos médicos eu precisarei consultar para assegurar que se tenha uma probabilidade de 90% daquele primeiro diagnóstico estar correto? Se puder me ajudar, agradeço muito; 6:27 AM
Unknown said...: Desculpe-me, mas ainda não consegui calcular a resposta. Agradeço se puder me dar a resposta, e a partir daí vou tentar estudar o "processo" do cálculo. Sou Engenheiro, aposentado, 67 anos e sinceramente não tenho muito mais lembranças dos tempos de escola. Agradeço sua gentileza e parabenizo-a pelo seu blog.; 8:35 AM
Sonia Vieira said...: Calcular a resposta de qual pergunta? Seria, por acaso, a questão feita no comentário anterior? Obrigada pelos cumprimentos.; 5:13 AM
Sonia Vieira said...: A questão talvez não se refira especificamente a um diagnóstico médico. Mas se a probabilidade de acerto de um diagnóstico (em qualquer área) for p = 0,2, a probabilidade de erro é q = 0,8.
Vamos então perguntar: para ter 90% de certeza de que há pelo menos um diagnóstico correto, quantos especialistas devem ser consultados? Esta é uma questão que envolve a distribuição binomial, mas tem um aspecto que não permite solução exata. Por quê?
A distribuição binomial é discreta. O gráfico da distribuição não é uma curva contínua, que permite determinar um valor de probabilidade com intervalo pequeno. Além disso, a probabilidade de acerto seria p = 0,2 para todos os médicos. Esta é uma premissa falsa.
Um trabalho intitulado Diagnostic error in Internal Medicine, publicado em 2005 no Arquives of Internal Medicine, diz que a probabilidade de um diagnóstico correto (nas condições do estudo referenciado) é 0,85. Este é, obviamente, um valor alto para nossas condições, mas, segundo o estudo, erros de diagnóstico são explicados por:
Sintomas incomuns, ou devido ao paciente ser não cooperativo ou enganador.
Falha no equipamento ou resultados laboratoriais errados.
Conhecimento médico inadequado ou erro do médico no uso da informação disponível.
Combinação dos motivos anteriores.
Para nós, ainda há a acrescentar a corrupção: indica-se uma artroplastia de joelho desnecessária para se compartilhar do lucro na venda prótese ou se indica a extração de um dente para fazer um implante.

A probabilidade de erro de diagnóstico não é, portanto, igual para todos os médicos. É fato conhecido que, para se prevenir quanto ao erro de diagnóstico, deve-se buscar uma segunda e até uma terceira opinião, desde que independentes e bem abalizadas.
Mas veja a tabela dada em seguida, que apresenta a probabilidade de x ser igual ou maior que 1, para n = 1, 2,...10, p = 0,2.

P(X=x)=n!/x!(n-x)! p^x q^((n-x))

Soma P(X=0) P(X ≥1)

1,0000 0,8000 0,2000
1,0000 0,6400 0,3600
1,0000 0,5120 0,4880
1,0000 0,4096 0,5904
1,0000 0,3277 0,6723
1,0000 0,2621 0,7379
1,0000 0,2097 0,7903
1,0000 0,1678 0,8322
1,0000 0,1342 0,8658
1,0000 0,1074 0,8926

O número de médicos que deveriam ser consultados para ter probabilidade de aproximadamente 90% de pelo menos um diagnóstico correto seria n = 10. Só que não se saberia qual, ou quais diagnósticos seriam os corretos.
De qualquer forma, é um falso problema considerar que se possa calcular a probabilidade de ter primeiramente tirado “seis” em um jogo de um dado balanceado, jogando o dado muitas outras vezes.
Qual é a probabilidade de um diagnóstico correto? Depende do problema, é claro. Mas um médico com bom conhecimento na área em que o problema se enquadra, que saiba fazer um exame físico, reconheça sinais e sintomas, tenha acesso a um bom laboratório e um bom centro de imagens, tem maior probabilidade de acerto, é claro.; 3:56 PM