Thursday, June 23, 2016

Distribuição normal (para não-matemáticos)

A intenção é mostrar aqui a distribuição normal. Mas antes, vamos rever alguns conhecimentos que você já tem.

Uma variável aleatória contínua pode assumir qualquer valor entre seu máximo e seu mínimo. A função de densidade de probabilidades ou função de densidade descreve a distribuição de probabilidades de uma variável aleatória contínua. Tem as seguintes propriedades:

1.   O gráfico da função de densidade é contínuo considerado todo o domínio da variável, uma vez que a variável aleatória é contínua.
2.  A área delimitada pela curva da função de densidade e o eixo das abscissas, considerado todo o domínio da variável, é igual a 1.
3.    A probabilidade de a variável aleatória contínua assumir valor entre a e b é igual à área delimitada por a e b sob a função de densidade.

EXEMPLO

Seja X uma variável aleatória contínua. Qual é a probabilidade de X assumir valor entre e  b, dado que a função de densidade de probabilidade é 

A função de densidade de probabilidade, com a área pedida, pode ser apresentada graficamente como mostra a figura abaixo.



As características da distribuição normal são conhecidas: 

·         O gráfico é típico: 


Gráfico da distribuição normal

·         A área total sob a curva é 1.
·      A média, a mediana e a moda coincidem e estão no centro da distribuição.
·       A curva é simétrica em torno da média. Logo, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média.


Gráfico da distribuição normal: simetria

·        A distribuição normal fica definida quando são dados dois parâmetros: a média, que se representa pela letra grega m (lê-se mi) e o desvio padrão, que se representa pela letra grega s (lê-se sigma). Então, não existe “uma” distribuição normal porque, quando mudam a média e o desvio padrão da variável que estamos estudando, muda o aspecto do gráfico. Veja a figura:

 Gráfico de três distribuições normais

A função de densidade é
                  -∞ ≤ x ≤ ∞
Como a intenção, aqui, é tratar a estatística sem muita matemática, não se preocupe com a “fórmula”, porque vamos explicar a distribuição normal de maneira intuitiva. Como se chegou a essa distribuição? A equação já era conhecida, mas foi Gauss, o grande matemático e astrônomo do século XIX, quem usou a distribuição normal para estudar erros de medida. Os astrônomos passaram então a usar a “lei dos erros” para estudar medidas do mundo físico.

Quetelet, um matemático e sociólogo do mesmo século XIX achou que poderia aplicar a “lei dos erros” ao ser humano. Desenvolveu a ideia de que poderia determinar o “homem médio” por meio do chamou “fatos da vida”. Não chegou a isso, obviamente, mas foi quem primeiro estudou a distribuição das medidas biométricas.

Fez muitas medições em nada menos do que 5732 soldados escoceses. A tabela dada abaixo apresenta a distribuição de frequências para o perímetro torácico dos soldados.

Distribuição de frequências para perímetro torácico de homens adultos,
 em polegadas

Veja a tabela: a proporção de soldados escoceses com 38 polegadas de perímetro torácico (ou seja, entre 37,5 e 38,5 polegadas), por exemplo, era 0,07135, ou seja, praticamente 7%. Agora, olhe o histograma apresentado na figura abaixo: na base do retângulo é dado o intervalo de 37,5 a 38,5 polegadas; a proporção de soldados escoceses com perímetro torácico entre 37,5 e 38,5 polegadas deve ser lida no eixo das ordenadas (aproximadamente 0,07, ou 7%).

Histograma para a distribuição de frequências do perímetro torácico
 de homens adultos, em polegadas

Toda distribuição de frequências é construída com os dados de uma amostra. Se a variável for contínua, você pode construir um histograma que tem, muitas vezes, a aparência da figura acima. Nesses casos, a distribuição normal se ajusta ao histograma, como você pode ver na figura dada abaixo.

Curva normal ajustada ao histograma para perímetro torácico
 de homens adultos, em polegadas

Mas por que será que medidas biológicas, medidas de produtos fabricados em série, erros de medida têm distribuição aproximadamente normal? Porque sobre todas essas variáveis atuam muitos fatores, às vezes de forma positiva, às vezes de forma negativa. Para compreender isso, um ótimo exemplo, apresentado abaixo, é de Mlodinov.

Imagine que vamos fazer 150 pães um a um, seguindo uma receita que produz pães com 500 gramas. Por simples acaso, poderemos colocar mais, ou menos, farinha e/ou leite e/ou açúcar em alguns pães. O forno pode estar mais quente, ou menos quente quando assarmos alguns dos pães. Pode haver um pouco mais, e às vezes um pouco menos de umidade no ar enquanto alguns pães crescem; a temperatura ambiente pode estar um pouco mais alta, ou um pouco mais baixa e assim por diante. O fato é que, no final, teremos alguns pães com mais do que 500 gramas, outros com menos e a maioria com pesos muito próximos de 500 gramas. 

O peso de nossos pães irá variar de acordo com a distribuição normal. Por quê? Porque sobre o peso de nossos pães atuou grande número de variáveis aleatórias independentes – algumas atuaram para aumentar o peso dos pães, outras para diminuir. Cada variável tem efeito pequeno, mas os efeitos se somam. É pouco comum que um pão só sofra efeitos positivos, ou só sofra efeitos negativos – esses seriam as caudas da curva. A maior parte dos pães sofre efeitos positivos e negativos em quantidade que dão surgimento a uma distribuição normal

As variáveis que estudamos sofrem o efeito de uma soma de fatores (variáveis aleatórias independentes). Cada fator afeta as medidas do que estamos estudando de uma forma, às vezes positiva (por exemplo, colocamos mais farinha no pão) ou negativa (colocamos menos farinha no pão). O efeito da soma de todas essas variáveis aleatórias (quantidade de açúcar, farinha, calor, umidade etc.) sobre o que estamos medindo (peso dos pães) produz uma distribuição normal.


VEJA:
Mlodinow, L. O andar do bêbado. Rio de Janeiro: Zahar, 2009.
Daly, F.; Hand, D; Jones, C; Lunn, AD: Elements of Statistics: Addison Wesley, 1995.
onlinestatbook.com/2/normal_distribution/intro.htmlProbability Density Functions https://onlinecourses.science.psu.edu/stat414/node/97
stattrek.com/.../dictionary.aspx?...Probability%20density%20func...





No comments: