Thursday, June 30, 2016
Paradigma
Wednesday, June 29, 2016
Distribuição de probabilidades
Absorver o conceito de aleatoriedade é muito mais importante
do que absorver o conceito de causa e efeito. Mas como você sabe que é o acaso
que determina o resultado do jogo de uma moeda, você tem consciência do que é
casual ou aleatório.
A variável aleatória quando o acaso tem influência em seus
valores.
Função é uma relação matemática que associa cada
elemento de um conjunto chamado domínio a um elemento de outro
conjunto chamado codomínio (ou contradomínio):
f:A→B
em que:
· A: é o
domínio da função.
· B: é o
codomínio da função.
· Para cada x ∈ Ax, a função f associa um único y ∈ By.
EXEMPLO
É
dada a função f(X) = 2 X. O domínio da
função é o conjunto de inteiros 1; 2; 3. Logo, o codomínio será 2; 4; 6. Veja
abaixo.
A variável discreta é contável em determinado período de tempo. Não pode assumir qualquer valor em dado intervalo.
EXEMPLOS
Número de carros em um estacionamento; número de moedas que você tem no bolso; número de alunos na sala de aula; número de ovos em uma cesta; número de dias úteis na semana; número de chamadas telefônicas em um escritório.
1. A
probabilidade de ocorrer qualquer um dos valores possíveis de X é
maior do que zero.
P
(X =x) ≥ 0
2. A
soma das probabilidades de ocorrência de todos os valores possíveis de X é,
obrigatoriamente, igual a 1.
Distribuição
de probabilidades é uma equação ou uma
tabela que relaciona cada resultado possível de uma variável aleatória discreta
com sua probabilidade de ocorrência.
EXEMPLO
Seja X o número de caras que podem ocorrer quando se joga uma moeda duas vezes. Veja o diagrama de árvore e a função de probabilidade por abaixo.
A
mais simples distribuição de probabilidades é a chamada distribuição
uniforme – em que todos os resultados possíveis ocorrem com a mesma
probabilidade, isto é,
EXEMPLO
Seja X o
resultado que pode ocorrer quando se joga um dado bem balanceado. A
distribuição de probabilidades para x = 1; 2; 3; 4; 5; 6 é
É importante saber que variável aleatória não significa variável que pode assumir qualquer valor (um número aleatório). Significa variável que tem um conjunto de resultados possíveis e cada resultado tem determinada probabilidade de acontecer. A palavra “aleatória” indica apenas que os resultados se sucedem ao acaso – sem que você saiba qual resultado irá ocorrer.
EXEMPLO
Seja X o
resultado que pode ocorrer quando se joga um dado bem balanceado. A
distribuição de probabilidades é
Thursday, June 23, 2016
Distribuição normal (para não-matemáticos)
Uma variável
aleatória contínua pode assumir qualquer valor entre seu máximo e seu
mínimo. Uma função de densidade de probabilidades ou função
de densidade descreve a distribuição de probabilidades de uma variável
aleatória contínua. Tem as seguintes propriedades:
1.
O gráfico da função de densidade é contínuo considerado todo o domínio da
variável, uma vez que a variável aleatória é contínua.
2. A
área delimitada pela curva da função de densidade e o eixo das abscissas,
considerado todo o domínio da variável, é igual a 1.
3. A
probabilidade de a variável aleatória contínua assumir valor entre a e b é
igual à área delimitada por a e b sob a
função de densidade.
EXEMPLO
Seja X uma variável
aleatória contínua. Qual é a probabilidade de X assumir valor
entre a e b, dado que a função de
densidade de probabilidade é
A
função de densidade de probabilidade, com a área pedida, pode ser apresentada
graficamente como mostra a figura abaixo.
As características da distribuição normal são conhecidas.
· A área total sob a curva é 1.
· A média, a mediana e a moda coincidem e estão no centro da distribuição.
· A curva é simétrica em torno da média. Logo, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média.
O gráfico tem aspecto
típico, como pode ser visto abaixo.
Gráfico da distribuição normal
A distribuição normal fica definida quando são dados dois parâmetros:
a média, que se representa pela letra grega m (lê-se mi) e o
desvio padrão, que se representa pela letra grega s (lê-se
sigma). Então, não existe “uma” distribuição normal porque, quando mudam a
média e o desvio padrão da variável que estamos estudando, muda o aspecto do
gráfico. Veja a figura:
A função
de densidade é
-∞ ≤ x ≤
∞
Como
a intenção, aqui, é tratar a estatística sem muita matemática, não se preocupe
com a “fórmula”, porque vamos explicar a distribuição normal de maneira
intuitiva. Como se chegou a essa distribuição? A equação já era conhecida, mas
foi Gauss, o grande matemático e astrônomo do século XIX, quem usou a
distribuição normal para estudar erros de medida. Os astrônomos passaram então
a usar a “lei dos erros” para estudar medidas do mundo físico.
Quetelet,
um matemático e sociólogo do mesmo século XIX achou que poderia aplicar a “lei
dos erros” ao ser humano. Desenvolveu a ideia de que poderia determinar o
“homem médio” por meio do chamou “fatos da vida”. Não chegou a isso,
obviamente, mas foi quem primeiro estudou a distribuição das medidas
biométricas.
Fez
muitas medições em nada menos do que 5732 soldados escoceses. A tabela dada
abaixo apresenta a distribuição de frequências para o perímetro
torácico dos soldados.
Distribuição
de frequências para perímetro torácico de homens adultos, em polegadas
Veja
a tabela: a proporção de soldados escoceses com 38 polegadas de perímetro
torácico (ou seja, entre 37,5 e 38,5 polegadas), por exemplo, era 0,07135, ou
seja, praticamente 7%. Agora, olhe o histograma apresentado na figura abaixo:
na base do retângulo é dado o intervalo de 37,5 a 38,5 polegadas; a proporção
de soldados escoceses com perímetro torácico entre 37,5 e 38,5 polegadas deve
ser lida no eixo das ordenadas (aproximadamente 0,07, ou 7%).
Histograma
para a distribuição de frequências do perímetro torácico de homens
adultos, em polegadas
Toda
distribuição de frequências é construída com os dados de uma amostra. Se a
variável for contínua, você pode construir um histograma que tem, muitas
vezes, a aparência da figura acima. Nesses casos, a distribuição
normal se ajusta ao histograma, como você pode ver na figura dada abaixo.
Curva normal ajustada ao histograma para
perímetro torácico de homens adultos, em polegadas
Mas
por que será que medidas biológicas, medidas de produtos fabricados em série,
erros de medida têm distribuição aproximadamente normal? Porque sobre todas
essas variáveis atuam muitos fatores, às vezes de forma positiva, às vezes de
forma negativa. Para compreender isso, um ótimo exemplo, apresentado abaixo, é
de Mlodinov.
Imagine
que vamos fazer 150 pães um a um, seguindo uma receita que produz pães com 500
gramas. Por simples acaso, poderemos colocar mais, ou menos, farinha e/ou leite
e/ou açúcar em alguns pães. O forno pode estar mais quente, ou menos quente
quando assarmos alguns dos pães. Pode haver um pouco mais, e às vezes um pouco
menos de umidade no ar enquanto alguns pães crescem; a temperatura ambiente
pode estar um pouco mais alta, ou um pouco mais baixa e assim por diante. O
fato é que, no final, teremos alguns pães com mais do que 500 gramas, outros
com menos e a maioria com pesos muito próximos de 500 gramas.
O
peso de nossos pães irá variar de acordo com a distribuição normal. Por quê?
Porque sobre o peso de nossos pães atuou grande número de variáveis aleatórias
independentes – algumas atuaram para aumentar o peso dos pães,
outras para diminuir. Cada variável tem efeito pequeno, mas os
efeitos se somam. É pouco comum que um pão só sofra efeitos positivos, ou só
sofra efeitos negativos – esses seriam as caudas da curva. A maior parte dos
pães sofre efeitos positivos e negativos em quantidade que dão surgimento a
uma distribuição normal.
As
variáveis que estudamos sofrem o efeito de uma soma de fatores (variáveis
aleatórias independentes). Cada fator afeta as medidas do que estamos estudando
de uma forma, às vezes positiva (por exemplo, colocamos mais farinha no pão) ou
negativa (colocamos menos farinha no pão). O efeito da soma de todas essas
variáveis aleatórias (quantidade de açúcar, farinha, calor, umidade etc.) sobre
o que estamos medindo (peso dos pães) produz uma distribuição normal.
VEJA
Monday, June 06, 2016
Quais Tratamentos São Diferentes? Descubra com o Teste de Tukey
Uma análise de variância (ANOVA) testa a hipótese de igualdade entre as médias populacionais de vários grupos. No entanto, ela não identifica quais grupos possuem médias estatisticamente diferentes entre si. Por essa razão, o teste F realizado na ANOVA é conhecido como teste global ou omnibus test.
Concluída a análise de
variância, o pesquisador precisa aplicar um teste complementar para comparar as
médias entre os grupos. Neste texto, trataremos do teste de Tukey,
amplamente utilizado por pesquisadores brasileiros.
O teste de Tukey realiza comparações
entre médias duas a duas (pairwise comparisons), permitindo
que todos os pares possíveis sejam analisados. Essa abrangência é uma de suas
principais vantagens.
Além disso, o teste de Tukey é
considerado um teste a posteriori (post-hoc), ou seja, realiza
comparações não planejadas (unplanned comparisons). Isso significa
que o pesquisador não precisa definir previamente quais comparações fará — alg o
bastante conveniente na prática.
Para aplicar o teste de Tukey, é
necessário calcular a diferença mínima entre duas médias para que elas
possam ser consideradas significativamente diferentes, dado um nível de
significância α. No
Brasil, essa diferença costuma ser chamada de diferença mínima
significante, geralmente representada pela letra grega Δ(delta).
Contudo, vale uma observação
importante: em língua inglesa, o termo Least Significant Difference (LSD)
refere-se especificamente ao teste de Fisher. No caso do teste de Tukey, a
diferença mínima entre médias é chamada de Honestly Significant Difference
(HSD), ou seja, diferença honestamente significante, denominação
dada por seu autor, John W. Tukey.
De todo modo, para calcular a
HSD pelo teste de Tukey, utiliza-se a seguinte fórmula:
Onde:
· q(k,gl,α) é a amplitude estudentizada, obtida em
tabela própria, com base no número de grupos (k), nos graus de liberdade
do resíduo (gl) e no nível de significância (α);
· QMR é o quadrado médio do resíduo da ANOVA;
· r é o número de repetições por grupo.
💡 Nos softwares e na literatura em inglês, é comum
usar a sigla HSD, e não Δ, para se referir à diferença usada no teste de
Tukey.
Como usar a tabela de amplitude estudentizada
q
Observe um trecho da tabela a
seguir. O valor em negrito corresponde à comparação de médias em um experimento
com seis tratamentos (k=6) e 24 graus de liberdade no Resíduo
(gl=24), com nível de significância de 5%.
Tabela
Valores de q para α=5%
Duas médias são consideradas estatisticamente
diferentes no nível de significância α sempre que o valor absoluto da diferença entre
elas for maior ou igual à HSD.
🔍 EXEMPLO
Considere os dados de diminuição
da pressão arterial, apresentados na Tabela 1. Esses dados foram submetidos a
uma análise de variância (Tabela 2). Como o valor de F é significante no nível de 5%, concluímos que existe pelo menos uma média diferente das
demais. As médias dos grupos são apresentadas na Tabela 3.
Tabela 1
Tabela 2
Análise de variância (ANOVA)
Tabela 3
Médias da diminuição da pressão arterial por grupo
Queremos saber quais médias
são significativamente diferentes entre si? Para isso, vamos aplicar o
teste de Tukey.
Cálculo da HSD
· q=4,3727:
valor da tabela de q para k=6, gl=24, α=5%;
· QMR=36,00: quadrado médio do resíduo da ANOVA;
· r=5: número
de repetições por grupo.
Comparações
de Médias
Agora, comparamos as médias duas
a duas. As diferenças significantes no nível de 5% estão indicadas
com um asterisco.
Tabela 4
Pode ser útil visualizar essas
comparações de outra forma:
Tabela 5
De acordo com o teste de Tukey,
no nível de 5% de significância:
· a média do tratamento A é maior
do que a de B e a do controle;
· a média do tratamento D é maior
do que as médias de B, C, E e controle.
Estes resultados também podem
ser indicados por letras, como é dado em seguida e é usual em outputs de
softwares:
· quando letras diferentes aparecem em frente a duas médias, a diferença entre essas médias é estatisticamente
significante;
· quando a mesma letra aparece em
frente a duas médias, a diferença
entre essas médias não é estatisticamente significante.
Tabela 6
Comparação das médias
de diminuição da pressão arterial
Output (Minitab)
Tukey
Pairwise Comparisons
Grouping
Information Using the Tukey Method and 95% Confidence
Treatment N Mean
Grouping
D 5
29,00 A
A
5 21,00 A
B
E
5 13,00
B C
C
5 10,00
B C
B
5 8,00
C
Control
5
2,00 C
Means
that do not share a letter are significantly different.
Output (SAS)
Error Mean
Square 36
Critical Value of Studentized Range 4.37265
Minimum Significant Difference 11.733
Means with the same letter are not significantly different.
Tukey Grouping
Mean N trat
A
29.000 5
4
A
B A
21.000
5 1
B
B C
13.000 5 5
B C
B C
10.000
5 3
C
C 8.000 5 2 C 2.000 5 6
Também se pode calcular estatística q para cada comparação de
médias. Veja o exemplo: de ZAR, J. H. BIOSTATISTICAL ANALYSIS, 4th. ed. P.
210
Calcule:
Output (Minitab)