Tuesday, November 20, 2018

Momentos: em relação à origem e em relação à média

📌 Definição de momento

O momento de uma variável aleatória é o valor esperado de uma potência dessa variável.

Se a variável for discreta, o momento de ordem n é dado por:

                    

Se a variável for contínua, o momento de ordem n é dado por:

                                  

Nesta postagem, trataremos das variáveis aleatórias discretas. Há dois tipos principais de momentos:

1.     Momento em relação à origem

2.     Momento centrado em uma constante k

               📌 Momentos importantes

O primeiro momento em relação à origem é a média da distribuição: 

O primeiro momento em relação à média é sempre zero: 

O segundo momento em relação à média é a variância da distribuição: 

O terceiro momento em relação à média permite calcular o coeficiente de assimetria.

O quarto momento em relação à média permite calcular o coeficiente de curtose.

                                       Exemplo 1

A variável aleatória X tem a seguinte função de probabilidade, conforme mostrado na Tabela 1. Determine E[X] e E[X−E[X]]

Tabela 1

Distribuição de probabilidade de X 


                          E[X] =(-1)x0,2+0x1,3+1x0,5= 0,3

E[X−E[X]] =[(-1-0,3)x0,2+(0-0,3)x0,3 +(1-0,3)x0,5]=0

✅ Solução: A média é 0,3 e o primeiro momento em relação a média é sempre zero.

                                        Exemplo 2

Um ensaio de Bernoulli gera uma distribuição de probabilidades discreta, onde apenas dois resultados são possíveis. Um exemplo clássico é o lançamento de uma moeda. Os possíveis resultados, cara e coroa, podem ser representados por uma variável aleatória X, onde X=0 para "coroa" e X=1 para "cara". Ambos os eventos ocorrem com probabilidade 0,5. Determine E[X] e E[(X−E[X])2].

 Tabela 2

Distribuição de probabilidade de X 


✅ Solução: A média é 3,5 e a variância é 0,25.

                                  Exemplo 3

O número de pontos obtidos ao lançar um dado uma única vez constitui uma variável aleatória discreta. A Tabela 2 apresenta a     distribuição da variável. Determine os seguintes momentos:

             O primeiro momento em relação à origem

             O primeiro momento em relação à média

             O segundo momento em relação à média

             O terceiro momento em relação à média

             O quarto momento em relação à média

Tabela 2

 Distribuição da variável aleatória X


X

P(X)

1

1/6

2

1/6

3

1/6

4

1/6

5

1/6

6

1/6 

 

                                           
✅ Solução

                      1º Momento em relação à origem

                                   E[X]=3,5

                      1º Momento em relação à média   

                                  E[X−E[X]] = 0

                      2º Momento em relação à média 

                                    E[(X−E[X])2]=2,9167

                     3º Momento em relação à média 

                            E[(X−E[X])3]= 0

                      4º Momento em relação à média 

                                     E[(X−E[X])4]=14,7292




 


Thursday, November 15, 2018

O que é curtose e como se mede?


                       

Distribuições de frequências e distribuições de probabilidades não têm a mesma forma. Mas quando falamos em distribuição de probabilidades em geral vem à mente uma distribuição normal, simétrica e mesocúrtica – conhecida como a curva em forma de sino.
                                       Figura 1: Distribuição normal
    
     A lembrança de uma distribuição de frequências não nos remete, tão enfaticamente, a uma forma típica: aceitamos facilmente distribuições simétricas e assimétricas, por exemplo, como as apresentadas em Coeficiente de assimetria, uma postagem anterior. Nesta postagem, vamos tratar da curtose.
     Curtose significa o quanto de uma variável se encontra nas caudas da distribuição. A contribuição do pico ou do intervalo central para a curtose é pequena, embora essa ideia seja prevalente. Mas a curtose não mede a forma do pico – mas sim o “peso” das caudas, ou dos extremos da curva (1).
     As distribuições podem apresentar três tipos principais de curtose: mesocúrtica, leptocúrtica e platicúrtica. Vamos considerar cada uma dessas classificações.
     As caudas de uma distribuição mesocúrtica têm a aparência das caudas da distribuição normal – não apenas a distribuição normal padronizada –, mas a distribuição normal com quaisquer parâmetros. Também é mesocúrtica a distribuição binomial em que a probabilidade p de um evento favorável é muito próxima de ½ e é grande o número n de tentativas. A curtose de uma distribuição mesocúrtica não é alta nem baixa; é o padrão que se usa para definir os outros dois tipos de curtose.
     A distribuição leptocúrtica tem curtose maior do que a distribuição mesocúrtica. As caudas dessas distribuições, para a direita ou para a esquerda, são “pesadas”, ou espessas. Em geral, as distribuições leptocúrticas são identificadas pelos picos altos e finos, embora isso não seja o certo. Um exemplo de distribuição leptocúrtica é a distribuição t de Student.
     As distribuições platicúrticas têm caudas “leves” ou finas ou não têm cauda. Em geral, o pico é mais baixo do que o das distribuições leptocúrticas. As distribuições uniformes são platicúrticas.                                                     
                                                    Figura 2: Curtose

Fonte: Pezzullo, J. The symmetry and shape of data distributions often seen in biostatistics. https://www.dummies.com/education/science/biology/the-symmetry-and-shape-of-data-distributions-often-seen-in-biostatistics/
     Pearson introduziu a ideia de curtose como medida do “achatamento” de uma distribuição, quando comparada à normal. As distribuições achatadas seriam as platicúrticas e as alongadas seriam as leptocúrticas. Lógico, as distribuições normais seriam as mesocúrticas. Mas lembre-se: curtose tem a ver com as caudas da distribuição.
Medidas da curtose
     O grau de curtose de uma distribuição foi definida por Pearson pela medida g = b2 -3, em que 
     Em geral, b2 é chamado de “coeficiente de curtose de Pearson”, enquanto g  = b2-3 é chamado de “coeficiente de curtose de Fisher” ou “excesso de curtose” (2). As medidas de curtose são, portanto, definidas considerando o segundo (m2) e o quarto (m4) momentos em relação à média, que são: 
Em textos de estatística descritiva, você vai encontrar, muitas vezes, a fórmula do coeficiente de curtose de Pearson  indicada por k  (de kurtosis) e assim definida:
**********************
Exemplos

1.    Na prova final de um curso, os alunos obtiveram as notas apresentadas na Tabela 1. Calcule média, variância e curtose considerando que os dados provieram de uma população.

                                                                 Tabela 1

2.    Na prova final de um curso, os alunos obtiveram as notas apresentadas na Tabela 2. Calcule média, variância e curtose considerando que os dados provieram de uma população.

                                                        Tabela 2

**********************


     Como julgar os resultados? Se b2 é maior que 3, a distribuição é leptocúrtica, como no caso dos dados da Tabela 1. Se b2 é menor que 3, a distribuição é platicúrtica, como no caso dos dados da Tabela 2. Se b2 = 3, a distribuição é mesocúrtica, como é o caso de uma distribuição normal. Mais cômodo é usar o coeficiente de curtose de Fisher e considerar:

                    g  maior que 0, isto é, positivo: distribuição é leptocúrtica.
                    g  igual a 0: distribuição é mesocúrtica.
                    g  menor que 0, isto é, negativo: distribuição é platicúrtica.
       Quando não dispomos de m e s2, ou seja, temos apenas as estimativas de m e s2 obtidas de uma amostra, calculamos os coeficientes de curtose com as  estimativas. É claro que distribuições mesocúrticas têm coeficiente de curtose de Fisher em torno de zero, não precisa ser exatamente zero. Um teste é possível (4).

                                                  **********************                                                                                                               Exemplo
Imagine que os nomes de uma amostra de quatro crianças que frequentam um parque foram tomados ao acaso e se anotou as idades: 3; 1; 6; 10. Calcule a média, a variância, o quarto momento e os dois coeficientes de curtose.

                                           Tabela 3


                                                      **********************
     A distribuição deste último exemplo é platicúrtica. Se você fizer os cálculos no Excel, vai achar curtose = -0,76843, menor que zero, portanto distribuição platicúrtica. Mas qual é a razão da diferença?
    A razão é que no Excel (e em outros programas, como SPSS), a curtose é calculada usando um estimador não tendencioso de g, que é 


Esse estimador foi proposto para corrigir a tendenciosidade que pode ocorrer pelo fato de as medições apresentarem ruído, que é uma variabilidade inexplicável que acontece com dados amostrais que provêm de distribuições normais (5). Só para conferir, veja o coeficiente de curtose para o primeiro exemplo, agora considerando que os dados são de uma amostra. No Excel, com a indicação CURT, você acha 2,98.

Referências
(1)  Westfall PH Kurtosis as Peakedness, 1905 - 2014. The American Statistician 68:191-195. 2014.

(2)  Liang, Z. et al. The Statistical Meaning of Kurtosis and Its New Application to Identification of Persons Based on Seismic Signals. Sensors (Basel). Aug; 8(8): 5106–5119. 2008

(3)  SkewnessKurtosis, and the Normal Curve. core.ecu.edu/psyc/wuenschk/docs30/Skew-Kurt.docx

(4)  Snedecor, G.W. e Cochran, W.G. Statistical Methods. The Iowa State Press. 6ed. 1967.

(5)  Rimoldini L. Skewness and kurtosis unbiased by Gaussian uncertainties.