Tuesday, November 20, 2018

Momentos: em relação à origem e em relação à média


    Momento de uma variável aleatória é o valor esperado de uma potência dessa variável.
    Se a variável for discreta:
   
 Se a variável for contínua:

Nesta postagem, vamos tratar as variáveis aleatórias discretas.
Há dois tipos de momento: o momento em relação à origem e o momento centrado em uma constante c.

 Têm grande importância, na estatística, o primeiro momento em relação à origem e os primeiro, segundo, terceiro e quarto momentos em relação à média. 

O primeiro momento em relação à origem é a média da distribuição.
                                  
O primeiro momento em relação à média é igual à zero.


*********************
Exemplo

A variável aleatória X tem função de probabilidade como mostra a Tabela 1. Ache E [X] e E [X-m].

                                         Tabela 1



*********************

O segundo momento em relação à média é a variância da distribuição.

*********************
Exemplo
Um ensaio de Bernouille gera uma distribuição de probabilidades discreta em que apenas um de dois resultados é possível. O exemplo clássico é o jogo de uma moeda uma única vez. Os resultados possíveis, cara e coroa, constituem uma variável aleatória Xi indicada por zero e 1. Ambos os eventos têm probabilidade 0,5.


*********************


O terceiro momento em relação à média permite calcular o coeficiente de assimetria.


O quarto momento em relação à média permite calcular o coeficiente de curtose.

*********************
Exemplo
O número de pontos que se obtém quando se joga um dado uma única vez constitui uma variável aleatória discreta. Veja a distribuição da variável na Tabela 2. Determine: o primeiro momento em relação à origem, o primeiro momento em relação à média, o segundo momento em relação à média, o terceiro momento em relação à média, o quarto momento em relação à média.
Tabela 2

1º momento em relação à origem:
 2º momento em relação à média:


3º momento em relação à média:
 

4º momento em relação à média:

*********************

Thursday, November 15, 2018

O que é curtose e como se mede?


     Distribuições de frequências e distribuições de probabilidades não têm a mesma forma. Mas quando falamos em distribuição de probabilidades em geral vem à mente uma distribuição normal, simétrica e mesocúrtica – conhecida como a curva em forma de sino.
                                   Figura 1: Distribuição normal
    
     A lembrança de uma distribuição de frequências não nos remete, tão enfaticamente, a uma forma típica: aceitamos facilmente distribuições simétricas e assimétricas, por exemplo, como as apresentadas em Coeficiente de assimetria, uma postagem anterior. Nesta postagem, vamos tratar da curtose.
     Curtose significa o quanto de uma variável se encontra nas caudas da distribuição. A contribuição do pico ou do intervalo central para a curtose é pequena, embora essa ideia seja prevalente. Mas a curtose não mede a forma do pico – mas sim o “peso” das caudas, ou dos extremos da curva (1).
     As distribuições podem apresentar três tipos principais de curtose: mesocúrtica, leptocúrtica e platicúrtica. Vamos considerar cada uma dessas classificações.
     As caudas de uma distribuição mesocúrtica têm a aparência das caudas da distribuição normal – não apenas a distribuição normal padronizada –, mas a distribuição normal com quaisquer parâmetros. Também é mesocúrtica a distribuição binomial em que a probabilidade p de um evento favorável é muito próxima de ½ e é grande o número n de tentativas. A curtose de uma distribuição mesocúrtica não é alta nem baixa; é o padrão que se usa para definir os outros dois tipos de curtose.
     A distribuição leptocúrtica tem curtose maior do que a distribuição mesocúrtica. As caudas dessas distribuições, para a direita ou para a esquerda, são “pesadas”, ou espessas. Em geral, as distribuições leptocúrticas são identificadas pelos picos altos e finos, embora isso não seja o certo. Um exemplo de distribuição leptocúrtica é a distribuição t de Student.
     As distribuições platicúrticas têm caudas “leves” ou finas ou não têm cauda. Em geral, o pico é mais baixo do que o das distribuições leptocúrticas. As distribuições uniformes são platicúrticas.                                                     
                                                    Figura 2: Curtose

Fonte: Pezzullo, J. The symmetry and shape of data distributions often seen in biostatistics. https://www.dummies.com/education/science/biology/the-symmetry-and-shape-of-data-distributions-often-seen-in-biostatistics/
     Pearson introduziu a ideia de curtose como medida do “achatamento” de uma distribuição, quando comparada à normal. As distribuições achatadas seriam as platicúrticas e as alongadas seriam as leptocúrticas. Lógico, as distribuições normais seriam as mesocúrticas. Mas lembre-se: curtose tem a ver com as caudas da distribuição.
Medidas da curtose
     O grau de curtose de uma distribuição foi definida por Pearson pela medida g = b2 -3, em que 
     Em geral, b2 é chamado de “coeficiente de curtose de Pearson”, enquanto g  = b2-3 é chamado de “coeficiente de curtose de Fisher” ou “excesso de curtose” (2). As medidas de curtose são, portanto, definidas considerando o segundo (m2) e o quarto (m4) momentos em relação à média, que são: 


Em textos de estatística descritiva, você vai encontrar, muitas vezes, a fórmula do coeficiente de curtose de Pearson  indicada por k  (de kurtosis) e assim definida:
**********************
Exemplos

1.    Na prova final de um curso, os alunos obtiveram as notas apresentadas na Tabela 1. Calcule média, variância e curtose considerando que os dados provieram de uma população.
Tabela 1

2.    Na prova final de um curso, os alunos obtiveram as notas apresentadas na Tabela 2. Calcule média, variância e curtose considerando que os dados provieram de uma população.
                                                   Tabela 2
**********************

     Como julgar os resultados? Se b2 é maior que 3, a distribuição é leptocúrtica, como no caso dos dados da Tabela 1. Se b2 é menor que 3, a distribuição é platicúrtica, como no caso dos dados da Tabela 2. Se b2 = 3, a distribuição é mesocúrtica, como é o caso de uma distribuição normal. Mais cômodo é usar o coeficiente de curtose de Fisher e considerar:

                    g  maior que 0, isto é, positivo: distribuição é leptocúrtica.
                    g  igual a 0: distribuição é mesocúrtica.
                    g  menor que 0, isto é, negativo: distribuição é platicúrtica.
       Quando não dispomos de m e s2, ou seja, temos apenas as estimativas de m e s2 obtidas de uma amostra, calculamos os coeficientes de curtose com as  estimativas. É claro que distribuições mesocúrticas têm coeficiente de curtose de Fisher em torno de zero, não precisa ser exatamente zero. Um teste é possível (4).

                                    **********************                                                                                                 Exemplo
Imagine que os nomes de uma amostra de quatro crianças que frequentam um parque foram tomados ao acaso e se anotou as idades: 3; 1; 6; 10. Calcule a média, a variância, o quarto momento e os dois coeficientes de curtose.

                                   Tabela 3

                                            **********************
     A distribuição deste último exemplo é platicúrtica. Se você fizer os cálculos no Excel, vai achar curtose = -0,76843, menor que zero, portanto distribuição platicúrtica. Mas qual é a razão da diferença?
    A razão é que no Excel (e em outros programas, como SPSS), a curtose é calculada usando um estimador não tendencioso de g, que é 

Esse estimador foi proposto para corrigir a tendenciosidade que pode ocorrer pelo fato de as medições apresentarem ruído, que é uma variabilidade inexplicável que acontece com dados amostrais que provêm de distribuições normais (5). Só para conferir, veja o coeficiente de curtose para o primeiro exemplo, agora considerando que os dados são de uma amostra. No Excel, com a indicação CURT, você acha 2,98.

Referências
(1)  Westfall PH Kurtosis as Peakedness, 1905 - 2014. The American Statistician 68:191-195. 2014.

(2)  Liang, Z. et al. The Statistical Meaning of Kurtosis and Its New Application to Identification of Persons Based on Seismic Signals. Sensors (Basel). Aug; 8(8): 5106–5119. 2008

(3)  SkewnessKurtosis, and the Normal Curve. core.ecu.edu/psyc/wuenschk/docs30/Skew-Kurt.docx

(4)  Snedecor, G.W. e Cochran, W.G. Statistical Methods. The Iowa State Press. 6ed. 1967.

(5)  Rimoldini L. Skewness and kurtosis unbiased by Gaussian uncertainties.