Thursday, November 15, 2018

O que é curtose e como se mede?

                       

Quando pensamos em uma distribuição de probabilidades, é comum imaginarmos a distribuição normal também chamada de distribuição de Gauss — simétrica, com uma curva em forma de sino e conhecida por sua aparência suave e regular. Veja a Figura 1. Essa distribuição é classificada como mesocúrtica – e o que é a curtose vamos ver neste post.

                    Figura 1: Distribuição normal



O que são as caudas de uma distribuição?

A curtose está relacionada às caudas das distribuições. Em um gráfico de uma distribuição de probabilidades, as caudas são as extremidades à direita e à esquerda do pico central. Elas representam a frequência com que ocorrem valores extremos — poucos ou muitos. A curtose se refere ao grau em que os dados estão concentrados nessas regiões extremas. Em outras palavras, trata-se de quanto da variabilidade da variável está nas caudas da distribuição.

Tomando a distribuição normal como referência, podemos comparar outras distribuições a ela, observando se há mais ou menos dados nas caudas.

Três tipos principais de curtose


Com base na distribuição normal, definem-se três categorias principais de curtose:

1.      Mesocúrtica: é o caso da própria distribuição normal, cuja quantidade de dados nas caudas é considerada “normal” ou média. Algumas distribuições, como a binomial com probabilidade próxima de ½ e tamanho de amostra grande, também se aproximam desse padrão.

2.      Leptocúrtica: distribuições com caudas mais “pesadas” ou espessas que as da normal. Isso indica uma maior concentração de valores extremos, o que pode significar maior presença de outliers. Um exemplo típico é a distribuição t de Student.

3.           Platicúrtica: distribuições com caudas mais “leves” ou finas, ou até sem caudas marcadas. Nesse caso, há menos valores extremos, e os dados tendem a se concentrar mais em torno da média. A distribuição uniforme é um exemplo de platicurtose.

   Figura 2: Curtose

Fonte: Pezzullo, J. The symmetry and shape of data distributions often seen in biostatisticshttps://www.dummies.com/education/science/biology/the-symmetry-and-shape-of-data-distributions-often-seen-in-biostatistics/

A origem do conceito


O conceito de curtose foi introduzido por Karl Pearson, que o associou à ideia de “achatamento” da curva de uma distribuição. Segundo essa interpretação inicial, distribuições com picos mais baixos seriam platicúrticas, e as com picos mais altos e estreitos seriam leptocúrticas.

No entanto, essa visão não é a mais precisa. A curtose está mais relacionada ao comportamento das caudas — ou seja, ao que ocorre nos extremos — do que à forma do pico. O pico da curva contribui muito pouco para o valor da curtose. Ainda assim, é comum associar visualmente a leptocurtose a curvas com picos agudos e a platicurtose a curvas mais achatadas, o que pode levar a interpretações equivocadas.

Como se mede a curtose?

Diferentemente da média e do desvio padrão, que são expressos nas mesmas unidades dos dados, a curtose é uma medida adimensional. Existem duas formas principais de expressá-la:

1.  Curtose absoluta: também chamada de coeficiente de curtose de Pearson, atribui valor 3 à distribuição normal. Nesse caso, distribuições com curtose maior que 3 são classificadas como leptocúrticas e aquelas com valor menor que 3 são classificadas como platicúrticas. Em geral, é indicada por b
2.

Onde 
 ·        mé o quarto momento em relação à média, isto é, E[(Xμ4)] 
 ·        s é o desvio padrão (na definição, é o desvio padrão populacional).

 

 2. Excesso de curtose: conhecida como curtose de Fisher, é a forma mais utilizada atualmente, inclusive na maioria dos softwares estatísticos. Aqui, a distribuição normal tem curtose igual a zero. Então valores positivos indicam leptocurtose e valores negativos, platicurtose. Em geral, é indicada por g.


É claro que uma distribuição pode ser considerada mesocúrtica mesmo que o coeficiente de curtose de Fisher esteja apenas em torno de zero, não precisa ser exatamente zero. Um teste é possível. Mas importante é esclarecer sempre qual definição está sendo adotada ao apresentar o valor da curtose.

Note que para calcular os coeficientes de curtose, foi usada a variância dividida por n, mas é comum usar a variância amostral, dividida por n - 1.

Curtose em amostras pequenas


Em amostras pequenas, o valor calculado da curtose pode superestimar o valor real da população. Isso ocorre porque a fórmula da curtose depende de momentos estatísticos que são especialmente sensíveis a valores extremos. Por essa razão, é comum aplicar uma correção para viés, que os softwares estatísticos costumam realizar automaticamente. Essa correção busca tornar a estimativa mais precisa, mesmo com poucos dados. A fórmula é dada por

Em resumo


         1.  A curtose descreve como os dados se distribuem nas caudas de uma distribuição.
         2.  A distribuição normal serve como referência.
        3. Leptocurtose indica maior presença de valores extremos; platicurtose indica                             menor  presença.
         4. Curtose não mede o pico da curva, embora essa associação visual ainda seja                             comum.
        5. Há duas formas principais de expressar a curtose: com base absoluta (valor 3                            para a normal) ou com base no excesso (valor 0 para a normal).
          6. Em amostras pequenas, é necessário aplicar uma correção para evitar distorções.

Exemplos de cálculo da curtose

Exemplo 1


Considere os seguintes valores: 1, 3, 6, 10. Vamos calcular média, variância, desvio padrão e curtose.

Tabela 1: Cálculos intermediários para para cálculo  curtose


Cálculo da curtose absoluta


Cálculo da curtose em excesso

  

 

Para esse conjunto de valores, a curtose absoluta é menor que 3 e a curtose em excesso é negativa, indicando uma distribuição platicúrtica, ou seja, com caudas mais leves do que as da normal.

Cálculo da curtose com correção de viés

Tabela 2: Cálculos intermediários para 

curtose com correção de viés

Fazendo os cálculos pelo EXCEL (use CURT),você encontra -0,76843.

Então: b2 =01,6975 <3; curtose em excesso g = -2,045 < 0; curtose ajustada para tamanho da amostra -0,768 < 0. A distribuição é platicúrtica. Apresenta curtose negativa baixa, indicando que tem menos valores discrepantes do que uma distribuição normal.

 Exemplo 2

Calcule média, variância, desvio padrão e curtose para os dados apresentados na Tabela 3. Faça um histograma.

                                                            Tabela 3: Dados

Cálculos usando o Excel

Você também pode usar uma calculadora online para obter a curtose. (kurtosis calculator)

                                                      Curtose: 2.9804 

The distribution is leptokurtic. It has a high positive kurtosis, indicating that it is very peaked and has a relatively large number of outliers.



 Exemplo 3

Calcule média, variância, desvio padrão e curtose para os dados apresentados na Tabela 4. Faça um histograma.

                                                            Tabela 4: Dados

              
                                                              Cálculos usando o Excel
          Usando a calculadora online

Kurtosis:-0.6706 (Platykurtic) 

The distribution is platykurtic. It has a low negative kurtosis, indicating that it is relatively flat and has fewer outliers than a normal distribution.


Referências
(1)  Westfall PH Kurtosis as Peakedness, 1905 - 2014. The American Statistician 68:191-195. 2014.

(2)  Liang, Z. et al. The Statistical Meaning of Kurtosis and Its New Application to Identification of Persons Based on Seismic Signals. Sensors (Basel). Aug; 8(8): 5106–5119. 2008

(3)  SkewnessKurtosis, and the Normal Curve. core.ecu.edu/psyc/wuenschk/docs30/Skew-Kurt.docx

(4)  Snedecor, G.W. e Cochran, W.G. Statistical Methods. The Iowa State Press. 6ed. 1967.

(5)  Rimoldini L. Skewness and kurtosis unbiased by Gaussian uncertainties.




2 comments:

Felipe said...
This comment has been removed by the author.
Felipe said...

Obrigado pelo conteúdo. Vários posts do seu blog têm me ajudado muito nos estudos :)

Felipe.