Quando pensamos em uma distribuição de probabilidades, é comum imaginarmos a distribuição normal também chamada de distribuição de Gauss — simétrica, com uma curva em forma de sino e conhecida por sua aparência suave e regular. Veja a Figura 1. Essa distribuição é classificada como mesocúrtica – e o que é a curtose vamos ver neste post.

Figura 1: Distribuição normal

O que são as caudas de uma distribuição?

A curtose está relacionada às caudas das distribuições. Em um gráfico de uma distribuição de probabilidades, as caudas são as extremidades à direita e à esquerda do pico central. Elas representam a frequência com que ocorrem valores extremos — poucos ou muitos. A curtose se refere ao grau em que os dados estão concentrados nessas regiões extremas. Em outras palavras, trata-se de quanto da variabilidade da variável está nas caudas da distribuição.

Tomando a distribuição normal como referência, podemos comparar outras distribuições a ela, observando se há mais ou menos dados nas caudas.

Três tipos principais de curtose

Com base na distribuição normal, definem-se três categorias principais de curtose:

1. Mesocúrtica: é o caso da própria distribuição normal, cuja quantidade de dados nas caudas é considerada “normal” ou média. Algumas distribuições, como a binomial com probabilidade próxima de ½ e tamanho de amostra grande, também se aproximam desse padrão.

2. Leptocúrtica: distribuições com caudas mais “pesadas” ou espessas que as da normal. Isso indica uma maior concentração de valores extremos, o que pode significar maior presença de outliers. Um exemplo típico é a distribuição t de Student.

3. Platicúrtica: distribuições com caudas mais “leves” ou finas, ou até sem caudas marcadas. Nesse caso, há menos valores extremos, e os dados tendem a se concentrar mais em torno da média. A distribuição uniforme é um exemplo de platicurtose.

Figura 2: Curtose

Fonte: Pezzullo, J. The symmetry and shape of data distributions often seen in biostatistics. https://www.dummies.com/education/science/biology/the-symmetry-and-shape-of-data-distributions-often-seen-in-biostatistics/

A origem do conceito

O conceito de curtose foi introduzido por Karl Pearson, que o associou à ideia de “achatamento” da curva de uma distribuição. Segundo essa interpretação inicial, distribuições com picos mais baixos seriam platicúrticas, e as com picos mais altos e estreitos seriam leptocúrticas.

No entanto, essa visão não é a mais precisa. A curtose está mais relacionada ao comportamento das caudas — ou seja, ao que ocorre nos extremos — do que à forma do pico. O pico da curva contribui muito pouco para o valor da curtose. Ainda assim, é comum associar visualmente a leptocurtose a curvas com picos agudos e a platicurtose a curvas mais achatadas, o que pode levar a interpretações equivocadas.

Como se mede a curtose?

Diferentemente da média e do desvio padrão, que são expressos nas mesmas unidades dos dados, a curtose é uma medida adimensional. Existem duas formas principais de expressá-la:

1. Curtose absoluta: também chamada de coeficiente de curtose de Pearson, atribui valor 3 à distribuição normal. Nesse caso, distribuições com curtose maior que 3 são classificadas como leptocúrticas e aquelas com valor menor que 3 são classificadas como platicúrticas. Em geral, é indicada por b_2.

Onde

 ·        m₄é o quarto momento em relação à média, isto é, E[(X−μ⁴)]

 ·        s é o desvio padrão (na definição, é o desvio padrão populacional).

2. Excesso de curtose: conhecida como curtose de Fisher, é a forma mais utilizada atualmente, inclusive na maioria dos softwares estatísticos. Aqui, a distribuição normal tem curtose igual a zero. Então valores positivos indicam leptocurtose e valores negativos, platicurtose. Em geral, é indicada por g.

É claro que uma distribuição pode ser considerada mesocúrtica mesmo que o coeficiente de curtose de Fisher esteja apenas em torno de zero, não precisa ser exatamente zero. Um teste é possível. Mas importante é esclarecer sempre qual definição está sendo adotada ao apresentar o valor da curtose.

Note que para calcular os coeficientes de curtose, foi usada a variância dividida por n, mas é comum usar a variância amostral, dividida por n - 1.

Curtose em amostras pequenas

Em amostras pequenas, o valor calculado da curtose pode superestimar o valor real da população. Isso ocorre porque a fórmula da curtose depende de momentos estatísticos que são especialmente sensíveis a valores extremos. Por essa razão, é comum aplicar uma correção para viés, que os softwares estatísticos costumam realizar automaticamente. Essa correção busca tornar a estimativa mais precisa, mesmo com poucos dados. A fórmula é dada por

Em resumo

1. A curtose descreve como os dados se distribuem nas caudas de uma distribuição.
2. A distribuição normal serve como referência.
3. Leptocurtose indica maior presença de valores extremos; platicurtose indica menor presença.
4. Curtose não mede o pico da curva, embora essa associação visual ainda seja comum.
5. Há duas formas principais de expressar a curtose: com base absoluta (valor 3 para a normal) ou com base no excesso (valor 0 para a normal).
6. Em amostras pequenas, é necessário aplicar uma correção para evitar distorções.

Exemplos de cálculo da curtose

Exemplo 1

Considere os seguintes valores: 1, 3, 6, 10. Vamos calcular média, variância, desvio padrão e curtose.

Tabela 1: Cálculos intermediários para para cálculo curtose

Cálculo da curtose absoluta

Cálculo da curtose em excesso

Para esse conjunto de valores, a curtose absoluta é menor que 3 e a curtose em excesso é negativa, indicando uma distribuição platicúrtica, ou seja, com caudas mais leves do que as da normal.

Cálculo da curtose com correção de viés

Tabela 2: Cálculos intermediários para

curtose com correção de viés

Fazendo os cálculos pelo EXCEL (use CURT),você encontra -0,76843.

Então: b₂ =01,6975 <3; curtose em excesso g = -2,045 < 0; curtose ajustada para tamanho da amostra -0,768 < 0. A distribuição é platicúrtica. Apresenta curtose negativa baixa, indicando que tem menos valores discrepantes do que uma distribuição normal.

Exemplo 2

Calcule média, variância, desvio padrão e curtose para os dados apresentados na Tabela 3. Faça um histograma.

Tabela 3: Dados

Cálculos usando o Excel

Você também pode usar uma calculadora online para obter a curtose. (kurtosis calculator)

Curtose: 2.9804

The distribution is leptokurtic. It has a high positive kurtosis, indicating that it is very peaked and has a relatively large number of outliers.

Exemplo 3

Calcule média, variância, desvio padrão e curtose para os dados apresentados na Tabela 4. Faça um histograma.

Tabela 4: Dados

Cálculos usando o Excel

Usando a calculadora online

Kurtosis:-0.6706 (Platykurtic)

The distribution is platykurtic. It has a low negative kurtosis, indicating that it is relatively flat and has fewer outliers than a normal distribution.

Referências

(1) Westfall PH Kurtosis as Peakedness, 1905 - 2014. The American Statistician 68:191-195. 2014.

(2) Liang, Z. et al. ‎ The Statistical Meaning of Kurtosis and Its New Application to Identification of Persons Based on Seismic Signals.‎ Sensors (Basel). Aug; 8(8): 5106–5119. 2008

(3) Skewness, Kurtosis, and the Normal Curve. core.ecu.edu/psyc/wuenschk/docs30/Skew-Kurt.docx

(4) Snedecor, G.W. e Cochran, W.G. Statistical Methods. The Iowa State Press. 6ed. 1967.

(5) Rimoldini L. Skewness and kurtosis unbiased by Gaussian uncertainties.

(https://arxiv.org/pdf/1304.6715

Sonia Vieira

Thursday, November 15, 2018

O que é curtose e como se mede?