Distribuições de
frequências e distribuições de probabilidades não têm a mesma forma. Mas quando
falamos em distribuição de probabilidades em geral vem à mente uma distribuição
normal, simétrica e mesocúrtica – conhecida como a curva em forma de sino.
Figura 1: Distribuição
normal
A lembrança de
uma distribuição de frequências não nos remete, tão enfaticamente, a uma forma
típica: aceitamos facilmente distribuições simétricas e assimétricas, por
exemplo, como as apresentadas em Coeficiente de assimetria, uma postagem
anterior. Nesta postagem, vamos tratar da curtose.
Curtose significa
o quanto de uma variável se encontra nas caudas da distribuição. A contribuição
do pico ou do intervalo central para a curtose é pequena, embora essa ideia
seja prevalente. Mas a curtose não mede a forma do pico – mas sim o “peso” das
caudas, ou dos extremos da curva (1).
As distribuições podem apresentar três
tipos principais de curtose: mesocúrtica, leptocúrtica e platicúrtica. Vamos considerar
cada uma dessas classificações.
As caudas de uma distribuição
mesocúrtica têm a aparência das caudas da distribuição normal – não apenas
a distribuição normal padronizada –, mas a distribuição normal com quaisquer parâmetros.
Também é mesocúrtica a distribuição binomial em que a probabilidade p de um evento favorável é muito próxima de ½ e é grande o
número n de tentativas. A curtose de uma distribuição mesocúrtica não é alta
nem baixa; é o padrão que se usa para definir os outros dois tipos de curtose.
A distribuição leptocúrtica
tem curtose maior do que a distribuição mesocúrtica. As caudas dessas
distribuições, para a direita ou para a esquerda, são “pesadas”, ou espessas.
Em geral, as distribuições leptocúrticas são identificadas pelos picos altos e
finos, embora isso não seja o certo. Um exemplo de distribuição leptocúrtica é
a distribuição t de Student.
As distribuições platicúrticas têm caudas “leves” ou finas
ou não têm cauda. Em geral, o pico é mais baixo do que o das distribuições
leptocúrticas. As distribuições uniformes são platicúrticas.
Figura 2: Curtose
Pearson introduziu a ideia de curtose como medida do
“achatamento” de uma distribuição, quando comparada à normal. As distribuições
achatadas seriam as platicúrticas e as alongadas seriam as leptocúrticas.
Lógico, as distribuições normais seriam as mesocúrticas. Mas lembre-se: curtose
tem a ver com as caudas da distribuição.
Medidas
da curtose
O grau de curtose de uma distribuição foi definida por Pearson pela medida g = b2 -3, em que
Em geral, b2 é chamado de “coeficiente de curtose de
Pearson”, enquanto g = b2-3 é chamado de “coeficiente de curtose de
Fisher” ou “excesso de curtose” (2). As medidas de curtose são, portanto,
definidas considerando o segundo (m2) e o quarto (m4)
momentos em relação à média, que são:
Em textos de estatística descritiva, você vai encontrar, muitas vezes, a fórmula do coeficiente de curtose de Pearson indicada por k (de kurtosis) e assim definida:
**********************
Exemplos
1.
Na prova final de um curso, os alunos obtiveram as notas apresentadas na
Tabela 1. Calcule média, variância e curtose considerando que os dados
provieram de uma população.
Tabela 1
2.
Na prova final de um curso, os alunos obtiveram as notas apresentadas na
Tabela 2. Calcule média, variância e curtose considerando que os dados
provieram de uma população.
Tabela 2
Como
julgar os resultados? Se b2 é maior que 3,
a distribuição é leptocúrtica, como no caso dos dados da Tabela 1. Se b2 é menor que 3,
a distribuição é platicúrtica, como no caso dos dados da Tabela 2. Se b2 = 3, a
distribuição é mesocúrtica, como é o caso de uma distribuição normal. Mais
cômodo é usar o coeficiente de curtose de Fisher e considerar:
g maior que 0,
isto é, positivo: distribuição é leptocúrtica.
g igual a 0:
distribuição é mesocúrtica.
g menor que 0,
isto é, negativo: distribuição é platicúrtica.
Quando não dispomos de m e s2, ou
seja, temos apenas as estimativas de m e s2 obtidas
de uma amostra, calculamos os coeficientes de curtose com as estimativas. É claro que distribuições mesocúrticas têm coeficiente de curtose
de Fisher em torno de zero, não precisa ser exatamente zero. Um teste é
possível (4).
********************** Exemplo
Imagine que os nomes de uma amostra de quatro crianças que frequentam um parque foram tomados ao acaso e se anotou as idades: 3; 1; 6; 10. Calcule a média, a variância, o quarto momento e os dois coeficientes de curtose.
Tabela 3
**********************
A distribuição deste último exemplo é
platicúrtica. Se você fizer os cálculos no Excel, vai achar curtose = -0,76843, menor que zero, portanto distribuição platicúrtica. Mas qual é a razão da diferença?
A razão é que no Excel (e em outros programas, como SPSS), a curtose é calculada usando um estimador
não tendencioso de g, que é
Esse estimador foi proposto para corrigir a tendenciosidade que
pode ocorrer pelo fato de as medições apresentarem ruído, que é uma
variabilidade inexplicável que acontece com dados amostrais que provêm de
distribuições normais (5). Só para conferir, veja o coeficiente de curtose para o primeiro exemplo, agora considerando que os dados são de uma amostra. No Excel, com a indicação CURT, você acha 2,98.
Referências
(1) Westfall PH Kurtosis as
Peakedness, 1905 - 2014. The American Statistician 68:191-195. 2014.
(2) Liang, Z. et al. The Statistical Meaning of Kurtosis and Its New Application to
Identification of Persons Based on Seismic Signals. Sensors (Basel). Aug; 8(8): 5106–5119. 2008
(3) Skewness, Kurtosis,
and the Normal Curve.
core.ecu.edu/psyc/wuenschk/docs30/Skew-Kurt.docx
(4) Snedecor,
G.W. e Cochran, W.G. Statistical Methods. The Iowa State Press. 6ed. 1967.
(5) Rimoldini L. Skewness and kurtosis unbiased by
Gaussian uncertainties.