Por conta de uma
pergunta sobre a questão de assimetria nas distribuições de dados, pus-me a
estudar o assunto. Mas a finalidade deste
blog não é expor teoria de estatística, nem esse é o meu forte. Então vamos a
uma pequena discussão do problema. Os alunos de Estatística precisam saber como
medir a assimetria. Mas o que é assimetria de uma distribuição de dados?
Se a cauda
esquerda (cauda no final da distribuição, à esquerda) é mais pronunciada que a
cauda direita, a distribuição tem assimetria negativa. Se o
inverso for verdadeiro, terá uma assimetria positiva. Se nada disso acontece, a
distribuição
é simétrica.
Os livros-texto em geral apresentam histogramas, comentando o comprimento da
cauda e o papel dos valores extremos, que puxam a média para cima, ou para
baixo. Veja a Figura 1, que mostra:
1.Simetria não implica, necessariamente, em uma distribuição normal
ou em forma de sino.
2.Dados reais muitas vezes apresentam valores extremos em uma cauda.
3.Dados reais podem ter distribuições bimodais (e multimodais). (1)
Figura 1: Histogramas ilustrativos da questão de
simetria/assimetria das distribuições de dados
Fonte: David P. Doane & Lori E. Seward (2011) Measuring Skewness:
A Forgotten Statistic?, Journal of Statistics Education, 19:2, ,
DOI: 10.1080/10691898.2011.11889611 To link to
this article: https://doi.org/10.1080/10691898.2011.11889611
Outras
ferramentas de análise exploratória de dados, como o diagrama de caixa
(boxplot) e o diagrama de pontos (dotplot) podem ser usadas para avaliar a
assimetria visualmente. O diagrama de viga e fulcro, bem menos conhecido,
revela a assimetria mostrando média e marcando as distâncias que correspondam a
Mas o diagrama
de pontos (dotplot) é mais útil, porque revela o tamanho da amostra. Se os
dados são de uma distribuição de frequências que proveio de uma amostra com a
finalidade de estimar parâmetros, você já sabe: é preciso que a amostra seja
grande. É o diagrama de pontos (dotplot) que mostra o tamanho da amostra. Veja
a Figura 2.
Figura 2: Gráficos ilustrativos da questão de
simetria/assimetria das distribuições de dados
Em geral, a moda (ou a
classe modal) não é discutida nos livros-texto quando se discute assimetria,
apenas apresentada como “a frequência mais alta" que aparece no gráfico.
Mas os livros-texto em geral explicam as posições
relativas da média e da mediana. Veja a Figura 3.
Se a média for
maior do que a mediana, a distribuição é assimétrica à direita.
Se a média for
menor do que a mediana, a distribuição é assimétrica à esquerda.
Figura 3: Média maior que a mediana: assimetria à
direita
Fonte: von
Hippel, Paul
T. Mean,
Median, and Skew: Correcting a Textbook Rule. Journal of Statistics
Education Volume 13, Number 2 (2005). ww2.amstat.org/publications/jse/v13n2/vonhippel.html
Esta regra pode
falhar em distribuições multimodais ou em distribuições em que uma cauda é
longa, mas a outra é pesada. Mais comumente, porém, a regra falha em
distribuições discretas onde as áreas à esquerda e à direita da mediana não são
iguais. Veja a Figura 4, que mostra um exemplo. No General
Social Survey, um levantamento de dados sociais feito nos Estados Unidos da
América, pergunta-se a os entrevistados quantas pessoas com mais de 18 anos
moram no domicílio. As respostas para 2002 (1996 foi similar) estão na Figura 4.
A assimetria é claramente à direita, mas a média é menor do que a mediana. Veja
maior discussão no artigo citado.
Figura 4: Média menor que a mediana: mesmo
assim, assimetria à direita
Fonte: von
Hippel, Paul
T. Mean,
Median, and Skew: Correcting a Textbook Rule. Journal of Statistics
Education Volume 13, Number 2 (2005).
ww2.amstat.org/publications/jse/v13n2/vonhippel.html
Mas voltando ao que normalmente se
ensina: se a média for maior do que a mediana, a
distribuição é assimétrica à direita; se a média for menor do que a mediana, a
distribuição é assimétrica à esquerda. Dizendo assim, de uma forma simplista, muitas
pessoas entenderão que os "a distribuição dos dados é assimétrica" se
houver uma pequena diferença entre a média e a mediana da amostra, ou se o
histograma for ligeiramente assimétrico. Sem mergulhar na inferência
estatística, não se pode esperar média da amostra igual à mediana da amostra,
ou histograma exatamente simétrico, mesmo no caso de populações simétricas. Como vamos medir assimetria? Desde Karl
Pearson (1895), os estatísticos estudaram as propriedades de várias
estatísticas de assimetria. Vamos ver algumas delas.
em que x-barra = média, mo = moda, s = desvio
padrão da amostra.
Segundo
coeficiente de assimetria de Pearson: usa a mediana. A fórmula é:
em que x-barra = média, md = mediana, s = desvio
padrão da amostra.
EXEMPLO
Você encontra
este exemplo em:
http://www.statisticshowto.com/pearsons-coefficient-of-skewness/
Calcule o
primeiro e o segundo coeficientes de Pearson para encontrar a assimetria de
dados com as seguintes características: média = 70,5; mediana = 80; moda = 85; desvio padrão =
19,33.
Cuidado: O primeiro
momento de assimetria de Pearson utiliza a moda. Se, em um conjunto de dados, a
moda é definida por poucas unidades, ela não é uma boa medida de tendência
central e não deve ser usada para calcular assimetria. Veja:
No conjunto de
dados
1; 2; 3; 4;
5; 5
a moda não
expressa bem a tendência central. Já no conjunto
1; 2; 3; 3; 3;
3; 3; 3; 4
a moda expressa
a tendência central.
Interpretação:
1. A direção da
assimetria é dada pelo sinal.
2. Coeficiente com
valor negativo grande significa que a distribuição é negativamente assimétrica.
3. Coeficiente com
valor positivo grande significa que a distribuição é positivamente assimétrica.
4. Coeficiente com
valor zero significa nenhuma assimetria.
Os matemáticos
discutem assimetria usando o segundo (m2)
e o terceiro (m2) momentos
em torno da média, que são:
Lembre-se de que
o segundo momento de uma distribuição em relação à média (m2) é a variância. Alguns livros textos e poucos
pacotes de estatística para computador relatam o tradicional coeficiente de
assimetria de Fisher-Pearson como segue:
Veja bem:
Na maioria dos
pacotes não se encontra mais essa fórmula, embora ela esteja presente na literatura (2). Mas essa fórmula trabalha com parâmetros.
Atualmente você encontra, para medir a assimetria, um coeficiente com ajuste para o tamanho da amostra. É o coeficiente padronizado de assimetria de Fisher-Pearson.
Essa fórmula, que é calculada no Excel, é:
Atualmente você encontra, para medir a assimetria, um coeficiente com ajuste para o tamanho da amostra. É o coeficiente padronizado de assimetria de Fisher-Pearson.
Essa fórmula, que é calculada no Excel, é:
EXEMPLO
Você encontra
este exemplo em:
Ajuda/
Distorção/Excel
Calcule o coeficiente
padronizado de assimetria de Fisher-Pearson para os seguintes
dados: 3; 4; 5; 2; 3; 4; 5; 6; 4; 7. O valor é 0,359543.
Agora, dobre a amostra, com os mesmos dados. Você encontra 0,328351. Triplique a amostra e verifique que, à medida que a amostra cresce, o coeficiente diminui.
É importante saber: não estamos testando a simetria em geral. Em vez disso, a hipótese frequentemente implícita é o de uma população simétrica específica. O ponto de referência mais comum é a distribuição normal.
Referências:
(1) Veja explicações para histogramas com aparências incomuns em:
Vieira, S. Estatística para Qualidade. 3 ed. Rio de Janeiro. Elsevier.
(2) Veja a questão de assimetria, exigida para uma análise de variância, em
Scheffé, H. Analysis of variance. Nova York, Wiley.
É importante saber: não estamos testando a simetria em geral. Em vez disso, a hipótese frequentemente implícita é o de uma população simétrica específica. O ponto de referência mais comum é a distribuição normal.
Referências:
(1) Veja explicações para histogramas com aparências incomuns em:
Vieira, S. Estatística para Qualidade. 3 ed. Rio de Janeiro. Elsevier.
(2) Veja a questão de assimetria, exigida para uma análise de variância, em
Scheffé, H. Analysis of variance. Nova York, Wiley.