Thursday, May 10, 2018

O que é assimetria (ou distorção) e como se mede?

Por conta de uma pergunta sobre a questão de assimetria nas distribuições de dados, pus-me a estudar o assunto.  Mas a finalidade deste blog não é expor teoria de estatística, nem esse é o meu forte. Então vamos a uma pequena discussão do problema. Os alunos de Estatística precisam saber como medir a assimetria. Mas o que é assimetria de uma distribuição de dados?
Se a cauda esquerda (cauda no final da distribuição, à esquerda) é mais pronunciada que a cauda direita, a distribuição tem assimetria negativa. Se o inverso for verdadeiro, terá uma assimetria positiva. Se nada disso acontece, a distribuição é simétrica. Os livros-texto em geral apresentam histogramas, comentando o comprimento da cauda e o papel dos valores extremos, que puxam a média para cima, ou para baixo. Veja a Figura 1, que mostra:

1.Simetria não implica, necessariamente, em uma distribuição normal 
      ou em forma de sino.
2.Dados reais muitas vezes apresentam valores extremos em uma cauda.
3.Dados reais podem ter distribuições bimodais (e multimodais). (1)

Figura 1: Histogramas ilustrativos da questão de simetria/assimetria das distribuições de dados
Fonte: David P. Doane & Lori E. Seward (2011) Measuring Skewness:
 A Forgotten Statistic?, Journal of Statistics Education, 19:2, , 
DOI: 10.1080/10691898.2011.11889611 To link to
this article: https://doi.org/10.1080/10691898.2011.11889611

Outras ferramentas de análise exploratória de dados, como o diagrama de caixa (boxplot) e o diagrama de pontos (dotplot) podem ser usadas para avaliar a assimetria visualmente. O diagrama de viga e fulcro, bem menos conhecido, revela a assimetria mostrando média e marcando as distâncias que correspondam a 


Mas o diagrama de pontos (dotplot) é mais útil, porque revela o tamanho da amostra. Se os dados são de uma distribuição de frequências que proveio de uma amostra com a finalidade de estimar parâmetros, você já sabe: é preciso que a amostra seja grande. É o diagrama de pontos (dotplot) que mostra o tamanho da amostra. Veja a Figura 2.

Figura 2: Gráficos ilustrativos da questão de simetria/assimetria das distribuições de dados

    Em geral, a moda (ou a classe modal) não é discutida nos livros-texto quando se discute assimetria, apenas apresentada como “a frequência mais alta" que aparece no gráfico. Mas os livros-texto em geral explicam as posições relativas da média e da mediana. Veja a Figura 3.
             Se a média for maior do que a mediana, a distribuição é assimétrica à direita.
             Se a média for menor do que a mediana, a distribuição é assimétrica à esquerda.

Figura 3: Média maior que a mediana: assimetria à direita
Fonte: von Hippel, Paul T. Mean, Median, and Skew: Correcting a Textbook Rule. Journal of Statistics 
Education Volume 13, Number 2 (2005). ww2.amstat.org/publications/jse/v13n2/vonhippel.html


Esta regra pode falhar em distribuições multimodais ou em distribuições em que uma cauda é longa, mas a outra é pesada. Mais comumente, porém, a regra falha em distribuições discretas onde as áreas à esquerda e à direita da mediana não são iguais. Veja a Figura 4, que mostra um exemplo. No General Social Survey, um levantamento de dados sociais feito nos Estados Unidos da América, pergunta-se a os entrevistados quantas pessoas com mais de 18 anos moram no domicílio. As respostas para 2002 (1996 foi similar) estão na Figura 4. A assimetria é claramente à direita, mas a média é menor do que a mediana. Veja maior discussão no artigo citado.


Figura 4: Média menor que a mediana: mesmo assim, assimetria à direita
Fonte: von Hippel, Paul T. Mean, Median, and Skew: Correcting a Textbook Rule. Journal of Statistics Education Volume 13, Number 2 (2005). ww2.amstat.org/publications/jse/v13n2/vonhippel.html

   Mas voltando ao que normalmente se ensina: se a média for maior do que a mediana, a distribuição é assimétrica à direita; se a média for menor do que a mediana, a distribuição é assimétrica à esquerda. Dizendo assim, de uma forma simplista, muitas pessoas entenderão que os "a distribuição dos dados é assimétrica" se houver uma pequena diferença entre a média e a mediana da amostra, ou se o histograma for ligeiramente assimétrico. Sem mergulhar na inferência estatística, não se pode esperar média da amostra igual à mediana da amostra, ou histograma exatamente simétrico, mesmo no caso de populações simétricas.     Como vamos medir assimetria? Desde Karl Pearson (1895), os estatísticos estudaram as propriedades de várias estatísticas de assimetria. Vamos ver algumas delas.

Primeiro coeficiente de assimetria de Pearson: usa, em seu cálculo, a moda. A fórmula é:
em que x-barra = média, mo = moda, s = desvio padrão da amostra.

Segundo coeficiente de assimetria de Pearson: usa a mediana. A fórmula é:

em que x-barra = média, md = mediana, s = desvio padrão da amostra.

EXEMPLO
Você encontra este exemplo em:
http://www.statisticshowto.com/pearsons-coefficient-of-skewness/
Calcule o primeiro e o segundo coeficientes de Pearson para encontrar a assimetria de dados com as seguintes características: média = 70,5; mediana = 80; moda = 85; desvio padrão = 19,33.

Cuidado: O primeiro momento de assimetria de Pearson utiliza a moda. Se, em um conjunto de dados, a moda é definida por poucas unidades, ela não é uma boa medida de tendência central e não deve ser usada para calcular assimetria. Veja: 
No conjunto de dados
                                            1; 2; 3; 4; 5; 5
a moda não expressa bem a tendência central. Já no conjunto
                                       1; 2; 3; 3; 3; 3; 3; 3; 4
a moda expressa a tendência central.  

Interpretação:
 
1. A direção da assimetria é dada pelo sinal.

2. Coeficiente com valor negativo grande significa que a distribuição é negativamente assimétrica.

3. Coeficiente com valor positivo grande significa que a distribuição é positivamente assimétrica.
4. Coeficiente com valor zero significa nenhuma assimetria.

Os matemáticos discutem assimetria usando o segundo (m2) e o terceiro (m2) momentos em torno da média, que são:

  Lembre-se de que o segundo momento de uma distribuição em relação à média (m2) é a variância. Alguns livros textos e poucos pacotes de estatística para computador relatam o tradicional coeficiente de assimetria de Fisher-Pearson como segue:


  Veja bem:

  Na maioria dos pacotes não se encontra mais essa fórmula, embora ela esteja presente na literatura (2). Mas essa fórmula trabalha com parâmetros.

  Atualmente você encontra, para medir a assimetria, um coeficiente com ajuste para o tamanho da amostra. É o coeficiente padronizado de assimetria de Fisher-Pearson. 

  Essa fórmula, que é calculada no Excel, é:


EXEMPLO

   Você encontra este exemplo em:
Ajuda/ Distorção/Excel
Calcule o coeficiente padronizado de assimetria de Fisher-Pearson para os seguintes dados: 3; 4; 5; 2; 3; 4; 5; 6; 4; 7. O valor é 0,359543. Agora, dobre a amostra, com os mesmos dados. Você encontra 0,328351. Triplique a amostra e verifique que, à medida que a amostra cresce, o coeficiente diminui.

É importante saber: não estamos testando a simetria em geral. Em vez disso, a hipótese frequentemente implícita é o de uma população simétrica específica. O ponto de referência mais comum é a distribuição normal. 

Referências:
(1) Veja explicações para histogramas com aparências incomuns em:
           Vieira, S. Estatística para Qualidade. 3 ed. Rio de Janeiro. Elsevier.
(2) Veja a questão de assimetria, exigida para uma análise de variância, em
            Scheffé, H. Analysis of variance. Nova York, Wiley.