Thursday, March 31, 2022

Quartil - esse desconhecido

 

Você já conhece a mediana, que divide um conjunto de dados ordenados em duas metades. 

Quartis são os valores que dividem um conjunto de dados ordenados em quatro partes:

  • o primeiro quartil (1º Q) separa o quarto de dados com valores menores que os demais (25%);
  •  o segundo quartil (2º Q), que é a mediana, separa dois quartos (a metade) dos dados com valores menores que os demais (50%);
  •  o terceiro quartil (3º Q) separa três quartos de dados com valores menores que os demais (75%). 


Mas você precisa saber como obter os quartis quando tem uma amostra de dados – e não toda uma distribuição. Veja os dados apresentados abaixo. Você facilmente verifica que o primeiro quartil é 2,5; a mediana é 4,5 e o terceiro quartil é 6,5.

Obtendo os quartis de conjunto com número par de dados

Se o conjunto tiver um número par de dados, para obter os quartis:

1.    Organize os dados em ordem crescente.

2.   A mediana, que é o segundo quartil, é a média aritmética dos dois valores que ocupam a posição central dos dados ordenados. Para encontrar o primeiro quartil, separe o conjunto de dados menores do que a mediana; o primeiro quartil é a mediana do novo conjunto de dados.

3.   Para achar o terceiro quartil, separe o conjunto de dados maiores do que a mediana; o terceiro quartil é a mediana do novo conjunto de dados.

Exemplo

Para obter a mediana dos 20 dados dispostos abaixo, é preciso colocá-los em ordem crescente.  


mediana é a média dos dois valores que estão no centro dos dados ordenados, ou seja, 83,5.

Para obter o primeiro quartil, separe os dados menores do que a mediana. O primeiro quartil é a mediana desse novo conjunto de dados, ou seja, 70,5.

Para obter o terceiro quartil, separe os dados maiores do que a mediana. O terceiro quartil é a mediana desse novo conjunto de dados, ou seja, 94.

            Obtendo quartis de conjunto com número ímpar de dados

Quando o número de dados em um conjunto é ímpar, há dois modos de obter os quartis: o primeiro, chamado inclusivo e o segundo, chamado exclusivo ou excludente.

Para obter os quartis quando o conjunto tem um número ímpar de dados pelo método exclusivo:

1.    Ordene os dados.

2.    A mediana é um número que está no centro do conjunto, ou seja, 40.


3.    Para achar o primeiro quartil pelo método exclusivo, tome o conjunto de dados menores que a mediana; o primeiro quartil é a mediana do novo conjunto de dados, ou seja, 15;

4.    Para obter o terceiro quartil pelo método exclusivo, separe os dados maiores do que a mediana. O terceiro quartil é a mediana do novo conjunto de dados, ou seja, 43.

Para obter os quartis quando o conjunto tem um número ímpar de dados pelo método inclusivo:

1.    Ordene os dados.

2.    A mediana é um número que está no centro do conjunto, ou seja, 40.


3.    Para achar o primeiro quartil pelo método inclusivo, tome o conjunto de dados iguais ou menores que a mediana; o primeiro quartil é a média aritmética dos dois valores que ocupam o centro do novo conjunto de dados, ou seja, 25,5. 1.    Para obter o terceiro quartil pelo método inclusivo, separe os dados iguais ou maiores do que a mediana. O terceiro quartil é a mediana do novo conjunto de dados, ou seja, 42,5.

    Livros e softwares são consistentes na definição de mediana. Mas existem rios métodos para obter quartis e diferentes softwares empregam métodos diferentes. Por isso, você pode encontrar resultados diferentes dos achados aqui, dependendo do software que utilizar.  No EXCEL você encontra os dois métodos que acabamos de apresentar e pode optar por um deles. Felizmente, as diferenças entre resultados o pequenas e o afetam as conclusões de um trabalho

E cabe lembrar aqui que no Brasil dizemos quartis (em inglês, quartilhes ou quantiles), mas o autor que inventou o boxplot os chama de dobradiças” (em inglês, hinges).

                      

                       Melhor método para obter os quartis

         O melhor método para obter quartis,  porque é generalizável, é o que segue. Se houver n observações organizadas em ordem crescente.

                            

   1.         O primeiro quartil está na posição (n+1)/4,

   2.    O segundo quartil (ou seja, a mediana) está na posição 2(n+1)/4

3.    O terceiro quartil está na posição 3(n +1)/4.

4.    IMPORTANTE: Se o valor encontrado não for um número inteiro, interpole.

EXEMPLO

São n = 18 dados:

                            24 58 61 67 71 73 76 79 82 83 85 87 88 88 92 93 94 97

A posição do primeiro quartil é:

Portanto, o primeiro quartil é dado pelo valor que está na quarta posição (67) somada a 0,75 da diferença entre 67 e o valor seguinte, isto é, 71.

Para a mediana, a posição é:

                                 Logo, a mediana é dada pelo 9º valor (82) somado à metade (0,5) da
                     diferença entre 82 e o valor subsequente (83).


                                A posição do terceiro quartil é:

O terceiro quartil é dado pelo valor que está na décima quarta posição (88), somado a 0,25 da diferença entre 88 e o valor seguinte, isto é, 92.

Para os dados apresentados, você tem:

 Mínimo: 24; 1º quartil: 70; Mediana: 82,5; 3º quartil: 89; Máximo: 97.

           O software Minitab dá esses resultados. Veja:



Tuesday, March 29, 2022

ESTATÍSTICAS CORROBORAM NAS FAKE NEWS?

 

                                                    From How to lie with statistics de Darrell Huff

Diante da questão “as estatísticas podem corroborar nas fake news?”, apontamos alguns métodos frequentemente usados ​​- propositalmente ou não - que distorcem a verdade que a estatística pode mostrar. Aqui estão os tipos comuns de estatísticas que conduzem a fake news:

v  Fabricação de dados

v  Coleta inadequada de dados

v  Falta de entendimento do conceito de probabilidade

v  Não identificação clara da unidade de medida

v  Interpretação inadequada das estatísticas

v  Crença desmedida na voz da experiência

     Em ciência, sempre houve fabricação ou falsificação de dados. Um caso famoso para os que estudam história da ciência é o de um psicólogo inglês – Cyril Burt – que encasquetou a ideia de que quociente de inteligência é altamente herdável. Ele fabricou dados e inventou colaboradores para provar sua hipótese 1. Depois – munido dessas falsidades – escreveu livros e artigos, ficou famoso e chegou a influenciar o sistema escolar inglês, que passou a exigir um teste de Quociente de Inteligência (Q.I.) das crianças de 9 anos, para encaminhá-las a diferentes cursos. Demorou a ser desmascarado.

Outro ponto importante é a coleta de amostras. Por exemplo, afirma-se que as famílias se tornaram menores. Para verificar essa afirmativa, pode parecer razoável perguntar para muitos casais quantos filhos eles têm, quantos filhos tiveram seus pais e quantos filhos tiveram seus avós. Mas os resultados seriam tendenciosos. Casais de gerações anteriores que não tiveram filhos não têm possibilidade de serem amostrados. Já os casais de gerações anteriores que tiveram muitos filhos, têm maior chance de serem amostrados. Da mesma forma, não se pode estimar o número médio de crianças por família, perguntando à criançada do curso fundamental quantos irmãos tem cada um. As famílias grandes teriam maior chance de serem amostradas. Então, um levantamento de dados para mostrar que as famílias, em média, se tornaram menores, teria de obedecer outros critérios.

Ainda, o conceito de probabilidade precisa ser bem entendido. Probabilidade se refere ao futuro e mira grandes amostras. A probabilidade de sair cara quando se lança (futuro) uma moeda é 50%, mas se você já lançou a moeda, é passado, já aconteceu. A probabilidade se refere a grandes amostras. Não se prevê, para uma pessoa, um evento no futuro  com base em cálculos de probabilidade (as cartomantes fazem isso). A probabilidade se refere a grandes amostras. Você tem cálculos de probabilidade de morte em diferentes idades, mas você não sabe com que idade irá morrer. A Estatística tem lógica – e quem não entende essa lógica, não pode usar argumentos de estatística. Você precisa aprender a pensar estatisticamente, para não fazer como aquele cirurgião para quem o paciente perguntou quais eram suas chances de sobreviver a uma difícil cirurgia. E o cirurgião prontamente respondeu: “De cada dez pacientes operados, morrem nove. Esta semana eu operei nove e todos já morreram. Então o senhor vai sobreviver”.

E é importante saber qual é a unidade da amostra: uma pessoa? Uma família? Uma comunidade? Quando uma informação é de toda uma equipe, é importante responsabilizar toda a equipe – para o bem ou para o mal... Mas as universidades produzem estatísticas confusas. Hoje, é praticamente obrigatório trabalhar em equipe. No entanto, ainda se fazem relatórios com o "número de trabalhos publicados por professor." Isso significa que um trabalho publicado por dez professores, acaba sendo contado como dez trabalhos... Por outro lado, se o trabalho deve ser individual, não se pode aparecer com uma equipe, como fez um técnico de atletismo que, não tendo nenhum atleta que pulasse três metros, resolveu apresentar três atletas que pulavam um metro cada um.

E muito cuidado na interpretação das estatísticas. Por exemplo, o "custo de cada aluno para o Estado" é obtido dividindo o custo de todo o sistema educacional pelo número de alunos. Mas como nem todo o sistema educacional está a serviço do aluno (Ah! A gestão! Ah! a propina!), esse cálculo não faz sentido.

Os números não mentem – mas as pessoas podem usar números para trapacear. Então você precisa ter os olhos bem abertos, para não cair em qualquer engodo. Conta-se que um vendedor de sucos anunciava seu delicioso vitaminado, feito com "12 frutas". Perguntado sobre quais eram as frutas que entravam no vitaminado, foi claro: "São seis bananas e seis laranjas!”

Informações numéricas não são, necessariamente, verdadeiras. No entanto, com base em informações numéricas é possível mudar a afirmação, de falsa para verdadeira, ou de verdadeira para falsa. Mas é preciso cuidado. Então, para evitar o risco, procure sempre um estatístico.

Finalmente, não custa lembrar que experiência não basta. A experiência precisa estar em constante em debate e contestação. Lembre-se das mulas do exército de Napoleão. Elas participaram de uma centena de campanhas e tinham experiência de guerra - mas continuavam mulas!


Referência

1. Hearnshaw, L.S. Cyril Burt, psychologist. London, Hodder and Stoughton, 1979.