Friday, March 18, 2022

Correlação e Causalidade: Nem Tudo o Que Anda Junto Está Conectado

 Sorvetes e verão estão conectados

Você espera que pessoas mais altas pesem mais do que as mais baixas. Também espera que, quanto mais velha for uma pessoa, menos tempo ela tenha para viver. No entanto, não faz sentido imaginar que a quantidade de chuva em São Paulo influencie a cotação do dólar. Esses exemplos ilustram um conceito estatístico fundamental: a correlação entre variáveis.

Tipo e Intensidade da Correlação

·  Se duas variáveis crescem juntas, dizemos que têm correlação positiva.

·  Se uma cresce enquanto a outra diminui, a correlação é negativa.

·  Se não há um padrão entre elas, não há correlação.

Um diagrama de dispersão também revela o grau da correlação.

      ·  Se os pontos se concentram próximos de uma linha reta, a correlação é forte.

       ·  Se os pontos se espalham mais livremente ao redor da reta, a correlação é fraca.

Para visualizar o tipo e a intensidade da correlação, utilizamos um diagrama de dispersão. Veja os diagramas apresentados na figura dada em seguida, que ilustram os três tipos de correlação e seus graus de intensidade.


                       

        

Correlação Não Significa Causa e Efeito

Um erro comum é assumir que, quando duas variáveis estão correlacionadas, uma delas necessariamente causa a outra.

Nos anos 1930, um estatístico resolveu testar esse princípio de forma inusitada. Ele analisou o número de ninhos de cegonhas e o número de nascimentos em oito cidades do interior da Dinamarca. O resultado? Havia correlação positiva entre as duas variáveis! Mas isso não significa que cegonhas trazem bebês. O verdadeiro fator oculto era o tamanho da cidade – cidades menores tinham menos telhados para cegonhas e menos nascimentos; cidades maiores tinham mais telhados e mais bebês. O estatístico revelou a verdade e, com isso, perdeu a chance de lançar uma fake news de sucesso...

Agora, imagine que um estudo descubra uma correlação entre o número de cobertores vendidos e o número de pessoas gripadas. Seria um erro concluir que usar cobertores causa gripe. A explicação mais plausível é uma terceira variável: o frio, que tanto aumenta a venda de cobertores quanto a incidência de gripe.

O Dilema da Causa e da Consequência

Mesmo quando existe uma forte correlação, pode ser difícil saber o que influencia o que.

Considere a relação entre escolaridade e nível de renda. Pesquisadores frequentemente encontram correlação positiva entre essas variáveis. Mas o que vem primeiro? Será que mais anos de estudo levam a salários mais altos, ou é a renda familiar que determina o acesso à educação de qualidade? Afinal, o filho branco de um empresário carioca tem maiores chances de frequentar uma universidade e conseguir um bom emprego do que a filha negra de uma empregada doméstica – por fatores que vão além da escolaridade.

Outro exemplo: altura e peso estão correlacionados. Mas será que um jogador de basquete que deseja crescer 10 centímetros conseguirá isso engordando 10 quilos? Obviamente, não.

Previsões Absurdas e a Falácia da Correlação

Mesmo que duas variáveis estejam correlacionadas, não significa que podemos prever uma delas apenas observando a outra. Por isso, nunca tente estimar:

·        O peso de um tigre com base na intensidade do seu miado.

·        A competência de um profissional contando as páginas do seu currículo.

·        A qualidade de um governo pelo número de promessas de campanha.

Pode parecer óbvio, mas é exatamente esse tipo de erro que leva a interpretações equivocadas de dados.

Portanto, lembre-se: correlação não implica causalidade. E para testar essa ideia com números reais, fique de olho em uma próxima postagem: uma análise da correlação entre o IDH (Índice de Desenvolvimento Humano) e o IPC (Índice de Percepção da Corrupção), com dados reais.

REFERÊNCIA

1.    O exemplo é de Gustav Fischer, que apresentou, em gráfico, a população da cidade de Oldenburg durante sete anos (de 1930 a 1936) e o número de cegonhas observadas em cada um desses anos. (Box, G. E. P., Hunter, W. G., Hunter, J. S. Statistics for experimenters: design, discovery and innovation. 2ed. New York: Wiley, 2005.

No comments: