Sorvetes e verão estão conectados
Você espera que pessoas mais altas pesem mais do que as mais baixas. Também espera que, quanto mais velha for uma pessoa, menos tempo ela tenha para viver. No entanto, não faz sentido imaginar que a quantidade de chuva em São Paulo influencie a cotação do dólar. Esses exemplos ilustram um conceito estatístico fundamental: a correlação entre variáveis.
Tipo e Intensidade
da Correlação
· Se duas
variáveis crescem juntas, dizemos que têm correlação positiva.
· Se uma
cresce enquanto a outra diminui, a correlação é negativa.
· Se não há
um padrão entre elas, não há correlação.
Um diagrama de dispersão também revela o grau da correlação.
· Se os pontos se concentram próximos de uma linha reta, a correlação é forte.
· Se os pontos se espalham mais livremente ao redor da reta, a correlação é fraca.
Para
visualizar o tipo e a intensidade da correlação, utilizamos um diagrama de
dispersão. Veja os diagramas apresentados na figura dada em seguida,
que ilustram os três tipos de correlação e seus graus de intensidade.
Um erro
comum é assumir que, quando duas variáveis estão correlacionadas, uma delas
necessariamente causa a outra.
Nos anos
1930, um estatístico resolveu testar esse princípio de forma inusitada. Ele
analisou o número de ninhos de cegonhas e o número de nascimentos em oito
cidades do interior da Dinamarca. O resultado? Havia correlação positiva
entre as duas variáveis! Mas isso não significa que cegonhas trazem
bebês. O verdadeiro fator oculto era o tamanho da cidade – cidades
menores tinham menos telhados para cegonhas e menos nascimentos; cidades
maiores tinham mais telhados e mais bebês. O estatístico revelou a verdade e,
com isso, perdeu a chance de lançar uma fake news de sucesso...
Agora,
imagine que um estudo descubra uma correlação entre o número de cobertores
vendidos e o número de pessoas gripadas. Seria um erro concluir que usar
cobertores causa gripe. A explicação mais plausível é uma terceira variável: o
frio, que tanto aumenta a venda de cobertores quanto a incidência de gripe.
O Dilema da Causa e da Consequência
Mesmo
quando existe uma forte correlação, pode ser difícil saber o que influencia o que.
Considere a
relação entre escolaridade e nível de renda. Pesquisadores
frequentemente encontram correlação positiva entre essas variáveis. Mas o que
vem primeiro? Será que mais anos de estudo levam a salários mais altos, ou é a
renda familiar que determina o acesso à educação de qualidade? Afinal, o filho
branco de um empresário carioca tem maiores chances de frequentar uma
universidade e conseguir um bom emprego do que a filha negra de uma empregada
doméstica – por fatores que vão além da escolaridade.
Outro
exemplo: altura e peso estão correlacionados. Mas será que um jogador de
basquete que deseja crescer 10 centímetros conseguirá isso engordando 10
quilos? Obviamente, não.
Previsões Absurdas e a Falácia da Correlação
Mesmo que
duas variáveis estejam correlacionadas, não significa que podemos prever uma
delas apenas observando a outra. Por isso, nunca tente estimar:
·
O peso de um tigre com base na intensidade do seu
miado.
·
A competência de um profissional contando as
páginas do seu currículo.
·
A qualidade de um governo pelo número de promessas
de campanha.
Pode
parecer óbvio, mas é exatamente esse tipo de erro que leva a interpretações
equivocadas de dados.
Portanto,
lembre-se: correlação não implica causalidade. E para testar essa ideia
com números reais, fique de olho em uma próxima postagem: uma análise da correlação
entre o IDH (Índice de Desenvolvimento Humano) e o IPC (Índice de
Percepção da Corrupção), com dados reais.
REFERÊNCIA
1.
O exemplo é de Gustav Fischer, que apresentou,
em gráfico, a população da cidade de Oldenburg
durante sete anos
(de 1930 a 1936) e o número de cegonhas
observadas em cada um desses
anos. (Box, G. E. P., Hunter, W. G., Hunter, J. S. Statistics for experimenters: design,
discovery and innovation. 2ed. New York: Wiley, 2005.
No comments:
Post a Comment