Você espera que
pessoas mais altas tenham mais peso do que as mais baixas. Você também espera
que quanto mais velha for a pessoa, menos tempo ela terá para viver. No
entanto, você não espera que a quantidade de chuva que cai na cidade de São
Paulo tenha influência sobre a cotação do dólar.
Se duas variáveis
crescem juntas, dizemos que elas têm correlação positiva. Se enquanto uma
variável cresce outra diminui, dizemos que elas têm correlação negativa. Se uma variável cresce e outra varia por
motivos alheios a esse crescimento, dizemos que não existe correlação entre
elas.
Para estudar o tipo
de correlação entre duas variáveis, é usual desenhar um gráfico, denominado
diagrama de dispersão. Veja os diagramas de dispersão apresentados na Figura
16, que mostram os três tipos de correlação.
Figura 1
Tipos de correlação
Um
diagrama de dispersão também mostra o grau de correlação linear entre duas
variáveis. Quando os pontos se distribuem próximos de uma reta, a correlação é
forte. Quando os pontos se espalham em torno de uma reta, a correlação é fraca.
Veja a Figura 2.
Figura 2
Graus de correlação
Correlação não significa, necessariamente, fenômeno
de causa e efeito. Uma correlação
positiva entre duas variáveis indica que ambas crescem junto, mas não significa
que a variação de uma determina a variação da outra. Pode haver uma terceira variável que faça as duas
variáveis crescerem juntas.
Para mostrar essa
verdade um estatístico contou 1, nos idos de 1930, o número de
ninhos de cegonhas e o número de nascimentos de crianças em oito cidades no
interior da Dinamarca. Havia correlação positiva entre as variáveis, mas –o
estatístico frisou – como correlação não significa causa e efeito, não se
conclui desses dados que cegonhas trazem bebês. Era o tamanho das cidades – a
terceira variável que não havia entrado na história – que determinava tanto o
número de telhados onde as cegonhas faziam seus ninhos como o número de
nascimentos. E com essa explicação científica, o estatístico perdeu a chance de
produzir uma estrondosa fake news...
Então, se você achar
correlação positiva entre o número de cobertores vendidos por mês numa cidade e
o número de pessoas gripadas, não saia por aí dizendo gripe é causada pelo uso
de cobertor. Uma terceira variável – temperaturas mais baixas no inverno – pode
afetar tanto a venda de cobertores como os casos de gripe.
Correlação entre duas variáveis significa que ambas
variam juntas, mas não explica quem vem primeiro. Considere a correlação entre escolaridade e nível
de renda. Muitos pesquisadores já observaram que essas duas variáveis têm
correlação positiva. Uma explicação seria a de que quanto mais escolaridade tem
a pessoa, maior é seu nível de renda. Mas não se pode deixar de considerar que
o filho branco de um empresário carioca tem maiores condições do que a filha
negra de uma empregada doméstica de cursar uma universidade e conseguir emprego
que lhe garanta bom nível de renda – dadas, ainda, as articulações da família.
Por conta desse raciocínio, alguns pesquisadores consideram que é o nível de
renda da família que explica a escolaridade do indivíduo – não é a escolaridade
que explica o nível de renda.
Ainda, o fato de duas variáveis estarem
positivamente correlacionadas não é razão suficiente para dizer – no caso de
uma unidade da amostra, em particular –, que aumentar o valor de uma das
variáveis faz aumentar o valor da outra.
Por exemplo: existe correlação positiva entre peso e estatura. As variáveis
estão correlacionadas, na população. Mas será que um jogador de basquete, que
gostaria de medir dez centímetros a mais, alcança esse objetivo engordando dez
quilos? É evidente que não.
Ainda, mesmo que duas
variáveis estejam correlacionadas, não se
deve prever o valor de uma delas com base no conhecimento do valor da outra.
Portanto, nunca estabeleça o peso de um tigre com base na intensidade do miado,
a competência do profissional com base no número de páginas do currículo ou a
gestão de um prefeito com base em suas promessas de campanha...
Os exemplos podem
parecer ridiculamente óbvios, mas é por meio deles que se consegue ver dois
pontos importantes: o fato de existir correlação entre duas variáveis não
implica a ideia de causa e efeito, nem que, para modificar o valor assumido por
uma delas, basta modificar o valor assumido pela outra. Em todo o caso, veja
uma próxima postagem, sobre a correlação entre IDH (índice de desenvolvimento
humano) e IPC (índice de percepções sobre corrupção), com dados de 2021.
REFERÊNCIA
1.
O exemplo é de Gustav Fischer, que apresentou,
em gráfico, a população da cidade de Oldenburg
durante sete anos
(de 1930 a 1936) e o número de cegonhas
observadas em cada um desses
anos. (Box, G. E. P., Hunter, W. G., Hunter, J. S. Statistics for experimenters: design,
discovery and innovation. 2ed. New York: Wiley, 2005.
No comments:
Post a Comment