Friday, March 18, 2022

Correlação: difícil interpretar

 

Você espera que pessoas mais altas tenham mais peso do que as mais baixas. Você também espera que quanto mais velha for a pessoa, menos tempo ela terá para viver. No entanto, você não espera que a quantidade de chuva que cai na cidade de São Paulo tenha influência sobre a cotação do dólar.

Se duas variáveis crescem juntas, dizemos que elas têm correlação positiva. Se enquanto uma variável cresce outra diminui, dizemos que elas têm correlação negativa.  Se uma variável cresce e outra varia por motivos alheios a esse crescimento, dizemos que não existe correlação entre elas.

Para estudar o tipo de correlação entre duas variáveis, é usual desenhar um gráfico, denominado diagrama de dispersão. Veja os diagramas de dispersão apresentados na Figura 16, que mostram os três tipos de correlação.

Figura 1

Tipos de correlação

         Um diagrama de dispersão também mostra o grau de correlação linear entre duas variáveis. Quando os pontos se distribuem próximos de uma reta, a correlação é forte. Quando os pontos se espalham em torno de uma reta, a correlação é fraca. Veja a Figura 2.

Figura 2

                                    Graus de correlação         

       

Correlação não significa, necessariamente, fenômeno de causa e efeito. Uma correlação positiva entre duas variáveis indica que ambas crescem junto, mas não significa que a variação de uma determina a variação da outra. Pode haver uma terceira variável que faça as duas variáveis crescerem juntas.

Para mostrar essa verdade um estatístico contou 1, nos idos de 1930, o número de ninhos de cegonhas e o número de nascimentos de crianças em oito cidades no interior da Dinamarca. Havia correlação positiva entre as variáveis, mas –o estatístico frisou – como correlação não significa causa e efeito, não se conclui desses dados que cegonhas trazem bebês. Era o tamanho das cidades – a terceira variável que não havia entrado na história – que determinava tanto o número de telhados onde as cegonhas faziam seus ninhos como o número de nascimentos. E com essa explicação científica, o estatístico perdeu a chance de produzir uma estrondosa fake news...

Então, se você achar correlação positiva entre o número de cobertores vendidos por mês numa cidade e o número de pessoas gripadas, não saia por aí dizendo gripe é causada pelo uso de cobertor. Uma terceira variável – temperaturas mais baixas no inverno – pode afetar tanto a venda de cobertores como os casos de gripe.

Correlação entre duas variáveis significa que ambas variam juntas, mas não explica quem vem primeiro. Considere a correlação entre escolaridade e nível de renda. Muitos pesquisadores já observaram que essas duas variáveis têm correlação positiva. Uma explicação seria a de que quanto mais escolaridade tem a pessoa, maior é seu nível de renda. Mas não se pode deixar de considerar que o filho branco de um empresário carioca tem maiores condições do que a filha negra de uma empregada doméstica de cursar uma universidade e conseguir emprego que lhe garanta bom nível de renda – dadas, ainda, as articulações da família. Por conta desse raciocínio, alguns pesquisadores consideram que é o nível de renda da família que explica a escolaridade do indivíduo – não é a escolaridade que explica o nível de renda.

Ainda, o fato de duas variáveis estarem positivamente correlacionadas não é razão suficiente para dizer – no caso de uma unidade da amostra, em particular –, que aumentar o valor de uma das variáveis faz aumentar o valor da outra. Por exemplo: existe correlação positiva entre peso e estatura. As variáveis estão correlacionadas, na população. Mas será que um jogador de basquete, que gostaria de medir dez centímetros a mais, alcança esse objetivo engordando dez quilos? É evidente que não.

Ainda, mesmo que duas variáveis estejam correlacionadas, não se deve prever o valor de uma delas com base no conhecimento do valor da outra. Portanto, nunca estabeleça o peso de um tigre com base na intensidade do miado, a competência do profissional com base no número de páginas do currículo ou a gestão de um prefeito com base em suas promessas de campanha...

Os exemplos podem parecer ridiculamente óbvios, mas é por meio deles que se consegue ver dois pontos importantes: o fato de existir correlação entre duas variáveis não implica a ideia de causa e efeito, nem que, para modificar o valor assumido por uma delas, basta modificar o valor assumido pela outra. Em todo o caso, veja uma próxima postagem, sobre a correlação entre IDH (índice de desenvolvimento humano) e IPC (índice de percepções sobre corrupção), com dados de 2021.

REFERÊNCIA

1.    O exemplo é de Gustav Fischer, que apresentou, em gráfico, a população da cidade de Oldenburg durante sete anos (de 1930 a 1936) e o número de cegonhas observadas em cada um desses anos. (Box, G. E. P., Hunter, W. G., Hunter, J. S. Statistics for experimenters: design, discovery and innovation. 2ed. New York: Wiley, 2005.

No comments: