Monday, May 12, 2025

Cuidado com o Fator de Confundimento – Ele Pode Inverter Seus Resultados

 

Antes de fazer uma análise de dados, é importante estudá-los para saber como foram obtidos e se existem mais informações disponíveis. Apenas como exemplo, imagine que uma pedagoga traga para você, estatístico, as taxas de aprovação em duas disciplinas ministradas nos cursos diurno e noturno nas diversas escolas em que ela trabalha. Ela quer examinar as notas dos alunos desses dois turnos para avaliar o interesse deles pela matéria – e, eventualmente, oferecer material mais apropriado para a profissão que pretendem exercer.


Vamos supor que a amostra seja muito grande, e que haja diversas informações disponíveis, como sexo, idade, se o aluno trabalha ou não, e a escola que frequenta. Mas você, que é um bom estatístico, começa a pensar: será que devo calcular apenas as duas taxas globais de aprovação? E então começa a fazer perguntas.

Será que alunos mais velhos têm menos disponibilidade para estudo do que os mais jovens? E haveria maior proporção de jovens no curso diurno? Será que alunos que não trabalham têm os mesmos interesses que os que trabalham? E haveria maior proporção de alunos que não trabalham no curso diurno? Será que a escola, devido à sua localização – talvez com muitos alunos de áreas menos privilegiadas – tem influência sobre a futura profissão dos alunos?

Você está levantando variáveis que têm efeito sobre a variável em estudo, ou seja, as notas em determinada disciplina, e pensando em como cada uma dessas situações pode influenciar os resultados. E chega à conclusão de que, se juntar todos os alunos dos cursos diurnos e todos dos cursos noturnos, estará armando uma confusão.


Essas variáveis, que afetam a variável em estudo, determinam a estratificação da análise. Se não forem consideradas, tornam-se variáveis de confusão (ou de confundimento). E se essas variáveis forem ignoradas na análise, podem distorcer os resultados – o que se conhece como Paradoxo de Simpson. Veja a postagem: O paradoxo de Simpson: quando os dados enganam.

Apresentamos aqui dois exemplos reais, embora simplificados, do paradoxo de Simpson: uma suspeita ocorrida nos anos 1970 na Universidade da Califórnia, em Berkeley, de discriminação de gênero, e um artigo com resultado controverso sobre cálculos renais, publicado no British Medical Journal nos anos 1980.

No caso de Berkeley, os números pareciam bastante incriminadores: as escolas de pós-graduação haviam aceitado 44% dos candidatos do sexo masculino e apenas 35% das candidatas do sexo feminino. Quando os pesquisadores analisaram as evidências mais a fundo, o resultado foi surpreendente. Os homens se candidataram com mais frequência aos departamentos com menor concorrência, enquanto mais mulheres se candidataram aos departamentos com maior concorrência. E, analisando os dados por departamento, constatou-se um viés pequeno, mas estatisticamente significativo, em favor das mulheres – ou seja, proporcionalmente, mais mulheres haviam sido aprovadas.

No caso do ensaio com pacientes com cálculo renal, os pesquisadores inicialmente concluíram que um tratamento então mais recente era mais eficaz do que a cirurgia tradicional. Mas houve dúvidas – que só foram dissipadas depois que os pacientes foram divididos em dois grupos, de acordo com o tamanho dos cálculos renais, para uma análise mais adequada. Foi então revelado que o novo tratamento era mais utilizado em pacientes com cálculos pequenos e que, nesse caso – e somente nesse caso – ele era de fato mais eficiente.

O Paradoxo de Simpson costuma nos enganar em testes de desempenho e em análises de dados quando ignoramos a presença de subgrupos relevantes. Se os dados forem analisados apenas no total, sem levar em conta as possíveis fontes de variação, as conclusões podem ser enganosas. Por isso, examine sempre os subgrupos antes de apressar-se em concluir algo para o conjunto. Pense cuidadosamente nas variáveis de confusão – e as leve em consideração. Porque o Paradoxo de Simpson realmente acontece.


O Paradoxo de Simpson é um fenômeno estatístico em que uma tendência observada em grupos separados desaparece, ou até se inverte, quando os grupos são reunidos. Isso ocorre por causa das variáveis de confusão, que afetam a relação entre as variáveis em análise.


Referências

Bickel, P. J.; Hammel, E. A.; O’Connell, J. W. Sex bias in graduate admission. Data from Berkeley. Science, v.187, n.4175, p.398–404, 1975.

Charig, C. R. Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy and extracorporeal shockwave lithotripsy. Brit. Med. J. (Clin. Res Ed), v.292, n.6524, p.879–882, 1986.

No comments: