Antes de fazer
uma análise de dados, é importante estudá-los para saber como foram obtidos e
se existem mais informações disponíveis. Apenas como exemplo, imagine que uma
pedagoga traga para você, estatístico, as taxas de aprovação em duas
disciplinas ministradas nos cursos diurno e noturno nas diversas escolas em que
ela trabalha. Ela quer examinar as notas dos alunos desses dois turnos para
avaliar o interesse deles pela matéria – e, eventualmente, oferecer material
mais apropriado para a profissão que pretendem exercer.
Vamos supor que a amostra seja muito grande, e que haja diversas informações
disponíveis, como sexo, idade, se o aluno trabalha ou não, e a escola que
frequenta. Mas você, que é um bom estatístico, começa a pensar: será que devo
calcular apenas as duas taxas globais de aprovação? E então começa a fazer
perguntas.
Será que alunos mais velhos têm menos disponibilidade para estudo do que os
mais jovens? E haveria maior proporção de jovens no curso diurno? Será que
alunos que não trabalham têm os mesmos interesses que os que trabalham? E
haveria maior proporção de alunos que não trabalham no curso diurno? Será que a
escola, devido à sua localização – talvez com muitos alunos de áreas menos
privilegiadas – tem influência sobre a futura profissão dos alunos?
Você está levantando variáveis que têm efeito sobre a variável em estudo, ou
seja, as notas em determinada disciplina, e pensando em como cada uma dessas
situações pode influenciar os resultados. E chega à conclusão de que, se juntar
todos os alunos dos cursos diurnos e todos dos cursos noturnos, estará armando
uma confusão.
Essas variáveis, que afetam a variável em estudo, determinam a estratificação
da análise. Se não forem consideradas, tornam-se variáveis de confusão (ou de
confundimento). E se essas variáveis forem ignoradas na análise, podem
distorcer os resultados – o que se conhece como Paradoxo de Simpson. Veja a
postagem: O paradoxo de Simpson: quando os dados enganam.
Apresentamos aqui dois exemplos reais, embora simplificados, do paradoxo de
Simpson: uma suspeita ocorrida nos anos 1970 na Universidade da Califórnia, em
Berkeley, de discriminação de gênero, e um artigo com resultado controverso
sobre cálculos renais, publicado no British Medical Journal nos anos 1980.
No caso de Berkeley, os números pareciam bastante incriminadores: as escolas de
pós-graduação haviam aceitado 44% dos candidatos do sexo masculino e apenas 35%
das candidatas do sexo feminino. Quando os pesquisadores analisaram as
evidências mais a fundo, o resultado foi surpreendente. Os homens se
candidataram com mais frequência aos departamentos com menor concorrência,
enquanto mais mulheres se candidataram aos departamentos com maior
concorrência. E, analisando os dados por departamento, constatou-se um viés
pequeno, mas estatisticamente significativo, em favor das mulheres – ou seja,
proporcionalmente, mais mulheres haviam sido aprovadas.
No caso do ensaio com pacientes com cálculo renal, os pesquisadores
inicialmente concluíram que um tratamento então mais recente era mais eficaz do
que a cirurgia tradicional. Mas houve dúvidas – que só foram dissipadas depois
que os pacientes foram divididos em dois grupos, de acordo com o tamanho dos
cálculos renais, para uma análise mais adequada. Foi então revelado que o novo
tratamento era mais utilizado em pacientes com cálculos pequenos e que, nesse
caso – e somente nesse caso – ele era de fato mais eficiente.
O Paradoxo de Simpson costuma nos enganar em testes de desempenho e em análises
de dados quando ignoramos a presença de subgrupos relevantes. Se os dados forem
analisados apenas no total, sem levar em conta as possíveis fontes de variação,
as conclusões podem ser enganosas. Por isso, examine sempre os subgrupos antes
de apressar-se em concluir algo para o conjunto. Pense cuidadosamente nas
variáveis de confusão – e as leve em consideração. Porque o Paradoxo de Simpson
realmente acontece.
O Paradoxo de Simpson é um fenômeno estatístico em que uma tendência observada
em grupos separados desaparece, ou até se inverte, quando os grupos são
reunidos. Isso ocorre por causa das variáveis de confusão, que afetam a relação
entre as variáveis em análise.
Referências
Bickel, P. J.; Hammel, E. A.; O’Connell, J. W. Sex bias in graduate admission.
Data from Berkeley. Science, v.187, n.4175, p.398–404, 1975.
Charig, C. R. Comparison of treatment of renal calculi by open surgery,
percutaneous nephrolithotomy and extracorporeal shockwave lithotripsy. Brit.
Med. J. (Clin. Res Ed), v.292, n.6524, p.879–882, 1986.
No comments:
Post a Comment