Sonia Vieira: Estatística robusta: um comentário

Quando a distribuição dos dados é aproximadamente normal, é razoável calcular médias e variâncias e aplicar testes paramétricos. No entanto, quando a distribuição dos dados é desconhecida ou quando a amostra contém valores muito discrepantes, recomenda-se utilizar estatísticas robustas.

Um exemplo que ilustra que a média nem sempre é um bom estimador da tendência central foi apresentado por Mohammad Ahmad (1). Cada ponto de uma amostra de tamanho n contribui com um peso de 1/n para a média. Um valor extremamente alto – por exemplo, tendendo ao infinito – teria um peso ∞/n , resultando em uma média amostral infinita.

É importante lembrar que a mediana não é afetada por valores discrepantes, o que a torna uma estatística robusta. Mais especificamente, a mediana só é alterada se a porcentagem de dados discrepantes atingir 50% da amostra. Por outro lado, para que a média seja um bom estimador da tendência central, o percentual de dados grosseiramente discrepantes deve ser, idealmente, de 0%. Por exemplo, se as notas dos alunos variam de 0 a 10, mas um valor de 879 foi digitado por engano, a média será extremamente alta, enquanto a mediana permanecerá inalterada, demonstrando sua resistência a dados discrepantes.

O ponto de ruptura (breakdown point) de um estimador é o percentual máximo de erros grosseiros que ele pode suportar antes de fornecer um resultado anormal. Estatísticas robustas devem ser priorizadas quando há muitos dados discrepantes, o que é comum em trabalhos manuais, incluindo simples erros de digitação. Nesse contexto, é apropriado utilizar testes não paramétricos que não exigem distribuição normal (2) e toleram um elevado percentual de dados com erros grosseiros.

Este texto é introdutório, mas justifica-se pela surpresa de uma pós-graduanda da área de exatas ao ler um artigo publicado na prestigiada revista médica The New England Journal of Medicine, que relatava a mediana do tempo de internação em UTI de pacientes com COVID-19 como sendo de 14 dias, com base em dados do início da pandemia (3). Embora eu não tenha acesso aos dados originais e apenas cite a mediana publicada, mencionando a fonte (4), a estudante perguntou: “Por que não foi calculado o tempo médio de internação, como se faz normalmente?”

Embora o artigo não explique essa escolha, é razoável presumir que o tempo de internação de pacientes com uma doença – qualquer que seja ela – não siga uma distribuição normal. Provavelmente, essa variável apresenta uma distribuição assimétrica ou com múltiplos picos, além da possibilidade de ocorrerem valores discrepantes devido a fatores como falta de profissionais (especialmente em períodos de fim de ano), contratação simultânea de novos profissionais inexperientes ou escassez de insumos, como oxigênio. Portanto, a utilização da mediana como medida de tendência central é justificada. No caso específico do artigo citado, a mediana também forneceu uma informação valiosa: metade dos pacientes deixou a UTI em 14 dias ou menos.

Considere uma doença fictícia que requer um período de recuperação variável entre os pacientes. Ao analisar os dados de recuperação, é possível apresentar diferentes medidas estatísticas. Por exemplo, informar que "metade dos pacientes se recupera em um mês ou menos" fornece a mediana do tempo de recuperação, enquanto afirmar que "em média, os pacientes se recuperam em 37 dias" apresenta a média aritmética.

A mediana é especialmente útil em distribuições assimétricas ou quando há valores atípicos, porque representa o ponto em que 50% dos dados estão abaixo e 50% acima, oferecendo uma visão mais realista do tempo de recuperação típico. Em contrapartida, a média pode ser influenciada por valores extremos, podendo não refletir adequadamente a experiência da maioria dos pacientes.

Além disso, outras estatísticas descritivas, como os quartis, fornecem insights valiosos sobre a dispersão e a distribuição dos dados. Os quartis dividem os dados em quatro partes iguais, permitindo identificar, por exemplo, que 25% dos pacientes se recuperam em até 15 dias ou menos (primeiro quartil) e 75% em até 45 dias ou menos (terceiro quartil). Essas informações são mais informativas do que apenas o desvio padrão, especialmente quando a distribuição dos dados não é simétrica.

Portanto, na análise de dados, é fundamental utilizar medidas estatísticas que capturem a essência da distribuição, proporcionando uma compreensão mais precisa e útil para os profissionais da área.