Sunday, February 07, 2021

Estatística robusta: um comentário

 


    Quando a distribuição dos dados é aproximadamente normal, é razoável calcular médias e variâncias e aplicar testes paramétricos. No entanto, quando a distribuição dos dados é desconhecida ou quando a amostra contém valores muito discrepantes, recomenda-se utilizar estatísticas robustas.

    Um exemplo que ilustra que a média nem sempre é um bom estimador da tendência central foi apresentado por Mohammad Ahmad (1). Cada ponto de uma amostra de tamanho contribui com um peso de 1/n  para a média. Um valor extremamente alto – por exemplo, tendendo ao infinito – teria um peso ∞/n , resultando em uma média amostral infinita. 

    É importante lembrar que a mediana não é afetada por valores discrepantes, o que a torna uma estatística robusta. Mais especificamente, a mediana só é alterada se a porcentagem de dados discrepantes atingir 50% da amostra. Por outro lado, para que a média seja um bom estimador da tendência central, o percentual de dados grosseiramente discrepantes deve ser, idealmente, de 0%. Por exemplo, se as notas dos alunos variam de 0 a 10, mas um valor de 879 foi digitado por engano, a média será extremamente alta, enquanto a mediana permanecerá inalterada, demonstrando sua resistência a dados discrepantes.

    O ponto de ruptura (breakdown point) de um estimador é o percentual máximo de erros grosseiros que ele pode suportar antes de fornecer um resultado anormal. Estatísticas robustas devem ser priorizadas quando há muitos dados discrepantes, o que é comum em trabalhos manuais, incluindo simples erros de digitação. Nesse contexto, é apropriado utilizar testes não paramétricos que não exigem distribuição normal (2) e toleram um elevado percentual de dados com erros grosseiros.

    Este texto é introdutório, mas justifica-se pela surpresa de uma pós-graduanda da área de exatas ao ler um artigo publicado na prestigiada revista médica The New England Journal of Medicine, que relatava a mediana do tempo de internação em UTI de pacientes com COVID-19 como sendo de 14 dias, com base em dados do início da pandemia (3). Embora eu não tenha acesso aos dados originais e apenas cite a mediana publicada, mencionando a fonte (4), a estudante perguntou: “Por que não foi calculado o tempo médio de internação, como se faz normalmente?”

    Embora o artigo não explique essa escolha, é razoável presumir que o tempo de internação de pacientes com uma doença – qualquer que seja ela – não siga uma distribuição normal. Provavelmente, essa variável apresenta uma distribuição assimétrica ou com múltiplos picos, além da possibilidade de ocorrerem valores discrepantes devido a fatores como falta de profissionais (especialmente em períodos de fim de ano), contratação simultânea de novos profissionais inexperientes ou escassez de insumos, como oxigênio. Portanto, a utilização da mediana como medida de tendência central é justificada. No caso específico do artigo citado, a mediana também forneceu uma informação valiosa: metade dos pacientes deixou a UTI em 14 dias ou menos.


    Considere uma doença fictícia que requer um período de recuperação variável entre os pacientes. Ao analisar os dados de recuperação, é possível apresentar diferentes medidas estatísticas. Por exemplo, informar que "metade dos pacientes se recupera em um mês ou menos" fornece a mediana do tempo de recuperação, enquanto afirmar que "em média, os pacientes se recuperam em 37 dias" apresenta a média aritmética.

    A mediana é especialmente útil em distribuições assimétricas ou quando há valores atípicos, porque representa o ponto em que 50% dos dados estão abaixo e 50% acima, oferecendo uma visão mais realista do tempo de recuperação típico. Em contrapartida, a média pode ser influenciada por valores extremos, podendo não refletir adequadamente a experiência da maioria dos pacientes.

    Além disso, outras estatísticas descritivas, como os quartis, fornecem insights valiosos sobre a dispersão e a distribuição dos dados. Os quartis dividem os dados em quatro partes iguais, permitindo identificar, por exemplo, que 25% dos pacientes se recuperam em até 15 dias ou menos (primeiro quartil) e 75% em até 45 dias ou menos (terceiro quartil). Essas informações são mais informativas do que apenas o desvio padrão, especialmente quando a distribuição dos dados não é simétrica.

    Portanto, na análise de dados, é fundamental utilizar medidas estatísticas que capturem a essência da distribuição, proporcionando uma compreensão mais precisa e útil para os profissionais da área.


Referências

1.        Ahmad M. Robust Statistical Methods https://towardsdatascience.com/robust-statistical-methods-3242234e47fc

2.       Vieira, S. Bioestatística: tópicos avançados. Rio de Janeiro. Elsevier, 4ªed. 2018.

3.       Guan, WJ; Ni,ZI;Hu, Y et al. Clinical Characteristics of Coronavirus Disease in China. The New England Journal of Medicine.2020.

4.       Vieira, S. Covid -19:um overview. Elsevier.academiademedicina.com.br. 15 de maio de 2020.

 

1 comment:

Sonia Vieira said...

Tatiana: estou terminando um livro, mais uns dez dias e vejo. Por enquanto, me diz: são três grupos, a variável é observada ao longo do tempo, em três ocasiões.Acidez é medida como? Se não é pelo pH, é por algum teste sensorial? Aguardo.