Sunday, February 07, 2021

Estatística robusta: um comentário

 

Quando a distribuição dos dados é aproximadamente normal – o que acontece com dados biológicos na maioria das vezes – é razoável buscar a estatística paramétrica e calcular médias e variâncias. Mas quando não se conhece a distribuição dos dados ou quando a amostra disponível para análise contém dados muito discrepantes, recomenda-se buscar uma estatística robusta.

  Um exemplo de que a média nem sempre é um bom estimador da tendência central dos dados foi apresentado por Mohammad Ahmad(1). É o seguinte: cada ponto de uma amostra de tamanho n tem um peso 1/n sobre a média. Um valor extremamente alto – digamos infinito – teria sobre a média um peso ∞/n e a média da amostra teria valor infinito.

  Voltando ao nosso dia a dia, é sempre preciso ter presente que a mediana não é afetada por valores discrepantes, ou seja, a mediana é uma estatística robusta. Mais exatamente, a mediana só é afetada se a porcentagem de dados discrepantes chegarem a 50% da amostra. Mas para que a média seja um bom estimador da tendência central dos dados, o porcentual de dados grosseiros na amostra não pode ser a rigor, maior do que  0%. Por exemplo, se as notas dos alunos variam entre zero e 10, mas foi digitado erradamente um valor 879, a média terá um valor absurdamente grande, mas a mediana não muda. Ela resiste à influência do dado discrepante.

  Denomina-se ponto de ruptura (breakdown point) de um estimador o percentual de erros grosseiros que um estimador pode suportar antes de fornecer um resultado anormal. Portanto, estatísticas robustas devem ser preferidas quando os dados discrepantes são muitos. E eles ocorrem, principalmente quando envolvem trabalho manual, mesmo que seja uma simples digitação. Use, então, testes não paramétricos que não exigem distribuição normal (2) e admitem grande porcentual de dados com erros grosseiros.

 

O texto aqui exposto é elementar, mas se justifica porque uma pós graduanda da área de exatas estranhou o fato de um artigo, publicado na prestigiada revista médica The New England Journal of Medicine ter relatado que a mediana do tempo de internação em UTI, de pacientes com COVID-19 era de 14 dias, com base em dados do início da pandemia (3). Não tenho os dados – apenas citei a mediana publicada, referindo a fonte (4). “Mas por que não foi calculado o tempo médio de internação, como se faz sempre?”, insistiu a estudante.

 

Não há explicação no artigo, mas presumo que tempo de internação de pacientes com uma doença – qualquer que seja ela – não tenha distribuição normal. Deve ser nitidamente assimétrica ou ter vários picos. E podem ocorrer dados discrepantes – por eventual falta de profissionais (como acontece nos finais de ano), contratação de novos profissionais que irão atuar todos ao mesmo tempo, às vezes sem experiência prévia, falta de insumos como oxigênio etc.. Então faz sentido o uso da mediana como medida de tendência central. E a mediana, no caso dos dados apresentados no artigo citado, ainda trouxe uma informação importante, de que metade dos pacientes saiu da UTI com 14 dias ou menos de internados.

 

Referências

1.        Ahmad M.Robust Statistical Methods https://towardsdatascience.com/robust-statistical-methods-3242234e47fc

2.       Vieira, S. Bioestatística: tópicos avançados. Rio de Janeiro. Elsevier, 4ªed. 2018.

3.       Guan, WJ; Ni,ZI;Hu, Y et al. Clinical Characteristics of Coronavirus Disease in China. The New England Journal of Medicine.2020.

4.       Vieira, S. Covid -19:um overview. Elsevier.academiademedicina.com.br. 15 de maio de 2020.

 

1 comment:

Sonia Vieira said...

Tatiana: estou terminando um livro, mais uns dez dias e vejo. Por enquanto, me diz: são três grupos, a variável é observada ao longo do tempo, em três ocasiões.Acidez é medida como? Se não é pelo pH, é por algum teste sensorial? Aguardo.