Quando a distribuição
dos dados é aproximadamente normal, é razoável buscar a estatística paramétrica e calcular
médias e variâncias. Mas quando não se conhece a distribuição dos dados ou
quando a amostra disponível para análise contém dados muito discrepantes,
recomenda-se buscar uma estatística robusta.
Um exemplo de que a média nem sempre é um bom
estimador da tendência central dos dados foi apresentado por Mohammad Ahmad(1).
É o seguinte: cada ponto de uma amostra de tamanho n tem um peso 1/n sobre a
média. Um valor extremamente alto – digamos infinito – teria sobre a média um
peso ∞/n e a média da amostra teria valor
infinito.
Voltando ao nosso dia a dia, é sempre preciso
ter presente que a mediana não é afetada por valores discrepantes, ou seja, a
mediana é uma estatística robusta. Mais exatamente, a mediana só é afetada se a
porcentagem de dados discrepantes chegarem a 50% da amostra. Mas para que a média
seja um bom estimador da tendência central dos dados, o porcentual de dados
grosseiros na amostra não pode ser a rigor, maior do que 0%. Por exemplo, se as notas dos alunos variam
entre zero e 10, mas foi digitado erradamente um valor 879, a média terá um
valor absurdamente grande, mas a mediana não muda. Ela resiste à influência do
dado discrepante.
Denomina-se ponto de ruptura (breakdown
point) de um estimador o percentual de erros grosseiros que um estimador pode
suportar antes de fornecer um resultado anormal. Portanto, estatísticas robustas
devem ser preferidas quando os dados discrepantes são muitos. E eles ocorrem,
principalmente quando envolvem trabalho manual, mesmo que seja uma simples digitação.
Use, então, testes não paramétricos que não exigem distribuição normal (2) e
admitem grande porcentual de dados com erros grosseiros.
O texto aqui exposto é
elementar, mas se justifica porque uma pós graduanda da área de exatas
estranhou o fato de um artigo, publicado na prestigiada revista médica The
New England Journal of Medicine ter relatado que a mediana do tempo de internação em UTI, de
pacientes com COVID-19 era de 14 dias, com base em dados do início da pandemia
(3). Não tenho os dados – apenas citei a mediana publicada, referindo a fonte
(4). “Mas por que não foi calculado o tempo médio de internação, como se faz
sempre?”, insistiu a estudante.
Não há explicação no
artigo, mas presumo que tempo de internação de pacientes com uma doença –
qualquer que seja ela – não tenha distribuição normal. Deve ser nitidamente
assimétrica ou ter vários picos. E podem ocorrer dados discrepantes – por eventual
falta de profissionais (como acontece nos finais de ano), contratação de novos
profissionais que irão atuar todos ao mesmo tempo, às vezes sem experiência prévia,
falta de insumos como oxigênio etc.. Então faz sentido o uso da mediana como
medida de tendência central. E a mediana, no caso dos dados apresentados no artigo citado, ainda trouxe
uma informação importante, de que metade dos pacientes saiu da UTI com 14 dias
ou menos de internados.
Referências
1. Ahmad M.Robust Statistical Methods https://towardsdatascience.com/robust-statistical-methods-3242234e47fc
2.
Vieira,
S. Bioestatística: tópicos avançados. Rio de Janeiro. Elsevier, 4ªed. 2018.
3.
Guan,
WJ; Ni,ZI;Hu, Y et al. Clinical Characteristics of Coronavirus Disease in
China. The New England Journal of Medicine.2020.
4.
Vieira,
S. Covid -19:um overview. Elsevier.academiademedicina.com.br. 15 de maio de
2020.
1 comment:
Tatiana: estou terminando um livro, mais uns dez dias e vejo. Por enquanto, me diz: são três grupos, a variável é observada ao longo do tempo, em três ocasiões.Acidez é medida como? Se não é pelo pH, é por algum teste sensorial? Aguardo.
Post a Comment