Quando a distribuição dos dados é aproximadamente normal, é razoável calcular médias e variâncias e aplicar testes paramétricos. No entanto, quando a distribuição dos dados é desconhecida ou quando a amostra contém valores muito discrepantes, recomenda-se utilizar estatísticas robustas.
Um exemplo que ilustra que a média nem sempre é um bom estimador da tendência central foi apresentado por Mohammad Ahmad (1). Cada ponto de uma amostra de tamanho n contribui com um peso de 1/n para a média. Um valor extremamente alto – por exemplo, tendendo ao infinito – teria um peso ∞/n , resultando em uma média amostral infinita.
É importante lembrar que a mediana não é afetada por valores
discrepantes, o que a torna uma estatística robusta. Mais especificamente, a
mediana só é alterada se a porcentagem de dados discrepantes atingir 50% da
amostra. Por outro lado, para que a média seja um bom estimador da tendência
central, o percentual de dados grosseiramente discrepantes deve ser,
idealmente, de 0%. Por exemplo, se as notas dos alunos variam de 0 a 10, mas um
valor de 879 foi digitado por engano, a média será extremamente alta, enquanto
a mediana permanecerá inalterada, demonstrando sua resistência a dados
discrepantes.
O ponto de ruptura (breakdown point)
de um estimador é o percentual máximo de erros grosseiros que ele pode suportar
antes de fornecer um resultado anormal. Estatísticas robustas devem ser
priorizadas quando há muitos dados discrepantes, o que é comum em trabalhos
manuais, incluindo simples erros de digitação. Nesse contexto, é apropriado
utilizar testes não paramétricos que não exigem distribuição normal (2) e
toleram um elevado percentual de dados com erros grosseiros.
Este texto é introdutório, mas justifica-se pela surpresa de uma pós-graduanda da área de exatas ao ler um artigo publicado na prestigiada revista médica The New England Journal of Medicine, que relatava a mediana do tempo de internação em UTI de pacientes com COVID-19 como sendo de 14 dias, com base em dados do início da pandemia (3). Embora eu não tenha acesso aos dados originais e apenas cite a mediana publicada, mencionando a fonte (4), a estudante perguntou: “Por que não foi calculado o tempo médio de internação, como se faz normalmente?”
Embora o artigo não explique essa escolha, é razoável presumir que o tempo de internação de pacientes com uma doença – qualquer que seja ela – não siga uma distribuição normal. Provavelmente, essa variável apresenta uma distribuição assimétrica ou com múltiplos picos, além da possibilidade de ocorrerem valores discrepantes devido a fatores como falta de profissionais (especialmente em períodos de fim de ano), contratação simultânea de novos profissionais inexperientes ou escassez de insumos, como oxigênio. Portanto, a utilização da mediana como medida de tendência central é justificada. No caso específico do artigo citado, a mediana também forneceu uma informação valiosa: metade dos pacientes deixou a UTI em 14 dias ou menos.
Considere
uma doença fictícia que requer um período de recuperação variável entre os
pacientes. Ao analisar os dados de recuperação, é possível apresentar
diferentes medidas estatísticas. Por exemplo, informar que "metade dos
pacientes se recupera em um mês ou menos" fornece a mediana do tempo de
recuperação, enquanto afirmar que "em média, os pacientes se recuperam em
37 dias" apresenta a média aritmética.
A mediana é especialmente útil em distribuições
assimétricas ou quando há valores atípicos, porque representa o ponto em que
50% dos dados estão abaixo e 50% acima, oferecendo uma visão mais realista do
tempo de recuperação típico. Em contrapartida, a média pode ser influenciada
por valores extremos, podendo não refletir adequadamente a experiência da
maioria dos pacientes.
Além disso, outras estatísticas descritivas, como os
quartis, fornecem insights valiosos sobre a dispersão e a distribuição dos
dados. Os quartis dividem os dados em quatro partes iguais, permitindo
identificar, por exemplo, que 25% dos pacientes se recuperam em até 15 dias ou
menos (primeiro quartil) e 75% em até 45 dias ou menos (terceiro quartil).
Essas informações são mais informativas do que apenas o desvio padrão,
especialmente quando a distribuição dos dados não é simétrica.
Portanto, na análise de dados, é
fundamental utilizar medidas estatísticas que capturem a essência da
distribuição, proporcionando uma compreensão mais precisa e útil para os profissionais
da área.
Referências
1. Ahmad M. Robust Statistical Methods https://towardsdatascience.com/robust-statistical-methods-3242234e47fc
2.
Vieira,
S. Bioestatística: tópicos avançados. Rio de Janeiro. Elsevier, 4ªed. 2018.
3.
Guan,
WJ; Ni,ZI;Hu, Y et al. Clinical Characteristics of Coronavirus Disease in
China. The New England Journal of Medicine.2020.
4.
Vieira,
S. Covid -19:um overview. Elsevier.academiademedicina.com.br. 15 de maio de
2020.
1 comment:
Tatiana: estou terminando um livro, mais uns dez dias e vejo. Por enquanto, me diz: são três grupos, a variável é observada ao longo do tempo, em três ocasiões.Acidez é medida como? Se não é pelo pH, é por algum teste sensorial? Aguardo.
Post a Comment