Monday, July 28, 2025

Desvios-padrão não se somam. Por quê?

Recebi um e-mail de uma doutoranda da Unicamp — que não conheço pessoalmente — apontando, gentilmente, o que considerava um “pequeno erro de cálculo” no meu livro Análise de Variância (p. 47). Segundo ela, o valor do coeficiente de variação (CV) calculado no exemplo estaria incorreto.

Claro, fui direto conferir.

O exemplo do livro apresenta um ensaio com dois tratamentos (A e B) e cinco repetições por tratamento. Os dados são simples e servem apenas para ilustrar os cálculos da análise de variância (ANOVA). A tabela de dados e a tabela da ANOVA foram construídas com esse propósito didático.

Tabela de dados


Tabela da ANOVA


       No entanto, a leitora, que é da área de controle de qualidade, resolveu aplicar os      
       procedimentos que costuma usar: calculou as médias e os desvios-padrão de cada                    grupo, como se faz em análise de processos. Obteve os seguintes resultados:

Médias e os desvios-padrão

Tudo certo até aqui. Mas, ao prosseguir com a leitura do livro, ela encontrou o trecho em que afirmo: “Pode existir interesse em relacionar o desvio-padrão com a média, para se ter ideia da grandeza da dispersão em relação à média. Por definição, o coeficiente de variação (CV) é a razão entre o desvio-padrão e a média dos dados.”

Mais adiante, no mesmo capítulo, informo que: “Na análise de variância, o desvio-padrão é dado pela raiz quadrada do quadrado médio do resíduo.”

Como a doutoranda não fez a análise de variância (que não é usual em algumas áreas), ela não tinha o valor do quadrado médio do resíduo (QMR). Em vez disso, tomou a média dos desvios-padrão e dividiu pela média das médias para obter o CV. Esse cálculo está incorreto.

A média aritmética é diferente da média quadrática. Para dois números positivos a e b, segue-se que:

A igualdade só ocorre quando a = b. Portanto, a média de dois desvios-padrão é menor que a média das duas variâncias, a menos que essas variâncias sejam iguais.

Quando se trata de ensaios com mais de um grupo, como é o caso do exemplo, cada grupo tem sua própria variância. A maneira correta de calcular o desvio-padrão global — e, portanto, o CV — é usando a raiz quadrada da média das variâncias ponderadas.

No contexto da ANOVA, o QMR representa a média das variâncias dos grupos. A fórmula do coeficiente de variação, nesse caso, é:

 de todos os dados, e o QMR é o quadrado médio do resíduo, calculado por:

sendo SQR a soma de quadrados do resíduo, k o número de grupos e r o número de repetições por grupo.

Essa definição permite obter um valor consistente e comparável do coeficiente de variação.

Quando escrevi o livro, não percebi que a definição tradicional do CV — “desvio-padrão dividido pela média” — pode ser mal interpretada quando não se deixa claro de onde vem esse desvio-padrão.

A fórmula está correta somente quando se lida com uma única amostra ou grupo. Em ensaios com múltiplos tratamentos, cada um com suas médias e variâncias, o desvio-padrão do ensaio como um todo deve ser obtido da ANOVA, e não por simples combinação das estatísticas descritivas dos grupos.

       Este episódio me ensinou que é preciso escrever definições com mais cuidado. 



No comments: