Recebi
um e-mail de uma doutoranda da Unicamp — que não conheço pessoalmente —
apontando, gentilmente, o que considerava um “pequeno erro de cálculo” no meu
livro Análise de Variância (p. 47). Segundo ela, o valor do coeficiente de
variação (CV) calculado no exemplo estaria incorreto.
Claro,
fui direto conferir.
O exemplo do livro apresenta um ensaio com dois tratamentos (A e B) e cinco repetições por tratamento. Os dados são simples e servem apenas para ilustrar os cálculos da análise de variância (ANOVA). A tabela de dados e a tabela da ANOVA foram construídas com esse propósito didático.
Tabela de dados
No entanto, a leitora, que é da área de controle de qualidade, resolveu aplicar os
Tudo
certo até aqui. Mas, ao prosseguir com a leitura do livro, ela encontrou o
trecho em que afirmo: “Pode existir interesse em relacionar o desvio-padrão com
a média, para se ter ideia da grandeza da dispersão em relação à média. Por
definição, o coeficiente de variação (CV) é a razão entre o desvio-padrão e a
média dos dados.”
Mais
adiante, no mesmo capítulo, informo que: “Na análise de variância, o
desvio-padrão é dado pela raiz quadrada do quadrado médio do resíduo.”
Como a doutoranda não fez a análise de variância (que não é usual em algumas áreas), ela não tinha o valor do quadrado médio do resíduo (QMR). Em vez disso, tomou a média dos desvios-padrão e dividiu pela média das médias para obter o CV. Esse cálculo está incorreto.
A média
aritmética é diferente da média quadrática. Para dois números positivos a e b,
segue-se que:
Quando
se trata de ensaios com mais de um grupo, como é o caso do exemplo, cada grupo
tem sua própria variância. A maneira correta de calcular o desvio-padrão global
— e, portanto, o CV — é usando a raiz quadrada da média das variâncias
ponderadas.
No
contexto da ANOVA, o QMR representa a média das variâncias dos grupos. A
fórmula do coeficiente de variação, nesse caso, é:
de todos os dados, e o QMR é o quadrado médio do resíduo, calculado por:
sendo
SQR a soma de quadrados do resíduo, k o número de grupos e r o número de
repetições por grupo.
Essa
definição permite obter um valor consistente e comparável do coeficiente de
variação.
Quando
escrevi o livro, não percebi que a definição tradicional do CV — “desvio-padrão
dividido pela média” — pode ser mal interpretada quando não se deixa claro de
onde vem esse desvio-padrão.
A
fórmula está correta somente quando se lida com uma única amostra ou grupo. Em
ensaios com múltiplos tratamentos, cada um com suas médias e variâncias, o
desvio-padrão do ensaio como um todo deve ser obtido da ANOVA, e não por
simples combinação das estatísticas descritivas dos grupos.
Este episódio me ensinou que é preciso escrever definições com mais cuidado.
No comments:
Post a Comment