Sonia Vieira: January 2017

Sunday, January 22, 2017

Como Comparar Médias de Grupos de Tamanhos Diferentes? Use Tukey-Kramer!"

Resumo

Quando a ANOVA indica diferenças significativas entre grupos, o passo seguinte é descobrir quais grupos realmente diferem entre si. Se os grupos têm tamanhos desiguais, o teste de Tukey-Kramer é uma escolha confiável e robusta. Neste post, explicamos como aplicar esse teste passo a passo, com exemplo real e interpretação dos resultados.

Quando o pesquisador obtém um resultado significativo na ANOVA (Análise de Variância) e seu experimento envolve três ou mais grupos, surge a necessidade de realizar testes pós-hoc para comparar médias e identificar quais grupos diferem, em média, entre si.

Há diversos testes disponíveis para esse fim, alguns dos quais já discutimos em postagens anteriores. Neste texto, vamos abordar o teste de Tukey-Kramer, recomendado para as situações em que os grupos têm tamanhos desiguais. Nesses casos, é necessário ajustar o procedimento, substituindo o tamanho comum dos grupos (r) pelos tamanhos individuais r_i e r_j dos grupos em comparação.

Para aplicar o teste de Tukey-Kramer, é preciso pressupor que as populações possuem variâncias homogêneas. Assim, o quadrado médio do resíduo (QMR), obtido na ANOVA, serve como estimativa da variância comum da variável.

A diferença mínima significativa entre as médias de dois grupos de tamanhos r_i e r_j, denotada por d_i, é calculada pela fórmula:

Onde:

· _q(k,gl,α) é o valor da amplitude estudentizada, obtido na tabela de valores críticos da distribuição q;

· k é o número de grupos;

· gl é o número de graus de liberdade do resíduo na ANOVA;

· QMR é o quadrado médio do resíduo;

· α é o nível de significância (por exemplo, 5%).

Exemplo

A Tabela 1 apresenta os dados de um experimento com quatro grupos (quatro marcas de chá verde). As médias de cada grupo estão indicadas ao final da tabela. O objetivo é comparar essas médias utilizando o teste de Tukey-Kramer. Para isso, é necessário realizar, primeiramente, uma ANOVA, que está apresentada na Tabela 2.

Em seguida, realizam-se as comparações par a par das médias das marcas. Para aplicar o teste, utilizou-se o valor de q para nível de significância de 5%, com k=4 grupos e n−k=24−4=20 graus de liberdade do resíduo.

Tabela 1

Conteúdo de ácido fólico (vitamina B) em folhas de chá verde selecionadas aleatoriamente de quatro marcas (1)

Tabela 2

Análise de variância dos dados da Tabela 1

Por exemplo:

· Para comparar a média da marca 1 com a da marca 2, com α=5%, é preciso calcular:

· Para comparar a média da marca 1 com a média da marca 3, com α=5%, procede-se de maneira análoga.

O mesmo procedimento é repetido para as demais combinações de marcas. A Tabela 3 apresenta as diferenças observadas entre as médias, bem como os respectivos valores de d_ij. Quando a diferença absoluta entre duas médias for maior que d_ij, rejeita-se a hipótese de igualdade entre essas médias.

Tabela 3

Comparação de médias pelo teste de Tukey-Kramer

Interpretação

A interpretação dos resultados da Tabela 3 indica, por exemplo, que a marca 1 apresenta, em média, maior teor de ácido fólico do que a marca 4, com diferença estatisticamente significante.

Aproximação com média harmônica

O cálculo de todas as diferenças mínimas significantes pelo teste de Tukey-Kramer pode ser trabalhoso, especialmente quando feito manualmente. Com o auxílio de softwares estatísticos, esse processo é automatizado, mas nem sempre foi assim. Em situações em que os tamanhos dos grupos são aproximadamente iguais, é possível adotar uma simplificação: utilizar a fórmula tradicional do teste de Tukey substituindo r pela média harmônica dos tamanhos amostrais, denotada por H. A fórmula fica:

Essa abordagem é uma aproximação, e o controle do nível de significância pode não ser exato. Mas você pode encontrar esse procedimento em trabalhos mais antigos.

Com os dados da Tabela 1, onde os tamanhos dos grupos são 7, 5, 6 e 6, a média harmônica H é calculada por:

Então

Substituindo esse valor na fórmula, obtém-se o valor de d a ser usado para todas as comparações. Neste exemplo, a interpretação dos resultados permanece coerente com a análise completa.

Veja a Tabela de amplitude estudentizada em

table of the studentized range - David Lane http://davidmlane.com/hyperstat/sr_table.html

Veja também

Multiple Comparisons With Unequal Sample Sizes https://www.uvm.edu/~dhowell/gradstat/.../labs/.../Multcomp.html
ANOVA & Tukey-Kramer test. https://www.youtube.com/watch?

Chen, TS; Lui, CK; Smith, CH. Journal of the American Dietetic Association [1983,82(6):627-632] Apud Devore, JL. Probability and Statistics for engineering and the sciences. Brooks Cole 2015.On line books.

Thursday, January 12, 2017

Resíduos Dependentes: Sinal de Alerta na ANOVA

Introdução

Uma das pressuposições essenciais da análise de variância (ANOVA) em um ensaio inteiramente ao acaso (one-way trial) é a independência dos resíduos — ou seja, espera-se que os erros sejam variáveis aleatórias independentes.

O que são resíduos?

Resíduos (ou erros) são as diferenças entre os valores observados e as médias dos grupos. Eles representam a variação não explicada pelo fator em estudo.

Fórmula do resíduo

onde

Como a independência pode ser violada?

Em geral, a independência é determinada apenas pela maneira como os dados são coletados [1]. A dependência ocorre quando:

🔹Medições repetidas em uma mesma unidade experimental

Qualquer medida obtida em determinado instante (y_i+₁) em uma unidade está, necessariamente, correlacionada com a medida (y_i) obtida anteriormente nessa mesma unidade. Portanto, se durante diversas semanas você obtiver amostras de sangue na mesma pessoa para estudar o efeito de uma droga terapêutica ao longo do tempo – não pode considerar que os erros das medidas são independentes.

🔹 Medidas feitas em unidades agrupadas

Quando são feitas observações em unidades agrupadas, os resíduos se tornam dependentes. Assim, se você observar pesar cobaias que estão na mesma gaiola, não pode considerar que as medidas obtidas são independentes.

Por que a independência é importante?

Sem independência dos erros, a variabilidade aleatória do resíduo desaparece e a validade da ANOVA fica comprometida.

Como verificar a independência?

Diante de qualquer suspeita de não independência dos erros – é essencial proceder à análise dos resíduos. Construa um gráfico dos resíduos padronizados em função da ordem de coleta dos dados. Se forem independentes, os pontos devem se espalhar aleatoriamente em torno de zero.

Resíduo padronizado

Fórmula do resíduo padronizado

Onde

Exemplo prático

Tabela 1

Dados com ordem de coleta

Tabela 2

Análise de variância (ANOVA)

O Quadrado Médio do Resíduo da ANOVA é 7,00. Os resíduos padronizado dos dados apresentados na Tabela 1 estão na Tabela 3 e na Figura 1. Veja que os pontos se distribuem em torno de zero.

Tabela 3

Resíduos padronizados

Figura 1

Resíduos padronizados

Veja agora a Figura 2, que apresenta uma distribuição de resíduos padronizados que não se distribuem em torno de zero. Os dado desse exemplo são dependentes.

Figura 2

Resíduos padronizados :dependência

Veja agora a Figura 2, que apresenta uma distribuição de resíduos padronizados que não se distribuem em torno de zero. Se os resíduos tiverem clara correlação com a ordem de tomada dos dados como é o caso do exemplo apresentado na Figura 2, não se pode pressupor independência.

Consequências de dependência dos erros

Se os dados são coletados sequencialmente (ex.: medições ao longo do tempo) e há auto correlação (um resíduo alto tende a ser seguido por outro), a ANOVA pode superestimar a significância dos resultados.

Em experimentos com repetições não aleatórias (ex.: amostras de uma mesma planta em vez de plantas diferentes), os erros são correlacionados, invalidando as conclusões.

Como garantir a independência dos erros?

A análise de resíduos é extremamente útil, mas é gráfica. Isto significa que não se pode associar um nível de probabilidade à conclusão de que os erros não são independentes. Mas a pressuposição de independência pode ser transformada em hipótese e essa hipótese pode ser colocada em teste. Quando existe forte suspeita de não independência (de que, por exemplo, um aumento dos valores está correlacionado com a ordem em as observações foram feitas), pode-se aplicar um teste estatístico como o teste de Durbin Watson.

Como Garantir a Independência dos Erros?

🔄Delineamento correto do ensaio: As unidades devem ser designadas aos grupos por processo aleatório.

🔄Medidas repetidas exigem modelos específicos: Se houver repetições no tempo ou espaço, use modelos específicos.

🔄Verificação estatística: Gráficos de resíduos vs. ordem de coleta dos dados ajudam a detectar dependência. Existem testes para auto correlação dos resíduos, como o de Durbin-Watson.

Referências

1. SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.

2. Does your data violate one –way ANOVA assumptions? https://quality-control- plan.com/StatGuide/oneway_anova_ass_viol.htm

Sunday, January 08, 2017

Análise de Resíduos Padronizados: Como Avaliar Outliers em Cada Grupo

Você já se perguntou por que certos dados parecem não se encaixar nas suas análises? Aquele número que salta aos olhos – muito maior ou muito menor que os outros – pode ser um outlier. E ele pode estar prejudicando suas conclusões estatísticas sem você perceber!

Neste post, vamos explorar o que são esses valores discrepantes, como identificá-los com um critério simples, e o que fazer quando eles aparecem em sua análise de variância.

Como identificar e tratar dados discrepantes (outliers)

Um dado discrepante, também conhecido como outlier, é um valor que se distancia significativamente dos demais valores de uma amostra. Em outras palavras, é um ponto que não segue o padrão geral dos dados coletados.

Como identificar um outlier?

Um critério bastante utilizado – e que dispensa testes estatísticos formais – baseia-se nos quartis da amostra. Considera-se discrepante um valor que está:

🔺 Abaixo de: Q1 − 1,5 × (Q3 − Q1)

🔺 Acima de: Q3 + 1,5 × (Q3 − Q1)

Onde:

🔺Q1: primeiro quartil

🔺 Q3: terceiro quartil

🔺 Q3 − Q1: distância interquartílica (IQR)

Exemplo

Considere o seguinte conjunto de dados:

[1, 2, 2, 3, 3, 4, 5, 6, 12]

Usando o Excel, você obtém:

🔺 Q1 = 2

🔺Mediana = 3

🔺 Q3 = 5

🔺 IQR = 5 − 2 = 3

Limites para detecção de outliers:

🔺 Inferior: 2 − 1,5×3 = −2,5

🔺 Superior: 5 + 1,5×3 = 9,5

O valor 12 é, portanto, um outlier, pois excede 9,5.Veja a Figura 1.

Figura 1

Por que é importante identificar outliers?

Em dados provenientes de uma população real, a presença de outliers pode indicar problemas:

🔺 Erros de medição ou digitação

🔺 Observações provenientes de outra população

🔺 Comportamentos atípicos reais (que podem ser interessantes!)

Contudo, não se deve eliminar um outlier sem análise criteriosa. Deve-se investigar a origem do valor discrepante com base no contexto do estudo.

Outliers e a ANOVA

Em uma análise de variância (ANOVA), a presença de outliers pode:

📌 Inflacionar a variância residual

📌 Reduzir a estatística F

📌 Diminuir a chance de rejeitar a hipótese da nulidade

Por isso, é recomendável investigar e tratar outliers antes da ANOVA.

Como identificar outliers na ANOVA: resíduos padronizados

A análise gráfica dos resíduos pode revelar valores discrepantes. Você pode fazer:

· Boxplot dos resíduos padronizados

· Histograma dos resíduos padronizados

Os resíduos padronizados (z_i) são dados por

Onde:

· e_i é o resíduo (diferença entre valor observado e valor estimado)

· QMR é o quadrado médio do resíduo da ANOVA

Exemplo com dados fictícios

Tabela 1

Dados de um experimento com quatro grupos

(as médias são dadas no rodapé da tabela)

Tabela 2

Análise de variância dos dados da Tabela 1

Cálculo do primeiro resíduo padronizado (grupo A):

· Observação: 25

· Média do grupo: 23

· Resíduo: 25 − 23 = 2

Os demais resíduos padronizados são obtidos pelo mesmo procedimento e estão apresentados na Tabela 3. Para bem entender a distribuição dos resíduos padronizados veja, na Figura 2, o boxplot e na Figura 3, o histograma.

Tabela 3

Resíduos padronizados dos dados apresentados na Tabela 1

Figura 2

Figura 3

Observe os gráficos cuidadosamente. A presença de resíduos padronizados entre -2 e +2 é um bom sinal, mas não é suficiente para garantir que os resíduos sigam uma distribuição normal — o que é uma suposição importante na ANOVA.

De qualquer forma, aproximadamente 95% dos valores de uma distribuição normal padrão devem cair nesse intervalo. Como todos os resíduos padronizados estão nesse intervalo, não há evidência clara de outliers extremos.

Com base nos resultados da análise dos resíduos, é razoável concluir:

🛑 Nenhum valor muito extremo foi encontrado: os resíduos padronizados variam de -1.512 a 1.512.

🛑. Distribuição aparentemente simétrica: isso pode ser confirmado visualmente com o histograma.

🛑 Sem grupo com dispersão claramente maior: o boxplot por grupo sugere que os grupos têm variância semelhante.

Você pode interpretar seus achados:

✅“A análise dos resíduos padronizados não revelou valores discrepantes evidentes, nem variação excessiva entre os grupos. Todos os resíduos caíram dentro do intervalo esperado para uma distribuição normal padrão (entre -2 e +2), indicando adequação da suposição de homogeneidade de variâncias e ausência de outliers extremos.”

O que fazer quando há outliers?

📌 Verifique se houve erro de medição ou de digitação.

📌 Analise se o comportamento do grupo é atípico (efeito paradoxal?).

📌 Observe se resíduos grandes se concentram em um grupo específico (sugere variância maior).

📌 Compare os resultados da ANOVA com e sem os outliers.

🔺 Se os resultados forem similares, mantenha os dados.

🔺 Se forem diferentes, reavalie:

📌 Pode ser necessário um teste não paramétrico

📌Ou repensar hipóteses e objetivos do estudo

Veja: Vieira, S. Delineamento e análise de experimentos nas ciências agrárias. Piracicaba, FEALQ, 2021.

Doutora em Estatística pela USP

Livre Docente em Estatística pela Unicamp

Pós doctor na Universidade da California, Berkeley e Universidade Yale.

Além de diversos artigos em revistas nacionais e estrangeiras, publicou os livros:

1. Pela Editora Elsevier: Introdução à Bioestatística (5ed), Bioestatística: tópicos avançados (3ed), Estatística para a Qualidade 3ed), Metodologia Científica para a Área de Saúde (3ed), este último em co-autoria com William Saad Hossne.

2. Pela Editora Atlas: Elementos de Estatística (6ed), Como elaborar um questionário.

3. Pela Editora Cencage Learning: Estatística Básica.

4. Pela Editora Brasiliense: O que é Estatística (3ed).

Estão esgotados: Experimentação com seres humanos (Moderna), Como escrever uma tese (Atlas), Análise de variância (Atlas), Primeiro a gente chora (Cultura).

Possui um domínio online, no qual estão disponibilizadas algumas aulas de estatística elementar: https://profasoniavieira.wixsite.com/estatistica