Sunday, January 22, 2017

Como Comparar Médias de Grupos de Tamanhos Diferentes? Use Tukey-Kramer!

RESUMO

Quando a ANOVA indica diferenças significativas entre grupos, o próximo passo é identificar quais grupos diferem entre si. Se os grupos têm tamanhos desiguais (amostras desbalanceadas), o teste de Tukey-Kramer é uma escolha confiável e robusta. Neste post, explicamos como aplicar esse teste passo a passo, com um exemplo real e a interpretação dos resultados.

1.   INTRODUÇÃO

Quando o pesquisador obtém um resultado significativo na ANOVA (Análise de Variância) para um experimento com três ou mais grupos, procura um teste para comparar as médias e identificar quais delas são estatisticamente diferentes.

Diversos testes estão disponíveis para esse fim. Esta postagem trata o teste de Tukey-Kramer, recomendado para situações em que os grupos têm tamanhos diferentes. Nessas situações, para comparar as médias é preciso substituir o tamanho comum dos grupos (n) pelos tamanhos (ni e nj) de cada par que está sendo comparado.

Para aplicar o teste de Tukey-Kramer, é feita a pressuposição de variâncias homogêneas (homocedasticidade). Então o quadrado médio do resíduo (QMR), obtido na tabela ANOVA, é a estimativa da variância comum da variável.

COMO FAZER O TESTE

A diferença mínima significativa entre as médias de dois grupos de tamanhos ni e nj, inndicada por di,j  é calculada pela fórmula:

Onde:

· q(k,gl,α) é o valor crítico da amplitude estudentizada;

·     k é o número de grupos;

·  n-k é o número de graus de liberdade do resíduo na                          ANOVA;

·            QMR é o quadrado médio do resíduo;

·             α é o nível de significância.

EXEMPLO

A Tabela 1 apresenta os dados de um experimento com quatro grupos (quatro marcas de chá verde). As médias de cada grupo estão indicadas ao final da tabela. O objetivo é comparar essas médias utilizando o teste de Tukey-Kramer. Para isso, é necessário realizar, primeiramente, uma ANOVA, que está apresentada na Tabela 2.

Em seguida, realizam-se as comparações par a par das médias das marcas. Para aplicar o teste, utilizou-se o valor de q para um nível de significância de 5%, com k = 4 grupos e gl = n-k = 24-4 = 20 graus de liberdade do resíduo.

Tabela 1: Conteúdo de ácido fólico (vitamina B) em folhas de chá verde selecionadas aleatoriamente de quatro marcas (1)

Tabela 2: Análise de variância dos dados da Tabela 1

Por exemplo:

·    Para comparar a média da Marca 1 com a da Marca 2 (no nível de significância de 5%, calcula-se

 

· Para comparar a média da Marca 1 com a da Marca 3, o procedimento é análogo, usando n1 =7 e n3 =6.

O mesmo procedimento é repetido para os demais pares. A Tabela 3 apresenta as diferenças observadas entre as médias e os respectivos valores de dij. Quando a diferença absoluta entre duas médias for maior que seu dij. correspondente, rejeita-se a hipótese de igualdade entre essas médias (H₀: μi = μj).

Tabela 3: Comparação de médias pelo teste de Tukey-Kramer

 

Interpretação

A interpretação dos resultados da Tabela 3 indica, por exemplo, que a Marca 1 apresenta, em média,  teor de ácido fólico significativamente maior que o da Marca 4.

APROXIMAÇÃO COM A MÉDIA HARMÔNICA 

O cálculo de todas as diferenças mínimas significativas pelo teste de Tukey-Kramer pode ser trabalhoso manualmente. Com softwares estatísticos, esse processo é automatizado. No passado, para simplificar o cálculo quando os tamanhos dos grupos eram aproximadamente iguais, era comum adotar uma aproximação: utilizar a fórmula tradicional do teste de Tukey, substituindo n pela média harmônica (H) dos tamanhos amostrais. A fórmula se torna:

Essa abordagem é uma aproximação, e o controle do nível de significância pode não ser exato, mas pode ser encontrada em trabalhos mais antigos.

Com os dados da Tabela 1, onde os tamanhos dos grupos são 7, 5, 6 e 6, a média harmônica H é calculada por:

Então:

Substituindo os valores, obtém-se um valor único de d para todas as comparações. Neste exemplo, a interpretação dos resultados usando essa aproximação permanece coerente com a análise completa.

Literatura





               

Thursday, January 12, 2017

Resíduos Dependentes: Sinal de Alerta na ANOVA

   

    Introdução

Uma das pressuposições essenciais da análise de variância (ANOVA) em um ensaio inteiramente ao acaso (one-way trial) é a independência dos resíduos — ou seja, espera-se que os erros sejam variáveis aleatórias independentes.

 O que são resíduos?

Resíduos (ou erros) são as diferenças entre os valores observados e as médias dos grupos. Eles representam a variação não explicada pelo fator em estudo.

Fórmula do resíduo   

onde                                     


   Como a independência pode ser violada?

Em geral, a independência é determinada apenas pela maneira como os dados são coletados [1]. A dependência ocorre quando:

 

   🔹Medições repetidas em uma mesma unidade experimental

Qualquer medida obtida em determinado instante (yi+1) em uma unidade está, necessariamente, correlacionada com a medida (yi) obtida anteriormente nessa mesma unidade. Portanto, se durante diversas semanas você obtiver amostras de sangue na mesma pessoa para estudar o efeito de uma droga terapêutica ao longo do tempo – não pode considerar que os erros das medidas são independentes. 

  

   🔹 Medidas feitas em unidades agrupadas

 

Quando são feitas observações em unidades agrupadas, os resíduos se tornam dependentes. Assim, se você observar pesar cobaias que estão na mesma gaiola, não pode considerar que as medidas obtidas são independentes.


Por que a independência é importante?


Sem independência dos erros, a variabilidade aleatória do resíduo desaparece e a validade da ANOVA fica comprometida.

Como verificar a independência?

Diante de qualquer suspeita de não independência dos erros – é essencial proceder à análise dos resíduos.  Construa um gráfico dos resíduos padronizados em função da ordem de coleta dos dados. Se forem independentes, os pontos devem se espalhar aleatoriamente em torno de zero.

Resíduo padronizado

    Fórmula do resíduo padronizado   

  Onde
               

Exemplo prático
Tabela 1
 Dados com ordem de coleta
Tabela 2
Análise de variância (ANOVA)


O Quadrado Médio do Resíduo da ANOVA é 7,00. Os resíduos padronizado dos dados apresentados na Tabela 1 estão na Tabela 3 e na Figura 1. Veja que os pontos se distribuem em torno de zero.

Tabela 3
Resíduos padronizados
Figura 1
Resíduos padronizados

 Veja agora a Figura 2, que apresenta uma distribuição de resíduos         padronizados que não se distribuem em torno de zero. Os dado desse exemplo são dependentes.

Figura 2
Resíduos padronizados :dependência
    Veja agora a Figura 2, que apresenta uma distribuição de resíduos         padronizados que não se distribuem em torno de zero. Se os                resíduos tiverem clara correlação com a ordem de tomada dos dados      como é o caso do exemplo apresentado na Figura 2, não se pode            pressupor independência.

      Consequências de dependência dos erros

Se os dados são coletados sequencialmente (ex.: medições ao longo do tempo) e há auto correlação (um resíduo alto tende a ser seguido por outro), a ANOVA pode superestimar a significância dos resultados.

Em experimentos com repetições não aleatórias (ex.: amostras de uma mesma planta em vez de plantas diferentes), os erros são correlacionados, invalidando as conclusões.


Como garantir a independência dos erros?

A análise de resíduos é extremamente útil, mas é gráfica. Isto significa que não se pode associar um nível de probabilidade à conclusão de que os erros não são independentes. Mas a pressuposição de independência pode ser transformada em hipótese e essa hipótese pode ser colocada em teste. Quando existe forte suspeita de não independência (de que, por exemplo, um aumento dos valores está correlacionado com a ordem em as observações foram feitas), pode-se aplicar um teste estatístico como o teste de Durbin Watson.

 Como Garantir a Independência dos Erros?

🔄Delineamento correto do ensaio: As unidades devem ser designadas aos grupos por processo aleatório.

🔄Medidas repetidas exigem modelos específicos: Se houver repetições no tempo ou espaço, use modelos específicos.

🔄Verificação estatística: Gráficos de resíduos vs. ordem de coleta dos dados ajudam a detectar dependência. Existem testes para auto correlação dos resíduos, como o de Durbin-Watson. 


 
            Referências

         1.  SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.
                 2.  Does your data violate one –way ANOVA assumptions?  https://quality-control-                                              plan.com/StatGuide/oneway_anova_ass_viol.htm



     












Sunday, January 08, 2017

Análise de Resíduos Padronizados: Como Avaliar Outliers em Cada Grupo


Você já se perguntou por que certos dados parecem não se encaixar nas suas análises? Aquele número que salta aos olhos – muito maior ou muito menor que os outros – pode ser um outlier. E ele pode estar prejudicando suas conclusões estatísticas sem você perceber!

Neste post, vamos explorar o que são esses valores discrepantes, como identificá-los com um critério simples, e o que fazer quando eles aparecem em sua análise de variância.

Como identificar e tratar dados discrepantes (outliers)

Um dado discrepante, também conhecido como outlier, é um valor que se distancia significativamente dos demais valores de uma amostra. Em outras palavras, é um ponto que não segue o padrão geral dos dados coletados.

Como identificar um outlier?

Um critério bastante utilizado – e que dispensa testes estatísticos formais – baseia-se nos quartis da amostra. Considera-se discrepante um valor que está:

🔺  Abaixo de: Q1 − 1,5 × (Q3 − Q1)

🔺 Acima de: Q3 + 1,5 × (Q3 − Q1)

Onde:

🔺Q1: primeiro quartil

🔺  Q3: terceiro quartil

🔺  Q3 − Q1: distância interquartílica (IQR)

                                      Exemplo

Considere o seguinte conjunto de dados:

                            [1, 2, 2, 3, 3, 4, 5, 6, 12]

Usando o Excel, você obtém:

🔺  Q1 = 2

🔺Mediana = 3

🔺  Q3 = 5

🔺  IQR = 5 − 2 = 3

Limites para detecção de outliers:

🔺    Inferior: 2 − 1,5×3 = −2,5

🔺    Superior: 5 + 1,5×3 = 9,5

O valor 12 é, portanto, um outlier, pois excede 9,5.Veja a Figura 1.

                                                   Figura 1

Por que é importante identificar outliers?

Em dados provenientes de uma população real, a presença de outliers pode indicar problemas:

     🔺        Erros de medição ou digitação

     🔺       Observações provenientes de outra população

     🔺      Comportamentos atípicos reais (que podem ser interessantes!)

Contudo, não se deve eliminar um outlier sem análise criteriosa. Deve-se investigar a origem do valor discrepante com base no contexto do estudo.

Outliers e a ANOVA

Em uma análise de variância (ANOVA), a presença de outliers pode:

     📌        Inflacionar a variância residual

     📌        Reduzir a estatística F

      📌       Diminuir a chance de rejeitar a hipótese da nulidade

Por isso, é recomendável investigar e tratar outliers antes da ANOVA.

 

Como identificar outliers na ANOVA: resíduos padronizados

A análise gráfica dos resíduos pode revelar valores discrepantes. Você pode fazer: 

·  Boxplot dos resíduos padronizados

·  Histograma dos resíduos padronizados

Os resíduos padronizados (zi) são dados por

Onde:

·  ei é o resíduo (diferença entre valor observado e valor estimado)

·  QMR é o quadrado médio do resíduo da ANOVA

                                 Exemplo com dados fictícios

Tabela 1

Dados de um experimento com quatro grupos

                           (as médias são dadas no rodapé da tabela)


                                                 

                                                    Tabela 2

 

Análise de variância dos dados da Tabela 1


Cálculo do primeiro resíduo padronizado (grupo A):

       ·  Observação: 25

       ·  Média do grupo: 23

       ·  Resíduo: 25 − 23 = 2

Os demais resíduos padronizados são obtidos pelo mesmo procedimento e estão apresentados na Tabela 3. Para bem entender a distribuição dos resíduos padronizados veja, na Figura 2, o boxplot  e na Figura 3, o histograma.

Tabela 3

Resíduos padronizados dos dados apresentados na Tabela 1

 

Figura 2

Figura 3


Observe os gráficos cuidadosamente. A presença de resíduos padronizados entre -2 e +2 é um bom sinal, mas não é suficiente para garantir que os resíduos sigam uma distribuição normal — o que é uma suposição importante na ANOVA.

De qualquer forma, aproximadamente 95% dos valores de uma distribuição normal padrão devem cair nesse intervalo. Como todos os resíduos padronizados estão nesse intervalo, não há evidência clara de outliers extremos.

Com base nos resultados da análise dos resíduos, é razoável concluir:

🛑     Nenhum valor muito extremo foi encontrado: os resíduos padronizados variam de -1.512 a 1.512.

🛑.       Distribuição aparentemente simétrica: isso pode ser confirmado visualmente com o histograma.

🛑        Sem grupo com dispersão claramente maior: o boxplot por grupo sugere que os grupos têm variância semelhante.

Você pode interpretar seus achados:

“A análise dos resíduos padronizados não revelou valores discrepantes evidentes, nem variação excessiva entre os grupos. Todos os resíduos caíram dentro do intervalo esperado para uma distribuição normal padrão (entre -2 e +2), indicando adequação da suposição de homogeneidade de variâncias e ausência de outliers extremos.”

O que fazer quando há outliers?

📌  Verifique se houve erro de medição ou de digitação.

📌 Analise se o comportamento do grupo é atípico (efeito paradoxal?).

📌  Observe se resíduos grandes se concentram em um grupo específico (sugere variância maior).

📌  Compare os resultados da ANOVA com e sem os outliers.

     🔺 Se os resultados forem similares, mantenha os dados.

     🔺 Se forem diferentes, reavalie:

📌 Pode ser necessário um teste não paramétrico

📌Ou repensar hipóteses e objetivos do estudo

 

Veja: Vieira, S. Delineamento e análise de experimentos nas ciências agrárias. Piracicaba, FEALQ, 2021.