Wednesday, September 13, 2017

Erro padrão da média e graus de liberdade

Para explicar erro padrão da média e mostrar a lógica dos graus de liberdade, vamos usar um exemplo irreal, mas que ajuda entender essa questão.
Imagine uma urna com três bolas numeradas. Os números são 4, 10 e 16. Um jogador retira uma bola, anota o número, retorna a bola na urna e retira uma segunda bola. Novamente, anota o número e retorna a bola. Depois calcula a média, que são seus pontos no jogo.
Em termos teóricos, você tem uma população infinita de bolas numeradas (porque você retira uma bola da urna e a retorna) e esse jogo pode ser jogado um número infinito de vezes. A média m da variável em análise é
Nessa fórmula, i = 1, 2,…; xi pode assumir somente os valores 4, 10 ou 16, todos com probabilidade pi =1/3. Então:
                                  
É importante notar que temos a média m da população, um parâmetro. Então a variância não está associada a graus de liberdade. A dispersão da variável em torno da média m é dada por:
No caso, temos:

Considere, agora, cada resultado possível no jogo. O primeiro número retirado da urna pode ser 4, ou 10 ou 16.  O segundo número também pode ser 4, ou 10 ou 16. Logo, pode ocorrer qualquer dos resultados apresentados na Tabela 1. Nessa tabela também são dadas as médias e as variâncias dos resultados que podem ser obtidos por um jogador.
Tabela 1 - Amostras de dois números que podem ser obtidas da população constituída por números 4, 10 e 16, com as respectivas médias e variâncias

Observe os resultados apresentados na Tabela 1: a média das médias de todas as amostras possíveis é igual à média da população e a média das variâncias de todas as amostras possíveis é igual à média da variância da população. Mas veja bem: para que a média das variâncias de todas as amostras seja igual à variância da população, é preciso que as variâncias das amostras tenham sido obtidas com o divisor n - 1.
Dizemos então que a média de uma amostra é uma estimativa não tendenciosa da média da população e a variância de uma amostra (com o divisor n - 1) é uma estimativa não tendenciosa da variância da população. Por que “não tendenciosa”? Porque elas tendem para os valores dos parâmetros.
Sabemos que a média das médias é dada pela soma dos produtos das médias das amostras pelas respectivas probabilidades pi:
Para o exemplo, a Tabela 1 apresenta os nove arranjos que podem ocorrer quando se tomam amostras de tamanho 2 da população estudada.  Note que:
·                     as médias 4 e 16 ocorrem com probabilidade 1/9;
·                     as médias 7 e 13 ocorrem com probabilidade 2/9;
·                     a média 10 ocorre com probabilidade 3/9.

Então a média das médias é

As médias das amostras estão dispersas em torno da média m da população. Será possível medir o grau de dispersão das médias das amostras em torno da média da população?

É importante notar que temos a média m da população, que é um parâmetro. Então não associamos graus de liberdade à variância. A dispersão das médias das amostras em torno da média m da população é dada pela variância da média:



em que  pi é a probabilidade de cada média ocorrer. Para as médias apresentadas na Tabela 1, a variância da média é:



Na prática, é impossível calcular a variância da média pela fórmula apresentada: o pesquisador dispõe de uma única amostra — e não de todas as amostras possíveis. Existe, porém, uma solução: já se demonstrou que a estimativa da variância da média é dada pela fórmula:

                                                       

em que  s2 é a variância da amostra e n é o tamanho da amostra.

Uma amostra permite, portanto, estimar a variância da média que, como vimos, é uma estimativa da variabilidade das médias que seriam obtidas, caso o pesquisador tivesse tomado, nas mesmas condições, todas as amostras possíveis. Podemos calcular o desvio padrão da média, mais conhecido como erro padrão da média, que se indica por sx e é dado por:


Erro padrão da média é a raiz quadrada com sinal positivo da variância da média.

Friday, September 01, 2017

Amplitude estudentizada (studentized range)

   Seja Y uma variável aleatória com distribuição normal de média m e desvio padrão s.  Uma amostra de tamanho r dessa variável fornece uma estimativa s do desvio padrão s. Se os dados dessa amostra forem organizados em ordem crescente, você acha facilmente o valor mínimo e o valor máximo. A diferença entre esses dois valores é a amplitude, que tem a mesma unidade de medida dos dados. Dividindo a amplitude pelo desvio padrão s, você obtém a amplitude estudentizada, que se indica pela letra q e é adimensional porque as unidades de medida da amplitude e do desvio padrão são as mesmas. Então:
 
Imagine agora que você tem k amostras de tamanho r da variável aleatória Y que tem distribuição normal de média m  e variância s2. Cada amostra fornece uma estimativa da média m  e uma estimativa da variância s2. Haverá uma média maior e uma média menor. A amplitude das médias das k amostras é
 Como estamos considerando apenas o caso de amostras de mesmo tamanho, a variância ponderada  das estimativas  (i = 1, 2, ..., k) da variância s2 é a média das estimativas fornecidas por cada uma das k amostras.

Então, a estimativa da variância da amplitude estudentizada das k médias independentes, é

                       
             
A distribuição da estatística

                    
depende do nível de significância a, do número k de amostras e do número n – k  de graus de liberdade associados à estimativa da variância ponderada, em que n = kr

John W. Tukey, um dos grandes estatísticos do século XX, considerava "cientificamente desonesto" fazer uma análise de variância e depois aplicar o teste t de Fisher para comparar médias duas a duas, porque o erro tipo I aumenta com o número de médias em comparação. Ele propôs então a HSD, ou diferença honestamente significante (Honestly Significant Differences).

Para achar a diferença honestamente significante (honestly significant difference), ou seja, a diferença que deve haver entre duas médias para que elas possam ser consideradas estatisticamente diferentes a determinado nível de significância a, calcule:
    Nessa fórmula, a variância ponderada das k amostras é estimada pelo quadrado médio do resíduo QMR da ANOVA, que está associado a n-k graus de liberdade. Mas na HDS, o valor de qa,k,n-k incorpora a √2. É a amplitude estudentizada q de Tukey.

As tabelas que exibem a distribuição da amplitude estudentizada q de Tukey são mais comuns, mas também há tabelas que exibem a distribuição da amplitude estudentizada q sem estar multiplicado por √2. Ocorrem as duas formas em tabelas. Então preste atenção, porque ambas usam o mesmo símbolo.

  Exemplo de procedimento para o teste de Tukey

 São dadas as concentrações de estrôncio (mg/ml) na água de cinco locais diferentes[1]. Vamos fazer a análise de variância e comparar as médias pelo teste de Tukey, usando o programa SAS.  

Concentrações de estrôncio (mg/ml) na água de cinco locais diferentes


Análise de variância

Como o quadrado médio do resíduo obtido na análise de variância é QMR = 9,765, a variância da média é:
                                           

           Logo, o erro padrão da média é:

         

          Para comparar as médias obtidas no exemplo duas a duas, no nível de significância de 5%, como k = 5 e n-k = 25, temos:

                            Saída do SAS



Mas para comparar duas médias usando a amplitude total estudentizada, é possível proceder de outra forma. Dado contraste de médias:


A variância do contraste, desde que as médias sejam independentes, é
  
                
        Para o exemplo:
        


e o  erro padrão do contrate de médias é
  


Então para comparar a média do Local 1 com o Local 2, calcule:



       O valor de q aqui calculado não pode ser comparado com o valor de q da tabela de amplitude estudentizada de Tukey. Para isso, precisa ser multiplicado por  √2. Você tem então

                           4,517 x √2 = 6,388


maior que o valor crítico da amplitude estudentizada de Tukey. Logo, há mais estrôncio no Local 2 que no Local 1.   

Veja agora a saída do SPSS. Note que está indicado como erro padrão é o erro padrão de um contraste de duas médias. Compare com a saída do SAS, em que o que se identifica como erro padrão é o erro padrão de uma média.                

Saída do SPSS

NOTAS
1.O exemplo apresentado é de
Zar, J.J.H. Biostatistical Analysis. New Jersey, Prentice Hall. 4ª ed. 1999, p.210.

2.Você encontra a Tabela de amplitude estudentizada de Tukey, por exemplo, em


3. Amplitude estudentizada: amplitude é a diferença entre valor máximo e valor mínimo de um conjunto de dados. Estudentizada, porque está dividida por s. O adjetivo é uma homenagem a Student, pseudônimo de William S. Gosset, que propôs o teste t.