Experimentos com um Fator
LECON/DEST - UFES
A análise de variância consiste em decompor a variação total das observações do experimento em partes que podem ser atribuídas a causas conhecidas (tratamentos, blocos, etc) e em partes atribuídas a causas não controladas e/ou não controláveis (erro experimental ou resíduo).
Em resumo…
Variação Total= Variação controlada + Variação não-controlada
Assume-se que há \(a\) tratamentos ou diferentes níveis de um único fator a serem comparados.
Tratamento (Níveis) | Observações | Total | Média |
---|---|---|---|
1 | \(y_{11}\quad y_{12}\quad \cdots\quad y_{1n}\) | \(y_{1\cdot}\) | \(\bar{y}_{1\cdot}\) |
2 | \(y_{21}\quad y_{22}\quad \cdots\quad y_{2n}\) | \(y_{2\cdot}\) | \(\bar{y}_{2\cdot}\) |
\(\vdots\) | \(\vdots\qquad \vdots\qquad \cdots\qquad \vdots\) | \(\vdots\) | \(\vdots\) |
\(a\) | \(y_{a1}\quad y_{a2}\quad \cdots\quad y_{an}\) | \(y_{a\cdot}\) | \(\bar{y}_{a\cdot}\) |
Total | \(y_{\cdot\cdot}\) | \(\bar{y}_{\cdot\cdot}\) |
\(y_{ij}\) representa a \(j-\)ésima observação do nível ou do tratamento \(i\).
\[\begin{align*} y_{i\cdot}&=\sum_{j=1}^n y_{ij},\\ \bar{y}_{i\cdot}&=\sum_{j=1}^n \frac{y_{ij}}{n},\\ \bar{y}_{\cdot\cdot}&=\sum_{i=1}^a\sum_{j=1}^n \frac{y_{ij}}{an}. \end{align*}\]
Considere um experimento cujo objetivo é verificar se a inclusão de raízes e tubérculos, como suplementação de inverno na alimentação de vacas em lactação, aumenta a produção de leite. Consideram-se 24 animais, três tipos de suplementos e uma testemunha (placebo), que são:
Sem suplemento (S)
Mandioca (M)
Araruta (A)
Batata doce (B).
Para definir o tipo de suplemento que será dado a cada animal, realiza-se um sorteio aleatório enumerando cada um dos 24 animais (parcelas) que participarão do estudo (\(1\) a \(24\)) e, em seguida, colocam-se os tratamentos em uma sequência, como a dado a seguir:
\[S_1\,\, S_2\,\, S_3\,\, S_4\,\, S_5\,\, S_6\qquad M_1\,\, M_2\,\,M_3\,\, M_4\,\, M_5\,\, M_6\] \[A_1\,\, A_2\,\, A_3\,\, A_4\,\, A_5\,\, A_6\qquad B_1\,\, B_2\,\, B_3\,\, B_4\,\, B_5\,\, B_6\]
Utilizando um gerador de números aleatórios, aloca-se o animal a cada tipo de suplemento. Suponha que a sequência de números aleatórios sorteada, tenha sido
\[24\,\, 23\,\, 22\,\, 14\,\, 1\,\, 13\quad 6\,\, 20\,\, 8\,\, 7\,\, 9\,\, 4\] \[21\,\, 15\,\, 17\,\, 16\,\, 19\,\, 2\quad 11\,\, 5\,\, 10\,\, 3\,\, 18\,\, 12\]
Assim, temos a configuração do experimento a seguir:
Vaca | Tratamento | Vaca | Tratamento | Vaca | Tratamento |
---|---|---|---|---|---|
1 | \(S_5\) | 9 | \(M_5\) | 17 | \(A_3\) |
2 | \(A_6\) | 10 | \(B_3\) | 18 | \(B_5\) |
3 | \(B_4\) | 11 | \(B_1\) | 19 | \(A_5\) |
4 | \(M_6\) | 12 | \(B_6\) | 20 | \(M_2\) |
5 | \(B_2\) | 13 | \(S_6\) | 21 | \(A_1\) |
6 | \(M_1\) | 14 | \(S_4\) | 22 | \(S_3\) |
7 | \(M_4\) | 15 | \(A_2\) | 23 | \(S_2\) |
8 | \(M_3\) | 16 | \(A_4\) | 24 | \(S_1\) |
Consideremos as produções médias diárias (kg) de leite a 4% de gordura das vacas submetidas a administração de raízes e tubérculos, como suplementação de inverno na alimentação de vacas em lactação.
Id. | Prod. | Id. | Prod. | Id. | Prod. | Id. | Prod. |
---|---|---|---|---|---|---|---|
1 | 22,81 | 7 | 25,12 | 13 | 23,54 | 19 | 35,04 |
2 | 35,19 | 8 | 24,36 | 14 | 25,42 | 20 | 22,37 |
3 | 20,37 | 9 | 22,94 | 15 | 32,47 | 21 | 35,42 |
4 | 24,80 | 10 | 26,54 | 16 | 34,48 | 22 | 23,43 |
5 | 24,37 | 11 | 22,15 | 17 | 33,79 | 23 | 21,07 |
6 | 23,40 | 12 | 24,06 | 18 | 19,54 | 24 | 19,58 |
Seja \(y_{ij}\) o valor da produção de leite da \(j-\)ésima vaca que recebeu o \(i-\)ésimo tratamento. Os valores das produções (kg) de leite a 4% de gordura das vacas que participaram do estudo podem ser resumidos na forma:
Trat | Observações | Média |
---|---|---|
S | \(19,58 \quad 21,07 \quad 23,43 \quad 25,42 \quad 22,81 \quad 23,54\) | 22,64 |
M | \(23,40 \quad 22,37 \quad 24,36 \quad 25,12 \quad 22,94 \quad 21,56\) | 23,29 |
A | \(35,42 \quad 32,47 \quad 34,48 \quad 33,79 \quad 35,04 \quad 35,19\) | 34,39 |
B | \(22,15 \quad 24,37 \quad 26,54 \quad 20,37 \quad 19,54 \quad 24,06\) | 22,83 |
Testar se há diferença na produção média de leite de acordo com o tipo de suplementação.
Medidas descritivas:
Aplicar o teste \(t\) para amostras independentes e analisar todos os pares de médias.
Hipóteses: \[ \textrm{H}_0: \mu_1-\mu_2=0\quad \textrm{vs. } \textrm{H}_1: \mu_1-\mu_2\neq 0. \] —
Estatística de teste: \[ t_{0}=\dfrac{(\bar{y}_1-\bar{y}_2)-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}, \] onde \[ S_p^2=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}} \]
Resumindo:
S | M | A | B | |
---|---|---|---|---|
S | – | ND | ** | ND |
M | – | – | ** | ND |
A | – | – | – | ** |
B | – | – | – | – |
ND: Sem diferença significativa.
**: Diferença significativa ao nível \(5\%\).
Warning
Esta solução é INCORRETA, pois leva a uma distorção do Erro Tipo I.
Suponha que seja testada a igualdade das quatro médias usando comparações pareadas. Há 6 pares possíveis e, se a probabilidade de aceitar corretamente a hipótese nula para cada par testado é de \((1-\alpha)=0,95\), então a probabilidade de aceitar corretamente a hipótese nula para todos os 6 pares é \((0,95)^6=0,7359\), se os testes forem independentes.
Solução apropriada para testar a igualdade de várias médias
Análise de Variância
O modelo para descrever os dados de um experimento pode ser escrito como
\[\begin{equation} y_{ij}=\mu_i+\epsilon_{ij}, \quad i=1,\ldots,a,\quad j=1,\ldots,n,\qquad \text{(1)} \end{equation}\]onde
\(y_{ij}\) representa a \(ij-\)ésima observação
\(\mu_i\) é a média do \(i-\)ésimo nível do fator ou tratamento
Observação
Esse modelo é chamado Modelo de Médias.
Seja
\[\mu_i=\mu+\tau_i,\qquad i=1,2,\ldots,a.\] A Equação (1) torna-se o Modelo de Efeitos, escrito como
\[\begin{align*} y_{ij}=\mu+\tau_i+\epsilon_{ij}, \qquad i&=1,\ldots,a,\\ j&=1,\ldots, n, \end{align*}\]
onde
\(y_{ij}\) é o valor observado na unidade \(j\) que recebeu o tratamento \(i\)
\(\mu\) é um parâmetro constante, comum a todos os tratamentos, chamado média geral (quando os dados são balanceados)
\(\tau_i\) é um parâmetro único que representa o efeito do \(i-\)ésimo tratamento
\(\epsilon_{ij}\) é um componente do erro aleatório, associado à \(j-\)ésima repetição do \(i-\)ésimo tratamento.
onde
\(y_{ij}\) é a observação do \(i-\)ésimo tratamento na \(j-\)ésima unidade experimental (variável resposta);
\(\mu\) é a média global;
\(\tau_i\) é o efeito do \(i-\)ésimo tratamento;
\(\epsilon_{ij}\) é o erro associado ao \(i-\)ésimo tratamento na \(j-\)ésima unidade experimental. Incorpora todas as fontes de variabilidade não controladas no experimento.
Tem-se que \(\tau_i\) e \(\epsilon_{ij}\) são variáveis aleatórias independentes entre si, com \(\tau_i\sim N(0,\sigma_{\tau}^2)\) e \(\epsilon_{ij}\sim N(0,\sigma^2)\).
Importante
A condição \(E(\tau_i)=0\) é similar à condição \(\sum_{i=1}^a \tau_i=0\).
Estabelece que o efeito esperado do \(i-\)ésimo nível, considerado como um desvio de \(\mu\), é zero.
Se a variância dos efeitos dos tratamentos \(\tau_i\) é \(\sigma_{\tau}^2\), a variância da resposta é dada por
\[\text{var}(y_{ij})=\sigma_{\tau}^2+\sigma^2.\]
As variâncias \(\sigma_{\tau}^2\) e \(\sigma^2\) são chamadas Componentes de variância.
Se \(\sigma_{\tau}^2=0\), todos os tratamentos são idênticos, mas se \(\sigma_{\tau}>0\), há variabilidade entre os tratamentos.
Para estudar o efeito de diferentes operadores sobre o tempo de execução de uma tarefa, em uma determinada máquina, seleciona-se uma amostra de cinco operadores de um grupo de \(N\) operadores possíveis.
Para estudar o efeito dos trilhos usados nas estradas de ferro, sobre o tempo de percurso de certo tipo de onda resultante da pressão longitudinal dos trilhos, selecionaram-se aleatoriamente seis trilhos e são feitas três medições.
onde
\(y_{ij}\) é a observação do \(i-\)ésimo tratamento na \(j-\)ésima unidade experimental (variável resposta);
\(\mu\) é a média geral, comum a todos os tratamentos;
\(\tau_i\) representa o efeito do \(i-\)ésimo tratamento;
\(\epsilon_{ij}\) é o erro associado ao \(i-\)ésimo tratamento na \(j-\)ésima unidade experimental. Incorpora todas as fontes de variabilidade não controladas no experimento.
Os efeitos principais devem ser aditivos: Nos experimentos, cada observação segue um modelo linear aditivo \(y_{ij}=\mu+\tau_i+\epsilon_{ij}\).
Os erros de observação são independentes: \[\text{cov}(\epsilon_{ij},\epsilon_{ij}')=0.\] —
Os erros são homoscedásticos: Cada tratamento deve ter aproximadamente a mesma variância.
Os erros são normalmente distribuídos: Para que a ANOVA seja válida, os erros devem ser originários da mesma população.
Em resumo…
\[\epsilon_{ij}\sim N(0,\sigma^2).\]
O objetivo é, em geral, verificar se existe diferença significativa entre, pelo menos, duas médias de tratamentos. As hipóteses testadas são:
\[\begin{align*} \textrm{H}_0&: \mu_1=\mu_2=\cdots=\mu_a\\ \textrm{H}_1&: \mu_i\neq \mu_i' \quad \textrm{para pelo menos um } i\neq i'. \end{align*}\]Forma equivalente
Funções de Parâmetros Completamente Estimáveis
Uma função dos parâmetros de qualquer modelo linear é dita estimável se, e somente se, pode ser escrita como o valor esperado de uma combinação linear das variáveis resposta. Apenas funções estimáveis dos parâmetros têm estimativas lineares não-viesadas únicas. Para o modelo de análise de variância de uma via, cada função estimável tem a forma \[\begin{align*} \mathbb{E}\left[\sum_{i=1}^a \sum_{j=1}^n a_{ij}y_{ij}\right]&=\sum_{i=1}^a \sum_{j=1}^n a_{ij}\mathbb{E}[y_{ij}]\\ &=\sum_{i=1}^a \sum_{j=1}^n a_{ij} (\mu + \tau_i)=\sum_{i=1}^a b_i(\mu + \tau_i), \end{align*}\] onde \(b_i=\sum_{j=1}^n a_{ij}\) e os \(a_{ij}\) são números reais.
Observação
Claramente \(\mu+\tau_1\) é estimável, pois pode ser obtida fixando \(b_1=1\) e \(b_2=b_3=\cdots=b_a=0\). Da mesma forma, cada \(\mu+\tau_i\) é estimável.
\[L(\mu,\tau_1,\ldots,\tau_a)=\sum_{i=1}^a\sum_{j=1}^n \epsilon_{ij}^2=\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\mu-\tau_i)^2\] Derivando-se \(L\) em relação a cada um dos parâmetros:
\[\begin{align*} \frac{\partial L(\mu,\tau_1,\ldots,\tau_a)}{\partial\mu}&=-2\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\mu-\tau_i)\\ \frac{\partial L(\mu,\tau_1,\ldots,\tau_a)}{\partial\tau_i}&=-2\sum_{j=1}^n (y_{ij}-\mu-\tau_i)\\ \end{align*}\]
Igualando-se os resultados a zero, temos:
\[\begin{align*} -2\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\hat{\mu}-\hat{\tau}_i)&=0\\ -2\sum_{j=1}^n (y_{ij}-\hat{\mu}-\hat{\tau}_i)&=0\\ \end{align*}\]
Desenvolvendo os somatórios, obtemos o sistema de equações normais:
\[\begin{align*} \sum_{i=1}^a\sum_{j=1}^n y_{ij} &=an\widehat{\mu}+n\sum_{i=1}^a \widehat{\tau}_i\\ \sum_{j=1}^n y_{ij}&= n\widehat{\mu}+n\widehat{\tau}_i \end{align*}\]
Problema
O conjunto de equações normais não é linearmente independente. Não existe solução única para os parâmetros a serem estimados.
Solução
Impor a restrição: \[\sum_{i=1}^a \hat\tau_i=0\] Nessas condições:
\[\begin{align*} \hat\mu&=\overline{y}_{\cdot\cdot}\\ \hat{\tau}_i&=\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot}, \quad i=1,\ldots,a. \end{align*}\]\[\begin{align*} &\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{\cdot\cdot})^2=\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{i\cdot}+\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2\\ &=\sum_{i=1}^a\sum_{j=1}^n [(y_{ij}-\overline{y}_{i\cdot})^2+(\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2+2(y_{i\cdot}-\overline{y}_{\cdot\cdot})(y_{ij}-\overline{y}_{i\cdot})]\\ &=\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{i\cdot})^2+\sum_{i=1}^a\sum_{j=1}^n (\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2\\ &+2\sum_{i=1}^a\sum_{j=1}^n (y_{i\cdot}-\overline{y}_{\cdot\cdot})(y_{ij}-\overline{y}_{i\cdot}) \end{align*}\]
\[\begin{align*} \sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{\cdot\cdot})^2&=\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{i\cdot})^2+\sum_{i=1}^a\sum_{j=1}^n (\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2, \end{align*}\]
pois
\[\sum_{i=1}^a\sum_{j=1}^n (y_{i\cdot}-\overline{y}_{\cdot\cdot})(y_{ij}-\overline{y}_{i\cdot})=0.\]
Logo,
\[\begin{align*} \sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{\cdot\cdot})^2&=\underbrace{\sum_{i=1}^a\sum_{j=1}^n (y_{ij}-\overline{y}_{i\cdot})^2}+\underbrace{\sum_{i=1}^a\sum_{j=1}^n (\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2}\\ SQT &= \phantom{****}\,SQE\qquad\quad + \phantom{****}SQTr \end{align*}\]
Desenvolvendo-se os quadrados, obtemos
\[\begin{align*} SQT&=\sum_{i=1}^a\sum_{j=1}^n y_{ij}^2-\dfrac{y_{\cdot\cdot}^2}{an}\qquad SQTr=\sum_{i=1}^a \dfrac{y_{i\cdot}^2}{n}-\dfrac{y_{\cdot\cdot}^2}{an}\\ SQE&=SQT-SQTr \end{align*}\]
Lembrete
A variância é calculada como \(\dfrac{SQ}{gl}\), onde \(SQ\) representa a soma de quadrados dos desvios com respeito à média e \(gl\) são os graus de liberdade.
Há \(N=an\) observações totais, logo \(SQT\) tem \(N-1\) graus de liberdade.
Há \(a\) tratamentos, logo \(SQTr\) tem \(a-1\) graus de liberdade.
Há \(n\) réplicas que proporcionam \(n-1\) graus de liberdade para estimar o erro experimental. Dado que há \(a\) tratamentos, SQE tem \(a(n-1)\) graus de liberdade (ou \(N-a\) gl). Assim,
\[QMTr=\dfrac{SQTr}{a-1}\qquad QME=\dfrac{SQE}{N-a}.\]
Fonte de Variação | g.l. | SQ | QM | \(F_0\) |
---|---|---|---|---|
Tratamentos (Entre) | \(a-1\) | \(\frac{1}{n}\sum_{i=1}^a y_{i\cdot}^2-\frac{y_{\cdot\cdot}^2}{N}\) | \(\frac{SQTr}{a-1}\) | \(\frac{QMTr}{QME}\) |
Erro (Dentro) | \(N-a\) | \(SQT-SQTr\) | \(\frac{SQE}{N-a}\) | |
Total | \(N-1\) | \(\sum_{i=1}^a\sum_{j=1}^n y_{ij}^2-\frac{y_{\cdot\cdot}^2}{N}\) | — |
Os resíduos são dados por
\[\hat{\epsilon}_{ij}=y_{ij}-\overline{y}_{i\cdot}\]
Deve-se verificar:
Presença de dados discrepantes.
Independência dos resíduos.
Homoscedasticidade.
Distribuição Normal dos resíduos.
Dados discrepantes
Estimar os resíduos padronizados
\[z_{ij}=\frac{\hat{\epsilon}_{ij}}{\sqrt{QME}}.\]
Se a normalidade dos resíduos for satisfeita, aproximadamente 99,7% deles devem estar no intervalo \((-3;3)\). Assim, resíduos fora desse intervalo, são considerados discrepantes.
Independência
Usa-se o gráfico dos resíduos padronizados versus a ordem de coleta dos dados.
Gráfico de resíduos versus valores preditos.
Pode-se aplicar o Teste de Durbin-Watson.
Homoscedasticidade
Análise gráfica, por exemplo box-plot ou gráfico de dispersão para tratamentos vs. resíduos.
Teste de Hartley (Precisa ter igual número de réplicas em cada tratamento).
Teste de Bartlett (Diferente número de repetições. Sensível à não normalidade dos dados).
Teste de Cochran (Pode ser usado com diferente número de repetições por tratamento).
Teste de Goldfeld-Quandt.
Transformação de Box-Cox
\[y^*=\begin{cases} \frac{y^{\lambda}-1}{\lambda}& \text{se }\lambda\neq 0\\ \ln{y} & \text{se }\lambda = 0. \end{cases}\]
A utilização da transformação Box-Cox exige que todos os valores da sequência de entrada sejam positivos e diferentes de zero. Se a sequência de entrada não atende a esses requisitos, ela pode ser movida transformada para garantir os valores positivos.
Dependendo do valor de \(\lambda\), a transformação de Box-Cox inclui os casos especiais:
\[\begin{align*} \lambda&=-1.0\quad y^*=\frac{1}{y}\\ \lambda&=-0.5\quad y^*=\frac{1}{\sqrt{y}}\\ \lambda&=-0.0\quad y^*=\ln{y}\\ \lambda&=0.5\qquad y^*=\sqrt{y}\\ \lambda&=1.0\qquad y^*=y^2\\ \end{align*}\]
Para determinar o valor ideal do parâmetro \(\lambda\), maximiza-se o logaritmo da função de verossimilhança
\[\begin{align*} f(y,\lambda)&=-\frac{N}{2}\ln\left[\sum_{i=0}^{N-1} \frac{(y(\lambda)-\bar{y}(\lambda))^2}{N} \right]+(\lambda-1)\sum_{i=1}^{N-1} \ln(y)\\ \bar{y}(\lambda)&=\frac{1}{N}\sum_{i=0}^{N-1} y(\lambda) \end{align*}\]
Isto implica que precisamos selecionar o valor de \(\lambda\) em que esta função atinge seu valor máximo.
Próximo passo…
Precisamos determinar quais médias são diferentes.
Comparação duas a duas;
Comparação das médias dos tratamentos com a média do grupo controle;
Comparações múltiplas.
Um contraste é uma combinação linear de parâmetros da forma
\[\Gamma=\sum_{i=1}^a c_i\mu_i \quad \text{ em que } \quad \sum_{i=1}^a c_i=0.\]
Lembrete
Lembrando da definição de função estimável, observamos que todos os contrastes são estimáveis na análise de variância a uma via. Por exemplo, fixando \(b_1=1\), \(b_2=-1\), \(b_3,\ldots,b_a=0\), temos que \(\mu_1-\mu_2\) é uma função estimável. Da mesma forma, cada \(\mu_i-\mu_k\), \(i\neq k\), é estimável.
No experimento da suplementação para vacas em lactação, poderia-se pensar que os suplementos 2 e 4 produzem a mesma quantidade de leite, implicando no teste das hipóteses \[\textrm{H}_0: \mu_2=\mu_4\quad \textrm{ vs. }\quad \textrm{H}_1: \mu_2\neq \mu_4.\]
Se houver suspeitas de que a média dos tratamentos 1 e 2 não diferem da média dos tratamentos 3 e 4, temos: \[\textrm{H}_0: \mu_1+\mu_2=\mu_3+\mu_4\quad \textrm{ vs. }\quad \textrm{H}_1: \mu_1+\mu_2\neq \mu_3+\mu_4.\]
Formas básicas
Primeiro, devemos escrever o contraste de interesse em termos das médias dos tratamentos:
\[C=\sum_{i=1}^a c_i\overline{y}_{i\cdot}\]
A variância do contraste é dada por
\[\begin{align*} \text{var}(C)&=\sum_{i=1}^a \text{var}(c_i\overline{y}_{i\cdot})\\ &=\sum_{i=1}^a c_i^2\text{var}(\overline{y}_{i\cdot})\\ &=\frac{\sigma^2}{n}\sum_{i=1}^a c_i^2. \end{align*}\]
Dado que não conhecemos a variância do erro, usamos seu estimador. Daí, \(\widehat{\text{var}}(C)=\frac{QME}{n}\sum_{i=1}^a c_i^2.\)
Portanto, a estatística de teste é dada por
\[t_0=\frac{\sum_{i=1}^a c_i\overline{y}_{i\cdot}}{\sqrt{\frac{QME}{n}\sum_{i=1}^a c_i^2}} \sim t_{(N-a)}.\]
Rejeita-se a hipótese nula se \(|t_0|>t_{\alpha/2,N-a}\).
Podemos mostrar que
\[t_0^2=F_0=\frac{(\sum_{i=1}^a c_i\overline{y}_{i\cdot})^2}{\frac{QME}{n}\sum_{i=1}^a c_i^2} \sim F_{(\alpha, 1, N-a)}.\]
Rejeita-se a hipótese nula se \(F_0>F_{(\alpha,1,N-a)}\).
Dois contrastes com coeficientes \(c_i\) e \(d_i\) são ortogonais se \[\sum_{i=1}^a c_id_i=0.\]
Para \(a\) tratamentos, o conjunto de \(a-1\) contrastes ortogonais particiona a soma dos quadrados dos tratamentos em \(a-1\) componentes com um grau de liberdade cada. Deste modo, os testes feitos usando contrastes ortogonais são independentes.
Observações
Há várias formas de escolher os coeficientes dos contrastes ortogonais. Usualmente algo na natureza do experimento irá sugerir quais as comparações de interesse;
Em geral, o método de contrastes é útil quando temos comparações pré-planejadas, isto é, contrastes especificados antes de fazer o experimento e analisar os dados.
Considere o experimento dos suplementos para vacas. Os contrastes ortogonais apropriados poderiam ser:
Tratamento | \(C_1\) | \(C_2\) | \(C_3\) |
---|---|---|---|
Sem Suplemento | 3 | 0 | 0 |
Mandioca | -1 | -1 | 1 |
Araruta | -1 | 2 | 0 |
Batata doce | -1 | -1 | -1 |
O contraste \(C_1\) compara o efeito médio dos tratamentos com suplemento e sem suplemento.
No contraste \(C_2\) são comparados os efeitos médios da Araruta com a Mandioca e Batata Doce.
O contraste \(C_3\) compara o efeito médio da Mandioca e da Batata Doce.
Importante
Os coeficientes dos contrastes devem ser escolhidos antes de executar o experimento e examinar os dados. A razão para isto é que, se as comparações forem selecionadas após examinar os dados, alguns pesquisadores poderiam construir testes que corresponderiam a grandes diferenças observadas na média.
Assumindo que as hipóteses de pesquisa foram elaboradas antes da realização do experimento temos:
\[\begin{align*} C_1&=3\mu_1-(\mu_2+\mu_3+\mu_4)\\ C_2&=2\mu_3-(\mu_2+\mu_4)\\ C_3&= \mu_2-\mu_4\\ \end{align*}\]
Uma estimativa para qualquer desses contrastes é obtida substituindo-se as médias por suas estimativas, dadas por \(\overline{y}_{i}\), temos por exemplo
\[\widehat{C}_1=3\overline{y}_{1}-(\overline{y}_{2}+\overline{y}_{3}+\overline{y}_{4}).\]
A variância do contraste é dada por
\[\begin{align*} \text{var}(\widehat{C}_1)&=9\text{var}(\overline{y}_{1})+\text{var}(\overline{y}_{2})+\text{var}(\overline{y}_{3})+\text{var}(\overline{y}_{4})\\ &=9\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{n}+\frac{\sigma_3^2}{n}+\frac{\sigma_4^2}{n}. \end{align*}\]
Assumindo homoscedasticidade, temos
\[\widehat{\text{var}}(\widehat{C}_1)=12\times \frac{\text{QME}}{n}\]
Dessa forma: \(t_0=\frac{−12,6033}{\sqrt{12\times \frac{3,53}{6}}}=-4,74.\)
Observação
A análise dos contrastes ortogonais por meio da ANOVA é conhecido como Desdobramento dos graus de liberdade dos Tratamentos ou Partição das Somas de Quadrados dos Tratamentos.
No caso do exemplo aqui analisado, temos
\[\begin{align*} SQC_1&=\frac{(3\times 135,85 -139,75 - 206,39 - 137,03)^2}{6\times [3² +(-1)^2 + (-1)^2 + (-1)^2]}\\ &=79,42.\\ SQC_2&=\frac{(3\times 206,39 -139,75 - 137,03)^2}{6\times [2² +(-1)^2 + (-1)^2]}\\ &=513,77.\\ SQC_3&=\frac{(139,75 - 137,03)^2}{6\times [(-1)^2 + (-1)^2]}\\ &=0,6165. \end{align*}\]
O erro Tipo I é, no máximo, \(\alpha\) para qualquer uma das possíveis comparações.
Estatística de Teste
\[\begin{align*} F_{0j}&=\left(\frac{C_j-E(C_j)}{\sqrt{(a-1)\widehat{\text{var}}(C_j)}}\right)^2\\ &=\frac{(\sum_{i=1}^a c_i \overline{y}_{i\cdot})^2}{(a-1)\frac{QME}{n}\sum_{i=1}^a c_i^2}\sim F_{(\alpha,a-1,N-a)}. \end{align*}\]
Margem de erro do Teste
\[E_j=\sqrt{(a-1)F_{(\alpha,a-1,N-a)}\frac{QME}{n}\sum_{i=1}^a c_i^2}.\]
Se \(F_{0j}>F_{(\alpha,a-1,N-a)}\) ou \(|C_j|>E_j\) rejeita-se a hipótese \(H_0: \sum_{i=1}^a c_i\mu_i=0\).
Observação
Pode ser usado para construir intervalos de confiança simultâneos, \(C_j-E_j<\Gamma_j<C_j+E_j\), em que a confiança simultânea de todos os intervalos é, no mínimo, \(1-\alpha\).
Posthoc multiple comparisons of means: Scheffe Test
95% family-wise confidence level
$Suplemento
diff lwr.ci upr.ci pval
B-A -11.5600000 -14.868364 -8.251636 2.0e-08 ***
M-A -11.1066667 -14.415031 -7.798302 3.8e-08 ***
S-A -11.7566667 -15.065031 -8.448302 1.5e-08 ***
M-B 0.4533333 -2.855031 3.761698 0.9811
S-B -0.1966667 -3.505031 3.111698 0.9984
S-M -0.6500000 -3.958364 2.658364 0.9475
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Para um erro experimental de \(\alpha\), Bonferroni recomenda usar \(\alpha/g\) como nível de significância para cada teste.
Estatística de Teste
\[b_{cal}=\frac{|\overline{y}_{i}-\overline{y}_{j}|}{\sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)}}\sim t_{\left(\frac{\alpha}{2g},N-a\right)}.\]
Rejeita-se \(H_0\), se \[|\overline{y}_{i}-\overline{y}_{j}|\geq t_{\left(\frac{\alpha}{2g},N-a\right)}\sqrt{QME\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}.\]
Observações
Adequado para comparações pré-planejadas, sendo pequeno o número de comparações planejadas.
Não é útil quando o número de comparações é grande.
pair<-dados%>%
pairwise_t_test(Producao~Suplemento, pool.sd=FALSE, p.adjust.method="bonferroni")
pair
# A tibble: 6 × 10
.y. group1 group2 n1 n2 statistic df p p.adj p.adj.signif
<chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <chr>
1 Produc… A B 6 6 9.87 6.71 3.07e-5 1.84e-4 ***
2 Produc… A M 6 6 15.9 9.76 2.67e-8 1.6 e-7 ****
3 Produc… A S 6 6 12.3 7.71 2.38e-6 1.43e-5 ****
4 Produc… B M 6 6 -0.377 7.29 7.17e-1 1 e+0 ns
5 Produc… B S 6 6 0.144 9.41 8.89e-1 1 e+0 ns
6 Produc… M S 6 6 0.656 8.47 5.29e-1 1 e+0 ns
Estatística de Teste
\[q_{cal}=\frac{\overline{y}_{max}-\overline{y}_{min}}{\sqrt{\frac{QME}{2}\left(\frac{1}{n_{max}}+\frac{1}{n_{min}}\right)}}\sim q_{(a,N-a)}.\] Quando \(n_1=\cdots=n_a=n\) rejeita-se \(H_0\), se \[|\overline{y}_{i\cdot}-\overline{y}_{j\cdot}|\geq q_{(\alpha,a,N-a)}\sqrt{\frac{QME}{n}}.\]
Observação
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Producao ~ Suplemento, data = dados)
$Suplemento
diff lwr upr p adj
B-A -11.5600000 -14.597229 -8.522771 0.0000000
M-A -11.1066667 -14.143896 -8.069438 0.0000000
S-A -11.7566667 -14.793896 -8.719438 0.0000000
M-B 0.4533333 -2.583896 3.490562 0.9747902
S-B -0.1966667 -3.233896 2.840562 0.9978139
S-M -0.6500000 -3.687229 2.387229 0.9311689
Estatística de Teste
\[d_{cal}=\frac{\overline{y}_{i\cdot}-\overline{y}_{c}}{\sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{c}}\right)}}\sim d_{(a-1,N-a)}.\]
Quando \(n_1=\ldots=n_a=n\) rejeita-se \(H_0\), se
\[|\overline{y}_{i\cdot}-\overline{y}_{c}|\geq d_{(\alpha,a-1,N-a)}\sqrt{\frac{2\times QME}{n}}.\]
Limitações para o número de repetições
Em geral, o número de repetições será determinado pelo fator com maior variação, ou então, pela variável mais importante para o pesquisador.
Este método precisa de alguma estimativa prévia da variabilidade da resposta.
Pode determinar-se a diferença mínima significativa (d) que se deseja encontrar entre os tratamentos do experimento.
O número de repetições é dado por: \[n=\frac{q^2\widehat{s}^2F_{(n_1,n_2;\alpha)}}{d^2},\]
onde
Dado que \(q\) e \(F\) dependem do valor de \(n\), a solução é obtida por aproximações sucessivas, a partir de uma tentativa inicial.
Seja um experimento com 5 tratamentos. De experimentos anteriores, temos uma estimativa do desvio padrão dos resíduos dada por \(\widehat{s}^2=7,4Kg/\)parcela, por exemplo, com \(n_2=60\).
Deseja-se que o novo experimento detecte diferenças de produção de \(15Kg/\)parcela ou maiores. Um novo experimento está sendo planejado com um delineamento completamente aleatorizado.
Testando 5 tratamentos com 5 repetições, inicialmente temos 4 g.l. para tratamentos e 20 g.l. para o resíduo.
Considerando \(\alpha=0,05\) temos \(q=4,23\) e \(F_{(20,60;0,05)}=1,81\). Assim: \[n=\frac{(4,23)^2(7,4)^2(1,81)}{(15)^2}=8,3.\] Logo, o valor de \(n\) adequado é de aproximadamente 9 repetições.
Definição
Uma curva característica de operação é um gráfico da probabilidade de erro tipo II de um teste estatístico para um tamanho amostral particular versus um parâmetro que varia no intervalo onde a hipótese nula é falsa.
Consideramos a probabilidade de erro tipo II do modelo de efeitos fixos para o caso de igual número de repetições em cada tratamento,
\[\begin{align*} \beta&=1-\text{P}[\text{Rejeitar H}_0|\text{H}_0 \text{ falsa}]\\ &=1-\text{P}[F_0>F_{(\alpha,a-1,N-a)}|\text{H}_0 \text{ falsa}] \end{align*}\]
Se \(H_0\) for falsa, \(F_0=\frac{QMTr}{QME}\sim F_{(\alpha,a-1,N-a;\delta)}\).
Podem ser usadas curvas características de operação que comparam a probabilidade do erro tipo II (\(\beta\)) com o parâmetro \(\Phi\), onde \[\Phi^2=\frac{n\sum_{i=1}^a \tau_i^2}{a\sigma^2}.\] A quantidade \(\Phi^2\) está relacionada com o parâmetro de não centralidade \(\delta\).
Assuma que cinco tratamentos são comparados em um experimento completamente aleatorizado com \(\alpha=0,01\). O experimentador quer saber quantas réplicas deve observar se interessa rejeitar \(H_0\) com probabilidade de, no mínimo, 0,90 se \(\sum_{i=1}^5 \tau_i^2/\sigma^2=5,0\).
Nesse caso, o parâmetro \(\Phi^2\) está dado por \[\Phi^2=\frac{n\sum_{i=1}^5 \tau_i^2}{a\sigma^2}=\frac{5,0n}{5}=n,\]
A curva característica de operação com \(\nu_1=a-1=4\) e \(\nu_2=a(n-1)=5(n-1)\) g.l. é:
Se \(n=4\), temos que \(\Phi^2=4\), ou seja, \(\Phi=2\) e \(\nu_2=5(3)=15\) graus de liberdade do erro. Consequentemente, \(\beta\simeq 0,38\). Isto é, o poder do teste é \(1-\beta=1-0,38=0,62\).
\(n\) | \(\Phi^2\) | \(\Phi\) | \(a(n-1)\) | \(\beta\) | \(1-\beta\) |
---|---|---|---|---|---|
4 | 4 | 2,00 | 15 | 0,38 | 0,62 |
5 | 5 | 2,24 | 20 | 0,18 | 0,82 |
6 | 6 | 2,45 | 25 | 0,06 | 0,94 |
O conteúdo disponível consiste em material protegido pela legislação brasileira, sendo certo que, por ser o detentor dos direitos sobre o conteúdo disponível na plataforma, o LECON e o NEAEST detém direito exclusivo de usar, fruir e dispor de sua obra, conforme Artigo 5o, inciso XXVII, da Constituição Federal e os Artigos 7o e 28o, da Lei 9.610/98. A divulgação e/ou veiculação do conteúdo em sites diferentes à plataforma e sem a devida autorização do LECON e o NEAEST, pode configurar violação de direito autoral, nos termos da Lei 9.610/98, inclusive podendo caracterizar conduta criminosa, conforme Artigo 184o, §1o a 3o, do Código Penal. É considerada como contrafação a reprodução não autorizada, integral ou parcial, de todo e qualquer conteúdo disponível na plataforma.
Equipe LECON/NEAEST: Alessandro J. Q. Sarnaglia, Bartolomeu Zamprogno, Fabio A. Fajardo, Luciana G. de Godoi e Nátaly A. Jiménez.
Material elaborado pela equipe LECON/NEAEST