class: center, middle, inverse, title-slide .title[ # ANÁLISE DE DADOS CATEGORIZADOS STA13833 ] .subtitle[ ## Associação em Tabelas de Tripla Entrada ] .author[ ### Nátaly A. Jiménez Monroy ] .institute[ ### LECON/DEST - UFES ] .date[ ### Vitória. ES ] --- class: animated, fadeIn <style> body {text-align: justify} </style> <!-- Justify text. --> #Análise Estratificada * As variáveis estratificadoras podem confundir aparentes relações causais. É necessário controlar ou minimizar o efeito das mesmas para obtenção de conclusões mais confiáveis. * Análises que consideram o efeito dessas variáveis são usualmente denominadas **<span style="color:orange">análises estratificadas</span>**. - As análises são realizadas com os dados estratificados pelas categorias dessas variáveis. - A estratificação pode ser resultado do delineamento adotado ou sua necessidade pode aparecer após a coleta dos dados. --- class: animated, fadeIn ##Exemplo 1 - I Estudo realizado com o objetivo de se verificar a associação entre fumo voluntário e câncer de pulmão em que ́e considerada uma estratificação pelo fator fumo passivo. | F. Passivo || F. Voluntário || Câncer de Pulmão | || Total | |:-----------:||:--------------:||:-------------------:|:--------:||:--------:| | || || Sim | Não || | | Sim || Sim || | || | | || Não || | || | | Não || Sim || | || | | || Não || | || | | Total || || | || . | --- class: animated, fadeIn ##Exemplo 1 - II **Variável Resposta**: Câncer de pulmão - Variável Explicativa: Fumo voluntário - Variável de confundimento/confusão: Fumo passivo -- >**Observação**: Caso a influência do confundimento entre fumo voluntário e fumo passivo não seja considerada, associação entre tabaco e câncer de pulmão pode até mesmo não ser detectada, ou sua intensidade não ser bem avaliada. >Em face da incerteza, é conveniente realizar ambas as an ́alises: com e sem estratificação. --- class: animated, bounceInDown #Notação e Estrutura * Uma tabela de contingência de três vias é uma classificação cruzada de observações nos níveis de três varáveis categóricas. Assumimos três varáveis `\(X\)`, `\(Y\)` e `\(Z\)`, em que - `\(X\)` toma valores `\(1, 2, \ldots, I\)`. - `\(Y\)` toma valores `\(1, 2, \ldots, J\)`. - `\(Z\)` toma valores `\(1, 2, \ldots, K\)`. * Se observamos as variáveis `\((X,Y,Z)\)` para cada indivíduo em uma amostra de tamanho `\(n\)`, os dados podem ser resumidos como uma tabela tridimensional. Seja `\(n_{ijk}\)` o número de unidades para as quais `\(X=i\)`, `\(Y=j\)` e `\(Z=j\)`, Dessa forma, o vetor de contagens de células `\((n_{111}, n_{112}, \ldots, n_{IJK})\)` pode ser organizado em uma tabela com dimensões `\(I\times J\times K\)`. -- >Geometricamente, podemos pensar na tabela de três vias como um cubo. --- class: animated, fadeIn #Exemplo 2 - I Informações sobre admissões nas pós-graduações nos seis maiores departamentos da U.C. Berkeley em 1973. | Departamento || Homens admitidos || Homens rejeitados || Mulheres admitidas || Mulheres rejeitadas | |:-------------:||:----------------:||:-------------------:||:--------------------:||:---------------------:| | A || 512 || 313 || 89 || 19 | | B || 353 || 207 || 17 || 8 | | C || 120 || 205 || 202 || 291 | | D || 138 || 279 || 131 || 244 | | E || 53 || 138 || 94 || 199 | | F || 22 || 351 || 24 || 317 | -- * Podemos visualizar essa informação como uma tabela `\(2\times 2\times 6\)`, onde `\(X=\)` Sexo (1=masculino, 2=feminino), `\(Y=\)` Admissão (1=admitido, 2=rejeitado), e `\(Z=\)` departamento `\((1=A, 2=B,\ldots,6=F)\)`. Por exemplo, `\(n_{112}=353\)` corresponde ao número de homens admitidos no departemento B. --- class: animated, bounceInDown #Tabelas Parciais Um conjunto de tabelas de duas vias é definido como **<span style="color:orange">tabelas parciais</span>**. Há três formas diferentes das tabelas parciais: - Considerando `\(I\)`, tabelas `\(Y\times Z\)` para cada nível de `\(X\)`, - Considerando `\(J\)`, tabelas `\(X\times Z\)` para cada nível de `\(Y\)`, - Considerando `\(K\)`, tabelas `\(Y\times Z\)` para cada nível de `\(Z\)`,. --- class: animated, fadeIn #Exemplo 2 - II Tabelas parciais entre sexo e admissão para cada departamento nos dados de Berkeley. Esta representação corresponde à **<span style="color:orange">distribuição condicional</span>** porque o departamento está fixado em cada tabela. * **Departamento A**: | Sexo || Admissão | | |:------------:||:------------:|:-----------:| | || Admitido | Rejeitado | | Masculino || 512 | 313 | | Feminino || 89 | 19 | * **Departamento B**: | Sexo || Admissão | | |:------------:||:------------:|:-----------:| | || Admitido | Rejeitado | | Masculino || 353 | 207 | | Feminino || 17 | 8 | --- class: animated, bounceInDown #Tabelas Marginais * Considerando `\(n_{ij+}=\sum_{k=1}^K n_{ijk}\)`. O vetor de contagens `\((n_{11+}, n_{12+},\ldots,n_{IJ+})\)` pode ser organizado em uma tabela de dimensões `\(I\times J\)`, chamada de **<span style="color:orange">tabela marginal</span>** de X e Y. * Há três possíveis tabelas marginais resultantes de uma tabela de três vias. Essencialmente, somando-se sobre uma variável, ignora-se sua associação com cada uma das outras variáveis. --- class: animated, fadeIn #Exemplo 2 - III Tabela marginal entre sexo e admissão, obtida somando sobre os seis departamentos. | Sexo || Admissão | || Total | |:------------:||:------------:|:-----------:||:-------| | || Admitido | Rejeitado || | | Masculino || 1198 | 1493 || 1691 | | Feminino || 557 | 1278 || 1835 | | Total || 1755 | 2771 || 4526 | --- class: animated, bounceInDown #Distribuição Conjunta * Se os `\(n\)` indivíduos na amostra são independentes e identicamente distribuídos, ou seja, se for uma **<span style="color:orange">amostra aleatória</span>**, o vetor de contagens de células `\((n_{111}, n_{112}, \ldots, n_{IJK})\)` tem distribuição multinomial com parâmetro `\(n\)` e vetor de probabilidades `\(p=(p_{111}, p_{112},\ldots,p_{IJK})\)`, onde `$$p_{ijk}=P(X=i,Y=j,Z=k).$$` * As probabilidades `\(p_{ijk}\)` são as **<span style="color:orange">probabilidades conjuntas</span>** de que um indivíduo selecionado aleatoriamente esteja na célula `\((i,j,k)\)` da tabela de contingência. * Sob o modelo multinomial não restrito (saturado), não há restrições sobre `\(p\)` diferentes de `\(\sum_{i=1}^I \sum_{j=1}^J \sum_{k=1}^K p_{ijk}=1,\)` com estimativas de máxima verossimilhança dadas pelas proporções amostrais `\(\widehat{p}_{ijk}=n_{ijk}/n.\)` --- class: animated, bounceInDown #Distribuição Condicional * A distribuição condicional é um subconjunto de variáveis dado outro subconjunto de variáveis mutuamente exclusivas. Por exemplo, a distribuição condicional de X e Y, dado Z é `\(p_{ij|k}=p_{ijk}/p_{++k},\)` tal que `\(\sum_{ij} p_{ij|k}=1\)`. * Intuitivamente, estamos olhando como a distribuição conjunta de X e Y varia de acordo com os níveis de `\(Z\)`. -- * Também podemos considerar a distribuição condicional de uma variável dadas as outras duas. Por exemplo, `\(p_{j|ik}=p_{ijk}/p_{i+k},\)` tal que `\(\sum_j p_{j|ik}=1.\)` Essa é a distribuição condicional de Y, dadas X e Z. Estamos observando as mudanças em Y de acordo com as mudanças dos níveis de X ou Z. --- class: animated, fadeIn #Exemplo 2 - IV **Distribuição condicional de sexo e admissão, dado o departamento B** - Temos `\(n_{++2}=353+207+17+8=585\)` indivíduos no departamento B. Dividindo cada contagem observada por esse total obtemos a distribuição condicional: | Sexo || Admissão | | |:------------:||:------------------:|:-----------------:| | || Admitido | Rejeitado | | Masculino || 353/585=0,6034 | 207/585=0,3538 | | Feminino || 17/585=0,0291 | 8/585=0,0137 | -- >**Observação:** As associações marginais e condicionais podem ser bem diferentes. --- class: animated, fadeIn #Exemplo 2 - V ```r UCBAdmissions ``` ``` ## , , Dept = A ## ## Gender ## Admit Male Female ## Admitted 512 89 ## Rejected 313 19 ## ## , , Dept = B ## ## Gender ## Admit Male Female ## Admitted 353 17 ## Rejected 207 8 ## ## , , Dept = C ## ## Gender ## Admit Male Female ## Admitted 120 202 ## Rejected 205 391 ## ## , , Dept = D ## ## Gender ## Admit Male Female ## Admitted 138 131 ## Rejected 279 244 ## ## , , Dept = E ## ## Gender ## Admit Male Female ## Admitted 53 94 ## Rejected 138 299 ## ## , , Dept = F ## ## Gender ## Admit Male Female ## Admitted 22 24 ## Rejected 351 317 ``` ```r admit.gender=margin.table(UCBAdmissions, c(1,2)) ``` --- class: animated, fadeIn #Exemplo 2 - VI ```r admit.gender=margin.table(UCBAdmissions, c(1,2)) admit.gender ``` ``` ## Gender ## Admit Male Female ## Admitted 1198 557 ## Rejected 1493 1278 ``` ```r prop.table(admit.gender) ``` ``` ## Gender ## Admit Male Female ## Admitted 0.2646929 0.1230667 ## Rejected 0.3298719 0.2823685 ``` --- class: animated, fadeIn #Exemplo 2 - VII ```r chisq.test(admit.gender) ``` ``` ## ## Pearson's Chi-squared test with Yates' continuity correction ## ## data: admit.gender ## X-squared = 91.61, df = 1, p-value < 2.2e-16 ``` --- class: animated, bounceInDown #Esquemas Amostrais * Analogamente aos esquemas amostrais para tabelas `\(2\times 2\)`, temos: - Amostragem Poisson sem restrição - nada é fixo e cada célula é uma variável aleatória Poisson com taxa `\(\mu_{ijk}.\)` - Amostragem multinomial com tamanho amostral fixo `\(n\)`. -- * Se os totais são fixos: - Amostragem estratificada, onde temos amostragem produto de multinomiais com tamanho amostral fixo para cada tabela parcial. Por exemplo, `\(n_{++k}.\)` - Amostragem produto de multinomiais dentro de cada tabela parcial. Por exemplo, fixado `\(n_{i+k}\)`. Essa é a linha fixa dentro de cada tabela parcial. --- class: animated, bounceInDown #Odds Ratios Marginais * São odds ratios entre duas variáveis na tabela marginal. Podem ser usados para testar **<span style="color:orange">independência marginal</span>** entre duas variáveis enquanto se "ignora" a terceira. * Por exemplo, para a marginal XY, onde `\(\mu_{ij+}\)` denota a contagem esperada de indivíduos com `\(X=i\)` e `\(Y=j\)` na tabela marginal obtida somando sobre `\(Z\)`, o **<span style="color:orange">odds ratio marginal</span>** é dado por: `$$OR_{XY}=\frac{\mu_{11+}\mu_{22+}}{\mu_{12+}\mu_{21+}}.$$` --- class: animated, fadeIn #Exemplo 2 - VIII `$$p_1=P(Homem \, Admitido)=\frac{1198}{1691}\quad\quad 1-p_1=P(Homem \, Rejeitado)=\frac{1493}{1691}$$` `$$Chance(Homem \, ser \, Admitido)=\frac{1198/1691}{1493/1691}=\frac{1198}{1493}$$` -- `$$p_2=P(Mulher \, Admitida)=\frac{557}{1835}\quad\quad 1-p_2=P(Mulher \, Rejeitada)=\frac{1278}{1835}$$` `$$Chance(Mulher \, ser \, Admitida)=\frac{557/1835}{1278/1835}=\frac{557}{1278}$$` -- Dessa forma, `$$\widehat{OR}=\frac{1198/1493}{557/1278}=\frac{1198\times 1278}{1493\times 557}= 1,84.$$` Assim, agregando valores sobre todos os departamentos, a chance de admissão de um homem é estimada em 1,84 vezes a chance de uma mulher ser admitida. --- class: animated, bounceInDown #Odds Ratios Condicionais * São odds ratios entre duas variáveis para níveis fixos da terceira variável. Permitem testar **<span style="color:orange">independência condicional</span>** de duas variáveis, dada uma terceira variável. * Por exemplo, para o nível fixo `\(Z=k\)`, o odds ratio condicional entre X e Y é dado por `$$OR_{XY(k)}=\frac{\mu_{11k}\mu_{22k}}{\mu_{12k}\mu_{21k}}.$$` * Há tantos odss ratios condicionais quantos sejam os níveis da variável condicional, cada um pode ser estimado a partir da correspondente tabela condicional ou parcial entre X e Y, dado `\(Z=k\)`. --- class: animated, fadeIn #Exemplo 2 - IX Para os dados de admissão, os odds ratios condicionais estimados entre sexo e admissão são: `$$\begin{align*} OR_{XY(Z=A)}&=\frac{512\times 19}{89\times 313}=0,35\\ OR_{XY(Z=B)}&=\frac{353\times 8}{17\times 207}=0,80. \end{align*}$$` -- >Restringindo a atenção para o Departamento A, o odds de um homem ser admitido é de 0,35 vezes o odds da uma mulher ser admitida. Equivalentemente, podemos dizer que a chance de uma mulher ser admitida é de `\(1/0,35=2,86\)` vezes a chance de um homem ser admitido. Similarmente, no Departamento B, a chance de admissão de uma mulher é maior que a de um homem. --- class: animated, bounceInDown #Paradoxo de Simpson - I Dados de uma campanha publicitária para um determinado produto em duas cidades (A e B). Preferência de 2000 consumidores pelo produto X após a campanha publicitária. | Semana || Preferência | || Total | |:-------:||:------------:|:-------:||:--------:| | || Sim | Não || | | 1 || 700 | 300 || 1000 | | 2 || 500 | 500 || 1000 | | Total || 1200 | 800 || 2000 | -- `$$Q_p=83,33\quad \quad valor_p< 0,0001$$` `$$\widehat{OR}=2,33\quad \quad\quad IC: (1,94;2,80).$$` -- >A chance de venda na semana 1 é 2,33 vezes a chance de venda na semana 2. --- class: animated, fadeIn #Paradoxo de Simpson - II *Cidade A | Semana || Preferência | || Total | |:-------:||:------------:|:-------:||:--------:| | || Sim | Não || | | 1 || 60 | 140 || 200 | | 2 || 320 | 480 || 800 | | Total || 380 | 620 || 1000 | -- `$$Q_p=6,79\quad \quad valor_p= 0,0092$$` `$$\widehat{OR}=0,64\quad \quad\quad IC: (0,46;0,90).$$` -- >A chance de venda na semana 1 é 0,64 vezes a chance na semana 2. --- class: animated, fadeIn #Paradoxo de Simpson - III *Cidade B | Semana || Preferência | || Total | |:-------:||:------------:|:-------:||:--------:| | || Sim | Não || | | 1 || 640 | 160 || 800 | | 2 || 180 | 20 || 200 | | Total || 820 | 180 || 1000 | -- `$$Q_p=10,84\quad \quad valor_p< 0,0001$$` `$$\widehat{OR}=0,44\quad \quad\quad IC: (0,27;0,73).$$` --- class: animated, fadeIn #Paradoxo de Simpson - IV ```r campanha<-array(c(60,320,140,480,640,180,160,20), dim=c(2,2,2), dimnames=list(c("Sim","Não"),c("Semana 1","Semana 2"),c("Cidade A","Cidade B"))) mantelhaen.test(campanha,correct=FALSE) ``` ``` ## ## Mantel-Haenszel chi-squared test without continuity correction ## ## data: campanha ## Mantel-Haenszel X-squared = 16.685, df = 1, p-value = 4.413e-05 ## alternative hypothesis: true common odds ratio is not equal to 1 ## 95 percent confidence interval: ## 0.4293756 0.7440354 ## sample estimates: ## common odds ratio ## 0.5652174 ``` --- class: animated, fadeIn #Paradoxo de Simpson - V **Observações:** * Cidades: - A teve menos vendas e foi mais amostrada na semana 2. - B teve mais vendas e foi mais amostrada na semana 1. * Evidentemente há um aumento nas vendas. * Razão do Problema: a variável Cidade (Z) está relacionada tanto com Vendas (X) quanto com Semana (Y). * Solução: Testar a associação de X e Y, controlando por Z. - Teste de Mantel-Haenszel: Testa se X é independente de Y, dado Z. --- class: animated, bounceInDown #Modelos de Independência e Associações * Para amostragem multinomial e tabelas bidimensionais, apenas a independência entre linhas e colunas é de interesse. * Com tabelas tridimensionais, há pelo menos oito modelos de interesse. * Esses modelos podem ser extendidos para qualquer número de variáveis categóricas (tabelas de `\(k\)` vias). --- class: animated, fadeIn #Tipos de Independência - I * **Mútua:** Todas as variáveis são independentes das outras. Denota-se por `\((X, Y, Z)\)`, ou `\(X\perp Y\perp Z.\)` -- * **Conjunta:** Duas variáveis são conjuntamente independentes da terceira. Denota-se por `\((XY, Z)\)`, ou `\(XY\perp Z.\)` -- * **Marginal:** Duas variáveis são independentes quando ignorada a terceira variável, isto é, `\(OR_{XY}=1\)`. Denota-se por `\((X,Y).\)` -- * **Condicional:** Duas variáveis são independentes dada a terceira variável, isto é, `\(OR_{XY(Z=k)}=1\)`, para `\(k=1,2,\ldots,K\)`. Denota-se por `\((XY, YZ)\)`, ou `\(X\perp Y|Z.\)` -- * **Homogênea:** Os odds-ratios condicionais (ou parciais) não dependem do valor da terceira variável. Denota-se por `\((XY, XZ, YZ).\)` --- class: animated, fadeIn #Tipos de Independência - II **Observações:** * Independência mútua `\(\Longrightarrow\)` independência conjunta. Isto é, todas as variáveis são independentes das outras. * Independência conjunta `\(\Longrightarrow\)` independência marginal. Isto é, uma variável é independente das outras duas. * Independência marginal `\(\not\Longrightarrow\)` independência conjunta. * Independência marginal `\(\not\Longrightarrow\)` independência condicional. * Independência condicional `\(\not\Longrightarrow\)` independência marginal. --- class: animated, fadeIn #Independência Mútua (Completa) - I O modelo mais simples que pode ser proposto é aquele em que **<span style="color:orange">todas</span>** as variáveis são independentes das outras. O modelo `\((X, Y, Z)\)` implica que, se olharmos para as tabelas `\(X \times Y\)`, `\(X \times Z\)` e `\(Y \times Z\)`, todos os odds ratios nessas tabelas são iguais a 1. Ou seja, independência mútua implica na indpendência marginal. Temos `\(P(X=i, Y=j, Z=k)=P(X=i)P(Y=j)P(Z=k)\)`, para todo `\(i, j, k\)`. Isto é, as probabilidades conjuntas são produto das probabilidades marginais: `\(P(X=i, Y=j)=P(X=i)P(Y=j)\)`. Denotamos as probabilidades marginais como `$$p_{i++}=P(X=i),\qquad p_{+j+}=P(Y=j),\qquad p_{++k}=P(Z=i),$$` tal que `\(p_{ijk}=p_{i++}p_{+j+}p_{++k},\quad \forall i,j,k\)`. --- class: animated, fadeIn #Independência Mútua (Completa) - II As estimativas de MV são as proporções amostrais nas margens da tabela: `$$\begin{align*} \widehat{p}_{i++}&=n_{i++}/n,\quad i=1,2,\ldots,I.\\ \widehat{p}_{+j+}&=n_{+j+}/n,\quad j=1,2,\ldots,J.\\ \widehat{p}_{++k}&=n_{++k}/n,\quad k=1,2,\ldots,K.\\ \end{align*}$$` -- Dessa forma, as estimativas das contagens esperadas são: `$$E(n_{ijk})=n\widehat{p}_{i++}\widehat{p}_{+j+}\widehat{p}_{++k}=\frac{n_{i++}n_{+j+}n_{++k}}{n^2}.$$` --- class: animated, fadeIn #Independência Conjunta Há três modelos de independência conjunta que podem ser considerados. Assumindo `\((XY, Z)\)`: `$$p_{ijk}=P(X=i,Y=j)P(Z=k)=p_{ij+}p_{++k},\quad \forall i,j,k$$` onde `\(\sum_i\sum_j p_{ij+}=1\)` e `\(\sum_k p_{++k}=1.\)` Se conhecemos as contagens nas tabelas `\(XY\)` e `\(Z\)`, podemos calcular as contagens esperadas na tabela `\(XYZ\)`. O número de parânetros livres, ou seja, o número de parãmetros desconchecidos que devem ser estimados é `\((IJ-1)+(K-1)\)` e suas estimatias MV são dadas por `\(\widehat{p}_{ij+}=n_{ij+}/n\)` e `\(\widehat{p}_{++k}=n_{++k}/n\)`. As frequências esperadas são `$$\widehat{E}_{ijk}=\frac{n_{ij+}n_{++k}}{n}.$$` --- class: animated, fadeIn #Independência Marginal As variáveis X e Y são marginalmente independentes se `$$p_{ij+}=p_{i++}p_{+j+},\quad \forall i,j.$$` Considera-se a relação entre X e Y apenas, e se ignora `\(Z\)`. Controlar ou ajustar para os diferentes níveis de `\(Z\)` envolve a revisão das tabelas parciais. -- >Independência conjunta implica independência marginal, mas não o contrário. Por exemplo, se o modelo `\((XY, Z)\)` é adequado, isto implica que X é independente de Z, e Y é independente de Z. Mas, se X é independente de Z, e Y é independente de Z, isto não necessariamente implica que X e Y são conjuntamente independentes de Z. `$$\begin{align*} p_{ijk}&=p_{ij+}p_{++k}\qquad \textrm{ (Independência conjunta)}\\ p_{+jk}&=\sum_i p_{ij+}p_{++k}\quad \textrm{(Somando ambos lados sobre X)}\\ &=p_{+j+}p_{++k}, \end{align*}$$` que é a independência marginal de `\(Y\)` e `\(Z\)`. --- class: animated, fadeIn #Exemplo 2 - X ```r XY <- margin.table(UCBAdmissions, c(2,1)) XY ``` ``` ## Admit ## Gender Admitted Rejected ## Male 1198 1493 ## Female 557 1278 ``` ```r chisq.test(XY, correct=FALSE) ``` ``` ## ## Pearson's Chi-squared test ## ## data: XY ## X-squared = 92.205, df = 1, p-value < 2.2e-16 ``` --- class: animated, fadeIn #Independência Condicional - I Há três possíveis modelos de independência condicional com três variáveis: `\((XY, XZ)\)`, `\((XY, YZ)\)` e `\((XZ, YZ)\)`. `$$P(Y=j, Z=k|X=i)=P(Y=j|X=i)P(Z=k|X=i).$$` Em termos dos odds-ratios, o modelo de independência condicional implica que, se olharmos para as tabelas parciais, os odds-ratios nessas tabelas não devem ser significativamente diferentes de 1. As probabilidades podem ser escritas como `$$\begin{align*} p_{ijk}=& P(X=i)P(Y=j, Z=k|X=i)\\ =& P(X=i)P(Y=j|X=i)P(Z=k|X=i)\\ &= p_{i++}p_{j|i}p_{k|i} \end{align*},$$` onde `\(\sum_i p_{i++}=1\)`, `\(\sum_j p_{j|i}=1\)` para cada `\(i\)`, e `\(\sum_k p_{k|i}=1\)` para cada `\(i\)`. --- class: animated, fadeIn #Independência Condicional - II As estimativas MV são dadas por `$$\widehat{p}_{i++}=n_{i++}/n,\quad \widehat{p}_{j|i}=n_{ij+}/n_{i++},\quad \widehat{p}_{k|i}=n_{i+k}/n_{i++}.$$` As frequências esperadas estimadas são `$$\widehat{E}=\frac{n_{ij+}n_{i+k}}{n_{i++}}.$$` >Testar independência condicional de Y e Z dado X é equivalente a separar a tabela para os níveis de `\(X=1,\ldots,I\)` e testar a independência dentro de cada nível. > Há duas formas de avaliar a independência condicional: - Estatística `\(\chi^2.\)` - Teste de Cochran-Mantel-Hanszel --- class: animated, fadeIn #Independência Condicional - III **Em termos dos odds ratios**: - O odds ratio para `\((X,Y)\)` pode ser expresso como `$$\begin{align*} \textrm{OR}^{XY}&=\dfrac{\textrm{P}[(X=1),(Y=1)]\textrm{P}[(X=2),(Y=2)]}{\textrm{P}[(X=1),(Y=2)]\textrm{P}[(X=2),(Y=1)]}\\ &=\dfrac{[\mu_{11+}/\mu_{+++}][\mu_{22+}/\mu_{+++}]}{[\mu_{12+}/\mu_{+++}][\mu_{21+}/\mu_{+++}]}\\ &=\dfrac{\mu_{11+}\mu_{22+}}{\mu_{12+}\mu_{21+}} \end{align*}$$` >Se `\(\textrm{OR}^{XY}=1\)`, então `\(X\)` e `\(Y\)` são marginalmente independentes. --- class: animated, fadeIn #Independência Condicional - IV - O odds ratio para `\((X,Y)\)` dado `\(Z=k\)` pode ser escrito como `$$\begin{align*} \textrm{OR}_k^{XY|Z}&=\dfrac{\textrm{P}[(X=1),(Y=1)|Z=k]\textrm{P}[(X=2),(Y=2)|Z=k]}{\textrm{P}[(X=1),(Y=2)|Z=k]\textrm{P}[(X=2),(Y=1)|Z=k]}\\ &=\dfrac{[\mu_{11k}/\mu_{++k}][\mu_{22k}/\mu_{++k}]}{[\mu_{12k}/\mu_{++k}][\mu_{21k}/\mu_{++k}]}\\ &=\dfrac{\mu_{11k}\mu_{22k}}{\mu_{12k}\mu_{21k}} \end{align*}$$` >Se `\(\textrm{OR}_k^{XY|Z}=1\)` para todo `\(k\)`, então `\(X\)` e `\(Y\)` são condicionalmente independentes de `\(Z\)`. --- class: animated, fadeIn #Efeito de Confundimento - I - Diz-se que `\(Z\)` confunde a relação entre `\(X\)` e `\(Y\)` se `$$\begin{align*} \textrm{OR}^{XY}&\neq \textrm{OR}^{XY|Z}_k\\ \textrm{OR marginal}&\neq \textrm{OR parcial} \end{align*}$$` - Se `\(\textrm{OR}^{XY}=\textrm{OR}^{XY|Z}_k\)` para `\(k=1,2\)`, não há confundimento. - Em particular, para que `\(Z\)` confunda a relação entre `\(X\)` e `\(Y\)`, a variável `\(Z\)` deve ser parcialmente relacionado com `\(X\)` e com `\(Y\)`, isto é `$$\begin{align*} \textrm{OR}^{XZ|Y}_j&\neq 1\\ \textrm{OR}^{YZ|X}_i&\neq 1 \end{align*}$$` --- class: animated, fadeIn #Efeito de Confundimento - II - Alternativamente, se - `\(X\)` e `\(Z\)` são condicionalmente independentes dado `\(Y\)`, isto é `$$\textrm{OR}^{XZ|Y}_j= 1$$` ou - `\(Y\)` e `\(Z\)` são condicionalmente independentes dado `\(X\)`, isto é `$$\textrm{OR}^{YZ|X}_j= 1,$$` então `\(Z\)` não é variável de confusão. --- class: animated, bounceInDown #Estatística de Mantel-Haenszel - I * Temos um conjunto de `\(q\)` tabelas de contingência `\(2\times 2\)` | X || Y | || Total | |:---------:||------------:|:-----------:||:---------:| | || `\(j=1\)` | `\(j=2\)` || | | `\(i=1\)` || `\(n_{h11}\)` | `\(n_{h12}\)` || `\(n_{h1+}\)` | | `\(i=2\)` || `\(n_{h21}\)` | `\(n_{h22}\)` || `\(n_{h2+}\)` | | Total || `\(n_{h+1}\)` | `\(n_{h+2}\)` || `\(n_{h}\)` | com `\(h=1,\ldots,q.\)` * Totais marginais-linha `\(n_{hi+}\)` fixos nas `\(q\)` tabelas. * Hipóteses de interesse: `$$\textrm{H}_0: p_{h(1)1}=p_{h(2)1},\quad h=1,\ldots,q.$$` --- class: animated, fadeIn #Estatística de Mantel-Haenszel - II * Sob `\(H_0\)`, `\(N_{h11}\sim Hipergeométrica\)` tal que `$$\begin{align*} e_{h11}&=\textrm{E}(N_{h11}|n_h,n_{h1+},n_{h+1})=\dfrac{(n_{h1+})(n_{h+1})}{n_h}\\ v_{h11}&=\textrm{Var}(N_{h11}|n_h,n_{h1+},n_{h+1})=\dfrac{(n_{h1+})(n_{h2+})(n_{h+1})(n_{h+2})}{(n_{h})^2(n_{h}-1)} \end{align*}$$` * Sob `\(H_0\)` e, para `\(\sum_{h=1}^q n_h\)` suficientemente grande, `$$Q_{MH}=\dfrac{(\sum_{h=1}^q n_{h11}-\sum_{h=1}^q e_{h11})^2}{\sum_{h=1}^q v_{h11}}\sim \chi^2_{(1)}.$$` -- >**Observação:** De certa forma, essa estratégia de análise é similar a una ANOVA de um experimento fatorial em blocos aleatorizados. --- class: animated, fadeIn #Estatística de Mantel-Haenszel - III * `\(Q_{MH}\)` é eficaz para avaliar associações se a maioria das diferenças `\((p_{h(1)1}-p_{h(2)1})\)` apresentar o mesmo sinal. * Mantel e Fleiss (1980) propuseram um critério para determinar se a aproximação qui-quadrado é apropriada para a distribuição da estatística de Mantel-Haenszel para `\(q\)` tabelas. O critério é dado por `$$C_{MF}=\min\left\{\left[\sum_{h=1}^q e_{h11}-\sum_{h=1}^q (n_{h11})_L\right],\left[\sum_{h=1}^q(n_{h11})_U-\sum_{h=1}^q e_{h11}\right]\right\}>5,$$` em que `\((n_{h11})_L=\max(0,(n_{h1+}-n_{h11}))\)` e `\((n_{h11})_U=\min(n_{h+1}-n_{h1+}).\)` --- class: animated, fadeIn #Estatística de Mantel-Haenszel - IV * Havendo homogeneidade dos OR nas `\(q\)` tabelas `\(2\times 2\)`, calcula-se a **<span style="color:orange">Razão de chances combinada</span>**. `$$\widehat{OR}_{MH}=\dfrac{\sum_{h=1}^q \dfrac{n_{h11}n_{h22}}{n_h}}{\sum_{h=1}^q \dfrac{n_{h12}n_{h21}}{n_h}}$$` * Intervalo de confianza de `\(100(1-\alpha)\%\)` para `\(OR_{MH}\)`: `$$\exp(\log(\widehat{OR}_{MH}))\pm z_{1-\alpha/2}\sqrt{\widehat{\textrm{Var}}(\log (\widehat{OR}_{MH})}.$$` --- class: animated, fadeIn #Exemplo 2 - XI ```r mantelhaen.test(UCBAdmissions) ``` ``` ## ## Mantel-Haenszel chi-squared test with continuity correction ## ## data: UCBAdmissions ## Mantel-Haenszel X-squared = 1.4269, df = 1, p-value = 0.2323 ## alternative hypothesis: true common odds ratio is not equal to 1 ## 95 percent confidence interval: ## 0.7719074 1.0603298 ## sample estimates: ## common odds ratio ## 0.9046968 ``` --- class: animated, fadeIn #Exemplo 3 - continuação paradoxo de Simpson * `\(Q_{MH}=16,17\)` com 1 grau de liberdade. Valor `\(p=5,798e-05\)`. * `\(\widehat{OR}_{MH}=0,57\quad \textrm{ I.C. de }95\%:\)` `\((0,43;0,74)\)` A chance de venda na semana 1 é 0,57 vezes a chance de venda na semana 2. >A chance de venda na semana 2 é 1,75 vezes a chance de venda na semana 1. --- class: animated, fadeIn #Exemplo 4 - I | Centro || Medicamento || Efeito | || Total | |:-------:||:------------:||:---------:|:-------------:||:--------:| | || || Favorável | Não favorável || | | 1 || Novo || 29 | 16 || 45 | | || Padrão || 14 | 31 || 45 | | Total || || 43 | 47 || 90 | | 2 || Novo || 37 | 8 || 45 | | || Padrão || 24 | 21 || 45 | | Total || || 61 | 29 || 90 | * Variável Resposta: Efeito * Variável Explicativa: Medicamento * Variável de confundimento: Centro médico --- class: animated, fadeIn #Exemplo 4 - II >**Observações:** >* Se há diferenças entre centros e os pacientes atendidos neles, seu efeito deve ser controlado na análise. >* Análogo à análise de delineamento experimental em blocos (centros médicos). --- class: animated, fadeIn #Exemplo 4 - III **Análise Descritiva** | Centro || Medicamento || Efeito | || Total | |:-------:||:------------:||:-----------:|:-------------:||:--------:| | || || Favorável | Não favorável || | | 1 || Novo || 29 (64%) | 16 || 45 | | || Padrão || 14 (31%) | 31 || 45 | | Total || || 43 | 47 || 90 | | 2 || Novo || 37 (82%) | 8 || 45 | | || Padrão || 24 (53%) | 21 || 45 | | Total || || 61 | 29 || 90 | -- * `\(\widehat{OR}=3,76\)` (Tabela Combinada). * O medicamento novo apresenta proporção de resposta favorável maior do que a do placebo, uma vez que `\(\widehat{p}_{h(1)1}>\widehat{p}_{h(2)1}\)`, para `\(h=1,2\)`. --- class: animated, fadeIn #Exemplo 4 - IV * `\(Q_{MH}=18,41\)` `\((valor_p<0,0001)\)`, indicando associação entre as variáveis tratamento e resposta do paciente, controlando pela variável estratificadora centro médico. * `\(\widehat{OR}_1=4,01\)` e `\(\widehat{OR}_2=4,04\)` (homogêneos) * `$$\widehat{OR}_{MH}=4,028\quad \textrm{ I.C. de }95\%: (2,1;7,7)$$` `\(\Longrightarrow\)` O odds de melhora dos pacientes que receberam novo tratamento é aproximadamente 4 vezes o dos que receberam placebo. --- class: animated, fadeIn #Exemplo 4 - V ```r centros<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2), dimnames=list(c("Favorável","Não Favorável"),c("Novo","Padrão"),c("Centro 1","Centro 2"))) mantelhaen.test(centros,correct=FALSE) ``` ``` ## ## Mantel-Haenszel chi-squared test without continuity correction ## ## data: centros ## Mantel-Haenszel X-squared = 18.411, df = 1, p-value = 1.781e-05 ## alternative hypothesis: true common odds ratio is not equal to 1 ## 95 percent confidence interval: ## 2.105716 7.708353 ## sample estimates: ## common odds ratio ## 4.028846 ``` --- class: animated, fadeIn #Observações * Se houver independência marginal, as tabelas parciais podem ser somadas para obter-se uma tabela de duas entradas. * O teste `\(Q_{MH}\)` é também chamado **<span style="color:orange">teste de independência condicional</span>**. * O teste é inapropriado quando a associação varia muito entre as tabelas parciais. * O teste fica muito limitado na presença de muitas tabelas ou tabelas com tamanho amostral pequeno. --- class: animated, fadeIn #Estatística de Mantel-Haenszel Estendida - I * Proposta por Mantel (1963) para a análise de um conjunto de tabelas `\(2\times r\)` quando a resposta é ordinal. * Considere `\(\mathbf{a}_h=(a_{h1}, a_{h2}, \ldots, a_{hr})\)` o conjunto de escores assumidos para os `\(r\)` níveis da variável resposta na h-ésima tabela `\(2\times r\)`. Assim, considerando-se `\(q\)` tabelas `\(2\times r\)`, tem-se `$$f_{+1}=\sum_{h=1}^q \sum_{j=1}^r (a_{hj})(n_{h1j})=\sum_{h=1}^q (n_{h1+})(\overline{f}_{h1}),$$` em que `$$\overline{f}_{h1}=\sum_{j=1}^r\frac{a_{hj}n_{h1j}}{n_{h1+}}.$$` é o escore médio para o nível 1 de `\(X\)` na `\(h-ésima\)` tabela. --- class: animated, fadeIn #Estatística de Mantel-Haenszel Estendida - II *Sob a hipótese nula de não associação, `\(f_{+1}\)` tem valor esperado dado por `$$E(f_{+1}|H_0)=\sum_{h=1}^q (n_{h1+})(\mu_h)=\mu_*$$` e variância `$$V(f_{+1}|H_0)=\sum_{j=1}^q \frac{(n_{h1})(n_h-n_{h1+})}{(n_h-1)}v_h=v_*,$$` em que `\(\mu_h=\sum_{j=1}^r \frac{(a_{hj})(n_{h+j})}{n_h}\)` e `\(v_h=\sum_{j=1}^r (a_{hj}-\mu_h)^2\left(\frac{n_{n+j}}{n_h}\right).\)` --- class: animated, fadeIn #Estatística de Mantel-Haenszel Estendida - III * Se os tamanhos amostrais `\(n_{+i+}=\sum_{h=1}^q\sum_{j=1}^r n_{hij}\)` forem suficientemente grandes, então `\(f_{+1}\)` terá distribuição aproximadamente normal. Dessa forma, a quantidade `$$Q_{SMH}=\frac{(f_{+1}-\mu_*)^2}{v_*}\sim \chi^2_{(1)}.$$` * A estatística `\(Q_{SMH}\)` é eficiente para detectar padrões de diferenças quando `\((\overline{f}_{h1}-\overline{f}_{h2})\)` apresentarem predominantemente o mesmo sinal. --- class: animated, fadeIn #Exemplo 5 Estudo clínico duplo-cego realizado para verificar a existência de associação entre um tratamento para artrite reumatóide e o grau de melhora, controlando-se pela variável sexo. | Sexo || Tratamento || | Efeito | || Total | |:-----------:||:------------:||:---------:|:---------------:|:-------------:||:--------:| | || || Nenhuma | Alguma | Acentuada || | | Feminino || Ativo || 6 | 5 | 16 || 27 | | || Placebo || 19 | 7 | 6 || 32 | | Total || || 25 | 12 | 22 || 59 | | Masculino || Ativo || 7 | 2 | 5 || 14 | | || Placebo || 10 | 0 | 1 || 11 | | Total || || 17 | 2 | 6 || 25 | -- `$$\mathbf{a}=(1,2,3)\quad Q_{SMH}=14,63 \,\,(p<0,0001).$$` Os tamanhos amostrais `\(n_{+1+}=41\)` e `\(n_{+2+}=43\)` são suficientemente grandes e garantem uma boa aproximação para a distrubuição qui-quadrado. --- class: animated, fadeIn #Estatística de Correlação de Mantel-Haenszel Estendida *Estatística de teste para associação de duas variáveis ordinais em um conjunto de tabelas `\(s\times 2\)`, baseada nos escores assumidos para as linhas e colunas das tabelas. *A estatística é expressa por `$$Q_{CSMH}=\frac{\left[\sum_{h=1}^q n_h\left(\overline{f}_h-E(\overline{f}|H_0)\right)\right]^2}{\sum_{h=1}^q n_h^2 var(\overline{f}|H_0)}=\frac{\left[\sum_{i=1}^q{n_h(v_{hc}v_{ha})^{1/2}r_{ac.h}}\right]^2}{\sum_{h=1}^q [n_h^2 v_{hc}v_{ha}/(n_h-1)]},$$` onde `\(r_{ac.h}\)` representa a correlação para a tabela `\(h\)`. --- class: animated, fadeIn #Exemplo 6 - I Estudo sobre a existência de associação entre a variável resposta uso de tabaco e o fator "consciência de risco" de "uso de tabaco pelo adolescente", controlando pelo fator "uso de tabaco pelo pai". | Pai usa || Consciência || Não usa | Usa || Total | |:-----------:||:------------:||:---------:|:----------:||:--------:| | Não || Mínima || 59 | 25 || 84 | | || Moderada || 169 | 29 || 198 | | || Substancial || 196 | 9 || 205 | | Total || || 424 | 63 || 487 | | Sim || Mínima || 11 | 8 || 19 | | || Moderada || 33 | 11 || 44 | | || Substancial || 22 | 2 || 24 | | Total || || 66 | 21 || 87 | --- class: animated, fadeIn #Exemplo 6 - II `$$\mathbf{a}=(1,2,3)$$` `$$\mathbf{c}=(1,2,3)$$` `$$Q_{CSMH}=40,66 \,\,(p<0,0001).$$` -- >*Existe forte associação entre consciência do risco de fumar e uso de tabaco pelo adolescente, controlando-se pelo fator uso de tabaco pelo pai. >*Ainda, `\(r_{ac.1}=-0,265\)` e `\(r_{ac.s}=-0,276\)`, indicam correlação negativa entre consciência de risco e uso do tabaco. --- class: animated, fadeIn #Exemplo 6 - III ```r uso.pai<-array(c(59,25,169,29,196,9,11,8,33,11,22,2),dim=c(2,3,2), dimnames=list(c("Não usa","Usa"),c("Mínima","Moderada","Substancial"),c("Não","Sim"))) mantelhaen.test(uso.pai,correct=F) ``` ``` ## ## Cochran-Mantel-Haenszel test ## ## data: uso.pai ## Cochran-Mantel-Haenszel M^2 = 41.058, df = 2, p-value = 1.215e-09 ``` --- class: animated, bounceInDown #Associação Homogênea - I * A associação homogênea implica que a relação condicional entre qualquer par de variáveis dada a terceira é a mesma em cada nível da terceira variável. * Esse modelo também é conhecido como de interação de segunda ordem, ou modelo sem interação de terceira ordem. * O modelo de independência condicional `\((XY, XZ)\)` requer que os odds-ratios de `\(YZ\)` em cada nível de `\(X=1,\ldots,I\)` sejam iguais a 1. * O modelo de associação homogênea `\((XY, XZ, YZ)\)` requer que os odds-ratios de `\(YZ\)` em cada nível de X sejam idênticos, mas não necessariamente iguais a 1. * Sob o modelo de associação homogênea não há forma fechada dos estimadores para as caselas esperadas. --- class: animated, bounceInDown #Associação Homogênea - II ####Teste de Breslow-Day Para testar a hipótese de que os odds-ratios entre `\(X\)` e `\(Y\)` são os mesmos em cada nível de `\(Z\)` `$$H_0: OR_{XY|1}=OR_{XY|2}=\cdots OR_{XY|k}$$` podemos usar a estatística de Breslow-Day, dada por `$$\chi^2=\sum_i\sum_j\sum_k\frac{(O_{ijk}-E_{ijk})^2}{E_{ijk}},$$` onde `\(E_{ijk}\)` são calculados sob `\(H_0\)`. --- class: animated, fadeIn #Associação Homogênea - III **Observações:** - A estatística BD tem distribuição assintoticamente qui-quadrado com `\(K-1\)` graus de liberdade. - Não funciona bem com tamanhos amostrais pequenos, enquanto que a estatística de CMH continua funcionando bem. - Ainda não foi generalizada para tabelas `\(I\times J\times K\)`, enquanto que a estatística CMH já tem uma generalização. - Se a independência condicional de CMH for rejeitada, ainda será necessário testar associação homogênea. --- class: animated, fadeIn #Associação Homogênea - IV ####Exemplo 4 ```r library(DescTools) ``` ``` ## ## Attaching package: 'DescTools' ``` ``` ## The following object is masked from 'package:tables': ## ## Format ``` ```r centros<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2), dimnames=list(c("Favorável","Não Favorável"),c("Novo","Padrão"),c("Centro 1","Centro 2"))) BreslowDayTest(centros) ``` ``` ## ## Breslow-Day test on Homogeneity of Odds Ratios ## ## data: centros ## X-squared = 0.00015621, df = 1, p-value = 0.99 ``` --- class: animated, hide-logo, bounceInDown ## Política de proteção aos direitos autorais > <span style="color:grey">O conteúdo disponível consiste em material protegido pela legislação brasileira, sendo certo que, por ser o detentor dos direitos sobre o conteúdo disponível na plataforma, o **LECON** e o **NEAEST** detém direito exclusivo de usar, fruir e dispor de sua obra, conforme Artigo 5<sup>o</sup>, inciso XXVII, da Constituição Federal e os Artigos 7<sup>o</sup> e 28<sup>o</sup>, da Lei 9.610/98. A divulgação e/ou veiculação do conteúdo em sites diferentes à plataforma e sem a devida autorização do **LECON** e o **NEAEST**, pode configurar violação de direito autoral, nos termos da Lei 9.610/98, inclusive podendo caracterizar conduta criminosa, conforme Artigo 184<sup>o</sup>, §1<sup>o</sup> a 3<sup>o</sup>, do Código Penal. É considerada como contrafação a reprodução não autorizada, integral ou parcial, de todo e qualquer conteúdo disponível na plataforma.</span> .pull-left[ <img src="images/logo_lecon.png" width="50%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="images/logo_neaest.png" width="50%" style="display: block; margin: auto;" /> ] <br></br> .center[ [https://lecon.ufes.br](https://lecon.ufes.br/)] <font size="2"><span style="color:grey">Material elaborado pela equipe LECON/NEAEST: Alessandro J. Q. Sarnaglia, Bartolomeu Zamprogno, Fabio A. Fajardo, Luciana G. de Godoi e Nátaly A. Jiménez.</span></font>