class: center, middle, inverse, title-slide .title[ # ESTATISTICA I STA13813 ] .subtitle[ ## Medidas Resumo ] .author[ ### Nátaly A. Jiménez Monroy ] .institute[ ### LECON/DEST - UFES ] --- [//]: <> (https://pkg.garrickadenbuie.com/extra-awesome-xaringan/intro/index.html#1) [//]: <> (https://pkg.garrickadenbuie.com/xaringanthemer/articles/xaringanthemer.html) [//]: <> (https://www.biostatistics.dk/talks/CopenhagenRuseRs-2019/index.html#1) [//]: <> (https://rstudio-education.github.io/sharing-short-notice/#1) [//]: <> (https://www.kirenz.com/slides/xaringan-demo-slides.html#1) [//]: <> (https://github.com/yihui/xaringan/issues/26) [//]: <> (https://github.com/emitanaka/anicon) [//]: <> (https://github.com/mitchelloharawild/icons) [//]: <> (https://slides.yihui.org/2020-genentech-rmarkdown.html#1) [//]: <> (https://github.com/gadenbuie/xaringanExtra) [//]: <> (class: center, middle, animated, slideInRight) class: animated, slideInRight <style> body {text-align: justify} </style> <!-- Justify text. --> # Medidas-resumo - I - **Principal objetivo**: resumir os dados através de medidas pontuais, que são alguns valores representativos da amostra. -- Principais tipos de medidas-resumo: * posição e * dispersão. -- - **Vantagem**: há um único número para: * resumir os dados; e * representar características importantes. -- - **Principal desvantagem**: Perda de **<span style="color:orange">informação</span>**. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn # Medidas-resumo - II > **Medidas de posição**: mínimo, máximo, moda, média, mediana e os percentis. -- > **Medidas de dispersão**: amplitude, intervalo-interquartil, variância, desvio-padrão e coeficiente de variação. -- <div class="figure" style="text-align: center"> <img src="images/Esquema_medidas_resumo.png" alt=" " width="33%" /> <p class="caption"> </p> </div> --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn # Medidas de posição - **Mínimo** (min ou `\(x_{(1)}\)`): o menor valor observado na amostra. -- - **Máximo** (max ou `\(x_{(n)}\)`): o maior observado na amostra. -- **Exemplo 3**: Dados: 4, 5, 4, 6, 5, 8, 4 `\(\Longrightarrow n = 7\)` `\(x_1 = 4, \quad x_2 = 5, \quad x_3 = 4, \quad x_4 = 6, \quad x_5 = 5, \quad x_6 = 8, \quad x_7 = 4\)` -- | ✍️ Nota | |:-------------------| |É interessante tomar por hábito ordenar de maneira crescente o conjunto de dados observados. `\(\phantom{*********}\)` | -- **Dados ordenados**: 4, 4, 4, 5, 5, 6, 8. `\(x_{(1)} = 4, \quad x_{(2)} = 4, \quad x_{(3)} = 4, \quad x_{(4)} = 5, \quad x_{(5)} = 5, \quad x_{(6)} = 6, \quad x_{(7)} = 8\)`. -- | Max = `\(x_{(7)}\)` = 8 || Min = `\(x_{(1)}\)` = 4 | |:-------------------:||:----------------------:| --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn # Medidas de tendência central - Buscam representar um valor "típico" dos dados em questão; O que seria valor "típico"? * Principais: * ponto de equilíbrio dos dados; * ponto central dos dados; * ponto de alta frequência; -- * Diferentes medidas de tendência central: * média; * mediana; * moda. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - I | 📝 Definição 14 | |:---------------------------| | Dadas as observações `\(x_1,\ldots,x_n\)`, a **<span style="color:orange">média</span>** é definida por `\(\phantom{******************************}\)` | | `$$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i=\frac{x_1+\cdots+x_n}{n}.$$` | --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - II Suponha que os valores são apresentados na forma da seguinte distribuição de frequências: | `\(X\)` | `\(x_1^*\)` | `\(x_2^*\)` | `\(\ldots\)` | `\(x_k^*\)` | Total | |:---------------:|:---------:|:---------:|:----------:|:---------:|:-------------------:| | Freq. Absoluta | `\(n_1\)` | `\(n_2\)` | `\(\ldots\)` | `\(n_k\)` | `\(\sum_{i=1}^kn_i=n\)` | -- A média pode ser calculada como `$$\bar{x}=\frac{1}{n}\sum_{j=1}^kn_jx_j^*=\sum_{j=1}^k{f}_jx_j^*,$$` onde `\({f}_j=\frac{n_j}{n}\)` é a frequência relativa do `\(j\)`-ésimo valor. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - III #### Exemplo 4 - I Dados: 1, 2, 3, 6, 1, 2, 2, 1, 1, 1. `\begin{eqnarray} \bar{x}&=&\frac{1}{10}\sum_{i=1}^{10}x_i\nonumber\\ &=&\frac{x_1+\cdots+x_{10}}{10}\nonumber\\ & = & \frac{1 + 2 + 3 + 6 + 1 + 2 + 2 + 1 + 1 + 1}{10}\nonumber\\ & = & \frac{20}{10}\nonumber\\ & = & 2 \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - III #### Exemplo 4 - II <div class="figure" style="text-align: center"> <img src="images/Diagrama_media_pesos1.png" alt=" " width="75%" /> <p class="caption"> </p> </div> --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - III #### Exemplo 4 - II <div class="figure" style="text-align: center"> <img src="images/Diagrama_media_pesos2.png" alt=" " width="73%" /> <p class="caption"> </p> </div> -- **Interpretação física**: Se cada observação da amostra fosse representada por um peso de 1Kg e colocada sob um eixo horizontal com escala definida, o único ponto em que se poderia colocar um apoio para equilibrar o sistema de pesos é correspondente ao valor de `\(\bar{x}\)`. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - III #### Exemplo 4 - III Resolvendo agora via tabela de frequências. | `\(X\)` | 1 | 2 | 3 | 6 | Total | |:---------------:|:-----:|:-----:|:-----:|:-----:|:-----:| | Freq. Absoluta | `\(5\)` | `\(3\)` | `\(1\)` | `\(1\)` | `\(10\)` | | Freq. Relativa | `\(0.5\)` | `\(0.3\)` | `\(0.1\)` | `\(0.1\)` | `\(1\)` | -- Observando os dados brutos, vemos apenas 4 diferentes tipo de resultados da variável (1, 2, 3 e 6). Dessa forma, * k = 4 `\(\quad\)` e `\(\quad\)` `\(x_1^* = 1\)`, `\(x_2^* = 2\)`, `\(x_3^* = 3\)` e `\(x_4^* = 6\)`. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - III #### Exemplo 4 - IV Assim, a média pode ser calculada fazendo uso da frequência absoluta calculamos a média fazendo `\begin{eqnarray} \bar{x}&=&\frac{1}{n}\sum_{j=1}^kn_jx_j^*\nonumber\\ &=&\frac{1}{10}\sum_{j=1}^4n_jx_j^*\nonumber\\ &=& \frac{1}{10} (5 \times 1 + 3 \times 2 + 1 \times 3 + 1 \times 6) \nonumber\\ &=& 2. \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - III #### Exemplo 4 - V Ou, fazendo uso da frequência relativa, por `\begin{eqnarray} \bar{x}&=& \sum_{j=1}^k{f}_jx_j^*\nonumber\\ &=& \sum_{j=1}^4{f}_jx_j^*\nonumber\\ &=& 0.5 \times 1 + 0.3 \times 2 + 0.1 \times 3 + 0.1 \times 6 \nonumber\\ &=& 2 \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - IV Suponha que as observações são dadas na forma da seguinte distribuição de frequências intervalar: | `\(X\)` | `\([a_0,a_1)\)` | `\([a_1,a_2)\)` | `\(\ldots\)` | `\([a_{k-1},a_k)\)` | Total | |:-----:|:-----------:|:-----------:|:--------:|:---------------:|:-------------------:| | Freq. | `\(f_1\)` | `\(f_2\)` | `\(\ldots\)` | `\(f_k\)` | `\(\sum_{i=1}^kf_i=n\)` | -- > **Problema**: desconhecemos os valores observados. -- Para `\(i=1,\ldots,k\)`, devemos **<span style="color:orange">aproximar</span>** os valores do intervalo `\([a_{i-1},a_i)\)` pelo ponto médio `\(x_i^m=\frac{a_{i-i}+a_i}{2}\)` desse intervalo. Agora, a média é aproximada por `$$\bar{x}\approx\frac{1}{n}\sum_{j=1}^kn_jx_j^m=\sum_{j=1}^k{f}_jx_j^m,$$` onde `\(f_j=\frac{n_j}{n}\)` é a frequência relativa do `\(j\)`-ésimo intervalo. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - V #### Exemplo 5 - I | Classes de salário | Freq. | Ponto médio do intervalo | |:------------------:|:-----:|:------------------------:| | `\([4, 8)\)` | 10 | 6 | | `\([8, 12)\)` | 12 | 10 | | `\([12, 16)\)` | 8 | 14 | | `\([16, 20)\)` | 5 | 18 | | `\([20, 24)\)` | 1 | 22 | | Total | 36 | -- | --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - V #### Exemplo 5 - II `\begin{eqnarray} \bar{x}&\approx&\frac{1}{n}\sum_{j=1}^kn_jx_j^m = \frac{1}{36}\sum_{j=1}^5 n_jx_j^m \nonumber\\ &=& \frac{1}{36}(10 \times 6 + 12 \times 10 + 8 \times 14 + 5 \times 18 + 1 \times 22) \nonumber\\ &=& \frac{404}{36} = 11,22 \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Média - VI A média possui as seguintes características: * tem propriedades "boas"; * é influenciada por valores atípicos; * não recomendada em dados assimétricos; * só é calculada em variáveis quantitativas; * no caso intervalar `\(\downarrow k\Rightarrow\)` aproximação ruim para a média. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Mediana - I | 📝 Definição 15 | |:---------------------------| | A **<span style="color:orange">mediana</span>** é o valor da variável que ocupa a posição central de um conjunto de `\(n\)` dados **ordenados** de maneira crescente. Note que `\(50\%\)` das observações ficam acima da mediana e `\(50\%\)` ficam abaixo dessa medida. | | `\(\phantom{*************************}\)` Posição da mediana: `\(\frac{n+1}{2}.\)` | -- #### Exemplo 6 Dados: 20, 60, 30, 70, 80 `\(\longrightarrow\)` `\(n = 5\)` (ímpar) **<span style="color:orange">Dados ordenados</span>**: `\(20 \quad 30 \quad 60 \quad 70 \quad 80\)` -- Posição da Mediana `\(\frac{n+1}{2} = \frac{5 + 1}{2} = 3\)` -- Mediana = 60 --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Mediana - II #### Exemplo 7 - I Dados: 40, 80, 20, 10, 90, 60 `\(\longrightarrow\)` `\(n = 6\)` (par) **<span style="color:orange">Dados ordenados</span>**: `\(10 \quad 20 \quad 40 \quad 60 \quad 80 \quad 90\)` -- Posição da Mediana `\(\frac{n+1}{2} = \frac{6 + 1}{2} = 3,5\)` -- Mediana = `\(\frac{40 + 60}{2} = 50.\)` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Mediana - III | 📝 Definição 16 | |:---------------------------| | Dadas as observações `\(x_1,\ldots,x_n\)`, sejam `\(x_{(1)},\ldots,x_{(n)}\)` esses valores ordenados, isto é, `\(x_{(1)}\leq\cdots\leq x_{(n)}\)`. A mediana é definida por | <div class="figure" style="text-align: center"> <img src="images/Mediana.png" alt=" " width="40%" /> <p class="caption"> </p> </div> -- **Desvantagens** - sem interpretação física; - depende apenas da posição e não do valor; - menos influência de dados atípicos; - pode ser usada em variáveis qualitatitvas ordinais. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Moda - I | 📝 Definição 17 | |:---------------------------| | Dadas as observações `\(x_1,\ldots,x_n\)`, se `\(x_1^*,\ldots,x_k^*\)` denotarem os `\(k\)` valores diferentes, a moda é dada pelo valor com maior frequência. | -- > Um conjunto de dados pode ser amodal, unimodal, bimodal, `\(\ldots\)`. -- **Problema**: em variáveis contínuas, frequentemente, observamos poucos valores repetidos. Assim, na maioria dos casos, esse tipo de dado é amodal. -- **Alternativa**: utilizar a classe com maior densidade, ou **<span style="color:orange">classe modal</span>**. Assim, a moda pode ser aproximada pelo valor médio da classe modal. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Moda - II #### Exemplo 5 - III | Classes de salário | Freq. | Ponto médio do intervalo | |:------------------:|:-----:|:------------------------:| | `\([4, 8)\)` | 10 | 6 | | `\([8, 12)\)` | 12 | 10 | | `\([12, 16)\)` | 8 | 14 | | `\([16, 20)\)` | 5 | 18 | | `\([20, 24)\)` | 1 | 22 | | Total | 36 | -- | -- **Classe Modal**: `\([8,12)\)`. -- **Valor modal**: `\(\frac{12+8}{2}=10\)`. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Moda - III A moda de um conjunto de dados: - representa o(s) valor(es) mais provável(eis); - é muito indicada em dados multimodais; - não é afetada por dados atípicos; - pode ser usada em variáveis qualitativas. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn # Medidas de dispersão - I Suponhamos que quatro grupos de alunos submeteram-se a um teste, obtendo-se as seguintes notas: * Grupo A: 3, 4, 5, 6, 7 * Grupo B: 1, 3, 5, 7, 9 * Grupo C: 5, 5, 5, 5, 5 * Grupo D: 3, 5, 5, 7 -- Observemos que $$\bar{x}_A = \bar{x}_B = \bar{x}_C = \bar{x}_D = 5 $$ e $${m_d}_A = {m_d}_B = {m_d}_C = {m_d}_D = 5 $$ -- | O que diferencia os 4 grupos de notas? | |:--------------------------------------:| --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn # Medidas de dispersão - II <div class="figure" style="text-align: center"> <img src="images/Dispersao_grupos_AB.png" alt=" " width="30%" /> <p class="caption"> </p> </div><div class="figure" style="text-align: center"> <img src="images/Dispersao_grupos_CD.png" alt=" " width="30%" /> <p class="caption"> </p> </div> --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn # Medidas de dispersão - III **Finalidade**: Encontrar um valor que resuma a variabilidade de um conjunto de dados. Quatro medidas apresentadas: - amplitude amostral; - variância; - desvio-padrão; - coeficiente de variação. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Amplitude | `$$A = max-min$$` | |:---------------:| - Grupo A: 3, 4, 5, 6, 7 `\(\longrightarrow\)` A = 4 - Grupo B: 1, 3, 5, 7, 9 `\(\longrightarrow\)` A = 8 - Grupo C: 5, 5, 5, 5, 5 `\(\longrightarrow\)` A = 0 - Grupo D: 3, 5, 5, 7 `\(\longrightarrow\)` A = 4 -- > **Vantagens**: > > - cálculo rápido; > > - fácil interpretação; -- > **Desvantagem**: > > sofre alto impacto na presença de dados atípicos. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variância - I **Objetivo**: Medir a variabilidade através da dispersão de todos os dados em torno de sua média. -- | 📝 Definição 18 | |:---------------------------| | Variância populacional: `\(\phantom{**********************************************}\)` $$ \sigma^2=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2. $$ | 📝 Definição 19 | |:---------------------------| | Variância amostral: `\(\phantom{***********************************************}\)` $$ s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2. $$ --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variância - II #### Exemplo 6 - I Um levantamento dos preços à vista (R$) do litro de álcool em gel em alguns postos de venda de uma cidade está mostrado abaixo: $$ 4,61 \qquad 4,64 \qquad 4,56 \qquad 4,61 \qquad 4,60 \qquad 4,58$$ Obtenha a média e variância dessa amostra de preços. `\begin{eqnarray} \bar{x}&=&\frac{\sum_{i=1}^{6}x_i}{6}\nonumber\\ &=&\frac{x_1+\cdots+x_{6}}{6}\nonumber\\ & = & \frac{4,61 + ... + 4,58}{6}\nonumber\\ & = & \frac{27,60}{6}\nonumber\\ & = & 4,60 \nonumber \end{eqnarray}` Ou seja, o preço médio por litro de álcool em gel é de R$ 4,60. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variância - II #### Exemplo 6 - II Para o cálculo da variância, temos que: `\begin{eqnarray} s^2 = Var(X) &= & \frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1} \nonumber\\ &= & \frac{\sum_{i=1}^6(x_i-4,60)^2}{5} \nonumber\\ &= & \frac{(x_1-4,60)^2 + (x_2-4,60)^2 + .... + (x_6-4,60)^2}{5} \nonumber\\ &= & \frac{(4,61-4,60)^2 + (4,64-4,60)^2 + .... + (4,58-4,60)^2}{5} \nonumber\\ &= & \frac{0,0038}{5} \nonumber\\ &= & 0,00076. \nonumber \end{eqnarray}` -- > **Pergunta**: Qual a unidade dimensional da variância nesse exemplo? --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variância - III **Fórmula alternativa para o cálculo da variância amostral** `\begin{eqnarray} s^2 = Var(X) &= & \frac{\sum_{i=1}^n x_i^2 \; -\; n \; \bar{x}^2}{n-1} \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variância - IV #### Exemplo 6 - III Refazendo o cálculo da variância do exemplo anterior através da fórmula alternativa: `\begin{eqnarray} s^2 = Var(x) &= & \frac{\sum_{i=1}^n x_i^2 \; - \; n \; \bar{x}^2}{n-1} \nonumber\\ &= & \frac{\sum_{i=1}^6 x_i^2 \; - \; 6 \times 4,60^2}{5} \nonumber\\ &= & \frac{x_1^2 + \ldots + x_6^2 \; - \; 126,96}{5} \nonumber\\ &= & \frac{4,61^2 + 4,64^2 + ... + 4,58^2 \; - \; 126,96}{5} \nonumber\\ &= & \frac{126,9638 \; - \; 126,96}{5} = \frac{0,0038}{5} = 0,00076. \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variância - V **Observações:** * mais robusta a dados atípicos do que a amplitude; -- * se os dados, por exemplo, são expressos em `\(cm\)` a variância é em `\(cm^2\)`; -- * para dados apresentados em frequências intervalares, temos que $$ s^2=\frac{\sum_{i=1}^kn_i(x_i^m)^2 \; - \; n \bar{x}^2}{n-1}, $$ onde `\(x_i^m\)` é o ponto médio do `\(i\)`-ésimo intervalo. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variâcia - VI #### Exemplo 5 - IV | Classes de salário | `\(n_i\)` | `\(x_i^m\)` | `\((x_i^m)^2\)` | `\(n_i\times (x_i^m)^2\)` | |:------------------:|:-----:|:--------|:-----------:|:---------------------:| | `\([4, 8)\)` | 10 | 6 | 36 | 360 | | `\([8, 12)\)` | 12 | 10 | 100 | 1200 | | `\([12, 16)\)` | 8 | 14 | 196 | 1568 | | `\([16, 20)\)` | 5 | 18 | 324 | 1620 | | `\([20, 24)\)` | 1 | 22 | 484 | 484 | | Total | 36 | -- | -- | 5232 | -- `\(k\)`: o número de classes; `\(x_i^m\)`: ponto médio do `\(i\)`-ésimo intervalo. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Variâcia - VI #### Exemplo 5 - V Já havíamos calculado que `\(\bar{x} = 11,22\)`. Assim, `\begin{eqnarray} s^2 &=& \frac{\sum_{i=1}^kn_i \; (x_i^m)^2 \; - \; n \; \bar{x}^2}{n-1} \nonumber\\ %&=& \frac{5232 \; - \; 36 \times 11,22}{35} \nonumber\\ &=& \frac{5232 \; - \; 36 \times 11,22^2}{35} = \frac{700,02}{35} = 20 \nonumber \end{eqnarray}` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Desvio Padrão - I Para remediar o fato de a variância ser expressa na unidade de medida da variável ao quadrado, podemos calcular o **<span style="color:orange">desvio padrão</span>**. | 📝 Definição 20 | |:---------------------------| | O desvio-padrão populacional é dado por `\(\phantom{*************************************}\)` $$ \sigma=\sqrt{\sigma^2}=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2}. $$ | 📝 Definição 21 | |:---------------------------| | O desvio-padrão amostral é dado por `\(\phantom{*************************************}\)` $$ s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}. $$ | > A grande vantagem do desvio-padrão é que ele é expresso na mesma unidade de medida dos dados. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Desvio Padrão - II #### Exemplo 5 - VI Desvio-padrão dos salários de 36 empregados organizados via tabela de frequências. $$ s=\sqrt{s^2} = \sqrt{20} = 4,47$$ salários mínimos -- #### Exemplo 6 - IV Desvio-padrão dos preços do litro de álcool em gel. $$ s=\sqrt{s^2} = \sqrt{0,00076} = 0,02767$$ reais. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Coeficiente de variação - I > **Observação**: As medidas de dispersão apresentadas são influenciadas pela "grandeza" da variável estudada. -- É comum então representar o desvio-padrão como percentual da média. Denomina-se essa medida de coeficiente de variação. -- | 📝 Definição 22 | |:---------------------------| | O coeficiente de variação populacional é dado por `\(\phantom{********************************}\)` $$ CV(\%) =\frac{\sigma}{\mu} \times 100, $$ onde `\(\mu\)` é a média populacional. O coeficiente de variação amostral é dado por $$ CV(\%) =\frac{s}{\bar{x}} \times 100, $$ onde `\(\bar{x}\)` é a média amostral. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Coeficiente de variação - II >**Vantagens**: > > - Duas populações com médias muito diferentes podem ter suas dispersões comparadas através do coeficiente de variação. > > - É adimensional --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Coeficiente de variação - III #### Exemplo 7 - II Altura e peso dos alunos | | Média | Desvio-padrão | |:------:|:-----:|:-------------:| | Altura | 1,50 m | 0,0825 m | | Peso | 50 Kg | 6 Kg | -- > Os alunos são mais dispersos com respeito a altura ou o peso? -- | | Média | Desvio-padrão | Coeficiente de variação | |:------:|:-----:|:-------------:|:-----------------------:| | Altura | 1,50 m | 0,0825 m | 5,5% | | Peso | 50 Kg | 6 Kg | 12% | -- Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Percentil - I O percentil de ordem `\(p \times 100\)` `\((0 < p < 1)\)` em um conjunto de dados de tamanho `\(n\)`, é o valor da variável que ocupa a posição `\(p \times (n+1)\)` do conjunto de **<span style="color:orange">dados ordenados</span>**. -- **Casos particulares**: * Percentil 50 = mediana ou segundo quartil `\((Q_2)\)` * Percentil 25 = primeiro quartil `\((Q_1)\)` * Percentil 75 = terceiro quartil `\((Q_3)\)` * Percentil 10 = primeiro decil --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Percentil - II #### Exemplo 8 - I Dados ordenados: `$$19 \quad 20 \quad 21 \quad 25 \quad 30 \quad 31 \quad 33 \quad 37 \quad 61 \quad 77$$` -- * **Posição da Md (ou `\(Q_2\)`)**: `\(0,5 \times (n +1) = 0,5 \times 11 = 5,5\)` `$$\color{red}{\text{Mediana}} = \frac{30 + 31}{2} = 30,5$$` -- * **Posição de `\(Q_1\)`**: `\(0,25 \times (n +1) = 0,25 \times 11 = 2,75\)` -- `\(\phantom{****}\)` |Como obter `\(Q_1\)`?| |:---------------:| --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Percentil - II #### Exemplo 8 - II Na literatura há diversas estratégias, aqui apresentaremos duas: **Tipo I**: Calcula-se a média dos valores que ocupam as posições adjacentes à posição do quantil. `$$\color{red}{Q_1} = \frac{20 + 21}{2} = 20,5$$` -- **Tipo II**: Interpolação. Note que a Posição de `\(Q_1\)` = `\(2\color{blue}{,75}\)` `$$\color{red}{Q_1} = 20 + \color{blue}{0,75} (21-20) = 20,75$$` -- `\(\phantom{***}\)` | Pergunta: | |:------------:| |Faz diferença a construção do Tipo I e Tipo II para a mediana?| --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ## Percentil - II #### Exemplo 8 - III * **Posição de `\(Q_3\)`**: `\(0,75 \times (n +1) = 0,75 \times 11 = 8\color{blue}{,25}\)` **Tipo I**: `$$\color{red}{Q_3} = \frac{37 + 61}{2} = 49$$` -- **Tipo II**: `$$\color{red}{Q_3} = 37 + \color{blue}{0,25} (61-37) = 43$$` -- Interpretações: * `\(25\%\)` das observações da amostra estão abaixo de `\(Q_1\)`, `\(75\%\)` estão acima desse valor. -- * `\(75\%\)` das observações da amostra estão abaixo de `\(Q_3\)`, `\(25\%\)` estão acima desse valor. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Intervalo (ou Amplitude) Interquartil Medida de dispersão alternativa ao desvio-padrão, sendo definido como a diferença entre o terceiro quartil `\((Q_3)\)` e o primeiro quartil `\((Q_1)\)`, ou seja, `$$d_q = Q_3 - Q_1.$$` #### Exemplo 8 - IV * **Tipo I**: `\(Q_1\)` = 20,5 e `\(Q_3\)` = 49 `$$d_q = Q_3 - Q_1 = 49 - 20,5 = 28,5$$` -- * **Tipo II**: `\(Q_1\)` = 20,75 e `\(Q_3\)` = 43 `$$d_q = Q_3 - Q_1 = 43 - 20,75 = 22,25$$` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - I O boxplot, ou diagrama de caixa, é um gráfico que capta importantes aspectos de um conjunto de dados através do seu **<span style="color:orange">resumo em cinco números</span>**, formado pelos seguintes valores: - valor mínimo*, - primeiro quartil, - segundo quartil, - terceiro quartil e - valor máximo*. -- O boxplot nos dá uma ideia de posição, dispersão, assimetria e dados discrepantes. A posição central é dada pela mediana e a dispersão pelo intervalo interquartil. As posições relativas entre `\(Q_1\)`, `\(Q_2\)` e `\(Q_3\)` nos dão uma ideia da simetria ou assimetria da distribuição. --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - II <div class="figure" style="text-align: center"> <img src="images/Boxplot.png" alt=" " width="60%" /> <p class="caption"> </p> </div> --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - III * **Máximo* **: é o maior valor menor que o Limite Superior (LS). -- * **Mínimo* **: é o menor valor maior que o Limite Inferior (LI). -- * **Outlier**: valores discrepantes. Para a representação no Boxplot, as observações com valores maiores que o Limite Superior (LS) ou com valores menores que o Limite Inferior (LI) são considerados outliers. -- * **Limite Inferior**: $$ LI = Q_1 - 1.5 (Q_3 - Q_1)$$ -- * **Limite Superior**: $$ LS = Q_3 + 1.5 (Q_3 - Q_1)$$ --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - III #### Exemplo 9 - I Obter o boxplot do seguinte conjunto de dados brutos: `$$29 \quad 33 \quad 35 \quad 37 \quad 43 \quad 44 \quad 50 \quad 61 \quad 90$$` -- * **Posição de `\(Q_1\)`**: `$$0,25 \times (n+1) = 0,25 \times 10 = 2,5 \longrightarrow Q_1 = \frac{33 + 35}{2} = 34$$` -- * **Posição de `\(Q_2\)`**: `$$0,5 \times (n+1) = 0,5 \times 10 = 5 \longrightarrow Q_2 = \frac{33 + 35}{2} = 43$$` -- * **Posição de `\(Q_3\)`**: `$$0,75 \times (n+1) = 0,75 \times 10 = 7,5 \longrightarrow Q_3 = \frac{50 + 61}{2} = 55,5$$` --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - III #### Exemplo 9 - II * **Limite inferior**: `$$LI = Q_1 - 1,5 (Q_3 - Q_1) = 34 - 1,5 (55,5 - 34) = 1,75$$` -- * **Limite superior**: `$$LS = Q_3 + 1,5 (Q_3 - Q_1) = 55,5 + 1,5 (55,5 - 34) = 87,75$$` -- * **Máx* **: = 61 * **Min* **: = 29 -- |Há valores *outliers* na amostra?| |:-------------------------------:| |Sim, mas apenas um. O valor 90!| --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - III #### Exemplo 9 - III .center[ <img src="Medidas_resumo_files/figure-html/unnamed-chunk-7-1.png" width="40%" /> ] --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - IV #### Comparando diferentes grupos via boxplot <div class="figure" style="text-align: center"> <img src="images/Boxplot_varios.png" alt=" " width="50%" /> <p class="caption"> </p> </div> --- [//]: <> (class: center, middle, animated, slideInRight/ class: animated slideInRight fadeOutLeft) class: animated, fadeIn ### Boxplot - V <div class="figure" style="text-align: center"> <img src="images/Boxplot_distrib.png" alt=" " width="70%" /> <p class="caption"> </p> </div> --- class: animated, hide-logo, bounceInDown ## Política de proteção aos direitos autorais > <span style="color:grey">O conteúdo disponível consiste em material protegido pela legislação brasileira, sendo certo que, por ser o detentor dos direitos sobre o conteúdo disponível na plataforma, o **LECON** e o **NEAEST** detém direito exclusivo de usar, fruir e dispor de sua obra, conforme Artigo 5<sup>o</sup>, inciso XXVII, da Constituição Federal e os Artigos 7<sup>o</sup> e 28<sup>o</sup>, da Lei 9.610/98. A divulgação e/ou veiculação do conteúdo em sites diferentes à plataforma e sem a devida autorização do **LECON** e o **NEAEST**, pode configurar violação de direito autoral, nos termos da Lei 9.610/98, inclusive podendo caracterizar conduta criminosa, conforme Artigo 184<sup>o</sup>, §1<sup>o</sup> a 3<sup>o</sup>, do Código Penal. É considerada como contrafação a reprodução não autorizada, integral ou parcial, de todo e qualquer conteúdo disponível na plataforma.</span> .pull-left[ <img src="images/logo_lecon.png" width="50%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="images/logo_neaest.png" width="50%" style="display: block; margin: auto;" /> ] .center[ [https://lecon.ufes.br](https://lecon.ufes.br/) ] <font size="2"><span style="color:grey">Material elaborado pela equipe LECON/NEAEST: Alessandro J. Q. Sarnaglia, Bartolomeu Zamprogno, Fabio A. Fajardo, Luciana G. de Godoi e Nátaly A. Jiménez.</span></font>