Buscar

Aula 06 - Dia 3

Prévia do material em texto

Estatística Descritiva e Visualização de Informações 
 
Medidas de Posição 
Prof. Dr. Harlei Miguel de Arruda Leite 
Departamento de Computação e Sistemas 
Universidade Federal de Ouro Preto 
Sumário 
• Medidas resumo 
• Medidas de posição 
• Prática – Google Colab 
• Atividade em sala de aula 
• Referências bibliográficas 
 
 
Medidas resumo 
• Introdução (Crespo, 2020) 
 
– O estudo sobre distribuição de frequência permite descrever, de modo geral, 
os grupos dos valores que uma variável pode assumir. Dessa forma, é possível 
localizar a maior concentração de valores de uma distribuição 
 
– Para sumarizar as informações disponíveis sobre o comportamento de uma 
variável, se faz uso do conceito de medidas resumo, sendo as mais utilizadas 
as medidas de posição e as medidas de variabilidade ou dispersão. 
Medidas resumo 
• Medidas de posição (Magalhães et al., 2004) 
 
– Se estamos numa parada de ônibus urbano e nos pedem alguma informação 
sobre a demora em passar um determinado ônibus, o que diremos? 
 
– Ninguém imagina que poderíamos dar como resposta uma tabela de 
frequências que coletamos no último mês ou ano. Quem perguntou deseja 
uma resposta rápida que sintetize a informação que dispomos, e não uma 
completa descrição. 
 
– As medidas de posição são utilizadas para sumarizar as informações 
disponíveis sobre o comportamento de uma variável. 
 
Medidas resumo 
• Medidas de posição (Magalhães et al., 2004) 
 
– As medidas de posição mais importantes são as medidas de tendência 
central, que recebem essa denominação pelo fato de os dados observados 
tenderem, em geral, a se agruparem em torno dos valores centrais. 
 
– Dentre as medidas de tendência central, as principais são: 
 
• Média 
• Mediana 
• Moda 
Medidas de posição 
• Média aritmética simples (Magalhães et al., 2004) 
 
– Considere uma variável 𝑋 com observações representadas por 𝑥1, 𝑥2, ⋯ , 𝑥𝑛. 
A média desse conjunto é a soma dos valores dividida pelo número total de 
observações. 
 
 
 
 
– As vezes a média pode ser um número diferente de todos os da série de 
dados que ela representa. Neste caso, costumamos dizer que a média não 
tem existência concreta. 
𝑥 𝑜𝑏𝑠 =
𝑥1 + 𝑥2 +⋯+ 𝑥𝑛
𝑛
=
 𝑥𝑖
𝑛
𝑖=1
𝑛
 
Medidas de posição 
• Média aritmética simples (Magalhães et al., 2004) 
 
– Exemplo 
 
• Suponha que parafusos a serem utilizados em tomadas elétricas são embalados 
em caixas rotuladas como contendo 100 unidades. Em uma construção, 10 caixas 
de um lote tiveram o número de parafusos contados, fornecendo os valores 98, 
102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o número médio de 
parafusos será dado por 
𝑥 𝑜𝑏𝑠 =
98 + 102 + 100 + 100 + 99 + 97 + 96 + 95 + 99 + 100
10
 
𝑥 𝑜𝑏𝑠 =
986
10
= 98,6 
Medidas de posição 
• Média aritmética ponderada (Crespo, 2020) 
 
– Similar a média aritmética comum, com a diferença que na média aritmética 
ponderada se leva em consideração o peso de cada termo. 
 
 
 
 
 
– Se todos os pesos são iguais, então o valor da média ponderada é o mesmo 
da média aritmética. 
 
 
 
 
 
𝑥 𝑜𝑏𝑠 =
𝑥1𝑓1 + 𝑥2𝑓2 +⋯𝑥𝑘𝑓𝑘
𝑓1 + 𝑓2 +⋯𝑓𝑘
=
 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
 𝑓𝑖
𝑘
𝑖=1
 
Medidas de posição 
• Média aritmética ponderada (Crespo, 2020) 
 
– Dados agrupados (sem intervalos de classe) 
 
• Considere a distribuição relativa a 34 famílias de quatro filhos, tomando para 
variável o número de filhos do sexo masculino 
 
 
 
 
 
 
 
 
• Neste caso, como as frequências são números indicadores da intensidade de cada 
valor da variável, elas funcionam como fatores de ponderação. 
Medidas de posição 
• Média aritmética ponderada (Crespo, 2020) 
 
– Dados agrupados (sem intervalos de classe) 
 
• O modo mais prático de obtenção da média ponderada é abrir, na tabela, uma 
coluna correspondente aos produtos 𝑥𝑖𝑓𝑖 
 
 
 
 
 
 
 
• Logo 
𝑥 𝑜𝑏𝑠 =
 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
 𝑓𝑖
𝑘
𝑖=1
=
78
34
= 2,29 𝑓𝑖𝑙ℎ𝑜𝑠 
Medidas de posição 
• Média aritmética ponderada (Crespo, 2020) 
 
– Dados agrupados (com intervalos de classe) 
 
• Neste caso, se considera que todos os valores incluídos em determinado intervalo 
de classe coincidem com o seu ponto médio. 
 
• Considere a distribuição abaixo 
Medidas de posição 
• Média aritmética ponderada (Crespo, 2020) 
 
– Dados agrupados (com intervalos de classe) 
 
• Pela mesma razão do caso anterior, deve-se abrir uma coluna para os pontos 
médios e outra para os produtos 𝑥𝑖𝑓𝑖. 
 
 
 
 
 
 
 
• Logo 
𝑥 𝑜𝑏𝑠 =
 𝑥𝑖𝑓𝑖
𝑘
𝑖=1
 𝑓𝑖
𝑘
𝑖=1
=
6440
40
= 161 𝑐𝑚 
Medidas de posição 
• Média (Crespo, 2020) 
 
– A média é utilizada quando: 
 
• Desejamos obter a medida e posição que possui a maior estabilidade 
• Quando não se tem muitos valores discrepantes 
Medidas de posição 
• Mediana (Crespo, 2020) 
 
– Representada por 𝑚𝑑𝑜𝑏𝑠, é o valor que ocupa a posição central dos dados 
ordenados. 
 
– Exemplo 
 
• [95, 96, 97, 98, 99, 99, 100, 100, 100, 102] 
 
 
 
 
 
• Neste caso, a mediana é a média dos dois valores que ocupam a posição central. 
 
𝑚𝑑𝑜𝑏𝑠 =
99 + 99
2
= 99 
Medidas de posição 
• Mediana (Crespo, 2020) 
 
– Dados agrupados (sem intervalo de classe) 
 
• Neste caso, é o bastante identificar a frequência acumulada imediatamente 
superior à metade da soma das frequências. A mediana será aquele valor da 
variável que corresponde a tal frequência cumulada. 
 
• Considerando a distribuição relativa abaixo 
 
 
 
 
 
 
 
• Logo, a menor frequência acumulada que supera esse valor é 18, que 
corresponde ao valor 2 da variável, logo 𝑚𝑑𝑜𝑏𝑠 = 2 𝑚𝑒𝑛𝑖𝑛𝑜𝑠 
 𝑓𝑖
𝑘
𝑖=1
2
=
34
2
= 17 
Medidas de posição 
• Mediana (Crespo, 2020) 
 
– Dados agrupados (com intervalo de classe) 
 
1. Determinar as frequências acumuladas 
2. Calcular 
 𝑓𝑖
2
 
3. Marcar a classe correspondente à frequência acumulada imediatamente superior à 
 𝑓𝑖
2
 - classe mediana – e, em seguida, empregar a fórmula abaixo para determinar o 
ponto do intervalo em que está compreendida a mediana. 
 
 
 
 
Na qual: 
 ℓ∗ é o limite inferior da classe mediana 
 𝐹(𝑎𝑛𝑡) é a frequência acumulada da classe anterior à classe mediana 
 𝑓∗ é a frequência simples da classe mediana 
 ℎ∗ é a amplitude do intervalo da classe mediana 
𝑚𝑑𝑜𝑏𝑠 = ℓ
∗ +
 𝑓𝑖
2
− 𝐹(𝑎𝑛𝑡) ℎ∗
𝑓∗
 
Medidas de posição 
• Mediana (Crespo, 2020) 
 
– Dados agrupados (com intervalo de classe) 
 
 
 
 
 
 
 
 
 
 
– Logo, a mediana é 160,5 cm 
 
 
 𝑓𝑖
2
=
40
2
= 20 
𝑙∗ = 158 
𝐹 𝑎𝑛𝑡 = 13 
𝑓∗ = 11 
ℎ∗ = 4 
𝑚𝑑𝑜𝑏𝑠 = 158 +
(20 − 13) × 4
11
= 158 +
28
11
= 158 + 2,54 = 160,54 
Medidas de posição 
• Mediana (Crespo, 2020) 
 
– O valor da mediana pode coincidir ou não com um elemento da série. 
Quando o número de elementos da série é impar, há coincidência. O mesmo 
não acontece quando esse número é par. 
 
– A mediana e a média aritmética não têm, necessariamente, o mesmo valor. A 
mediana depende da posição, e não dos valores dos elementos na série 
ordenada. 
 
– A mediana é utilizada quando 
 
• Se deseja obter o ponto que divide a distribuição em partes iguais 
• Quando há valores extremos que afetam de uma maneira acentuada a média 
• A variável em estudo é salário 
Medidas de posição 
• Moda (Crespo, 2020) 
 
– Representada por 𝑚𝑜𝑜𝑏𝑠, é o valor mais frequente. 
 
– Exemplo 
 
• [98, 102, 100, 100, 99, 97, 96, 95, 99, 100] 
 
 
 
– Existem séries nas quais não existe um valor modal (amodal), isto é, 
situações em que nenhum valor aparece mais vezes que outros. 
 
– Em outros casos, ao contrário, pode haver dois ou mais valores de 
concentração. 
𝑚𝑜𝑜𝑏𝑠 = 100 
Medidas de posição 
• Moda (Crespo, 2020) 
 
– Dados agrupados (sem intervalos de classe) 
 
• Uma vez agrupados os dados, é possível determinar imediatamente a moda, 
fixando o valor da variável de maiorfrequência. 
 
 
 
 
 
 
 
 
• Na distribuição acima, a frequência máxima (12) corresponde o valor 3 da 
variável, logo a moda é 3. 
Medidas de posição 
• Moda (Crespo, 2020) 
 
– Dados agrupados (com intervalo de classe) 
 
• A classe que apresenta a maior frequência é denominada classe modal. Pela 
definição, pode-se afirmar que a moda, neste caso, é o valor dominante que está 
compreendido entre os limites da classe modal. 
 
• O método mais simples para o cálculo da moda consiste em tomar o ponto médio 
da classe modal (moda bruta). 
 
 
 
• Onde 
 ℓ∗ é o limite inferior da classe modal 
 𝐿∗ é o limite superior da classe modal 
 
𝑚𝑜𝑜𝑏𝑠 =
ℓ∗ + 𝐿∗
2
 
Medidas de posição 
• Moda (Crespo, 2020) 
 
– Dados agrupados (com intervalo de classe) 
 
• Assim, para a distribuição 
 
 
 
 
 
 
 
 
• Temos 
𝑚𝑜𝑜𝑏𝑠 =
ℓ∗ + 𝐿∗
2
=
158 + 162
2
=
320
2
= 160 𝑐𝑚 
Medidas de posição 
• Moda (Crespo, 2020) 
 
– A moda é utilizada quando: 
 
• Se deseja obter uma medida rápida e aproximada de posição 
• Quando a medida de posição deve ser o valor mais típico da distribuição. 
Medidas de posição 
• Posição relativa da média, mediana e moda (Crespo, 2020) 
 
– Quando uma distribuição é simétrica, as três medidas coincidem. A 
assimetria, porém, torna-as diferentes, e essa diferença é tanto maior quanto 
maior é a assimetria. Assim, em uma distribuição em forma de sino, temos: 
 
• 𝑥 = 𝑚𝑑 = 𝑚𝑜, no caso da curva simétrica 
• 𝑚𝑜 < 𝑚𝑑 < 𝑥 , no caso da curva assimétrica positiva 
• 𝑥 < 𝑚𝑑 < 𝑚𝑜, no caso da curva assimétrica negativa 
Medidas de posição 
• Separatrizes (Crespo, 2020) 
 
– A mediana caracteriza uma série de valores em razão de sua posição central. 
No entanto, ela apresenta outra característica, tão importante quanto a 
primeira: 
 
• Ela separa a série em dois grupos que apresentam o mesmo número de valores. 
 
– Assim, além das medidas de posição, há outras que, consideradas 
individualmente, não são medidas de tendência central, mas estão ligadas à 
mediana relativamente à sua segunda característica, visto que se baseiam em 
sua posição na série. 
 
– Essas medidas – os quartis, percentis e decis – são, juntamente com a 
mediana, conhecidas como separatrizes. 
Medidas de posição 
• Quartis (Crespo, 2020) 
 
– Denominamos quartis os valores de uma série que a dividem em quatro 
partes iguais. 
 
• O primeiro quartil (𝑄1): valor situado de tal modo na série que uma quarta parte 
(25%) dos dados é menor que ele e as três quartas partes restantes (75%) são 
maiores. 
 
• O segundo quartil (𝑄2): evidentemente, coincide com a mediana (𝑄2 = 𝑚𝑑). 
 
• O terceiro quartil (𝑄3): valor situado de tal modo que as três quartas partes (75%) 
dos termos são menores que ele e uma quarta parte (25%) é maior. 
Medidas de posição 
• Quartis (Crespo, 2020) 
 
– Quando os dados são agrupados, para determinar os quartis, usamos a 
mesma técnica do cálculo da mediana, bastando substituir, na fórmula da 
mediana, 
 𝑓𝑖
2
 por 
𝑘 𝑓𝑖
4
, sendo 𝑘 o número de ordem do quartil. 
 
– Assim temos 
𝑄1 = ℓ
∗ +
 𝑓𝑖
4
− 𝐹(𝑎𝑛𝑡) ℎ∗
𝑓∗
 
𝑄3 = ℓ
∗ +
3 𝑓𝑖
4
− 𝐹(𝑎𝑛𝑡) ℎ∗
𝑓∗
 
Medidas de posição 
• Quartis (Crespo, 2020) 
 
– Exemplo 
 
 𝑓𝑖
4
=
40
4
= 10 
𝑄1 = ℓ
∗ +
 𝑓𝑖
4
− 𝐹(𝑎𝑛𝑡) ℎ∗
𝑓∗
= 154 +
(10 − 4) × 4
9
= 156,66 ⇒ 156,7 𝑐𝑚 
Medidas de posição 
• Quartis (Crespo, 2020) 
 
– Exemplo 
3 𝑓𝑖
4
=
3 × 40
4
= 30 
𝑄3 = ℓ
∗ +
3 𝑓𝑖
4
− 𝐹(𝑎𝑛𝑡) ℎ∗
𝑓∗
= 162 +
(30 − 24) × 4
8
= 165 𝑐𝑚 
Medidas de posição 
• Percentis (Crespo, 2020) 
 
– Denominamos percentis os 99 valores que separam uma série em 100 partes 
iguais. 
 
– Indicamos 
 
 
 
– É evidente que 
𝑃1, 𝑃2,⋯ , 𝑃32, ⋯ , 𝑃99 
𝑃50 = 𝑚𝑑 
𝑃25 = 𝑄1 
𝑃75 = 𝑄3 
Medidas de posição 
• Percentis (Crespo, 2020) 
 
– O cálculo de um percentil segue a mesma técnica do cálculo da mediana, 
porém, a fórmula 
 𝑓𝑖
2
 será substituída por 
𝑘 𝑓𝑖
100
, sendo 𝑘 o número de ordem 
do percentil. 
 
– Assim, para o 27º percentil, temos 
𝑘 = 27 ⇒ 𝑃27 = ℓ
∗ +
27 𝑓𝑖
100
− 𝐹(𝑎𝑛𝑡) ℎ∗
𝑓∗
 
Medidas de posição 
• Percentis (Crespo, 2020) 
 
– Exemplo 
 
 
 
 
 
 
 
 
• Temos, para o oitavo percentil 
𝑘 = 8 ⇒ 𝑃8 = 150 +
8 × 40
100
− 0 × 4
4
= 153,2 𝑐𝑚 
Medidas de posição 
• Decis (Crespo, 2020) 
 
– Denominamos decis os 9 valores que separam uma série em 10 partes iguais. 
 
– Indicamos 
 
 
 
 
 
𝐷1, 𝐷2,⋯ , 𝐷7, ⋯ , 𝐷9 
Medidas de posição 
• Boxplot (Magalhães et al., 2004) 
 
– É uma representação gráfica envolvendo os quartis. Também é conhecido 
como diagrama de caixa. 
 
– Definimos uma “caixa” com o nível superior dado pelo terceiro quartil e o 
nível inferior pelo primeiro quartil. A mediana é representada por um traço 
no interior da caixa e segmentos de reta são colocados da caixa até os valores 
máximo e mínimo, que não sejam observações discrepantes. 
Fonte: (wikipedia, 2021) 
Medidas de posição 
• Boxplot 
 
– Valores discrepantes 
 
 
Fo
n
te
: 
(M
at
p
lo
tl
ib
, 
2
0
2
1
) 
Prática – Google Colab 
• Descrição 
 
– Aplicar na prática os conceitos aprendidos na aula. 
Atividade em sala de aula 
• Descrição 
 
– Vamos calcular as medidas resumo para as variáveis da base de dados IBM 
HR Analytics Employee Attrition & Performance. 
 
– A base de dados apresenta 35 dados de 1470 funcionários. O dado mais 
importante é a da coluna 2 “Attrition”, que informa se o funcionário 
apresenta desgaste ou não. 
 
– Utilize a sua criatividade para extrair informações interessantes. 
 
– Utilize o arquivo Atv_Aula_06_IBM.ipynb que contém a estrutura inicial. 
 
Referências Bibliográficas 
• (Crespo, 2020) Crespo, A. A. “Estatística”. Editora Saraiva Educação, 20th edição, 
2020. 
 
• (Magalhães et al., 2004) Magalhães, M. N.; Lima, A. C. P. “Noções de 
probabilidade e estatística”. 6th edição, Editora edusp, 2004. 
 
• (Wikipedia, 2021) https://pt.wikipedia.org/wiki/Diagrama_de_caixa. Acessado 
dia 16/08/2021. 
 
• (Matplotlib, 2021) 
https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.boxplot.html. 
Acessado dia 16/08/2021.

Continue navegando