Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva e Visualização de Informações Medidas de Posição Prof. Dr. Harlei Miguel de Arruda Leite Departamento de Computação e Sistemas Universidade Federal de Ouro Preto Sumário • Medidas resumo • Medidas de posição • Prática – Google Colab • Atividade em sala de aula • Referências bibliográficas Medidas resumo • Introdução (Crespo, 2020) – O estudo sobre distribuição de frequência permite descrever, de modo geral, os grupos dos valores que uma variável pode assumir. Dessa forma, é possível localizar a maior concentração de valores de uma distribuição – Para sumarizar as informações disponíveis sobre o comportamento de uma variável, se faz uso do conceito de medidas resumo, sendo as mais utilizadas as medidas de posição e as medidas de variabilidade ou dispersão. Medidas resumo • Medidas de posição (Magalhães et al., 2004) – Se estamos numa parada de ônibus urbano e nos pedem alguma informação sobre a demora em passar um determinado ônibus, o que diremos? – Ninguém imagina que poderíamos dar como resposta uma tabela de frequências que coletamos no último mês ou ano. Quem perguntou deseja uma resposta rápida que sintetize a informação que dispomos, e não uma completa descrição. – As medidas de posição são utilizadas para sumarizar as informações disponíveis sobre o comportamento de uma variável. Medidas resumo • Medidas de posição (Magalhães et al., 2004) – As medidas de posição mais importantes são as medidas de tendência central, que recebem essa denominação pelo fato de os dados observados tenderem, em geral, a se agruparem em torno dos valores centrais. – Dentre as medidas de tendência central, as principais são: • Média • Mediana • Moda Medidas de posição • Média aritmética simples (Magalhães et al., 2004) – Considere uma variável 𝑋 com observações representadas por 𝑥1, 𝑥2, ⋯ , 𝑥𝑛. A média desse conjunto é a soma dos valores dividida pelo número total de observações. – As vezes a média pode ser um número diferente de todos os da série de dados que ela representa. Neste caso, costumamos dizer que a média não tem existência concreta. 𝑥 𝑜𝑏𝑠 = 𝑥1 + 𝑥2 +⋯+ 𝑥𝑛 𝑛 = 𝑥𝑖 𝑛 𝑖=1 𝑛 Medidas de posição • Média aritmética simples (Magalhães et al., 2004) – Exemplo • Suponha que parafusos a serem utilizados em tomadas elétricas são embalados em caixas rotuladas como contendo 100 unidades. Em uma construção, 10 caixas de um lote tiveram o número de parafusos contados, fornecendo os valores 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o número médio de parafusos será dado por 𝑥 𝑜𝑏𝑠 = 98 + 102 + 100 + 100 + 99 + 97 + 96 + 95 + 99 + 100 10 𝑥 𝑜𝑏𝑠 = 986 10 = 98,6 Medidas de posição • Média aritmética ponderada (Crespo, 2020) – Similar a média aritmética comum, com a diferença que na média aritmética ponderada se leva em consideração o peso de cada termo. – Se todos os pesos são iguais, então o valor da média ponderada é o mesmo da média aritmética. 𝑥 𝑜𝑏𝑠 = 𝑥1𝑓1 + 𝑥2𝑓2 +⋯𝑥𝑘𝑓𝑘 𝑓1 + 𝑓2 +⋯𝑓𝑘 = 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 𝑓𝑖 𝑘 𝑖=1 Medidas de posição • Média aritmética ponderada (Crespo, 2020) – Dados agrupados (sem intervalos de classe) • Considere a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do sexo masculino • Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação. Medidas de posição • Média aritmética ponderada (Crespo, 2020) – Dados agrupados (sem intervalos de classe) • O modo mais prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos produtos 𝑥𝑖𝑓𝑖 • Logo 𝑥 𝑜𝑏𝑠 = 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 𝑓𝑖 𝑘 𝑖=1 = 78 34 = 2,29 𝑓𝑖𝑙ℎ𝑜𝑠 Medidas de posição • Média aritmética ponderada (Crespo, 2020) – Dados agrupados (com intervalos de classe) • Neste caso, se considera que todos os valores incluídos em determinado intervalo de classe coincidem com o seu ponto médio. • Considere a distribuição abaixo Medidas de posição • Média aritmética ponderada (Crespo, 2020) – Dados agrupados (com intervalos de classe) • Pela mesma razão do caso anterior, deve-se abrir uma coluna para os pontos médios e outra para os produtos 𝑥𝑖𝑓𝑖. • Logo 𝑥 𝑜𝑏𝑠 = 𝑥𝑖𝑓𝑖 𝑘 𝑖=1 𝑓𝑖 𝑘 𝑖=1 = 6440 40 = 161 𝑐𝑚 Medidas de posição • Média (Crespo, 2020) – A média é utilizada quando: • Desejamos obter a medida e posição que possui a maior estabilidade • Quando não se tem muitos valores discrepantes Medidas de posição • Mediana (Crespo, 2020) – Representada por 𝑚𝑑𝑜𝑏𝑠, é o valor que ocupa a posição central dos dados ordenados. – Exemplo • [95, 96, 97, 98, 99, 99, 100, 100, 100, 102] • Neste caso, a mediana é a média dos dois valores que ocupam a posição central. 𝑚𝑑𝑜𝑏𝑠 = 99 + 99 2 = 99 Medidas de posição • Mediana (Crespo, 2020) – Dados agrupados (sem intervalo de classe) • Neste caso, é o bastante identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal frequência cumulada. • Considerando a distribuição relativa abaixo • Logo, a menor frequência acumulada que supera esse valor é 18, que corresponde ao valor 2 da variável, logo 𝑚𝑑𝑜𝑏𝑠 = 2 𝑚𝑒𝑛𝑖𝑛𝑜𝑠 𝑓𝑖 𝑘 𝑖=1 2 = 34 2 = 17 Medidas de posição • Mediana (Crespo, 2020) – Dados agrupados (com intervalo de classe) 1. Determinar as frequências acumuladas 2. Calcular 𝑓𝑖 2 3. Marcar a classe correspondente à frequência acumulada imediatamente superior à 𝑓𝑖 2 - classe mediana – e, em seguida, empregar a fórmula abaixo para determinar o ponto do intervalo em que está compreendida a mediana. Na qual: ℓ∗ é o limite inferior da classe mediana 𝐹(𝑎𝑛𝑡) é a frequência acumulada da classe anterior à classe mediana 𝑓∗ é a frequência simples da classe mediana ℎ∗ é a amplitude do intervalo da classe mediana 𝑚𝑑𝑜𝑏𝑠 = ℓ ∗ + 𝑓𝑖 2 − 𝐹(𝑎𝑛𝑡) ℎ∗ 𝑓∗ Medidas de posição • Mediana (Crespo, 2020) – Dados agrupados (com intervalo de classe) – Logo, a mediana é 160,5 cm 𝑓𝑖 2 = 40 2 = 20 𝑙∗ = 158 𝐹 𝑎𝑛𝑡 = 13 𝑓∗ = 11 ℎ∗ = 4 𝑚𝑑𝑜𝑏𝑠 = 158 + (20 − 13) × 4 11 = 158 + 28 11 = 158 + 2,54 = 160,54 Medidas de posição • Mediana (Crespo, 2020) – O valor da mediana pode coincidir ou não com um elemento da série. Quando o número de elementos da série é impar, há coincidência. O mesmo não acontece quando esse número é par. – A mediana e a média aritmética não têm, necessariamente, o mesmo valor. A mediana depende da posição, e não dos valores dos elementos na série ordenada. – A mediana é utilizada quando • Se deseja obter o ponto que divide a distribuição em partes iguais • Quando há valores extremos que afetam de uma maneira acentuada a média • A variável em estudo é salário Medidas de posição • Moda (Crespo, 2020) – Representada por 𝑚𝑜𝑜𝑏𝑠, é o valor mais frequente. – Exemplo • [98, 102, 100, 100, 99, 97, 96, 95, 99, 100] – Existem séries nas quais não existe um valor modal (amodal), isto é, situações em que nenhum valor aparece mais vezes que outros. – Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. 𝑚𝑜𝑜𝑏𝑠 = 100 Medidas de posição • Moda (Crespo, 2020) – Dados agrupados (sem intervalos de classe) • Uma vez agrupados os dados, é possível determinar imediatamente a moda, fixando o valor da variável de maiorfrequência. • Na distribuição acima, a frequência máxima (12) corresponde o valor 3 da variável, logo a moda é 3. Medidas de posição • Moda (Crespo, 2020) – Dados agrupados (com intervalo de classe) • A classe que apresenta a maior frequência é denominada classe modal. Pela definição, pode-se afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. • O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal (moda bruta). • Onde ℓ∗ é o limite inferior da classe modal 𝐿∗ é o limite superior da classe modal 𝑚𝑜𝑜𝑏𝑠 = ℓ∗ + 𝐿∗ 2 Medidas de posição • Moda (Crespo, 2020) – Dados agrupados (com intervalo de classe) • Assim, para a distribuição • Temos 𝑚𝑜𝑜𝑏𝑠 = ℓ∗ + 𝐿∗ 2 = 158 + 162 2 = 320 2 = 160 𝑐𝑚 Medidas de posição • Moda (Crespo, 2020) – A moda é utilizada quando: • Se deseja obter uma medida rápida e aproximada de posição • Quando a medida de posição deve ser o valor mais típico da distribuição. Medidas de posição • Posição relativa da média, mediana e moda (Crespo, 2020) – Quando uma distribuição é simétrica, as três medidas coincidem. A assimetria, porém, torna-as diferentes, e essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição em forma de sino, temos: • 𝑥 = 𝑚𝑑 = 𝑚𝑜, no caso da curva simétrica • 𝑚𝑜 < 𝑚𝑑 < 𝑥 , no caso da curva assimétrica positiva • 𝑥 < 𝑚𝑑 < 𝑚𝑜, no caso da curva assimétrica negativa Medidas de posição • Separatrizes (Crespo, 2020) – A mediana caracteriza uma série de valores em razão de sua posição central. No entanto, ela apresenta outra característica, tão importante quanto a primeira: • Ela separa a série em dois grupos que apresentam o mesmo número de valores. – Assim, além das medidas de posição, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, visto que se baseiam em sua posição na série. – Essas medidas – os quartis, percentis e decis – são, juntamente com a mediana, conhecidas como separatrizes. Medidas de posição • Quartis (Crespo, 2020) – Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. • O primeiro quartil (𝑄1): valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. • O segundo quartil (𝑄2): evidentemente, coincide com a mediana (𝑄2 = 𝑚𝑑). • O terceiro quartil (𝑄3): valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. Medidas de posição • Quartis (Crespo, 2020) – Quando os dados são agrupados, para determinar os quartis, usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana, 𝑓𝑖 2 por 𝑘 𝑓𝑖 4 , sendo 𝑘 o número de ordem do quartil. – Assim temos 𝑄1 = ℓ ∗ + 𝑓𝑖 4 − 𝐹(𝑎𝑛𝑡) ℎ∗ 𝑓∗ 𝑄3 = ℓ ∗ + 3 𝑓𝑖 4 − 𝐹(𝑎𝑛𝑡) ℎ∗ 𝑓∗ Medidas de posição • Quartis (Crespo, 2020) – Exemplo 𝑓𝑖 4 = 40 4 = 10 𝑄1 = ℓ ∗ + 𝑓𝑖 4 − 𝐹(𝑎𝑛𝑡) ℎ∗ 𝑓∗ = 154 + (10 − 4) × 4 9 = 156,66 ⇒ 156,7 𝑐𝑚 Medidas de posição • Quartis (Crespo, 2020) – Exemplo 3 𝑓𝑖 4 = 3 × 40 4 = 30 𝑄3 = ℓ ∗ + 3 𝑓𝑖 4 − 𝐹(𝑎𝑛𝑡) ℎ∗ 𝑓∗ = 162 + (30 − 24) × 4 8 = 165 𝑐𝑚 Medidas de posição • Percentis (Crespo, 2020) – Denominamos percentis os 99 valores que separam uma série em 100 partes iguais. – Indicamos – É evidente que 𝑃1, 𝑃2,⋯ , 𝑃32, ⋯ , 𝑃99 𝑃50 = 𝑚𝑑 𝑃25 = 𝑄1 𝑃75 = 𝑄3 Medidas de posição • Percentis (Crespo, 2020) – O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém, a fórmula 𝑓𝑖 2 será substituída por 𝑘 𝑓𝑖 100 , sendo 𝑘 o número de ordem do percentil. – Assim, para o 27º percentil, temos 𝑘 = 27 ⇒ 𝑃27 = ℓ ∗ + 27 𝑓𝑖 100 − 𝐹(𝑎𝑛𝑡) ℎ∗ 𝑓∗ Medidas de posição • Percentis (Crespo, 2020) – Exemplo • Temos, para o oitavo percentil 𝑘 = 8 ⇒ 𝑃8 = 150 + 8 × 40 100 − 0 × 4 4 = 153,2 𝑐𝑚 Medidas de posição • Decis (Crespo, 2020) – Denominamos decis os 9 valores que separam uma série em 10 partes iguais. – Indicamos 𝐷1, 𝐷2,⋯ , 𝐷7, ⋯ , 𝐷9 Medidas de posição • Boxplot (Magalhães et al., 2004) – É uma representação gráfica envolvendo os quartis. Também é conhecido como diagrama de caixa. – Definimos uma “caixa” com o nível superior dado pelo terceiro quartil e o nível inferior pelo primeiro quartil. A mediana é representada por um traço no interior da caixa e segmentos de reta são colocados da caixa até os valores máximo e mínimo, que não sejam observações discrepantes. Fonte: (wikipedia, 2021) Medidas de posição • Boxplot – Valores discrepantes Fo n te : (M at p lo tl ib , 2 0 2 1 ) Prática – Google Colab • Descrição – Aplicar na prática os conceitos aprendidos na aula. Atividade em sala de aula • Descrição – Vamos calcular as medidas resumo para as variáveis da base de dados IBM HR Analytics Employee Attrition & Performance. – A base de dados apresenta 35 dados de 1470 funcionários. O dado mais importante é a da coluna 2 “Attrition”, que informa se o funcionário apresenta desgaste ou não. – Utilize a sua criatividade para extrair informações interessantes. – Utilize o arquivo Atv_Aula_06_IBM.ipynb que contém a estrutura inicial. Referências Bibliográficas • (Crespo, 2020) Crespo, A. A. “Estatística”. Editora Saraiva Educação, 20th edição, 2020. • (Magalhães et al., 2004) Magalhães, M. N.; Lima, A. C. P. “Noções de probabilidade e estatística”. 6th edição, Editora edusp, 2004. • (Wikipedia, 2021) https://pt.wikipedia.org/wiki/Diagrama_de_caixa. Acessado dia 16/08/2021. • (Matplotlib, 2021) https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.boxplot.html. Acessado dia 16/08/2021.
Compartilhar