Prévia do material em texto
Probabilidade e Estatística para análise e dados Estimativas estatísticas na distribuição de dados Profª. Drª. Hallynnee Rossetto • Unidade de Ensino: 2 • Competência da Unidade: Conhecer e ser capaz de aplicar as medidas- resumo: medidas de localização (ou tendência central), medidas de variabilidade e medidas de posição relativa. • Resumo: Nesta aula abordaremos um conjunto de mecanismos que nos permitirão obter algumas informações relevantes, denominadas medidas- resumo: medidas de localização (ou tendência central), medidas de variabilidade medidas de posição relativa. • Palavras-chave: Medidas de localização, medidas de variabilidade medidas de posição relativa. • Título da Teleaula: Estimativas estatísticas na distribuição de dados • Teleaula nº: 2 Contextualização Medidas resumo Medidas de dispersão Medidas de tendência central Medidas de tendência central Informam o comportamento de posição central do nosso conjunto de dados. Por esta razão, são compostas por três ferramentas que remetem ao conceito da palavra ‘meio’: ▪ Média ▪ Mediana ▪ Moda Medidas de tendência central A média aritmética (ഥ𝒙) é a medida de localização mais conhecida e utilizada. É o resultado da divisão da soma de todos os valores da amostra pela quantidade total de valores. ҧ𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥𝑖 Fonte: Piana, Machado E Selau (2009) Medidas de tendência central A mediana (Md), é o valor que ocupa a posição central do conjunto dos dados ordenados. Para calcular a mediana inicia-se ordenando os valores em ordem crescente → ROL Em seguida conta-se até a metade deles: ▪ Para número ímpar de valores → mediana é o valor do meio. ▪ Para amostras com número par de unidades a mediana é a média dos dois valores centrais. Medidas de tendência central A moda (Mo) é o é o valor de maior ocorrência num conjunto de dados. É a única medida que pode não existir e, existindo, pode não ser única. Um conjunto de dados pode: ▪ não apresentar moda; ▪ apresentar uma moda; ▪ apresentar duas modas (bimodal); ▪ apresentar três modas (trimodal). A moda, diferentemente da média e da mediana, pode ser aplicada tanto para dados quantitativos, quanto qualitativos. Isto porque a medida trabalha com o conceito de frequência, ou seja, não há a necessidade de se trabalhar diretamente com operações numéricas. Resolução de medidas de tendência central Uma empresa do setor de vestuário e tecidos está avaliando o desempenho de vendas de três produtos distintos: Malha de algodão, Malha Poliéster Comum, Malha Poliéster Proteção UV. Para tanto, foram tabuladas as quantidades de vendas de cada produto considerando suas oito lojas, conforme apresentado na tabela. Loja Malha Algodão Malha Poliéster Comum Malha Poliéster Proteção UV Total Loja A 130 125 75 330 Loja B 145 112 85 342 Loja C 122 84 85 291 Loja D 130 126 85 341 Loja E 175 144 72 391 Loja F 137 108 86 331 Loja G 214 119 91 424 Loja H 133 139 72 344 Total 1.186 957 651 2.794 Qual a média aritmética, a moda e a mediana do conjunto de dados? Loja Malha Algodão Malha Poliéster Comum Malha Poliéster Proteção UV Total Loja A 130 125 75 330 Loja B 145 112 85 342 Loja C 122 84 85 291 Loja D 130 126 85 341 Loja E 175 144 72 391 Loja F 137 108 86 331 Loja G 214 119 91 424 Loja H 133 139 72 344 Total 1.186 957 651 2.794 Média ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 = 1.186 8 = 148,25 Mediana Dados ordenados: 122, 130, 130, 133, 137, 145, 175, 214 𝑀𝑑 = 133 + 137 2 = 270 2 = 135 Moda 𝑀𝑜 = 130 Loja Malha Algodão Loja A 130 Loja B 145 Loja C 122 Loja D 130 Loja E 175 Loja F 137 Loja G 214 Loja H 133 Total 1.186 Média ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 = 957 8 ≅ 119,63 Mediana Dados ordenados: 84, 108, 112, 119, 125, 126, 139, 144 𝑀𝑑 = 119 + 125 2 = 244 2 = 122 Moda Conjunto amodal Loja Malha Poliéster Comum Loja A 125 Loja B 112 Loja C 84 Loja D 126 Loja E 144 Loja F 108 Loja G 119 Loja H 139 Total 957 Média ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 = 651 8 ≅ 81,38 Mediana Dados ordenados: 72, 72, 75, 85, 85, 85, 86, 91 𝑀𝑑 = 85 + 85 2 = 170 2 = 85 Moda 𝑀𝑜 = 85 Loja Malha Poliéster Proteção UV Loja A 75 Loja B 85 Loja C 85 Loja D 85 Loja E 72 Loja F 86 Loja G 91 Loja H 72 Total 651 Medida Malha Algodão Malha Poliéster Comum Malha Poliéster Proteção UV Média Aritmética Simples 148,25 119,63 81,38 Mediana 135 122 85 Moda 130 - 85 Faturamento médio de uma empresa Você é analista de dados de uma empresa multinacional e ficou responsável por elaborar uma análise que ofereça insumos para a decisão de fechar duas, ou manter todas as lojas de uma rede de vestuário. A decisão de encerrar as atividades das duas lojas de menores vendas será tomada caso o faturamento médio das dez unidades ficar abaixo de R$ 450 mil. Destaca-se, no entanto, que duas lojas se mantiveram fechadas em razão de reformas no último semestre. , As outras oito, faturaram R$ 420 mil, R$ 475 mil, R$ 485 mil, R$ 500 mil, R$ 515 mil, R$ 515 mil, R$ 565 mil e R$ 630 mil. Qual é o faturamento médio? Qual decisão tomar? Fonte: https://www.shutterstock.com/pt/image-vector/little-caucasian-boy-jumping-out-large-700495033 Faturamento médio da empresa R$ 0, R$ 0, R$ 420 mil, R$ 475 mil, R$ 485 mil, R$ 500 mil, R$ 515 mil, R$ 515 mil, R$ 565 mil e R$ 630 mil ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 ҧ𝑥 = 0 + 0 + 420 + 475 + 485 + 500 + 515 + 515 + 565 + 630 10 ҧ𝑥 = 4105000 10 = 410.500,00 Este valor, diante da meta de R$ 450 mil estabelecida, implicará o fechamento das duas unidades sem faturamento. Medidas de dispersão Medidas de dispersão As medidas de dispersão são utilizadas para caracterizar a variabilidade de nossos dados, algo que as medidas de localização não nos apresentam. ▪ a amplitude total; ▪ a variância; ▪ o desvio padrão. (PIANA, MACHADO e SELAU, 2009, p. 45) Medidas de dispersão ▪ Indicam se os valores estão relativamente próximos ou não uns dos outros → DISPERSÃO. ▪ Na análise de um conjunto de dados é necessário que sejam observados tanto as informações relativas às medidas de tendência central quanto as informações de dispersão. Amplitude A amplitude total é a diferença entre o maior e o menor valor analisado em uma variável em ordem crescente ou decrescente. A 80 80 80 80 80 80 B 76 77 78 79 80 81 𝐴𝑇 𝐴 = 80 − 80 = 0 𝐴𝑇 𝐵 = 81 − 76 = 5 𝐴𝑇 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 Variância A variância é uma medida de dispersão que verifica a distância entre os valores da média aritmética. 𝑺𝟐 = σ 𝒙 − ഥ𝒙 𝟐 𝒏 − 𝟏 𝝈𝟐 = σ 𝒙 − 𝝁 𝟐 𝑵 Variância Amostral Variância Populacional Exemplo Idade 𝒙𝒊 𝒇𝒊 𝒙𝒊 − ഥ𝒙 𝒙𝒊 − ഥ𝒙 𝟐 𝒙𝒊 − ഥ𝒙 𝟐. 𝒇𝒊 8 2 -3,7 13,69 27,38 12 3 0,3 0,09 0,27 13 5 1,3 1,69 8,45 𝑓𝑖 = 10 𝒙𝒊 − ഥ𝒙 𝟐. 𝒇𝒊 ≅ 36,1 ഥ𝒙 = 2.8 + 3.12 + 5.13 10 = 11,7 𝑆2 = σ 𝑥 − ҧ𝑥 2 𝑛 − 1 = 36,1 10 − 1 = 4,01 Desvio Padrão É a medida mais usada na comparação de diferenças entre conjuntos de dados, por ter grande precisão. É responsável por determinar a dispersão dos valores em relação à média e é calculado por meio da raiz quadrada da variância. 𝑺 = 𝑺𝟐 = σ 𝒙 − ഥ𝒙 𝟐 𝒏 − 𝟏 𝝈 = 𝝈𝟐 = σ 𝒙 − 𝝁 𝟐 𝑵 Desvio padrão Amostral Desvio padrão Populacional Exemplo Idade 𝒙𝒊 𝒇𝒊 𝒙𝒊 − ഥ𝒙 𝒙𝒊 − ഥ𝒙 𝟐 𝒙𝒊 − ഥ𝒙 𝟐. 𝒇𝒊 8 2 -3,7 13,69 27,38 12 3 0,3 0,09 0,27 13 5 1,3 1,69 8,45 𝑓𝑖 = 10 𝒙𝒊 − ഥ𝒙 𝟐. 𝒇𝒊 ≅ 36,1 ഥ𝒙 = 2.8 + 3.12 + 5.13 10 = 11,7 𝑆2 = σ 𝑥 − ҧ𝑥 2 𝑛 − 1 = 36,1 10 − 1 = 4,01 𝑆 = 𝑆2 = 4,01 ≅ 2 Medidas de dispersão no RStudio Uma empresa está avaliando as notas atribuídas pelos clientes para cada um dos cinco componentes destacados: preço, prazo, atendimento, entrega e pós- venda. É preciso determinar: ▪ as variáveis apresentadas; ▪ as amplitudes das variáveis; ▪ a média, a mediana; ▪ o desvio médio absoluto. Unidade PreçoPrazo Atendimento Entrega Pós-Venda A 5,1 8,0 8,1 5,1 8,0 B 7,8 8,0 8,1 8,0 6,1 C 8,1 7,1 5,0 5,0 6,1 D 6,0 9,0 7,1 5,1 6,1 E 8,1 6,0 6,1 7,0 6,1 F 8,0 6,0 9,1 7,1 6,0 G 8,0 9,0 7,1 8,1 8,0 H 9,0 6,0 8,0 8,0 7,0 I 7,1 6,0 9,0 8,0 5,0 J 9,0 8,1 7,0 7,0 5,1 Total 76,2 73,2 74,6 68,4 63,5 Vamos utilizar o RStudio para determinar essas medidas. Fonte: https://www.shutterstock.com/pt/image-vector/little-caucasian-boy-jumping-out-large-700495033 Quantil A algumas medidas que permitem obter alguns padrões de comportamento em termos de distribuição de dados. • Ao trabalhar, por exemplo, com as médias, obtém-se informações a respeito do comportamento central de um conjunto. • Ao trabalhar com uma medida de dispersão, obtém- se insights a respeito da variação de um conjunto de dados. E os padrões de distribuição destes conjuntos? O principal conceito envolvido com as medidas de distribuição é o quantil - 𝑞(𝑝). A letra 𝑝 representa uma proporção de determinado conjunto de dados, de modo que 0 < 𝑝 < 1. Por exemplo, quando 𝑝 = 0,5, por exemplo, estamos dividindo um conjunto de dados em 2 partes iguais, considerando o total de observações. Quantil O termo quantil é expresso genericamente. Ao dividirmos um conjunto de dados em intervalos regulares, temos: ▪ a mediana divide em 2 partes iguais; ▪ os quartis dividem em 4 partes iguais; ▪ os decis em 10 partes iguais; ▪ e os centis em 100 partes iguais. Quartis Ao dividirmos um conjunto de dados em quatro intervalos regulares, configura-se o termo quartil, que representa, portanto, a quarta parte de uma distribuição. Decis Se dividirmos uma distribuição em dez intervalos regulares, obtermos decis, ou seja, grupos que concentram 10% das observações cada um. Trabalhando com o RStudio Vamos utilizar o RStudio para determinar alguns quantis. Fonte: https://www.shutterstock.com/pt/image-vector/little-caucasian-boy-jumping-out-large-700495033 Boxplot No contexto das medidas baseadas na distribuição, uma importante ferramenta é o boxplot, utilizado em diversos contextos de análise. O boxplot, ou diagrama de caixas, é um gráfico que nos permite obter informações a respeito dos quartis de um conjunto de dados e de pontos possíveis pontos discrepantes, também denominados 𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑠. É um gráfico muito útil na comparação de distribuições, o qual que ilustra os principais aspectos dela, tomando por base essas medidas robustas. Coloca-se os boxplots lado a lado e avalia fatores como quartis, tamanho das caixas, medianas, possíveis pontos discrepantes Fonte: Silva (2021) Faturamentos nos estados de São Paulo, Minas Gerais e Rio de Janeiro Você é gerente de uma empresa e ficou responsável por realizar uma análise das medidas-resumo dos faturamentos das lojas nos estados de São Paulo, Minas Gerais e Rio de Janeiro. O diretor da empresa deseja obter todas estas informações em um mesmo gráfico. Diante desta situação, uma importante ferramenta que atende a necessidade colocada pelo diretor é o boxplot. Nesse sentido, com o auxílio da linguagem R, elabore três boxplots, um para cada estado de análise. Lojas São Paulo Rio de Janeiro Minas Gerais 1 R$ 49.899 R$ 34.444 R$ 16.357 2 R$ 47.101 R$ 26.223 R$ 13.303 3 R$ 44.777 R$ 41.194 R$ 15.715 4 R$ 25.721 R$ 41.846 R$ 16.569 5 R$ 42.555 R$ 22.262 R$ 20.199 6 R$ 29.781 R$ 14.354 R$ 18.904 7 R$ 42.641 R$ 30.757 R$ 16.428 8 R$ 35.982 R$ 39.891 R$ 20.444 9 R$ 34.953 R$ 33.098 R$ 27.301 10 R$ 26.302 NA R$ 24.687 11 R$ 46.122 NA R$ 27.493 12 R$ 48.999 NA NA Placas fora de especificação Uma indústria produz uma placa metálica cujo valor de referência é 75cm. Após verificar lotes com placas fora de especificação, enviaram duas equipes de trabalhadores (A e B) para um treinamento. Para verificar a eficiência do treinamento, foram selecionadas 10 placas produzidas pelas equipes A e B e 10 placas produzidas pelas equipes C e D que não participaram do treinamento. 48 Adaptada (Portalaction, 2018) 49 Disponível em: https://bit.ly/33xbJwj Acesso em: 15 mar. 2020. https://bit.ly/33xbJwj 50 Com base no que foi apresentado e na análise do gráfico o que é possível inferir? Fonte: https://www.shutterstock.com/pt/image-vector/little-caucasian-boy-jumping-out-large- 700495033 https://www.shutterstock.com/pt/image-vector/little-caucasian-boy-jumping-out-large-700495033 Recapitulando Recapitulando... Nesta aula aprendemos sobre: • Medidas de tendência central • Aplicações de medidas de tendência central • Medidas de dispersão • Medidas de dispersão no RStudio • Quantil • Boxplot