Baixe o app para aproveitar ainda mais
Prévia do material em texto
MATERIAL DE ESTUDO PROBABILIDADE E ESTATÍSTICA Professora: Flávia Ferreira Batista VILA VELHA/ 2016 1 APRESENTAÇÃO DA DISCIPLINA O Engenheiro e o Pensamento Estatístico Um engenheiro é alguém que resolve problemas de interesse da sociedade pela aplicação eficiente dos princípios científicos. Devido a vários aspectos da prática da engenharia envolver o trabalho com os dados, obviamente, algum conhecimento de estatísticas é importante para qualquer engenheiro. Pois, o campo da estatística lida com a coleta, apresentação, análise e utilização dos dados para tomar decisões, resolver problemas, e produtos e processos de design. As etapas utilizadas na engenharia para formular e resolver problemas são: 1. Desenvolver uma descrição clara e concisa do problema. 2. Identificar, os fatores importantes que afetam esse problema ou que possam desempenham um papel na sua solução. 3. Propor um modelo para o problema, utilizando conhecimentos científicos ou de engenharia do fenômeno a ser estudado. Estabelecer limitações ou suposições do modelo. 4. Realizar experiências apropriadas e coletar dados para testar ou validar o modelo proposto. 5. Limitar o modelo com base nos dados observados. 6. manipular o modelo para auxiliar no desenvolvimento de uma solução para o problema. 7. Realizar um experimento apropriado para confirmar que a solução proposta para o problema é ao mesmo tempo eficaz e eficiente. 8. Tirar conclusões ou fazer recomendações com base na solução do problema. Consequentemente, os engenheiros devem saber como planejar de forma eficiente experimentos, coletar dados, analisar e interpretar os dados e entender como os dados observados estão relacionados ao método que propuseram para o problema em estudo. Especificamente, técnicas estatísticas podem ser uma poderosa ajuda na concepção de novos produtos e sistemas, melhorando a projetos existentes e projetar, desenvolver e melhorar os processos de produção. Como exemplos da estatística aplicada à engenharia, podemos citar as seguintes ações: • Planejamento de novas estratégias de produção, vendas; • Controle de Processos e Manufatura, analisando distribuições e lotes para padrões de qualidade nos produtos. • Análise de ensaios tanto destrutivos como não destrutivos, verificando a porcentagem de peças ou probabilidade de vida de equipamentos ou peças. • Acompanhamento da estabilidade dos processos que é analisada por cartas de acompanhamento conhecidas como cartas de controle estatístico de processo. 2 UNIDADE I - INTRODUÇÃO 1.1 O QUE É ESTATÍSTICA? É uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para utilização dos mesmos na tomada de decisões. Os métodos estatísticos são usados para nos ajudar a descrever e compreender a variabilidade. Por variabilidade, queremos dizer que as observações sucessivas de um sistema ou fenômeno não produzem exatamente o mesmo resultado. Todos nós encontrar variabilidade na nossa vida quotidiana, e pensamento estatístico, podem dá-nos uma maneira útil para incorporar essa variabilidade em nossos processos de tomada de decisão. 1.2 DIVISÃO DA ESTATÍSTICA No sentido de melhor esclarecer o significado da análise e interpretação dos dados, deve-se estabelecer uma distinção entre: Estatística Descritiva, teoria da probabilidade e Estatística Inferencial. Estatística Descritiva: É o ramo da estatística que envolve a organização, o resumo e a representação dos dados, em geral, a simplificação de informações. Estatística Inferencial: é o ramo da estatística que envolve a análise e interpretação de dados amostrais. A idéia básica é efetuar determinada mensuração sobre uma parcela pequena, mas típica, de determinada “população” e utilizar essa informação para chegar a conclusões sobre a população toda. Ex: Não preciso comer um bolo inteiro para saber se é bom. 1.3 – CONCEITOS IMPORTANTES a) População: é o conjunto formado por indivíduos ou objetos que têm, pelo menos, uma variável (característica) comum e observável. Ex: População dos alunos do primeiro período de uma faculdade; População de peças fabricadas numa linha de produção. b) Amostra: é uma parcela representativa da população que é examinada com o propósito de tirarmos conclusões sobre ela. 3 As vantagens de amostrar são: Economiza mão-de-obra, tempo e dinheiro. Possibilita rapidez na obtenção dos resultados. Coleta de dados mais precisos. É a única opção quando o estudo resulta em destruição ou contaminação dos elementos pesquisados. c) Parâmetro: é a descrição numérica de uma característica populacional. Exemplo: Média (µ), variância (σ²), coeficiente de correlação (ρ). d) Estimador: também denominado Estatística. É a descrição numérica de uma característica amostral. Exemplo: Média amostral (�̅�), variância amostral (s²), coeficiente de correlação amostral (r). e) Estimativa: é o valor numérico obtido para o estimador numa certa amostra. 1.4 – VARIÁVEIS Em Estatística, variável é cada característica que pode ser observada (ou medida) em cada elemento da população, sob as mesmas condições. Dados estatísticos são observações da realidade que nos cerca, podem ser fatos ou números. A característica de interesse de estudo (variável) pode ser dividida em duas categorias: qualitativas e quantitativas. 1.4.1 – Variáveis Qualitativas: são aqueles nos quais as características de um elemento são fornecidas por um nome ou por um rótulo. São classificadas como: Qualitativas Nominais: os dados que podem ser separados em categorias não mensuráveis. Ex.: Estado civil, sexo, cor da pele, grupo sanguíneo, tipo de transporte. Qualitativas Ordinais: envolvem dados que podem ser dispostos em alguma ordem. O nível ordinal dá informação sobre comparações relativas, mas os graus de diferença não servem para cálculos. Ex.: Grau de instrução (Nível fundamental, Nível médio, Nível superior). Aparência (Péssima, ruim, regular, boa e ótima) Classe social (Baixa, média baixa, média e alta) 1.4.2 - Variáveis Quantitativas: são aquelas nos quais as características do elemento observado é uma quantidade. São classificadas como: Quantitativas Discretas: Assumem valores inteiros. Os dados discretos são resultados da contagem de um número de itens. 4 Ex.: idade em anos completos, nº de carros que circulam em Vila Velha, nº de pessoas atendidas em um caixa de banco. Quantitativas Contínuas: Assumem qualquer valor num intervalo de valores. São dados resultantes de medições. Resultam em um número infinito de valores possíveis. Ex.: Temperatura da cidade de Vila Velha, Quantidade de água gasta por dia na cidade de Vitória, peso dos alunos da turma de estatística. RESUMO DOS TIPOS DE VARIÁVEIS EXERCÍCIOS (resolvidos na aula) 1. Determine se o conjunto de dados é uma população ou uma amostra. Explique. a) A idade de cada governador de Estado. b) A velocidade de cada quinto carro que passa por um medidor de velocidade da polícia. c) Um levantamento de 500 estudantes e uma universidade que tenha 2000 estudantes. d) Os salários anuais de cada advogado em um escritório. 2. Determine se o valor numérico descreve um parâmetro populacional ou uma estatística amostral. Explique. a) Uma pesquisa com 1.000 adultos nos Estados Unidos descobriu que 12% preferem tirar fériasnos meses de inverno. b) Uma pesquisa recente de uma amostra de MBAs reportou que o salário médio para um MBA é mais do que $82.000. 5 c) Os salários iniciais para 667 MBAs graduados na Escola de Negócios da Universidade de Chicago aumentaram 8,5% em comparação ao ano anterior. d) Em janeiro de 2007, 44% dos governadores dos 50 estados norte-americanos eram republicanos. e) Em uma checagem aleatória de uma amostra de logistas, o FDA(Food and Drug Administration) descobriu que 34% das lojas não estavam estocando peixes na temperatura apropriada. 3. Classifique o tipo de variável para os itens abaixo. a) Grau de satisfação com um produto alimentício; b) Marca de antitérmico preferida; c) Peso de grãos exportados; d) Grau de escolaridade; e) Número de computadores em um laboratório de informática; f) O número de pétalas de uma rosa; g) A velocidade em km/h de um avião à jato; 4. Para as situações descritas a seguir, identifique a população e a amostra correspondente. a) Para avaliar a eficácia de uma campanha de vacinação no Estado do Espirito Santo, mães de recém- nascidos durante o primeiro semestre de 2005, foram perguntadas a respeito da última vez que vacinaram seus filhos; População: Amostra: b) Para verificar a audiência de um programa de TV no Brasil, indivíduos foram entrevistados com relação ao canal em que estavam sintonizados; População: Amostra: c) A fim de avaliar a intenção de voto para presidente do Brasil, pessoas foram entrevistadas em cidades brasileiras. População: Amostra: 6 1.5 - FORMAS DE ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS: TABELAS E GRÁFICOS Os requisitos de uma boa apresentação de dados são: • Clareza (até os leigos compreendem o que está sendo apresentado) • Objetividade (atinge o fim que se quer atingir) • Concisão (é resumido, mas é também preciso, exato) Os dados podem ser apresentação das seguintes formas: Brutos, Rol, Tabelas e gráficos. DADOS BRUTOS: quando os dados originais (coletados) ainda não se encontram prontos para análise, por não estarem numericamente organizados. Ex.: Foi coletada uma amostra de Idades dos alunos do último período do curso de Engenharia Civil da UVV, no ano de 2013. 24 23 23 27 26 23 28 26 24 23 25 27 24 28 25 25 23 26 24 25 ROL: é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Ex.: Utilizando os mesmos dados anteriores (idade dos alunos). 23 23 23 23 23 24 24 24 24 25 25 25 25 26 26 26 27 27 28 28 Como pode-se observar a simples organização dos dados em um Rol, aumenta muito a capacidade de informação destes. Ela torna possível visualizar, de forma bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas a análise com este tipo de disposição começa a se complicar quando o número de observações tende a crescer. Ao estudarmos grandes conjuntos de dados, é conveniente organizá-los e resumi-los de forma clara e objetiva. Os dados qualitativos ou quantitativos discretos podem ser apresentados ou organizados das seguintes maneiras: Tabela de Frequências Gráfico de Barras/Colunas Gráfico de Setores Os dados quantitativos contínuos ou amostra grande de dados discretos podem ser apresentados ou organizados das seguintes maneiras: Tabela de Frequências em classes (agrupada) Histogramas 7 Polígono de frequências Curvas de frequências e outros 1.5.1 - Tabela de Frequências (Distribuição de frequências) São representações nas quais os valores se apresentam em correspondência com suas repetições, evitando- se, assim, que eles apareçam mais de uma vez na tabela, como ocorre com o rol. Este tipo de tabela não é aconselhável quando estamos trabalhando com amostragens grandes, pois pode ficar muito extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados. Contudo, neste tipo de tabela não há perda de informação. Uma tabela de frequências pode representar e caracterizar um dos seguintes tipos de frequências: Frequência absoluta Frequência relativa Frequência Percentual Frequência acumulada (absoluta, relativa e percentual) Frequência Simples Absoluta (fi ou fai): é o número de repetições de um valor individual ou de uma classe de valores da variável. Frequência Relativa (fr ou fri): é a relação entre a frequência de uma classe e a frequência total (soma das frequências de todas as classes). N f f f f i k i i i ri 1 k i rif 1 00,1 Frequência Percentual (fr(%) ou pi): é a frequência relativa de uma classe multiplicada por 100. Exemplo: Suponha que foi realizado uma pesquisa com os funcionários da empresa X e verificado o grau de satisfação em relação ao salário. Satisfeito Muito Satisfeito Insatisfeito Satisfeito Satisfeito Satisfeito Satisfeito Satisfeito Satisfeito Satisfeito Muito Satisfeito Insatisfeito Insatisfeito Insatisfeito Satisfeito Satisfeito Muito Satisfeito Satisfeito Muito Satisfeito Satisfeito A tabela de distribuição de frequências ficará assim: Grau de satisfação Frequência absoluta Frequência Percentual (%) Insatisfeito 4 20,0 Satisfeito 12 60,0 Muito satisfeito 4 20,0 Total 20 100,0 8 Frequência Acumulada: Contabiliza as observações até o valor considerado. Pode ser calculada apenas para variáveis numéricas. Pode ser: frequência acumulada (Fi), frequência relativa acumulada (Fri), ou frequência acumulada percentual (Pi). Exemplo: Tabela de distribuição de frequências utilizando os dados de Idades dos alunos do último período do curso de Engenharia Civil. 23 23 23 23 23 24 24 24 24 25 25 25 25 26 26 26 27 27 28 28 No caso as frequências acumuladas são as seguintes: Idade Frequência absoluta Cálculo Frequência acumulada 23 5 5 5 24 4 5 + 4 9 25 4 9 + 4 13 26 3 13 + 3 16 27 2 16 + 2 18 28 2 18 + 2 20 Total 20 - - Frequência relativa acumulada (Fri): Fornece a relação entre a frequência acumulada e o nº total de observações realizadas. Idade Frequência absoluta Frequência acumulada Frequência relativa Cálculo Frequência relativa acumulada 23 5 5 0,25 5/20 0,25 24 4 9 0,20 9/20 0,45 25 4 13 0,20 13/20 0,65 26 3 16 0,15 16/20 0,80 27 2 18 0,10 18/20 0,90 28 2 20 0,10 20/20 1,00 Total 20 - 1,00 - - 1.5.2 – Gráfico de Colunas/Barras No eixo horizontal deve ser colocada a variável sob estudo No eixo vertical a frequência (absoluta, acumulada ou relativa) É traçada, para cada valor (atributo) da variável, uma barra com comprimento proporcional à frequência. O eixo vertical e horizontal pode ser invertido, ou seja, a variável pode ser colocada no eixo vertical e a frequência no eixo horizontal (gráfico de barras). 9 Figura 1 . Título da figura 1.5.3 – Gráfico de Setores (Pizza) Consta de um círculo dividido em setores, cada setor relacionado a um valor da variável a ser representada. A abertura angular de cada setor é proporcional à frequência observada para cada valor. Exemplo: Figura 2. Título da figura 1.5.4 Tabela de Frequências para dados agrupados em classes É constituída da mesma forma que para os dados não agrupados, com a diferença de que agora os valores da variável a ser organizados por classes. Ao agrupar-se os valores das variáveis em classes,se ganha em simplicidade, mas se perde em detalhes (informações). Neste tipo de tabela se destaca o que há de essencial nos dados. Normalmente sugere-se o uso de 5 a 15 classes com a mesma amplitude. Menos que cinco classes pode ocultar detalhes importantes dos dados, e mais que quinze torna a apresentação demasiado detalhada. 0 2 4 6 8 10 12 14 Insatisfeito Satisfeito Muito satisfeito Fr eq u ên ci a Grau de satisfação 20% 60% 20% Insatisfeito Satisfeito Muito satisfeito 10 Exemplo de dados agrupados em classes para os salários dos 36 empregados da seção de orçamento da Companhia XX por faixa de salários. Classe de salários Frequência (fi) Porcentagem (%) 4,0 |-- 8,0 10 27,78 8,0 |-- 12,0 12 33,33 12,0 |-- 16,0 8 22,22 16,0 |-- 20,0 5 13,89 20,0 |-- 24,0 1 2,78 Total 36 100,00 Dada a sequência: 1, 2, 3, 4, 5, 6. Podem-se representar intervalos das seguintes formas: • Intervalo aberto: 1 --- 6 => 2, 3, 4, 5 • Intervalo fechado: 1|---|6 => 1, 2, 3, 4, 5, 6 • Intervalo fechado à esquerda: 1|--- 6 => 1, 2, 3, 4, 5 • Intervalo fechado à direita: 1 ---|6 => 2, 3, 4, 5, 6 Os principais estágios na construção de uma distribuição de frequência para dados agrupados em classes são: 1. Organizar os dados brutos em um rol de ordem crescente ou decrescente. 2. Determinar a amplitude total dos dados que é a diferença entre o maior e menor dos dados. 𝑨𝑻 = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏 3. Determinar quanto ao número de classes a usar (k). 𝒌 = √𝒏 𝒐𝒖 𝒌 = 𝟏 + 𝟑, 𝟑𝐥𝐨𝐠 (𝒏) 4. Determinar a amplitude de cada classe (c). 𝒄 = 𝑨𝑻 𝒌 Em que: c é amplitude de classe; AT é a amplitude total; k é o número de classes. OBS: Se necessário o valor encontrado deve ser aproximado para cima com o mesmo número ou mais casas decimais que os valores das variáveis. 5. Estabelecer os intervalos das classes começando com um inteiro logo abaixo do menor valor observado ou com o menor valor observado e somando a amplitude das classes. Os intervalos de classe devem ser escritos, de acordo com a Resolução 866/66 do IBGE em termos de “desta quantidade até menos aquela”, empregando, para isso, o símbolo |-- (inclusão por limite inferior e exclusão do limite superior). 11 6. Relacionar os intervalos e fazer a contagem dos pontos por classe. A contagem total deve ser igual a n. 7. Construir uma tabela de frequência ou um gráfico de frequência. Exemplo: Num determinado processo de fabricação foram feitas 50 observações de uma característica de qualidade de um tipo de peça, resultando nas seguintes medidas de diâmetro em milímetros. 1. Determinar a amplitude total: 𝑨𝑻 = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏 = 𝟏𝟐𝟒 − 𝟔𝟎 = 𝟔𝟒 2. Determinar o número de classes: 𝒌 = √𝒏 = √𝟓𝟎 = 𝟕, 𝟎𝟕 ≅ 𝟕 3. Determinar a amplitude de cada classe: 𝒄 = 𝑨𝑻 𝒌 = 𝟔𝟒 𝟕 = 9,14 ≅ 𝟏𝟎 OBS.: A amplitude da classe foi arredondada para cima, pois o número de classes já havia sido arredondado para baixo. Para se formar as classes tomam-se o menor valor do conjunto de dados, 60, e soma à ele amplitude, 10, obtendo assim o limite superior da classe (ls), 70, os outros limites são obtidos sempre somando-se a amplitude, 10, até formar 7 classes. A frequência absoluta (observada) é obtida contando-se a quantidade de elementos no intervalo, ou seja, de 60 a 70 (não incluindo esse extremo) existem 5 valores, e assim sucessivamente. As outras frequências são obtidas da mesma forma que para dados não agrupados em classes. Diâmetro (mm) Frequência absoluta (fi) Frequência relativa (fr) Frequência absoluta acumulada (Fi) Frequência relativa acumulada (Fr) 60 |--- 70 5 5/50 = 0,10 5 0,10 70 |--- 80 6 6/50 = 0,12 11 0,22 80 |--- 90 8 8/50 = 0,16 19 0,38 90 |--- 100 13 13/50 = 0,26 32 0,64 100 |--- 110 10 10/50 = 0,20 42 0,84 110 |--- 120 6 6/50 = 0,12 48 0,96 120 |--- 130 2 2/50 = 0,04 50 1,00 50 1,00 - - 12 1.5.5 Histograma • Cada classe é representada por um retângulo. • A base do retângulo é o intervalo de classe. • A altura do retângulo é proporcional à frequência da classe. • A área do histograma é proporcional à soma das frequências, se usarmos a frequência relativa a área sob a curva vale 1. Exemplos de histogramas: 1.5.6 Polígono de frequências Neste gráfico as classes são representadas pelos seus pontos médios. O Polígono é formado pela união, por retas, dos pontos médios das partes superiores de cada retângulo do histograma. As figuras abaixo mostram exemplos de polígonos de frequências. 1.5.7 Ogiva de Galton ou Polígono de frequências Acumuladas Neste gráfico as classes são representadas pelos seus limites superiores, utilizando a frequência acumulada. 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 60 70 80 90 100 110 120 130 Fr eq u ên ci as P er ce n tu al Diâmetro (mm) 0 2 4 6 8 10 12 14 4 8 12 16 20 24 Fr eq u ên ci as Nº de Salários 0 2 4 6 8 10 12 14 4 8 12 16 20 24 Fr eq u ên ci as Nº de Salários 10,0% 12,0% 16,0% 26,0% 20,0% 12,0% 4,0% 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 60 70 80 90 100 110 120 130 Fr eq u ên ci as P er ce n tu al Diâmetro (mm) 13 A Ogiva de Galton é formada pela união, por retas, dos pontos que interceptam os limites superiores de cada classe da tabela e a frequência acumulada. O ponto inicial é o limite inferior da 1ª classe. EXERCÍCIOS (resolvidos na aula) Tabela 01 - Informações sobre sexo, idade (anos), altura (metro e centímetro), peso (kg), estado civil, número de irmãos, transporte, procedência, relação do trabalho com o curso de Estatística, meio de informação e número de disciplinas reprovadas dos alunos da disciplina Inferência Estatística do curso de Estatística da UFES - 13/02/2013. A partir do banco de dados acima construa tabelas e gráficos para os seguintes tipos de variáveis: a) Variável qualitativa (tabela simples e gráfico). b) Variável discreta (tabela de frequências e gráfico de barras). c) Variável contínua (tabela de frequências agrupada em classes). 14 d) Histograma. e) Polígono de frequências. 1.6 - NOÇÕES DE SOMATÓRIO No cálculo de várias medidas estatísticas, vamos utilizar somas de um grande número de parcelas. Para facilitar a representação destas somas, introduziremos o conceito de somatório. Para simplificar a representação da operação de adição nas expressões algébricos, utiliza-se a notação ∑ , letra grega sigma maiúsculo. As Principais representações são: Apesar de ser apenas um código e não uma operação, a notação Sigma tem algumas propriedades que podem simplificar operações. Entre elas destacamos: i. O somatório de uma soma é a soma dos somatórios. 15 ii. O somatório de uma diferença é a diferença dos somatórios. iii. O somatório do produto de uma constante por uma variável é o produto da constante pelo somatório da variável. iv. O somatório da divisão de uma variável por uma constante é a divisão do somatório da variável pela constante. • Somatório Duplo Onde:𝑋𝑖𝑗 → 𝑖 = 1, 2, 3, … , 𝑟 (í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑙𝑖𝑛ℎ𝑎) 𝑒 𝑗 = 1, 2, 3, … , 𝑠 (í𝑛𝑑𝑖𝑐𝑒 𝑑𝑎 𝑐𝑜𝑙𝑢𝑛𝑎) Xij 𝐺 = 𝐺𝑒𝑟𝑎𝑙 𝑇𝑜𝑡𝑎𝑙 1 2 ... j ... s 1 X11 X12 ... X1j ... X1s 𝑋1𝑗 𝑠 𝑗=1 2 X21 X22 ... X2j ... X2s 𝑋2𝑗 𝑠 𝑗=1 ... ... ... ... i Xi1 Xi2 ... Xij ... Xis 𝑋𝑖𝑗 𝑠 𝑗=1 ... .. ... ... ... r Xr1 Xr2 ... Xrj ... Xrs 𝑋𝑟𝑗 𝑠 𝑗=1 𝑋𝑖1 𝑟 𝑖=1 𝑋𝑖2 𝑟 𝑖=1 𝑋𝑖𝑗 𝑟 𝑖=1 𝑋𝑖𝑠 𝑟 𝑖=1 G 16 𝐺 = 𝑋𝑖1 𝑟 𝑖=1 + 𝑋𝑖2 𝑟 𝑖=1 +⋯+ 𝑋𝑖𝑠 𝑟 𝑖=1 = 𝑋𝑖𝑗 𝑠 𝑗=1 𝑟 𝑖=1 = 𝑋𝑖𝑗 = 𝑋. . 𝑟,𝑠 𝑖=1 𝑗=1 Nas aplicações estatísticas estaremos sempre interessados na soma de todos os valores da série. Portanto, i varia sempre de 1 a n e consequentemente não precisaremos indicar na notação sigma a variação de i. Desta forma, identificaremos: EXERCÍCIOS (resolvidos na aula) 1) Escreva na notação Sigma, as somas: a) X1+ X2 + X3 + X4 + X5 b) X3 + X4 + X5 + X6 c) (X1 + 2) + (X2 + 2) + (X3 + 2) d) (X3- 10) + (X4 - 10) + (X5 - 10) + (X6 - 10) e) (X1 - 3)² + (X2 – 3)² + (X3 - 3)² f) ((X1 - 15)f1 + (X2 - 15)f2 + (X3 -15)f3 2) Considerando os seguintes valores: X1 = 2 X2 = 6 X3 = 7 X4 = 9 Y1 = 1 Y2 = 4 Y3 = 5 Y4 = 11 Calcular: a) ∑ (Yi − 2) 23 i=1 17 b) ∑ (Xi − 4Yi) 4 i=1 3) Calcule X1 e X3, dado que: X𝑖 = 42 𝑋𝑖 2 6 𝑖=1 = 364 6 i=1 X𝑖 = 34 𝑋𝑖 2 6 𝑖=1 𝑖 ≠1,3 = 324 6 i=1 𝑖 ≠1,3 4) Utilizando a tabela abaixo, calcule: 18 LISTA DE EXERCÍCIOS 01 1. Calcule para a tabela abaixo, o valor numérico das somas indicadas: i Xi fi 1 2 3 4 3 4 6 8 2 5 3 2 a) 4 1i iX b) 4 1i if c) 4 1i ii fX d) 4 1 2 i ii fX e) 4 1 2)10( i iX f) 4 1i ii fiX g) 4 1 2)102( i ii fX 2. Classifique as seguintes variáveis em: Quantitativas (Discretas ou Contínuas) ou Qualitativas (Nominais ou Ordinais). a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo _______________________ b) O número de acessos diários em um blog. Variável do tipo _______________________ c) Número de horas de estudo para uma prova de estatística. Variável do tipo _______________________ d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga B e placebo. Variável do tipo _______________________ 19 e) Níveis de calorias consumidos diariamente, registrados como: Alto, moderado e baixo. Variável do tipo _______________________ 3. O corpo administrativo de uma indústria estudou o tempo de espera dos produtos que chegavam no setor de despache com uma solicitação de emergência. Os seguintes dados foram coletados no período de um mês (os tempos de espera estão em minutos): 2 5 10 12 4 4 5 17 11 8 9 8 12 21 6 8 7 13 18 3. (a) Montar uma distribuição de frequência em uma tabela em classes, com amplitudes de classes c=4. (b) Mostre as frequências relativas, acumuladas e relativas acumuladas. (c) Que proporção destes produtos enfrentam um tempo de espera de 9 minutos ou mais no setor? 4. Uma indústria multinacional faz um levantamento das seguintes variáveis com seus gerentes: hobby; quantas vezes praticam esporte por semana; categoria de hotel em que se hospedam quando em viajem e tempo gasto (por semana) na leitura de jornais e revistas. a) Identifique e classifique cada uma das variáveis consideradas? b) Os resultados do tempo de leitura, em horas, para 25 funcionários foi: 1.7 1.3 3.6 1.3 1.5 1.6 1.2 2.0 2.1 2.5 2.3 2.5 2.2 2.9 11.2 1.3 4.3 5.5 4.7 4.8 4.8 4.5 5.7 10.7 3.6 i) Organize os dados em rol. ii) Construa uma tabela de frequência com k = 5 classes. iii) Construa um histograma. 5. Faça uma tabela para mostrar que de um total de 850 homens entrevistados sobre a venda da Vale do Rio Doce, 51 não tinham opinião, 425 eram favoráveis e os demais eram contrários. Das 725 mulheres entrevistadas, 87 não tinham opinião, 522 eram favoráveis e as demais eram contrárias. 6. A tabela seguinte representa as alturas (em cm) de 40 alunos de uma classe. 157 178 148 176 169 154 170 158 164 164 159 175 155 163 171 172 163 157 166 162 157 165 156 166 160 154 163 165 164 177 150 168 166 169 152 164 172 165 162 170 20 a) Calcular a amplitude total. b) Admitindo-se 6 classes, qual a amplitude do intervalo de classe? c) Construir uma tabela de frequências simples absoluta e relativa das alturas dos alunos admitindo que o limite inferior da 1a classe seja 148 cm. d) Determinar os pontos médios das classes. e) Construir um polígono de frequências. 7. A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma empresa de ônibus: Nº de acidentes 0 1 2 3 4 5 6 7 Nº de motoristas 20 10 16 9 6 5 3 1 Determine: a) O número de motoristas que não sofreram nenhum acidente. b) O número de motoristas que sofreram pelo menos 4 acidentes. c) O número de motoristas que sofreram pelo menos 3 acidentes. d) O número de motoristas que sofreram no mínimo 3 e no máximo 5 acidentes. e) A porcentagem dos motoristas que sofreram no máximo 2 acidentes. f) Construa um gráfico de colunas. 8. A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes de terra; utilize-a para responder as questões. Áreas (m²) Nº de lotes 300 |-- 400 14 400 |-- 500 46 500 |-- 600 58 600 |-- 700 76 700 |-- 800 68 800 |-- 900 62 900 |-- 1000 48 1000 |-- 1100 22 1100 |-- 1200 6 Total 400 Com referência essa tabela, determine: a) A amplitude total dos dados b) O limite superior da quinta classe c) O limite inferior da oitava classe d) O ponto médio da sétima classe. Como você interpreta este valor? e) A amplitude do intervalo da segunda classe f) Monte uma tabela com todas as frequências. 21 g) A frequência relativa simples da quarta classe h) A frequência absoluta simples da oitava classe. Como você interpreta este valor? i) A frequência absoluta acumulada da quinta classe. Como você interpreta este valor? j) O número de lotes cuja área não atinge 700m² k) O número de lotes com área igual ou superior a 800m² l) A percentagem de lotes cuja área não atinge 600m² m) A percentagem de lotes cuja área seja maior ou igual a 900m² n) A percentagem dos lotes cuja área é de 500m², no mínimo, mas inferior a 1000m² o) A classe do 72º lote. p) Até que classe estão incluídos 60% dos lotes? 9. Complete os dados que faltam na distribuição de frequências: a) xi fi fri Fi 0 1 0,05 1 0,15 4 2 4 3 0,25 13 4 3 0,15 5 2 18 6 19 7 ∑ = 20 ∑ = 1,00 b) Classes xi fi Fi fri 0 |-- 2 1 4 0,04 2 |-- 4 8 4 |-- 6 5 30 0,18 |-- 7 27 0,27 8 |-- 10 15 72 10 |-- 12 83 |-- 13 10 0,10 14|-- 16 0,07 ∑ = ∑ =22 GABARITO – 1ª LISTA DE EXERCÍCIOS Questão 01 a) 21 b) 12 c) 60 d) 334 e) 105 f) 31 g) 136 Questão 02 a) Qualitativa Nominal b) Quantitativa discreta c) Quantitativa contínua d) Qualitativa nominal e) Qualitativa ordinal Questão 03 Questão 04 a) Hobby – Qualitativa nominal Vezes que pratica esporte – Quantitativa Discreta Categoria de hotel – Qualitativa Ordinal Tempo gasto - Quantitativa contínua b) Questão 05 Questão 06 a) AT = 30 b) c = 5 c) 23 d) Tempo Ponto Médio (P.M) 148 |-- 153 150,5 153 |-- 158 155,5 158 |-- 163 160,5 163 |-- 168 165,5 168 |-- 173 170,5 173 |-- 178 175,5 e) Questão 07 a) 20 b) 15 c) 24 d) 20 e) 65,7% f) Questão 08 a) Amplitude da tabela (AT=1200 – 300 = 900). Amplitude dos dados não é possível b) Limite superior = 800 c) Limite inferior = 1000 d) xi = 950. 48 lotes têm áreas medindo em torno de 950 metros quadrados. e) h=500 – 400 = 100 0 5 10 15 20 25 0 1 2 3 4 5 6 7 N º d e m o to ri st as Nº de acidentes 24 f) fr=76/400 = 0,19 ou 19,0%. g) f8=22. Em 22 lotes as áreas estão entre 1000 m² (inclusive) e 1100 m² (exclusive). h) i) f5=262. Em 262 lotes as áreas são inferiores a 800 m2. j) 194 k) 138 l) 29,5% m) 19,0% n) 78,0% o) 500 |-- 600 3ª classe p) 700 |--800 5ª classe Questão 09 a) fi : 1; 3; 4; 5; 3; 2; 1;1 fri: 0,05; 0,15; 0,2; 0,25; 0,15; 0,1; 0,05; 0,05 Fi: 1; 4; 8; 13; 16; 18; 19; 20 b) Classes: 6 |-- 8; 12 |-- 14 xi : 3; 9; 11; 15 fi : 18; 11; 7 Fi: 4; 12; 57; 100 fri: 0,08; 0,15; 0,11 25 UNIDADE II – MEDIDAS DE POSIÇÃO Na análise descritiva de dados as medidas estatísticas são instrumentos de avaliação e tomada de decisões. Entre essas medidas estão as Medidas de Resumo, também conhecidas como Medidas de Posição. O objetivo dessas medidas é de resumir um conjunto de dados ou uma distribuição de frequência através de uma medida central, em torno da qual os dados tendem a se concentrar; por isso, também são conhecidas como Medidas de Tendência Central. As medidas de tendência central são: Média, mediana, moda. 2.1 - MÉDIA Definimos a média aritmética simples (ou média, apenas) de uma população de tamanho N como sendo o quociente da soma de todos os dados da população pelo tamanho da mesma. Seja o seguinte conjunto de dados de uma variável X: 𝑿 = { 𝒙𝟏, 𝒙𝟐, 𝒙𝟑, 𝒙𝟒, … , 𝒙𝒏} = {𝒙𝒊}, 𝒊 = 𝟏, 𝟐,… , 𝒏 Estes dados podem ser provenientes de uma amostra ou de uma população (normalmente o tamanho da amostra é simbolizado por “n” – minúsculo -, e o tamanho da população por N – maiúsculo). Média de uma amostra Média de uma população 2.1.1 Média para dados não agrupados (Média Simples) Quando desejamos conhecer a média dos dados não agrupados, determinamos a média aritmética simples. Calculada por �̅� = ∑𝒙𝒊 𝒏 . Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18, 12 litros, temos, para produção mediada semana: �̅� = ∑𝒙𝒊 𝒏 = 𝟏𝟎 + 𝟏𝟒 + 𝟏𝟑 + 𝟏𝟓 + 𝟏𝟔 + 𝟏𝟖 + 𝟏𝟐 𝟕 = 𝟗𝟖 𝟕 = 𝟏𝟒 Logo, �̅� = 14 litros 26 2.1.2 Média para dados agrupados (Média Ponderada) Quando desejamos conhecer a média dos dados agrupados numa distribuição de frequências, determinamos a média ponderada. A fórmula para calcular a média ponderada de uma amostra é: �̅� = ∑𝒙𝒊.𝒇𝒊 𝒏 ou �̅� = ∑𝒙𝒊. 𝒇𝒓 Quando os dados estiverem em uma distribuição de frequência em classes, as observações são estimadas pelos pontos médios xi, obtidos da seguinte maneira: 𝑥𝑖 = 𝐿𝑖𝑚𝑖𝑛𝑓 + 𝐿𝑖𝑚𝑠𝑢𝑝 2 Onde: Liminf é o limite inferior do intervalo Limsup é o limite superior do intervalo Exemplo (sem intervalo de classe) Considere a variável X como o número de faltas de 25 funcionários de uma empresa computadas em um período qualquer e apresentada na distribuição de frequência abaixo: Nº de faltas (xi) fi fr 0 8 0,32 1 10 0,40 2 4 0,16 3 3 0,12 Total 25 1,00 O número médio de faltas por funcionários pode ser obtido por �̅� = ∑𝒙𝒊.𝒇𝒊 𝒏 = 𝟎∗𝟖 +𝟏∗𝟏𝟎+ 𝟐∗𝟒+𝟑∗𝟑 𝟐𝟓 = 𝟏, 𝟎𝟖 ou �̅� = ∑𝒙𝒊. 𝒇𝒓 = ( 𝟎 ∗ 𝟖 𝟐𝟓 ) + ( 𝟏 ∗ 𝟏𝟎 𝟐𝟓 ) + (𝟐 ∗ 𝟒 𝟐𝟓 ) + ( 𝟑 ∗ 𝟑 𝟐𝟓 ) = 𝟏, 𝟎𝟖 Exemplo (com intervalo de classe) Consideremos a tabela de distribuição da estatura(cm) de uma amostra de funcionários, a média de estatura é calculada da seguinte maneira: Estatura (cm) Nº de funcionários (fi) xi 150 |-- 154 4 152 154 |-- 158 9 156 158 |-- 162 11 160 162 |-- 166 8 164 166 |-- 170 5 168 170 |-- 158 3 172 Soma 40 -- 27 Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, onde no cálculo o xi é o ponto médio. �̅� = ∑𝒙𝒊 𝒇𝒊 𝒏 = 𝟏𝟓𝟐 ∗ 𝟒 + 𝟏𝟓𝟔 ∗ 𝟗 + 𝟏𝟔𝟎 ∗ 𝟏𝟏 + 𝟏𝟔𝟒 ∗ 𝟖 + 𝟏𝟔𝟖 ∗ 𝟓 + 𝟏𝟕𝟐 ∗ 𝟑 𝟒𝟎 = 𝟏𝟔𝟏 𝒄𝒎 A altura média dos funcionários é de 161cm. 2.2 - MEDIANA (Md) É uma medida de posição definida como o número que se encontra no centro de uma série de números, estando estes dispostos seguindo uma ordem. É o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. É frequentemente usada para a renda anual e para dados de valores de bens, porque algumas rendas ou valores de bens extremamente elevados podem inflacionar a média, nesses casos a mediana é melhor medida de posição. 2.2.1 - Mediana para dados não agrupados • Com “n” impar Para um número impar de observações a mediana será o termo de ordem: 𝑛 + 1 2 • Com “n” par Para um número impar de observações a mediana será a média aritmética dos termos de ordem: 𝑛 2 𝑒 𝑛 2 + 1 Após a ordenação dos valores, do menor para o maior, a mediana dividirá a série de observações em 2 partes iguais, ou seja, 50% menores valores se encontram abaixo da mediana e 50% maiores valores se encontram acima da mediana. Exemplos: Dadas a série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9, a mediana será: n= 9 (impar) Valores ordenados: 2, 5, 6, 9, 10, 13, 15, 16, 18 𝑀𝑑 = 𝑥 ( 𝑛+1 2 ) = 𝑥 ( 10 2 ) = 𝑥5 = 10, 𝑴𝒅 = 𝟏𝟎 Conclusão: 50% menores valores se encontram abaixo de 10. Dadas a série de valores: 12, 18, 7, 10, 2, 13, 6, 21 n= 8 (par) Valores ordenados: 2, 6, 7, 10, 12, 13, 18, 21. 28 𝑀𝑑 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥4+ 𝑥5 2 = 10+12 2 = 11 𝑴𝒅 =11 Conclusão: 50% menores valores se encontram abaixo de 11. 2.2.2 - Mediana para dados agrupados em intervalos de classe Para calcularmos a mediana numa distribuição de dados agrupados devemos seguir alguns passos até chegarmos ao valor que representa a mediana. Passo 1- Na distribuição de frequência, devemos localizar a classe que contém o valor estimado da mediana. Para isso devemos localizar a classe que contém otermo de ordem 𝒏 𝟐 , ou seja, a classe que contém a observação 𝒙 ( 𝒏 𝟐 ) é a mesma classe que contém a mediana. Passo 2 – Localizada a classe da mediana, utiliza-se a formula: 𝑴𝒅 = 𝒍𝒊 + ( ∑𝒇𝒊 𝟐 − 𝑭(𝒂𝒏𝒕)) . 𝒄 𝒇𝒊 Onde: li = limite inferior da classe F(ant.) = frequência acumulada anterior a da classe mediana c = amplitude da classe da mediana fi = frequência absoluta simples da classe mediana EXEMPLO: Calcular o salário mediano a partir da distribuição de frequência dos 40 funcionários de uma empresa. Salários (xi) Nº de Funcionários (fi) Fi 400 |-- 600 2 2 600 |-- 800 8 10 800 |-- 1000 16 26 1000 | -- 1200 10 36 1200 |-- 1400 4 40 Total 40 - 𝑛 2 = 20º , a classe de Md é a classe que contém x20, está na 3ª classe (800 |- -1000). Localizada a classe mediana, devemos utilizar a fórmula seguinte para o cálculo do valor mediano: 𝑴𝒅 = 𝒍𝒊 + ( ∑𝒇𝒊 𝟐 − 𝑭(𝒂𝒏𝒕)) . 𝒄 𝒇𝒊 = 𝟖𝟎𝟎 + ( 𝟒𝟎 𝟐 − 𝟏𝟎) . 𝟐𝟎𝟎 𝟏𝟔 = 𝟖𝟎𝟎 + 𝟏𝟐𝟓 = 𝟗𝟐𝟓 O que significa que 50% dos funcionários recebem até 925,00. 29 Emprego da média e da mediana: De uma maneira geral, prefere-se empregar a média aritmética quando a distribuição dos dados é simétrica, ou nos casos em que se faz necessário o cálculo de outras estatísticas. Por outro lado, a mediana é preferida quando se deseja o ponto que divide a distribuição em duas partes iguais ou nos casos em que na distribuição dos dados existam valores muito distanciados dos demais, comumente chamados de valores extremos. 2.3 - MODA (Mo) Denominamos moda (Mo) ao valor que mais se repete num conjunto de dados simples ou isolado, ou o valor de maior frequência num conjunto de dados agrupados numa tabela de frequência. Quanto ao valor que se destaca num conjunto de dados podemos ter várias definições. Distribuição Unimodal: Quando somente um valor se destaca no conjunto de dados Distribuição Bimodal: Quando dois valores se destacam no conjunto de dados Distribuição Trimodal: Quando três valores se destacam no conjunto de dados Distribuição Multimodal: Quando mais três valores se destacam no conjunto de dados Distribuição Amodal: Quando nenhum valor se destaca no conjunto de dados 2.3.1 - Moda para dados brutos ou não agrupados em classes Quando lidamos com dados brutos ou agrupados a moda é o valor de maior frequência (maior número de repetições). EXEMPLO: Indique a moda para cada conjunto de dados. a) 8; 10;13; 17; 25; 10 -> Moda = 10 b) 1; 3; 6; 7; 20; 12; 5 -> Amodal c) 2; 1; 9; 7; 15; 2; 9; 4 -> Moda = 2 e 9 d) e) Nº de faltas/Serviço (xi) Nº de Funcionários (fi) Nº de faltas/Serviço (xi) Nº de Funcionários (fi) 1 2 1 2 2 15 2 15 3 3 3 3 4 2 4 15 5 2 5 2 6 3 6 3 Moda = 2 Moda1 = 2 , Moda2 = 4 2.3.2 - Moda para dados agrupados em intervalos de classe Para o cálculo da moda nas distribuições de frequência com intervalo de classe, precisamos primeiro identificar a classe modal (classe com maior frequência) para depois calcular o valor da moda. Fórmula para cálculo da moda: 𝑀𝑜 = 𝑙𝑖 + ∆1 ∆1 + ∆2 . 𝑐 30 Onde: li = limite inferior da classe modal ∆1 = diferença entre a frequência da classe modal e a frequência da classe anterior. ∆2 = diferença entre a frequência da classe modal e a frequência da classe posterior. c = amplitude ou tamanho da classe modal EXEMPLO: Calcular o salário modal a partir da distribuição de frequência dos 40 funcionários de uma empresa. O intervalo de salários de 800 a 1000 reais é considerado a classe modal, pois é o intervalo que tem a maior frequência de funcionários com estes salários. Utilizando a fórmula para cálculo da moda temos: 𝑀𝑜 = 𝑙𝑖 + ∆1 ∆1 + ∆2 . 𝑐 = 800 + 12 12 + 11 . 200 = 904,35 → 𝑀𝑜 = 904,35 O salário que mais se repete entre os funcionários é de R$904,35. Exercícios (Resolvidos em sala) 1 - Em uma classe de 50 alunos, as notas obtidas formaram a seguinte distribuição: Notas 2 3 4 5 6 7 8 9 10 Nº de alunos 1 3 6 10 13 8 5 3 1 Calcule: a) A nota média b) A nota mediana c) A nota modal Salários (xi) Nº de Funcionários (fi) 400 |-- 600 3 600 |-- 800 8 800 |-- 1000 20 1000 | -- 1200 9 Total 40 31 2 - Dada a seguinte distribuição de frequência calcule a média aritmética, mediana e moda. Notas 0 |-- 2 2|-- 4 4 |-- 6 6|-- 8 8|--10 Total Nº de alunos 6 11 8 15 5 45 3 - Num determinado processo de fabricação foram feitas 50 observações de uma característica de qualidade de um tipo de peça, resultando nas seguintes medidas de diâmetro em milímetros. Calcule o diâmetro médio e o mediano das peças. 2.4 – Medidas Separatrizes As medidas de separatrizes têm o objetivo de auxiliar na interpretação dos dados tornando possível a interpretação de uma distribuição de frequência de forma fracionada. São as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar outras medidas que dividem a distribuição em partes iguais, de forma fracionada, que serão as chamadas separatrizes. São elas: 32 2.4.1 Quartis (Qi) Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Q1: 1º quartil. Deixa 25% dos elementos antes do seu valor Q2: 2º quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana Q3: 3º quartil. Deixa 75% dos elementos antes do seu valor. Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão: 𝑖. 𝑛 4 onde: i = número do quartil a ser calculado n = número de observações. Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculo da mediana: 𝑸𝒊 = 𝒍𝒊 + ( 𝒊. 𝒏 𝟒 − 𝑭(𝒂𝒏𝒕)) . 𝒄 𝒇𝒊 Onde: li = limite inferior da classe que contém o quartil desejado c = amplitude do intervalo de classe F(ant) = frequência acumulada até a classe anterior à classe quartílica. fi = frequência absoluta simples da classe quartílica. 2.4.1.1 Diagrama de Caixa ou BOX-PLOT O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers) e são denotados por asterisco (*). 33 A escala de medida da variável encontra-se na linha horizontal do quadro onde está inserida a figura. Observe que 50% da distribuição têm valores dentro da caixa. As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e superior (LS) da distribuição. Entre esses limites encontram-se os valores considerados como típicos da distribuição. Esses limites são determinados em função da distância entre os dois quartis (Q3 e Q1), isto é, do desvio inter-quartílico: DQ = Q3 – Q1. 2.4.2 Centil ou Percentil(Ci):São as medidas que dividem a amostra em 100 partes iguais. Assim: O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão: 𝑖. 𝑛 100 onde: i = número identificador do centil n = número total de observações Para dados agrupados em classes, encontraremos os centis de maneira semelhante à utilizada para cálculo da mediana, dos quartis. 𝑪𝒊 = 𝒍𝒊 + ( 𝒊. 𝒏 𝟏𝟎𝟎 − 𝑭(𝒂𝒏𝒕)) . 𝒄 𝒇𝒊 Onde: li = limite inferior da classe que contém o centil desejado c = amplitude do intervalo de classe F(ant) = frequência acumulada até a classe anterior à classe centílica. fi = frequência absoluta simples da classe centílica. 34 Exemplo: A tabela abaixo refere-se a quantidade de negócios efetuados diariamente por uma instituição financeira. Calcular o 3º quartil e o 40º centil. Quantidade de neg/dia fi Fi 11 2 2 12 5 7 13 6 13 14 8 21 15 3 24 16 2 26 Calculando o terceiro quartil do exemplo acima: Passo 1) Identificar a posição do terceiro quartil 𝑖 ∗ 𝑛 4 = 3 ∗ 26 4 = 19,5 ≅ 20 Portanto, a posição do quartil de ordem 3 é = 20. Passo 2) Encontrando o valor do quartil 𝑄3 = 𝑋3∗26 4 = 𝑋19,5 ≅ 𝑋20 = 14 O valor 14 está na posição 20 da tabela de distribuição de frequência. Interpretação: 75% das quantidades negociadas são menores ou igual a 14. Exemplo: Com base na tabela de distribuição do consumo médio de eletricidade (kw/hora) entre usuários em uma cidade X. Encontre o: a) Terceiro quartil; b) vigésimo quinto centil; Resolução: a) Q3 Encontrar a posição do terceiro quartil: 3∗80 4 = 60 Consumo (Kwh) Nº de usuários (fi) Fi 5 |-- 25 6 6 25 |-- 45 4 10 45 |-- 65 14 24 65 |-- 85 26 50 85 |-- 105 14 64 105 |-- 125 7 71 125 |-- 145 6 77 145 |-- 165 3 80 35 O Q3 está localizado na 60ª posição, logo encontra-se na 5ª classe. Com base nesses dados, calcularemos Q3 da seguinte forma: 𝑸𝟑 = 𝒍𝒊 + ( 𝒊. 𝒏 𝟒 − 𝑭(𝒂𝒏𝒕)) . 𝒄 𝒇𝒊 = 𝟖𝟓 + ( 3 ∗ 80 4 − 50) ∗ 20 𝟏𝟒 = 𝟖𝟓 + 𝟏𝟒, 𝟐𝟗 = 𝟗𝟗, 𝟐𝟗 Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários consomem mais de 99,29 kwh. b) C25 Encontrar a posição do centil 25: 25∗80 100 = 20 O C25 está localizado na 20ª posição, logo se encontra na 3ª classe. Com base nesses dados, calcularemos C25 da seguinte forma: 𝑪𝟐𝟓 = 𝒍𝒊 + ( 𝒊. 𝒏 𝟏𝟎𝟎 − 𝑭(𝒂𝒏𝒕)) . 𝒄 𝒇𝒊 = 𝟒𝟓 + ( 𝟐𝟓 ∗ 𝟖𝟎 𝟏𝟎𝟎 − 𝟏𝟎) ∗ 𝟐𝟎 𝟏𝟒 = 𝟒𝟓 + 𝟏𝟒, 𝟐𝟗 = 𝟓𝟗, 𝟐𝟗. Interpretação: 25% dos usuários consomem até 59,29 kwh. De maneira análoga, 75% dos usuários consomem mais de 59,29 kwh. EXERCÍCIOS (Resolvidos em sala) 1 - Calcular os valores do Q1, Q2 e Q3 da tabela seguinte: Tabela – Números de acidentes /mês no Cruzamento X em Vila Velha - ES N° de acidentes / mês fi Fi 0 4 4 1 6 10 2 9 19 3 5 24 4 4 28 Fonte: Dados Hipotéticos 36 2 - Dada as seguinte distribuição de frequência calcule Q1, Q3 , C93. Salários (R$) fi 500 700 18 700 900 31 900 1.100 15 1.100 1.300 3 1.300 1.500 1 1.500 1.700 1 1.700 1.900 1 Total = 70 37 LISTA DE EXERCÍCIOS 02 1- Calcule a média aritmética, mediana e moda para cada uma das distribuições abaixo: a) Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4 b) Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61 c) Estatura de 140 alunos (em cm): 2- Qual o número médio, mediano e o 3º quartil do número de atendimentos em serviço médico por funcionários de uma empresa, distribuídos na tabela abaixo: Nº de atendimentos 0 1 2 3 4 TOTAL Nº de funcionários 24 21 3 1 1 50 3- O salário-hora de cinco funcionários de uma companhia, são: R$ 75,00; R$ 90,00; R$ 83,00; R$ 142,00 e R$88,00. Determine: a) a média dos salários-hora; b) o salário-hora mediano. 4- Calcule a média aritmética, mediana, moda e o C80 das distribuições de frequência abaixo: a) b) 5- Você fez dois trabalhos num semestre e obteve as notas 8,5 e 5,5. Qual deve ser a nota que você deve tirar no 3º trabalho para que a média dos três seja 7? 6- Numa empresa, vinte operários têm salário de R$ 4.000,00 mensais; dez operários têm salário de R$ 3.000,00 mensais e trinta têm salário de R$ 2.000,00 mensais. Qual é o salário médio desses operários? 7- Qual a percentagem de valores que se localiza entre o ultimo quartil e o C81? 8- Dados dois grupos de pessoas, o grupo A com 10 elementos e o grupo B com 40 elementos. Se o peso médio do grupo A for e 80kg e o grupo B for de 70kg então é verdade que o peso médio dos dois grupos considerados em conjunto é de 75kg? Justifique. 9- Um concurso realizado simultaneamente nos locais A, B e C, apresentou médias: 70, 65 e 45, obtidos por 30, 40 e 30 candidatos, nessa ordem. Qual a média geral do concurso? 38 10- Para um dado concurso, 60% dos candidatos eram do sexo masculino e obtiveram uma média de 70 pontos em determinada prova. Sabendo-se que a média geral dos candidatos (independente do sexo) foi de 64 pontos, qual foi a média dos candidatos do sexo feminino? 11- Dado o histograma abaixo, calcular a média, moda, mediana e o centil 70. 12- O histograma abaixo representa os salários, em reais (R$) dos 100 empregados de uma empresa: a) Que percentual de empregados recebem 8 salários ou mais? b) Quantos empregados recebem de 4 a 16 salários? c) Quantos empregados recebem menos que 4 salários ou mais que 12 salários? d) Qual o salário médio dos empregados? e) Qual o valor da mediana, e como você interpreta esse valor? f) Acima de que valor estão os 15 salários mais altos? g) Qual o maior salário entre os 14% mais baixos? 39 GABARITO - Lista de Exercícios 02 1- a) média: 4,08 mediana: 4,1 moda: Amodal b) média: 28,5 mediana: 33 moda: Amodal c) média: 164,93 mediana: 164,08 moda: 162,5 2- �̅� = 0,68 , 𝑀𝑑 = 1 𝑒 𝑄3 = 1 3- a) R$ 96 b) R$ 88 4- a) média: 5,3 mediana: 5,28 moda: 5,2 P80: 7,64 b) média: 172,4 mediana: 174 moda: 176,57 P80: 180,22 5- 7 6- R$ 2833,33 7- 6% 8- 𝑁ã𝑜. �̅�𝑔𝑒𝑟𝑎𝑙 = 72 𝑘𝑔 9- �̅�𝑐𝑜𝑛𝑐𝑢𝑟𝑠𝑜 = 60,5 10- �̅�𝐹𝑒𝑚𝑖𝑛𝑖𝑛𝑜 = 55 𝑝𝑜𝑛𝑡𝑜𝑠 11- �̅� = 6,8 Md = 7 Mo = 8,66 C70=8,66 12- a) 64% b) 76 c) 56 d) �̅� = 9,84 e) Md = 10,33 f) C85 = 15,12 g) C14= 3,5 41 UNIDADE III - MEDIDAS DE DISPERSÃO 3.0 - Medidas de Dispersão Podemos definir dispersão (variabilidade) de um conjunto de dados como sendo a maior ou menor diversificação em torno de uma medida de tendência central. O objetivo das medidas de dispersão é medir quão próximos uns dos outros estão os valores de um grupo (e algumas mensuram a dispersão dos dados em torno de uma medida de posição). Exemplo 01: Em um processo seletivo, três candidatos estão concorrendo a uma vaga.Os candidatos realizaram vários testes e as notas obtidas foram registradas, o candidato escolhido será o que apresentar melhor desempenho no geral (notas mais homogêneas). Os resultados obtidos em cada um deles foram os seguintes: Média A 5 10 7 15 14 12 4 7 10 11 9,5 B 10 9 12 9 14 8 9 7 8 9 9,5 C 10 10 9 10 9 9 10 11 7 10 9,5 Qual informação é necessária para decidir qual o melhor candidato? Verificamos que a média dos três candidatos nos 10 testes é 9,5, ou seja, os três tem o mesmo rendimento. Por outro lado, vemos que existe significativa diferença nas distribuições das notas. Então, para decidir qual o melhor candidato analisamos a dispersão ou variabilidade das notas de cada candidato, para verificar qual apresenta média mais confiável. As medidas de dispersão podem ser absolutas ou relativas. A seguir apresentaremos as que são consideradas mais importantes. 3.1 - MEDIDAS DE DISPERSÃO ABSOLUTA 3.1.1 - Amplitude Total (intervalo) É a medida mais simples de dispersão. Consiste em identificar os valores extremos do conjunto (mínimo e máximo), podendo ser expresso: - pela diferença entre o valor máximo e o mínimo; 𝑨𝑻 = 𝒙𝒎𝒂𝒙𝒊𝒎𝒐 − 𝒙𝒎í𝒏𝒊𝒎𝒐 - pela simples identificação dos valores. [𝒙𝒎í𝒏𝒊𝒎𝒐; 𝒙𝒎𝒂𝒙𝒊𝒎𝒐] 42 Exemplo 02: Observe o conjunto abaixo, referente às notas de duas turmas de Estatística: Diagrama de Pontos das notas das turmas Desvantagem do uso do intervalo: Apesar de sua simplicidade o intervalo não dá ideia de como os dados estão agrupados entre os extremos. No caso acima ambos os grupos têm o mesmo intervalo (4, [4,8]), mas no primeiro grupo os dados estão bem dispersos, enquanto no primeiro estão próximos do valor mínimo. 3.1.2 - Desvio (di) Diferença entre o valor observado xi e a média (x) das observações. Exemplo 03: Dados os conjuntos: X = 4; 6; 4; 6; 5; 5 Y = 9; 1; 5; 5; 1; 9 Média dos conjuntos �̅� = 5 𝑒 �̅� = 5 Desvios em relação a média são: 𝑑𝑖 = 𝑥𝑖 − �̅� = { -1, 1, -1, 1, 0, 0} 𝑑𝑖 = 𝑦𝑖 − �̅� = { 4, -4, 0, 0, -4, 4} Se os desvios tem valores relativamente pequenos (conjunto X), os dados tem pouca dispersão. Se, ao contrário, os desvios têm valores relativamente grandes como no caso do conjunto Y, a dispersão é maior. O conjunto com menor média dos desvios terá menos dispersão. OBS: 43 3.1.3 - Desvio Médio (Dm) É a média dos desvios em seus valores absolutos. Exemplo 04: Desvios médios dos conjuntos X e Y. di = xi - x = { -1, 1, -1, 1, 0, 0} di = yi - y = { 4, -4, 0, 0, -4, 4} O desvio médio do conjunto X é menor que o desvio médio do conjunto Y. 3.1.4 - Variância (σ² ou s²) A variância é uma das medidas de dispersão mais importantes, pois proporciona uma mensuração da dispersão dos dados em torno da média. Para calcularmos a variância devemos considerar os desvios de cada valor em relação à média. Como estamos interessados nos tamanhos dos desvios e não no fato deles serem positivos e negativos trabalhamos com os desvios ao quadrado. Tomamos a média aritmética dos desvios ao quadrado, obtemos a variância. População Amostra Dados Simples 𝝈𝟐 = ∑(𝒙𝒊 − 𝝁) 𝟐 𝑵 Ou 𝜎2 = ∑𝑥𝑖 2 − 𝑛𝜇² 𝑁 𝑺𝟐 = ∑(𝒙𝒊 − �̅�) 𝟐 𝒏 − 𝟏 Ou 𝑆2 = ∑𝑥𝑖 2 − 𝑛�̅�2 𝑛 − 1 Tabelas 𝝈𝟐 = ∑(𝒙𝒊 − 𝝁) 𝟐 ∗ 𝒇𝒊 𝑵 Ou 𝜎2 = ∑𝑥𝑖 2𝑓𝑖 − 𝑛𝜇² 𝑁 𝑺𝟐 = ∑(𝒙𝒊 − �̅�) 𝟐 ∗ 𝒇𝒊 𝒏 − 𝟏 Ou 𝑆2 = ∑ 𝑥𝑖 2𝑓𝑖 − 𝑛�̅� 2 𝑛 − 1 A unidade de medida da variância equivale à unidade dos dados ao quadrado (e portanto o quadrado da unidade da média) causando dificuldades para avaliar a dispersão. Para retornarmos a unidade original dos dados tiramos a raiz quadrada da variância obtendo assim o desvio padrão. 44 3.1.5 - Desvio Padrão (s ou σ) É a raiz quadrada positiva da variância, apresentando a mesma unidade dos dados e da média, permitindo avaliar melhor a dispersão. Dados simples: 𝑺 = √ ∑(𝒙𝒊 − �̅�)𝟐 𝒏 − 𝟏 = √ ∑𝒙𝒊 𝟐 − 𝒏�̅�𝟐 𝒏 − 𝟏 Tabelas: 𝑺 = √ ∑(𝒙𝒊 − �̅�)𝟐 ∗ 𝒇𝒊 𝒏 − 𝟏 = √ ∑𝒙𝒊 𝟐𝒇𝒊 − 𝒏�̅�𝟐 𝒏 − 𝟏 OBS: se os dados referem-se a uma POPULAÇÃO usa-se N no denominador da expressão e o símbolo σ. - Quanto maior o desvio padrão, maior a dispersão dos dados em torno da média. Exemplo 06: A tabela abaixo refere-se às notas dos candidatos do exemplo 1. Média A 5 10 7 15 14 12 4 7 10 11 9,5 B 10 9 12 9 14 8 9 7 8 9 9,5 C 10 10 9 10 9 9 10 11 7 10 9,5 Candidato A: 𝝈𝟐 = ∑(𝒙𝒊 − 𝝁) 𝟐 𝑵 = (𝟓 − 𝟗, 𝟓)𝟐 + (𝟏𝟎 − 𝟗, 𝟓)𝟐 + (𝟕 − 𝟗, 𝟓)𝟐 +⋯+ (𝟏𝟏 − 𝟗, 𝟓)² 𝟏𝟎 = 𝟏𝟐, 𝟑 𝝈 = √𝝈² = √ ∑(𝒙𝒊 − 𝝁)𝟐 𝑵 = √𝟏𝟐, 𝟑 = 𝟑, 𝟓 Candidato B: 𝝈𝟐 = ∑(𝒙𝒊 − 𝝁) 𝟐 𝑵 = (𝟏𝟎 − 𝟗, 𝟓)𝟐 + (𝟗 − 𝟗, 𝟓)𝟐 + (𝟏𝟐 − 𝟗, 𝟓)𝟐 +⋯+ (𝟗 − 𝟗, 𝟓)² 𝟏𝟎 = 𝟑, 𝟗 𝝈 = √𝝈² = √ ∑(𝒙𝒊 − 𝝁)𝟐 𝑵 = √𝟑, 𝟗 = 𝟐, 𝟎 Candidato C: 𝝈𝟐 = ∑(𝒙𝒊 − 𝝁) 𝟐 𝑵 = (𝟏𝟎 − 𝟗, 𝟓)𝟐 + (𝟏𝟎 − 𝟗, 𝟓)𝟐 + (𝟗 − 𝟗, 𝟓)𝟐 +⋯+ (𝟏𝟎 − 𝟗, 𝟓)² 𝟏𝟎 = 𝟏, 𝟏 45 𝝈 = √𝝈² = √ ∑(𝒙𝒊 − 𝝁)𝟐 𝑵 = √𝟏, 𝟏 = 𝟏, 𝟎 Quanto maior a dispersão dos dados maior o valor do desvio padrão: - O candidato C é o que tem as notas mais homogêneas, pois apresenta o menor desvio padrão, 1,0. - O candidato A, apesar de apresentar notas altas, tem o maior desvio padrão (3,5), assim apresenta apresenta maior dispersão. Exemplo 07: Amostra da estatura de 40 funcionários em uma empresa (em cm) Média amostral: Variância: Desvio padrão: PROPRIEDADES DO DESVIO PADRÃO 1. O desvio-padrão é sempre não negativo 2. Quanto maior for o desvio-padrão maior será a dispersão dos dados em relação à média. 3. Se o desvio-padrão é igual a zero é porque não existe variabilidade, isto é, os dados são todos iguais. �̅� = ∑𝒙𝒊 ∗ 𝒇𝒊 𝒏 = (𝟏𝟓𝟐 ∗ 𝟒) + (𝟏𝟓𝟔 ∗ 𝟗) +⋯+ (𝟏𝟕𝟐 ∗ 𝟑) 𝟒𝟎 = 𝟔𝟒𝟒𝟎 𝟒𝟎 = 𝟏𝟔𝟏 𝒄𝒎 𝑺𝟐 = ∑(𝒙𝒊 − �̅�) 𝟐 ∗ 𝒇𝒊 𝒏 − 𝟏 = (𝟏𝟓𝟐 − 𝟏𝟔𝟏)𝟐 ∗ 𝟒 +⋯+ (𝟏𝟕𝟐 − 𝟏𝟔𝟏)𝟐 ∗ 𝟑 𝟑𝟗 = 𝟏𝟐𝟒𝟎 𝟑𝟗 = 𝟑𝟏, 𝟕𝟗𝒄𝒎² 𝑺 = √𝑺𝟐 = √𝟑𝟏, 𝟕𝟗 = 𝟓, 𝟔𝟑 𝒄𝒎 46 • Propriedade da Soma Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, o desvio padrão não se altera. Média: 𝑋 = { 1, 3, 5, 7, 9}, �̅� = 5 Variância: 𝑆2 = ∑ (𝑥𝑖−�̅�)² 𝑛 1 𝑛−1 = (1−5)2+(3−5)2+(5−5)2+(7−5)2+(9−5)² 4 = 10 Desvio Padrão: 𝑆 = √𝑆² = √10 ≅ 3,2 Se somarmos a constante 2 a cada observação, teremos: 𝑆2 = ∑ [(𝑥𝑖+2)−(�̅�+2)]² 𝑛 1 𝑛−1 = ∑ [(𝑥𝑖+2−�̅�−2)]² 𝑛 1 𝑛−1 = ∑ (𝑥𝑖−�̅�)² 𝑛 1 𝑛−1 S2 = (1−5)2+(3−5)2+(5−5)2+(7−5)2+(9−5)² 4 = 10 Ou seja, a variância não se altera. Portanto, o desvio padrão permanece o mesmo. • Propriedade da Multiplicação Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado ou dividido por este valor. Se multiplicarmos as observações por 2, teremos: 𝑆2 = ∑[(2𝑥𝑖 − 2�̅�)]² 𝑛 − 1 = ∑2²[(𝑥𝑖 − �̅�)]² 𝑛 − 1 = 2²∑[(𝑥𝑖 − �̅�)]² 𝑛 − 1 = 22 ∗ 10 = 40Ou seja, a variância será multiplicada pelo quadrado da constante que multiplicou os valores da variável. Portanto, o desvio será multiplicado pela própria constante: 𝑆 = √22𝑆² = √4 ∗ 10 ≅ 2 ∗ 3,2 = 6,4 3.2 - MEDIDA DE DISPERSÃO RELATIVA 3.2.1 - Coeficiente de Variação Percentual (c.v. %) O coeficiente de variação percentual é uma medida de dispersão relativa, pois permite comparar a dispersão de diferentes distribuições (com diferentes médias e desvios padrões). 47 Onde é a média e s é o desvio padrão do conjunto de dados. Quanto menor o valor do C.V.% mais os dados estão concentrados em torno da média (conjunto mais homogêneo). Exemplo 07: Usando os dados dos candidatos do exemplo 1, temos: Candidato Média Desvio padrão A 9,5 3,5 B 9,5 2,0 C 9,5 1,0 Qual é o mais homogêneo em termos de notas. 𝑪. 𝑽 %𝑨 = 𝟑, 𝟓 𝟗, 𝟓 ∗ 𝟏𝟎𝟎 = 𝟑𝟔, 𝟖% 𝑪. 𝑽 %𝑩 = 𝟐, 𝟎 𝟗, 𝟓 ∗ 𝟏𝟎𝟎 = 𝟐𝟏, 𝟎% 𝑪.𝑽 %𝑪 = 𝟏, 𝟎 𝟗, 𝟓 ∗ 𝟏𝟎𝟎 = 𝟏𝟎, 𝟓% Classificação do Coeficiente de Variação: Ou seja, 0 % ≤ CV ≤ 20% → Dispersão baixa (média boa como medida de resumo). 20% < CV ≤ 30% → Dispersão moderada (média razoável como medida de resumo). CV > 30% → Dispersão alta (média ruim como medida de resumo). 48 EXERCÍCIOS (Resolvidos em sala) Exercício 1 – Um exame físico examinou 6 indivíduos cujos pesos (kg) foram: 68; 70; 86; 55; 75 e 90. No mesmo exame, foram também tomadas medidas de altura (cm), com seguintes valores: 170; 160; 164; 164; 170 e 180. Os indivíduos apresentam maior variabilidade no peso ou altura? Exercício 2 Na tabela abaixo encontra-se a estrutura do produto interno bruto do Brasil, em bilhões de reais, segundo as atividades econômicas. Em qual dos setores ocorre a maior variabilidade? Exercício 3 - Uma variável X tem média igual a 10 e variância igual a 16. Calcule a média e a variância da variável dada por Y = (3X + 5) / 2. 49 Exercício 5 - Dado o polígono de frequências para as profundidades de poços de petróleo (metros), avalie a dispersão dos dados em torno da média. 50 LISTA DE EXERCÍCIOS 03 1) Um departamento de produção usa um procedimento de amostragem para testar a qualidade de itens recém-produzidos. O departamento emprega a seguinte regra de decisão em uma estação de inspeção: se uma amostra de 25 itens tem uma variância de mais que 0,15, a linha de produção precisa ser paralisada para reparos. Suponha que os seguintes dados tenham sido coletados: Dados fi 3,4 |--3,8 4 3,8 |--4,2 6 4,2 |--4,6 10 4,6 |--5,0 3 5,0 |--5,4 2 Total 25 Pede-se: a) A linha de produção deve ser paralisada? Por quê? b) A média e uma boa medida de resumo para o conjunto de dados? Explique pela dispersão relativa(CV) dos dados. c) Estime a menor medida entre as 25% maiores. 2) Duas turmas A e B com nA = 50 e nB = 80 apresentaram médias �̅�𝐴 = 65 e �̅�𝐵 = 70e variâncias 𝑠𝐴 2 = 225 e 𝑠𝐵 2 = 235. Qual é a turma mais homogênea? 3) O tempo de “ignição fria” de um motor de carro está sendo investigado por um fabricante de gasolina. Os seguintes tempo (em segundos) foram obtidos em um veículo de teste: 1,75; 1,92; 2,62; 2,35; 3,09; 3,15; 2,52 e 1,90. O que podemos dizer sobre a qualidade da média levando-se em consideração a dispersão dos dados (utilize CV)? 4) Dados os histogramas de duas amostras de preços de um produto em regiões distintas, pede-se: a) Calcular e comparar os preços médios do produto. b) Qual região apresenta menor centil 75 (C75). 51 c) Qual região é mais heterogênea em relação aos preços do produto? 5) Uma indústria deseja comprar uma máquina para melhorar o desempenho de sua produção. Como opção, o engenheiro responsável deve avaliar duas marcas e decidir qual das duas comprar. As máquinas foram então testadas e os tempos de execução são dados abaixo. Máquina Z: 25 24 25 22 23 24 23 27 22 26 Máquina W: 29 23 28 27 26 24 24 28 23 28 a) Encontre a média amostral e o desvio padrão amostral para o tempo de execução de cada máquina. b) Suponha que você seja o responsável de dar o parecer. Qual das duas escolheria? Justifique (Use CV). 6) Dado o gráfico abaixo, pede-se: a) Construir uma tabela de distribuição de frequências? b) Podemos dizer que 50% dos aumentos estão abaixo de que percentual? c) Qual a classe de variação com maior frequência? d) Qual o aumento médio durante estes dois anos? e) Qual a proporção de aumentos entre 4% e 8,0%? f) Avalie a dispersão dos percentuais de aumento do dólar. 7) Os conjuntos de dados abaixo referem-se a observações dos preços de um produto em todos os estabelecimentos de seu comércio, em duas grandes cidades: Cidade A: Cidade B: 2,0 2,5 2,8 2,8 2,5 2,6 2,6 2,4 2,4 2,0 2,3 2,5 2,6 2,4 2,8 2,8 2,5 1,7 1,9 1,8 1,8 2,2 2,0 2,8 2,5 3,2 2,5 2,1 2,3 2,4 a) Em média, qual cidade apresenta maior preço do produto? b) Qual cidade apresenta preços mais homogêneos? Utilize o C.V. 8) Considere os seguintes dados amostrais (conjunto de peças, em gramas): 105 – 110 – 102 – 103 – 107 – 105 – 90 – 80 52 Pede-se: a) A média, a mediana, a moda, o desvio médio, a variância, o desvio padrão e o coeficiente de variação. b) Os dados possuem pequena dispersão? Por quê? c) Somar 100 de cada observação para obter uma amostra com valores transformados e calcule a média, a variância. (Compare essa variância com os dados originais). 09) A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha foi ou não eficiente, fez-se um levantamento (amostra) da idade de candidatos à última promoção, e os resultados estão na tabela a seguir. Idade 18 |-- 21 21 |-- 24 24 |-- 27 27 |-- 30 30 |-- 33 Total Nº de candidatos 18 12 10 8 2 50 a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a média)? b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença x̅ − 22 fosse maior que o valor 2 SX/√n, então a campanha teria surtido efeito. Qual a conclusão dele, baseado nos dados? c) O que podemos dizer sobre a qualidade da média de idade levando-se em consideração a dispersão dos dados? d) Acima de que valor de idade estão os 5 candidatos mais velhos? 53 GABARITO - Lista de Exercícios 03 (Medidas de dispersão) Questão 1) a) Sim, pois a variância da amostra é maior que a variância tolerada de 0,15. �̅� = 4,29 𝑆2 = 0,207 𝑆 = 0,455 b) A média tem uma boa qualidade, o coeficiente de variação é menor que 20%, representadno baixa dispersão. 𝐶𝑉 = 𝑠 �̅� ∗ 100 = 0,455 4,29 ∗ 100 = 10,6% c) P75 = 4,55 O menor valor entre os 25% maiores é 4,55. Questão 2) : 𝑇𝑢𝑟𝑚𝑎 𝐴 ∶ 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 15 65 ∗ 100 = 23,1% 𝑇𝑢𝑟𝑚𝑎 𝐵: 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 15,3 70 ∗ 100 = 21,9% Turma B é mais homogênea, apresentou menos percentual de variação. Questão 3) �̅� = 2,41𝑆2 = 0,2865 𝑆 = 0,535 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 0,535 2,41 ∗ 100 = 22,19% A média é de qualidade moderada, pois os dados apresentam moderada dispersão. CV > 20% Questão 4) : a) A cidade A apresenta preço médio mais baixo. �̅�𝐴 = 6,9 �̅�𝐵 = 8,7 b) Cidade A. 𝐶𝑖𝑑𝑎𝑑𝑒 𝐴 ∶ 𝑃75 = 9,0 𝐶𝑖𝑑𝑎𝑑𝑒 𝐵: 𝑃75 = 10,43 c) Cidade A 𝑆2 = 6,25 𝑆 = 2,5 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 2,5 6,9 ∗ 100 = 36,24% 𝑆2 = 4,96 𝑆 = 2,23 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 2,23 8,7 ∗ 100 = 25,6% Questão 5) a) 𝑀á𝑞𝑢𝑖𝑛𝑎 𝑍: �̅� = 24,1 𝑆2 = 0,277 𝑆 = 1,66 𝑀á𝑞𝑢𝑖𝑛𝑎 𝑊: �̅� = 26 𝑆2 = 5,33 𝑆 = 2,31 b) A máquina W, pois apresenta menor percentual de variação. 𝑀á𝑞𝑢𝑖𝑛𝑎 𝑍: 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 1,66 24,1 ∗ 100 = 6,9% 𝑀á𝑞𝑢𝑖𝑛𝑎 𝑊: 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 2,31 26 ∗ 100 = 8,88% 54 Questão 6) a) Percentual de aumento fi Fi fr Fr 0|-- 2 5 5 5,0% 5,0% 2|--4 15 20 15,0% 20,0% 4|--6 33 53 33,0% 53,0% 6|--8 25 78 25,0% 78,0% 8|--10 22 100 22,0% 100,0% 100 100,0% b) Acima de 5,82. P50 = 5,82 c) 3ª classe. (4|--6) d) �̅� = 5,88 e) 33 +25 = 58% f) 𝑆2 = 5,2 𝑆 = 2,28 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 2,28 5,88 ∗ 100 = 38,77% Alta dispersão Questão 7) a) Cidade A. b) Cidade B. Menor coeficiente de variação. 𝐶𝑖𝑑𝑎𝑑𝑒 𝐴: �̅� = 2,39 𝑆2 = 0,12 𝑆 = 0,34 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 0,34 2,39 ∗ 100 = 14,34% 𝐶𝑖𝑑𝑎𝑑𝑒 𝐵: �̅� = 2,32 𝑆2 = 0,108 𝑆 = 0,33 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 0,33 2,32 ∗ 100 = 14,22% Questão 8) a) A média, a mediana, a moda, o desvio médio, a variância, o desvio padrão, o erro padrão, e o coeficiente de variação. �̅� = 100,25 𝑆2 = 101,64 𝑆 = 10,06 𝐶𝑉 = 𝑆 �̅� ∗ 100 = 10,08 100,25 ∗ 100 = 10,06% b) Sim, pois o CV ≤ 20% representa baixa dispersão. c) Após somar 100: �̅� = 200,25 𝑆2 = 101,64 𝑆 = 10,08 𝐶𝑉 = 10,08 200,25 ∗ 100 = 5% A média é alterada e a variância permanece a mesma. Questão 09) a) Sim, a média da amostra é 23,34. Superior a 22 anos. �̅� = 23,34 b) Se x̅ − 22 > 2 SX/√n 𝑆2 = 30,43 𝑆 = 5,51 x̅ − 22 = 23,34 − 22 = 1,34 2 SX √n = 2 ∗ 5,51 √50 = 1,56 1,34 < 1,56 Não surtiu efeito. c) O que podemos dize 𝐶𝑉 = 5,51 23,34 ∗ 100 = 23,63% d) Acima de 28,25 anos. (P90=28,25) 55 UNIDADE IV - PROBABILIDADE 4.0 – INTRODUÇÃO A PROBABILIDADE Normalmente é impossível identificar com certeza o resultado de um evento futuro: • De qual sexo será o primeiro filho de determinado casal; • Qual lado da moeda vai sair; • Com quantos anos determinada pessoa vai morrer; • Quais os números que serão sorteados na loteria; Usando a teoria da probabilidade, é possível quantificar a chance de um evento futuro ocorrer com base em informações obtidas de eventos passados. 4.1 - CONCEITOS IMPORTANTES Experimentos Aleatórios Experimentos que quando repetidos, nas mesmas condições, produzem diferentes resultados (Jogar um dado numa superfície plana; Retirar uma carta de baralho; Lançar uma moeda). Espaço Amostral O conjunto de resultados possíveis, relacionado a um experimento, é denominado espaço amostral. E representamos pela letra grega Ω. Exemplos: Lançamento de um dado (existem 6 resultados possíveis) Ω = {1, 2, 3, 4, 5, 6} Retirar uma carta de um baralho (existem 52 resultados possíveis) Ω = {Ás de copas, Ás de ouros,..., Reis de paus, Rei de espada} Evento Um evento pode ser referido a um único resultado, ou a um subconjunto de resultados, pertencente à um espaço amostral; Exemplo: Lançamento de um dado: E1= sair face 5 E2= sair um valor menor do que 3. Retirar uma carta de um baralho: E1= sair um 5 de paus. 56 E2= sair uma carta de espadas; EXEMPLO 01: Lançam-se dois dados e observa-se as faces superiores. Vamos imaginar como seria o espaço amostral neste caso. Ao lançar dois dados, temos então os seguintes resultados que podem ocorrer como resultados deste lançamento: Podemos determinar o espaço amostral do experimento através do diagrama de árvore, útil para resolução de problemas que serão vistos futuramente: Podemos observar os seguintes eventos: A: Saída de faces iguais; A = { (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. B: Saída de faces cuja soma seja igual a 10; B = { (4, 6), (5, 5), (6, 4)}. 57 C: Saída de faces cuja soma seja menor que 2; C = Ø Isto quer dizer que temos um evento chamado Evento Vazio ou Evento impossível. D: Saída de faces cuja soma seja menor que 13; D = Ω E: Saída de faces onde uma face é o dobro da outra. E = { (1, 2), (2, 1), (2, 4), (3, 6), (4, 2), (6, 3)}. 4.2 - DEFINIÇÕES DE PROBABILIDADE • Definição clássica: A probabilidade de um evento é a divisão do número de resultados favoráveis pelo número de resultados possíveis. 𝑷(𝑨) = 𝑵º 𝒅𝒆 𝒎𝒂𝒏𝒆𝒊𝒓𝒂𝒔 𝒄𝒐𝒎𝒐 𝑨 𝒑𝒐𝒅𝒆 𝒐𝒄𝒐𝒓𝒓𝒆𝒓 𝑵º 𝒅𝒆 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐𝒔 𝒑𝒐𝒔𝒔í𝒗𝒆𝒊𝒔 𝒏𝒐 𝒆𝒔𝒑𝒂ç𝒐 𝒂𝒎𝒐𝒔𝒕𝒓𝒂𝒍 • Definição frequentista: Se repetir um experimento um grande número de vezes a probabilidade pela frequência relativa de um evento tende para probabilidade, está dada por: 𝑷(𝑨) = 𝒎 𝒏 onde m é o número de vezes que é observado A e n é o número de repetições do experimento. Quando temos um espaço amostral finito em que todos os pontos amostrais têm a mesma probabilidade 1/n, não é necessário explicitar completamente Ω e A. Nesse caso, são usado os métodos clássicos de contagem da análise combinatória. Um princípio fundamental de contagem diz que, se uma tarefa pode ser executada em duas etapas, a primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então, a tarefa completa pode ser executada de p.q maneiras. Esse é o princípio multiplicativo. EXEMPLO 02: E: Retirar uma carta de um baralho de 52 cartas B: Extrair um ás “Bem misturado” significa que qualquer carta tem a mesma chance de ser extraída. Como há s = 4 ases entre as n = 52 cartas, a probabilidade é dada por: 𝑃(𝐵) = 𝑛º 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 à𝑠 𝑛º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑟𝑡𝑎𝑠 = 𝑠 𝑛 = 4 52 = 1 13 58 EXEMPLO 03: Em um estudo para verificar a probabilidade dos indivíduos da cidade X apresentarem Rh- ou +, em seus tipos sanguíneos, foram coletadas informações de 820 indivíduos. • Os resultados foram: Rh negativo – 83 indivíduos Rh positivo – 737 indivíduos Evento A = o indivíduo apresentar Rh – em seu tipo sanguíneo; 𝑃(𝐴) = 83 820 = 0,1012 Evento B = o indivíduo apresentar Rh + em seu tipo sanguíneo; 𝑃(𝐵) = 737 820 = 0,8988 EXEMPLO 04: Os registros de uma companhia de aviação mostram que durante certo tempo 468 dentre 600 de seus jatos da linha Vitória-Rio chegaram no horário, qual a probabilidade de que um avião daquela linha chegue no horário?
Compartilhar