Baixe o app para aproveitar ainda mais
Prévia do material em texto
© Tânia F Bogutchi – PUC Minas – Revisão 2012 79 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados O conteúdo dessa Unidade está no capítulo 6 do livro base: MONTGOMERY, Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009. Você também pode, se preferir, fazer a leitura dos capítulos 4 e 5 do livro do Mario Triola, Introdução à Estatística, LTC, 2007. As cópias desses capítulos podem ser requisitadas por meio da Pasta do Professor (www.pastadoprofessor.com.br), fazendo login nessa página e enviando-as para serem impressas na Copiadora Set (casa amarela) da Unidade do Coração Eucarístico. Não deixem de ler! Algumas notas de aulas: Introdução A grande utilização da Estatística deve-se ao fato de suas técnicas serem capazes de extrair informações de uma pequena parte (amostra) de um conjunto com grande número de elementos e abstrair desses resultados conclusões válidas para o conjunto como um todo (população). É o que chamamos de estudos por AMOSTRAGEM. Através de uma amostra de tamanho n, representativa de uma população de tamanho N, podemos estimar uma característica , desconhecida, por meio do estudo e análise desses n elementos. Existem técnicas para calcular o tamanho da amostra suficiente para poder representá-la bem como o do planejamento de seleção desses elementos. População tamanho N Amostra tamanho n Inferência © Tânia F Bogutchi – PUC Minas – Revisão 2012 80 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Todo elemento da população precisa ter a mesma probabilidade de entrar (ser selecionado) para a amostra. Definições úteis • POPULAÇÃO: é uma coleção completa de todos os elementos (valores, pessoas, medidas, etc.) a serem estudadas. • CENSO: é uma coleção de dados relativos a todos os elementos de uma população. • AMOSTRA: é uma subcoleção de dados extraídos de uma população. • PARÂMETRO: é uma medida numérica que descreve uma característica de uma população. • ESTATÍSTICA: é uma medida numérica que descreve uma característica de uma amostra. 1. AMOSTRAGEM O tamanho da amostra depende, dentre outros fatores, do método (tipo) amostral empregado. Os estudos podem ser: 1. Observacionais - os fenômenos são observados no decorrer de sua própria história. Dependem da linha do tempo, ou seja, os estudos no: a. Tempo presente - chamados de transversais e são usualmente utilizados para levantar informações instantâneas, como por exemplo, percentual de peças com defeitos durante certo mês; b. Tempo passado – chamados de caso-controle e estudam, por exemplo, um tipo de defeito já instalado nas peças e buscam no passado o fator de exposição a que elas foram submetidas, comparando esse fator com outras peças não defeituosas e que também foram expostas. c. Coorte – seguimento de algum fator que poderá causar defeito em lotes de peças para conhecer por quanto tempo elas serão resistentes. Estudo muito comum em motores, nos quais o tempo é acelerado para conhecimento de seu tempo de sobrevida, usualmente para efeitos de garantia do fabricante. 2. Experimentais – o pesquisador altera a história do objeto de estudo, pois interfere nos mesmos. Por exemplo, testar resistência de aparelhos por meio de aplicação de fatores externos. De qualquer maneira, quanto maior a amostra, maior a confiabilidade no resultado estimado. Os tipos de amostragem mais usuais: simples, sistemática, estratificada ou por conglomerado. AMOSTRAGEM SIMPLES É realizada a partir de um cadastro, ou seja, de uma lista enumerada dos N elementos da população. A extração dos n elementos que constituirão a amostra será feita aleatoriamente. Uma das formas mais usuais é a utilização da TNA - tabela de números aleatórios (em anexo) ou por meio de programas computacionais específicos. Exemplo: Dados dos pesos (kg) de 30 rolos de fios elétricos identificados (ID) Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Peso 65 65 58 59 67 68 74 81 66 91 84 63 64 66 72 Id 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Peso 68 69 76 77 80 59 81 64 85 87 76 79 73 82 76 © Tânia F Bogutchi – PUC Minas – Revisão 2012 81 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Retirar, sem reposição, uma amostra aleatória simples de tamanho n = 5. (também chamada de casual ou randômica) Solução: Partindo da macro-coluna 3 de uma tabela de números aleatórios (TNA), iremos procurar os cinco primeiros números não superiores a 30, lendo os dois últimos algarismos à direita (colunas 17 e 18 – lendo da esquerda ). Teremos a amostra: Poderíamos ter iniciado a leitura a partir de qualquer outra coluna, ou alternativamente, ter lido os dois primeiros algarismos à esquerda… Não importa a escolha, o obrigatório é a indicação do processo de início da seleção para eventuais reproduções do estudo. AMOSTRAGEM SISTEMÁTICA Uma amostra sistemática de tamanho n é constituída dos elementos de ordem k, k+r, k+2r,….., em que k é um inteiro escolhido aleatoriamente entre 1 e r e r é o inteiro mais próximo da fração No exemplo anterior temos: N=30 e n=5, então r=6. Temos que k é um valor entre 1 e 6. Sorteando aleatoriamente um valor podemos obter, por exemplo: k=3. Então a amostra seria constituída por: TNA 26 15 3 7 6 Peso 76 72 58 74 68 k=3;r=6 3 9 15 21 27 Peso 58 66 72 59 79 1 110097 479559 982226 077374 928142 207953 057806 337471 2 742890 944861 778192 671687 017730 994134 225736 183901 3 299019 107618 274053 960866 216264 266729 217014 987601 4 660460 452215 256678 108232 033043 341106 126786 450175 5 366065 526922 084715 529061 130333 638222 848232 271889 6 431060 865300 589315 132582 291646 777783 029051 986132 7 075994 162524 664403 572786 455776 222823 631353 266533 8 499266 315540 030390 598298 971990 852904 919118 316653 9 408201 442549 298765 787220 498779 613057 889772 581622 10 025776 318677 345599 402548 347360 632133 221494 702742 11 146991 834599 199832 318503 419997 016616 686742 842737 12 373845 324865 979007 812918 499586 077058 842703 342137 13 730602 608103 375906 614717 448256 632214 337935 767147 Tabela 4 - Tabela de números aleatórios macro-coluna 1 110097 479559 982226 077374 928142 207953 057806 337471 2 742890 944861 778192 671687 017730 994134 225736 183901 3 299019 107618 274053 960866 216264 266729 217014 987601 4 660460 452215 256678 108232 033043 341106 126786 450175 5 366065 526922 084715 529061 130333 638222 848232 271889 6 431060 865300 589315 132582 291646 777783 029051 986132 7 075994 162524 664403 572786 455776 222823 631353 266533 8 499266 315540 030390 598298 971990 852904 919118 316653 9 408201 442549 298765 787220 498779 613057 889772 581622 10 025776 318677 345599 402548 347360 632133 221494 702742 11 146991 834599 199832 318503 419997 016616 686742 842737 12 373845 324865 979007 812918 499586 077058 842703 342137 13 730602 608103 375906 614717 448256 632214 337935 767147 Tabela 4 - Tabela de números aleatórios macro-coluna © Tânia F Bogutchi – PUC Minas – Revisão 2012 82 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Se o tamanho da população é desconhecido não podemos determinar exatamente o valor para r, sendo esseentão escolhido intuitivamente através de um valor razoável. Às vezes a amostragem sistemática é preferida à amostragem aleatória simples porque é mais fácil de executar. Exemplo 2: Escolha a técnica adequada para extrair uma amostra de 50 clientes de um supermercado. Solução: A amostragem aleatória simples não pode ser empregada nesse caso, pois o entrevistador não conhece quem são os clientes. Ele pode, entretanto, usar amostragem sistemática (digamos 1 em cada 20 clientes) até obter a amostra do tamanho desejado. AMOSTRAGEM ESTRATIFICADA Útil quando os elementos da população podem ser divididos em grupos não-superpostos mais homogêneos em relação à característica que se quer medir. Os grupos são chamados de estratos e dentro de cada um desses estratos são retiradas amostras aleatórias simples. O mais comum é utilizar amostra estratificada proporcional que consiste em selecionar os elementos da amostra entre os vários estratos em número proporcional ao tamanho de cada estrato. Exemplo: Sejam considerados: N : número de elementos da população; L : número de estratos; Ni : número de elementos do estrato; n : tamanho da amostra a ser selecionada. Calcula-se a fração de amostragem dada por: O número de elementos a serem sorteados em cada estrato será: N1 f, N2 f,........, NL f Observe que: N = N1+N2+....+NL Exemplo: Suponha que os dados dos pesos (kg) dos 30 rolos de fios elétricos (ID) sejam de 24 rolos provenientes de uma obra A e 6 rolos de uma outra obra B. Extrair uma amostra estratificada proporcional de tamanho n=8. Solução: De cada estrato (obra) serão sorteados respectivamente n1 e n2 rolos: Os rolos de fios seriam sorteados através do auxilio de uma TNA em cada um dos estratos. AMOSTRAGEM POR CONGLOMERADO É uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, ou conglomerado, de elementos. N n f 27,0 30 8 f 648,6)24)(27,0(n1 262,1)6)(27,0(n2 © Tânia F Bogutchi – PUC Minas – Revisão 2012 83 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados O primeiro passo nesse processo é especificar conglomerados apropriados, que idealmente são heterogêneos internamente e semelhantes entre si. A seleção de um pequeno número de conglomerados com um grande número de elementos é suficiente para representar a população. Na amostragem estratificada seleciona-se uma amostra aleatória simples dentro de cada grupo (estrato), enquanto que Na amostragem por conglomerado selecionam-se amostras aleatórias simples de grupos, e todos os itens dentro dos grupos (conglomerados) selecionados farão parte da amostra. É recomendada quando: a) ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; b) o custo de obtenção de informações cresce com o aumento da distância entre os elementos. Exemplo: Supondo que se deseje estimar o rendimento médio familiar em uma cidade grande, como deve ser escolhida a amostra? Solução: A amostragem aleatória simples é inviável, pois pressupõe uma listagem de todas as famílias da cidade, o que é praticamente impossível de se obter. A alternativa da amostragem estratificada é novamente inviável, já que aqui também é necessária uma listagem dos elementos por estrato. A melhor escolha é a amostragem por conglomerado. O sistema de referência pode ser constituído por todos os setores censitários da cidade. Cada setor censitário é um conglomerado. Extrai-se uma amostra aleatória simples de setores censitários, e neles pesquisa-se a renda familiar em todas as casas. AMOSTRAGEM POR CONGLOMERADOS EM DOIS ESTÁGIOS É obtida por meio de uma amostra aleatória simples dos conglomerados no primeiro estágio e no segundo estágio, as unidades dentro de cada conglomerado são enumeradas e selecionadas por amostragem aleatória simples. A fração selecionada de unidades dentro de cada conglomerado deverá ser a mesma para todos os conglomerados amostrados no primeiro estágio. Nas situações onde o número de unidades dentro de cada conglomerado é variado a amostragem é mais complexa pois serão necessários cálculos das frações representadas por cada conglomerado. Exemplo de amostragem por conglomerado em dois estágios: Suponha que uma empreiteira possua cinco obras de construção, com três mestres práticos para o setor elétrico. Suponha que se deseja uma amostra de 2 mestres em 3 obras de construção. © Tânia F Bogutchi – PUC Minas – Revisão 2012 84 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Num primeiro estágio seriam sorteadas as 3 obras dentre as numeradas por: 1, 2, 3, 4, 5. No segundo estágio, seriam sorteados 2 mestres dentro de cada obra sorteada no estágio 1, numerados por: 1,2,3. A dificuldade principal na utilização da amostragem multifásica são as complicações para a análise dos dados. Vantagens e Desvantagens dos métodos amostrais no aptos atendidos 1 58 2 44 3 18 1 42 2 53 3 10 1 13 2 18 3 37 1 16 2 32 3 10 1 25 2 23 3 23 3 4 5 Obra Mestres 1 2 © Tânia F Bogutchi – PUC Minas – Revisão 2012 85 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Uma vez escolhido o tipo de amostragem e feita a coleta de dados, o próximo passo é analisar esses dados para não apenas ter verificada sua consistência bem como o conhecimento inicial de resultados. Dependendo do tipo de pesquisa, os dados são analisados com técnicas apropriadas e os resultados estimados dessa amostra serão concluídos para a população com certo grau de confiabilidade. Na próxima etapa iremos conhecer as técnicas de descrição e apresentação dos dados levando em consideração os seus tipos. A figura seguinte apresenta o esquema de estudo e estimação: Tipo Vantagens Desvantagens Aleatória Simples 1. Sempre dará igual probabilidade a cada possível combinação de indivíduos na população; 2. Fácil de compreender. 1.Estimativa com viés se existirem valores extremos na população; 2.Não recomendável para estudos de subgrupos. Aleatória Sistemática 1. Fácil e prática de aplicar; 2. Se listagem está por ordem de interesse então tem-se um aumento da precisão. 1. Reduz número de amostras possíveis; 2. Se listagem for cíclica, pode ser desastrosa. Estratificada 1. Aumenta a precisão das estimativas reduzindo a variabilidade; 2. Tamanho da amostra pode ser reduzido. 1. Se o total de cada estrato é desconhecido, pode-se distribuir incorretamente a amostra, implicando numa estimativa com viés; 2. Super estratificação correndo o risco de estratificar pela variável de interesse. Conglomerado 1. Custo reduzido; 2. Unidade amostral não identificável exceto por áreas 1. Precisão reduzida; 2. Viés na estimativa se conglomerados forem muito homogêneos. AmostraPopulação ESTATÍSTICA DESCRITIVA: Consistência dos dados Interpretações iniciais INFERÊNCIA ESTATÍSTICA: Estimação de quantidade desconhecidas Extrapolação (inferência) dos resultados Teste de Hipóteses AmostraPopulação ESTATÍSTICA DESCRITIVA: Consistência dos dados Interpretações iniciais INFERÊNCIA ESTATÍSTICA: Estimação de quantidade desconhecidas Extrapolação (inferência) dos resultados Teste de Hipóteses © Tânia F Bogutchi – PUC Minas – Revisão 2012 86 Estatística e ProbabilidadeUnidade 3: Amostragem e Descrição de dados 2. ESTATÍSTICA DESCRITIVA - ORGANIZAÇÃO E APRESENTAÇÃO DOS DADOS Antes de iniciarmos qualquer descrição dos dados é necessário conhecer primeiramente o seu tipo. TIPOS DE DADOS QUANTITATIVOSQUANTITATIVOS QUALITATIVOS Exemplos: Altura (cm); Peso (kg); Tempo (min); Renda (R$); Quantidade de veículos por dia; No. de filhos; etc... Exemplos: Sexo (F/M); Raça (N, M, B, C); Classe social ( A, B, C, D); Classificação de um time futebol; Estágios de uma tarefa (1, 2, 3....); etc... Numéricos Não Numéricos QUALITATIVOS (CATEGÓRICOS) NOMINAISNOMINAIS ORDINAIS Exemplos: Sexo: Masculino ou Feminino; Tipo sangüineo: O, A, B, AB etc... Exemplos: Tamanho de carros; Classificações do tipo: excelente, bom, ruim; Estágios de uma tarefa; etc... Nomenclaturas (nomes) Ordenação © Tânia F Bogutchi – PUC Minas – Revisão 2012 87 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados APRESENTAÇÃO DOS DADOS I – Tabelas Definição: Tabela é um quadro que resume um conjunto de dados numéricos (quantitativos) ou não-numéricos (qualitativos). QUANTITATIVOS CONTÍNUOSCONTÍNUOS DISCRETOS Exemplos: Idade: anos (meses, dias..); Altura: metros ou cm. Pressão sangüinea: mmHg; Produção diária de leite: litros; etc... Exemplos: No. de cartões de crédito; No de colônias de bactérias por determinado volume: no./ml; No. de vacas do rebanho; etc... Mensurações Contagens DIFERENÇA ENTRE DADOS DISCRETOSDISCRETOS CATEGÓRICOS Exemplos: No. de filhos: 0, 1, 2, 3, 4, ... Uma família com 4 filhos tem o dobro de uma com 2? Exemplos: Classificação de um atleta: 1º., 2º., 3º., 4º.,.. Um atleta classificado em 4º. lugar é duas vezes pior que o do 2º.? Contagens Categorias ou Atribuições Diferença tem sempre o mesmo significado! Diferença Não tem o mesmo significado sempre! © Tânia F Bogutchi – PUC Minas – Revisão 2012 88 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Exemplo - dados qualitativos TABELA 1 Preferência pelos refrigerantes dos consumidores do mercado XY Fonte: Anderson et alli, pág 23; 2007 OBS.: Usualmente utilizamos somente os títulos: Frequência para a Frequência Absoluta Percentual para a Frequência Relativa Tabelas de distribuições de freqüência Definição: Uma tabela de distribuição de freqüência é um agrupamento dos dados contínuos, ou discretos com grande amplitude de valores, em classes ou faixas de valores, exibindo o número e/ou a porcentagem de observações em cada classe ou faixa. O processo de construção de uma tabela de distribuição de freqüência depende do tipo de dados em estudo, ou seja, qualitativos ou quantitativos discretos ou contínuos. Exemplo – dados quantitativos contínuos: Tabela 2: Distribuição das notas na prova Estatística Nota Freqüência Percentual 10 a 24 44 8,80% 25 a 39 70 14,00% 40 a 54 92 18,40% 55 a 69 147 29,40% 70 a 84 115 23,00% 85 a 99 32 6,40% Total 500 100,00% Fonte: Dados hipotéticos As freqüências e os percentuais podem ser simples, contagem para cada classe, ou acumulada pelas classes. Exemplo: da tabela anterior: 100,0%50Total 10,0%5Sprite 10,0%5Fanta 26,0%13Pepsi Cola 16,0%8Coca Cola Light 38,0%19Coca Cola PercentualFreqüênciaRefrigerante 100,0%50Total 10,0%5Sprite 10,0%5Fanta 26,0%13Pepsi Cola 16,0%8Coca Cola Light 38,0%19Coca Cola PercentualFreqüênciaRefrigerante © Tânia F Bogutchi – PUC Minas – Revisão 2012 89 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Tabela 2: Distribuição das notas na prova Estatística Nota Simples Acumulada Frequência Percentual Freq Perc 10 a 24 44 8,80% 44 8,80% 25 a 39 70 14,00% 114 22,80% 40 a 54 92 18,40% 206 41,20% 55 a 69 147 29,40% 353 70,60% 70 a 84 115 23,00% 468 93,60% 85 a 99 32 6,40% 500 100,00% Total 500 100,00% Fonte: Dados hipotéticos Exemplo – dados discretos com pequena amplitude dos dados: Tabela 3 – Erros digitação, por página, cometidos por um digitador Erros Freqüência Percentual 0 25 50,0% 1 20 40,0% 2 3 6,0% 3 1 2,0% 4 1 2,0% Total 50 100,0% Fonte: Dados hipotéticos II – Gráficos Os gráficos facilitam a visualização dos valores e são amplamente utilizados na apresentação de dados estatísticos. Por deixarem de lado as informações originais perde-se informação, por outro lado, a interpretação dos dados observados é facilitada. O tipo do gráfico vai depender do tipo de dados que se quer descrever: Dados qualitativos ou quantitativos discretos Gráfico de setores (“pizza”) – pie chart Distr. compras de refrigerantes Sprite 10,0% Fanta 10,0% Coca Cola 38,0% Coca Cola Light 16,0% Pepsi Cola 26,0% © Tânia F Bogutchi – PUC Minas – Revisão 2012 90 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados ou Gráfico de barras ou de colunas Observe que os dois tipos de gráficos acima apresentam a mesma informação da Tabela 1. Em uma apresentação e/ou relatório opta-se por uma dessas apresentações. Quando os dados quantitativos discretos forem representados por uma faixa pequena de valores, podem ser utilizadas as mesmas técnicas de apresentação dos dados qualitativos. Distr. compras de refrigerantes Pepsi Cola 26,0% Coca Cola Light 16,0% Coca Cola 38,0%Fanta 10,0% Sprite 10,0% Distr. compras de refrigerantes 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 40,0% Coca Cola Coca Cola Light Pepsi Cola Fanta Sprite Distr. compras de refrigerantes 0% 5% 10% 15% 20% 25% 30% 35% 40% Coca Cola Coca Cola Light Pepsi Cola Fanta Sprite © Tânia F Bogutchi – PUC Minas – Revisão 2012 91 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Exemplo: Número de irmãos relatados por 114 estudantes universitários da UFRGS, 1986- 1992 Descrevendo dados quantitativos contínuos Histograma É um gráfico de barras contíguas com área total 1 (100%). As barras são contíguas, pois os dados são contínuos – assumem todos os valores da reta. Nesse exemplo, todas as barras possuem a mesma largura: 3. A área de cada barra apresenta a densidade dos dados. Fonte: Bussab-Morettin, 2000 Histograma de classes desiguais Quando as classes (ou faixas) são de tamanhos desiguais alguns cuidados especiais devem ser tomados. Exemplo: Números de empregados de empresas de certa região: 0 5 10 15 20 25 30 35 40 45 01 2 3 4 5 6 no. de irmãos Fr eq . a bs ol ut a Salário Fre qu en cia 25221916131074 12 10 8 6 4 2 0 11 4 66 11 7 Histograma de Salário (SM) Cia MB © Tânia F Bogutchi – PUC Minas – Revisão 2012 92 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Fonte: Bussab-Morettin, 2000 Uma análise superficial pode levar à conclusão que a concentração, freqüência das classes, vai aumentando até atingir um máximo na classe 40|-- 60, mas um estudo mais detalhado revela que a amplitude da classe 40 |-- 60 é o dobro das amplitudes i das classes anteriores. Fonte: Bussab-Morettin, 2000 Cuidados a serem tomados ao analisar dados para construção de um histograma: Calcular as amplitudes de cada classe; Calcular as densidades de freqüências em cada classe i in – medida que indica qual a concentração por unidade da variável. Após esses cuidados, observa-se que a classe de maior concentração é a 30 |-- 40. Analogamente, a densidade relativa apresenta o mesmo resultado (0,016). Lembrando que a área total do histograma deve ser igual a 1. -1,00--250Total 0,00150,060,384015180 |-- 260 0,00150,060,384015140 |-- 180 0,00200,080,504020100 |-- 140 0,00400,081,00202080 |-- 100 0,00600,121,50203060 |-- 80 0,01000,202,50205040 |-- 60 0,01600,164,00104030 |-- 40 0,01400,143,50103520 |-- 30 0,00800,082,00102010 |-- 20 0,00200,020,501050 |-- 10 Densidade fi/i Proporção fi Densidade ni/i Amplitude i Frequencia (ni) Número de empregados -1,00--250Total 0,00150,060,384015180 |-- 260 0,00150,060,384015140 |-- 180 0,00200,080,504020100 |-- 140 0,00400,081,00202080 |-- 100 0,00600,121,50203060 |-- 80 0,01000,202,50205040 |-- 60 0,01600,164,00104030 |-- 40 0,01400,143,50103520 |-- 30 0,00800,082,00102010 |-- 20 0,00200,020,501050 |-- 10 Densidade fi/i Proporção fi Densidade ni/i Amplitude i Frequencia (ni) Número de empregados -1,00--250Total 0,00150,060,384015180 |-- 260 0,00150,060,384015140 |-- 180 0,00200,080,504020100 |-- 140 0,00400,081,00202080 |-- 100 0,00600,121,50203060 |-- 80 0,01000,202,50205040 |-- 60 0,01600,164,00104030 |-- 40 0,01400,143,50103520 |-- 30 0,00800,082,00102010 |-- 20 0,00200,020,501050 |-- 10 Densidade fi/i Proporção fi Densidade ni/i Amplitude i Freqüência (ni) Número de empregados -1,00--250Total 0,00150,060,384015180 |-- 260 0,00150,060,384015140 |-- 180 0,00200,080,504020100 |-- 140 0,00400,081,00202080 |-- 100 0,00600,121,50203060 |-- 80 0,01000,202,50205040 |-- 60 0,01600,164,00104030 |-- 40 0,01400,143,50103520 |-- 30 0,00800,082,00102010 |-- 20 0,00200,020,501050 |-- 10 Densidade fi/i Proporção fi Densidade ni/i Amplitude i Freqüência (ni) Número de empregados © Tânia F Bogutchi – PUC Minas – Revisão 2012 93 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Uma utilidade do histograma é que ele permite visualizar a forma da distribuição dos dados, ou seja, como se dispersam ou se concentram em torno da sua média. Por exemplo, M éd ia M éd ia Histograma do No. de Empregados 0 10 20 30 40 50 60 0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 60 60 |-- 80 80 |-- 100 100 |-- 140 140 |-- 180 180 |-- 260 Faixa de nos. de empregados Fre qüê ncia Análise errônea - classe de maior frêqüência: 40|-- 60 Histograma do No. de Empregados 0,0000 0,0020 0,0040 0,0060 0,0080 0,0100 0,0120 0,0140 0,0160 0,0180 0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 60 60 |-- 80 80 |-- 100 100 |-- 140 140 |-- 180 180 |-- 260 Faixa de nos. de empregados Den sid ade rel ativ a Análise correta – classe de maior densidade: 30 |-- 40 © Tânia F Bogutchi – PUC Minas – Revisão 2012 94 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Histograma de dados com distribuição assimétrica fortemente inclinada para direita. Diz-se inclinação à direita, pois sua cauda se estende bem para a direita. Histograma de dados com distribuição simétrica. OBS.: Em dados reais as curvas são aproximadamente simétricas Outra maneira de apresentação do histograma é por meio da conexão dos pontos médios das barras. Obtém-se então o: Polígono de freqüência Ligação dos pontos médios das barras de um histograma Essa maneira de construção do histograma facilita a visualização dos dados ao serem estratificados em grupos de interesse, permitindo uma primeira comparação entre eles. M éd ia Polígono de freqüências para dois fornecedores de leite in natura 0 2 4 6 8 10 12 14 16 18 20 1,5 1,96 2,42 2,88 3,34 3,8 4,26 4,2 5,18 Matéria gorda (%) Fre úê nc ia ab so lut a ( fi) Fornecedor C Fornecedor B © Tânia F Bogutchi – PUC Minas – Revisão 2012 95 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Histograma com Percentual Acumulado - Ogiva A ogiva divide o conjunto de dados em 100 partes iguais. Será bastante útil na estimação de percentis, que veremos logo mais. Gráfico de Ramo-e-folhas Exemplo: Uma população de 100 refinarias cuja produção horária de óleo por máquina (em litros) é dada por: A coluna da direita, com escala em dezenas, é chamada de RAMO e a da direita, das unidades, é chamado de FOLHAS. Os próprios dados geraram o gráfico! 2 6 3 4 011444578 5 01224444478889 6 001135555566788889 7 0000112233334445557 8 0001112234566689 9 000112456788 10 12457789 11 46 12 3 © Tânia F Bogutchi – PUC Minas – Revisão 2012 96 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Gráfico de pontos (Dot plot) Permite a visualização da dispersão dos dados. Também pode ser utilizado para comparar categorias, como exemplo observar a distribuição do salário estratificado por grau de instrução: III – Apresentação medidas numéricas Dados quantitativos contínuos Os resumos numéricos são de grande importância nos estudos estatísticos, pois permitem aplicações de técnicas especiais na estimação dos parâmetros de uma população por meio de uma amostra. Essas técnicas serão estudadas na próxima unidade. Principais tipos de medidas numéricas de: • Posição: média, mediana, moda e percentil; • Variabilidade: amplitude, variância, desvio-padrão, desvio interquartílico. Também são muito úteis: o coeficiente de variação e o escore padronizado, que são medidas relativas entre a média e o desvio-padrão. 1) Medidas de tendência central • Dados brutos • Média aritmética (simples) Exemplo: Pesos, em quilos, de 10 produtos: 3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4 Definição: n x n x...xx xn 1i i n21 1,3 10 0,31 10 4,35,30,32,31,39,27,28,21,33,3 x © Tânia F Bogutchi – PUC Minas – Revisão 2012 97 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Dispondo os valores medidos num gráfico (diagrama) de pontos a média surge como um ponto de equilíbrio – ou centro – da configuração. • Média aritmética ponderada Definição: Em que pi é o peso do valor da observação xi. Exemplo 1: A tabela abaixo apresenta as notas de um aluno que participou de um concurso publico por prova e peso. Calcular a média desse aluno. Prova Peso Nota Português 3 85 Matemática 3 75 História 2 50 Inglês 2 80 Fonte: dados hipotéticos Observe que cada prova tem peso diferenciado o qual precisa ser levado em consideração no calculo da média geral. OBS.: A média simples é um caso particular da média ponderada em que todos os valores possuem um mesmo peso. • Mediana Valor que divide a distribuição do conjunto ao meio. Deixa 50% dos dados nele ou abaixo dele e 50% nele ou acima dele. Para seu cálculo é preciso: 1. Ordenar os dados; 2. Se n for ímpar a mediana é o valor que ocupa a posição (n+1)/2; n 1i i n 1i ii n21 nn2211 p p px p...pp px...pxpx x 74 10 740 2233 )2)(80()2)(50()3)(75()3)(85( xp 1 2 5 7 8 © Tânia F Bogutchi – PUC Minas – Revisão 2012 98 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados 3. Se n for par a mediana é a média dos elementos que ocupam as posições n/2 e (n+2)/2. Exemplo: Mediana dos dados dos 10 pesos (kg) dos produtos 3,3 3,1 2,8 2,7 2,9 3,1 3,2 3,0 3,5 3,4 Passo 1: Ordenar os dados 2,7 2,8 2,9 3,0 3,1 3,1 3,2 3,3 3,4 3,5 Passo 2: n=10 (par) A mediana será a média aritmética entre os elementos que ocupam a 5a. e a 6a. posição Obs.: A mediana pode ser indicada por med ou • Moda É o valor que apresenta maior freqüência em um conjunto de observações individuais. A moda é uma medida mais indicada ao caso de dados agrupados. No caso de dados não-agrupados, a moda nem sempre tem utilidade como elemento representativo ou sintetizador do conjunto. Exemplo: No gráfico de pontos a seguir, De acordo com a definição, a moda é 25. No entanto, tal valor não tem nenhum caráter representativo ou sintetizador do conjunto de dados! Observações i) A mediana e a moda não são fornecidas pelas calculadoras, e, no caso de um grande número de dados, seu cálculo exato pode ser extremamente laborioso. ii) Não há regra fixa para se escolher uma dessas medidas, pois sua escolha deverá ser aquela mais adequada para a situação. Exemplo: Média: 4,6 - Mediana: 5 Média: 19 - Mediana: 5 a) A média aritmética é a medida sintetizadora mais adequada quando não há valores erráticos ou aberrantes. b) A mediana de ser usada sempre que possível como medida representativa de distribuições fortemente assimétricas, como distribuições de rendas, etc.. Aplicação das Medidas de tendência central em tomadas de decisão 1 2 5 7 8 1 2 5 7 80 1 2 5 7 8 9 1,3 2 1,31,3 med x ~ © Tânia F Bogutchi – PUC Minas – Revisão 2012 99 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Consideremos uma situação em que precisamos fazer uma escolha entre dois bancos. Para propiciar essa tomada de decisão, foram coletados dez tempos, em minutos, em filas de espera de dois renomados bancos que apresentam as mesmas condições e facilidades comerciais e de conforto. A única diferença entre eles é o sistema de gerenciamento de filas. O banco A utiliza o sistema de fila única e o banco B o de fila múltipla. Os dados coletados encontram-se no quadro a seguir: Fila em Bancos A (fila única) B (fila múltipla) 1 6,5 4,2 2 6,6 5,4 3 6,7 5,8 4 6,8 6,2 5 7,1 6,7 6 7,3 7,7 7 7,4 7,7 8 7,7 8,5 9 7,7 9,3 10 7,7 10,0 Calculando as medidas de tendência central obtemos: Resumo das medidas de tendência central Média Mediana Moda Banco A 7,15 7,2 7,7 Banco B 7,15 7,2 7,7 Considerando essas medidas podemos admitir que o tempo de espera médio, mediano e o mais freqüente são praticamente os mesmos para os dois bancos? Mas precisamos tomar uma decisão. Qual deles: fila única ou fila múltipla? Essa situação nos mostra a necessidade de mais ferramentas para nortear o processo de escolha. Para visualizarmos melhor esse conjunto de dados vamos dispô-los num formato gráfico. Tomaremos dois segmentos de reta (duas linhas) com o mesmo tamanho e divisões e desenharemos os pontos referentes a cada tempo de espera de cada banco separadamente – o gráfico de pontos a seguir: © Tânia F Bogutchi – PUC Minas – Revisão 2012 100 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Esse gráfico mostra que os tempos observados são mais agrupados, mais próximos, para o Banco A e mais espalhados, mais dispersos, para o Banco B. Percebe-se que os dados do Banco B variam mais que os do Banco A. Dessa maneira, fica evidenciada a necessidade de obtenção de uma medida que resuma essa variabilidade. Medidas de dispersão ou de variabilidade Num primeiro momento, vamos olhar apenas para as duas medidas extremas: a maior e a menor. Obtemos então o primeiro valor que nos informa sobre essa variabilidade que é a Amplitude. A amplitude (A) é obtida pela diferença entre esses dois extremos. Maior valor Menor valor Amplitude Banco A 7,7 6,5 1,2 = 7,7 - 6,5 Banco B 10,0 4,2 5,8 = 10,0 - 4,2 Claramente pode-se observar que a amplitude dos dados do Banco B é maior que a do Banco A, quase cinco vezes maior!!!. Mas essa medida tem um complicador que é mostrar a existência de variabilidade com a utilização apenas dos valores extremos. Ela não informa nada a respeito dos valores intermediários. Supondo que não tivéssemos acesso aos dados originais, pouco iríamos saber sobre eles, ou seja, considerando os dados do Banco B: será que os valores intermediários estão mais próximos de 10,0 ou de 4,2?. Percebemos então a necessidade de uma outra medida que utilize todas as informações coletadas. Observando o gráfico de pontos, podemos pensar: quanto as observações se distanciam, se diferem ou se desviam do valor típico central, a média? Podemos calcular esses desvios das observações em relação à média, por meio da subtração desta dos valores (ou escores) das observações. A figura a seguir apresenta esse esquema de raciocínio: Sabemos que essas distâncias ou desvios podem ser quantificados. Sejam as observações, xi e sua média, x . A distância entre elas é calculada pela diferença: xx i . Calculando essas distâncias para os dados do Banco A obtemos: © Tânia F Bogutchi – PUC Minas – Revisão 2012 101 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Banco A i xi )xx( i 1 6,5 6,5 – 7,15 = -0,65 2 6,6 -0,55 3 6,7 -0,45 4 6,8 -0,35 5 7,1 -0,05 6 7,3 0,15 7 7,4 0,25 8 7,7 0,55 9 7,7 0,55 10 7,7 0,55 Esses desvios das observações nos fornecem tantas informações tanto quanto o numero de dados coletados, ou seja, nesse exemplo temos 10 valores indicando os desvios dos 10 tempos medidos. Certamente conseguimos contornaressa dificuldade por meio do cálculo da média entre elas, obtendo dessa maneira um desvio médio. Se considerarmos o sentido da diferença, ou seja, se ela está à direita (maior) ou à esquerda (menor) que a média entre elas, esse desvio médio não poderá ser calculado, pois a soma dessas diferenças é nula! Um contorno nessa situação é obtido quando tomamos o valor absoluto desses desvios, ou seja, Banco A i xi )xx( i |)xx(| i 1 6,5 6,5 – 7,15 = -0,65 0,65 2 6,6 -0,55 0,55 3 6,7 -0,45 0,45 4 6,8 -0,35 0,35 5 7,1 -0,05 0,05 6 7,3 0,15 0,15 7 7,4 0,25 0,25 8 7,7 0,55 0,55 9 7,7 0,55 0,55 10 7,7 0,55 0,55 Total 0,0 4,1 A média dos valores absolutos dos desvios nos fornece o Desvio Médio (DM), que genericamente é calculado por: n xx DM n 1i i Apesar de essa medida proporcionar um resumo válido para a dispersão, ela é pouco utilizada devido aos transtornos matemáticos no seu manuseio para cálculos ou manipulações algébricas em processos estatísticos mais avançados. Essa dificuldade pode ser contornada se for eliminado o problema do sinal da diferença por meio do quadrado delas. A média desses quadrados irá nos fornecer uma medida conhecida como VARIÂNCIA. © Tânia F Bogutchi – PUC Minas – Revisão 2012 102 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Voltando aos cálculos anteriores para o Banco A temos: Banco A i xi )xx( i )xx( i 2 1 6,5 6,5 – 7,15 = -0,65 0,4225 2 6,6 -0,55 0,3025 3 6,7 -0,45 0,2025 4 6,8 -0,35 0,1225 5 7,1 -0,05 0,0025 6 7,3 0,15 0,0225 7 7,4 0,25 0,0625 8 7,7 0,55 0,3025 9 7,7 0,55 0,3025 10 7,7 0,55 0,3025 Total 0,0 2,0450 Genericamente, calculamos a variância de um conjunto X de dados e denotamos, var(X) como 1n xx )Xvar( n 1i 2 i Que é a média do quadrado das distâncias (desvios) das observações em relação à sua média (média amostral) Nesse ponto, surge mais uma pergunta: a média dos quadrados dos desvios é calculada considerando o número de observações (n) menos uma unidade? Essa explicação também se deve a motivos associados à Inferência Estatística, ou seja, aos processos estatísticos mais avançados... OBS: Em muitos livros a variância é denotada por s2. No exemplo, temos que a variância do Banco A é: 0,2272 min2 Pois a unidade de medida do tempo adotada foi em minutos e as diferenças foram elevadas ao quadrado! E esse é um problema que dificulta a interpretação da variância pelo fato de ser uma unidade de área e que nem sempre tem sentido físico. Por exemplo, se estivermos medindo escores de jogos ou de testes, etc... Uma solução é extrair a raiz quadrada da variância, obtendo assim uma medida que apresenta um resumo da variabilidade na mesma unidade de medida da média. Essa medida é amplamente conhecida e utilizada com o nome de DESVIO-PADRÃO. Genericamente, o desvio-padrão de um conjunto X de dados é obtido por: 1n )xx( )Xvar()X(dp n 1i 2 i OBS: Assim como em muitos livros a variância é denotada por s2, o desvio–padrão é denotado por s. A origem dessa letra é devido ao seu nome em inglês: Standard- Deviation. Formulas alternativas da variância (derivadas da definição): © Tânia F Bogutchi – PUC Minas – Revisão 2012 103 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados 1 )var( 2 1 2 n xnx X n i i ou 1 )var( 2 1 1 2 n n x x X n i in i i Como resultado final do exemplo, no Banco A os clientes esperam em média, 7,15 min com um desvio-padrão de 0,48 min para serem atendidos por um caixa. Agora, existe uma maneira de comparar os valores dos tempos em espera dos Bancos A e B utilizando também uma medida de variação: Média Mediana Moda Desvio-padrão Banco A 7,15 7,2 7,7 0,48 Banco B 7,15 7,2 7,7 1,82 Todas as medidas acima estão representando MINUTOS. Claramente a variabilidade dos dados do Banco B é maior que a do Banco A, apesar de ser menor que a amplitude nos fornece uma medida mais confiável, pois utiliza todas as informações coletadas. O Banco A pode ser escolhido sem susto.... Exemplo 2 (Wild e Seber): A tabela a seguir apresenta as sentenças proferidas por dois juizes para dois conjuntos de condenados por furto, em meses. Juiz A Juiz B xi xi 34 26 30 43 31 22 33 35 36 20 34 34 x = 33,0 Var(X = 4,8 Dp(X) = 2,2 x = 30,0 Var(X) = 78,0 Dp(X) = 8,8 Analisando os resultados dos dois juizes, verifica-se que o juiz A tem uma média maior que a do juiz B, mas seu desvio-padrão é menor. Considerando apenas esses dados pode-se concluir que o juiz A é mais rigoroso, porém mais justo e que o juiz B é menos rigoroso, porém mais inconsistente. Para um advogado, a melhor © Tânia F Bogutchi – PUC Minas – Revisão 2012 104 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados aposta seria o juiz A. Mesmo correndo o risco de uma sentença mais longa, considerando que a média é mais alta, ele por certo não arriscaria ver seu cliente submetido às severas sentenças que o juiz B costuma proferir. Nesse ponto, torna-se necessário aliar a esses dados e resultados os conhecimentos do analista da área. Digamos que as longas sentenças proferidas pelo juiz B sejam contra criminosos com um passado criminal extenso, e as sentenças breves, contra criminosos primários e secundários. A escolha do advogado então dependeria do histórico criminal de seu cliente: se seu histórico consistisse apenas em pequenas faltas, ou se ele não tivesse nenhum passado criminoso, é claro que ele deveria preferir o juiz B, porque esperaria dele uma sentença mais breve do que a do juiz A. Por outro lado, se representasse um criminoso reincidente, seria preferível o juiz A, porque ele parece enfocar menos os antecedentes do condenado do que a acusação efetiva. Relações entre média e desvio-padrão No exemplo dos bancos A e B foi possível comprar os desvios-padrão entre eles devido ao fato de ambos terem médias iguais. Quando isso não ocorre e for conveniente expressar a variabilidade em termos relativos, como por exemplo, um desvio-padrão de 10 pode ser insignificante para um conjunto de dados com média 10.000, mas bastante significante para um conjunto com média 100, duas medidas utilizadas são o coeficiente de variação e o escore padronizado. 1. Coeficiente de variação (CV) O coeficiente de variação, CV, é uma medida relativa de variabilidade que compara o desvio- padrão com a média. Pois, por exemplo, um desvio-padrão de 10 • Pode ser insignificante para um conjunto de dados com média 10.000. • Pode ser bastante significante para um conjunto com média 100. • Coeficiente de variação (CV) Compara o desvio-padrão com a média para um conjunto. É definido por: É um valor adimensional, pois a média e o desvio-padrão possuem a mesma unidade de medida. Usualmente é expresso em porcentagem. Fornece uma medida da homogeneidade do conjunto de dados. A grande utilidade do CV é permitir a comparação das variabilidades de diferentes conjuntos de dados. Exemplo (Soares): Em cinco testes, um estudante obteve média 63,2 com desvio-padrão 3,1. Outro estudante teve média 78,5 com d.p. de 5,5. Qual dos dois é mais consistente?x )X(dp CV Média Desvio-padrão CV Aluno A 63,2 3,1 0,049 (4,9%) Aluno B 78,5 5,5 0,070 (7,0%) © Tânia F Bogutchi – PUC Minas – Revisão 2012 105 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Os dois estudantes apresentam resultados homogêneos, mas o aluno A foi mais consistente que o B. Uma sugestão de classificação do CV: • Baixo - inferior a 0,10 - dados homogêneos • Médio – de 0,10 a 0,20 – dados razoavelmente homogêneos • Alto – de 0,20 a 0,30 – dados heterogêneos • Muito alto – superior a 0,30 – dados bastante heterogêneos O coeficiente de variação compara o grupo, mas quando for preciso comparar a unidade do grupo, a opção é o: • Escore padronizado (zi) - (ou escore z) Compara os indivíduos de um grupo em relação à média do grupo, padronizado pelo desvio- padrão. Permite distinguir entre valores usuais e valores raros (ou incomuns). A unidade é “desvios-padrão”. É definido por: Exemplo: Suponha que a altura dos homens americanos sadios seja de 178 cm em média com um desvio-padrão de 7,2 cm. O jogador de basquete Michael Jordan ganhou reputação de gigante por suas proezas no jogo, mas com seus 201,2 cm ele pode ser considerado excepcionalmente alto, comparado com a população geral dos homens adultos americanos? Podemos interpretar esse resultado dizendo que a altura de Michael Jordan está a 3,22 desvios- padrão acima da média. Estatísticas descritivas para dados agrupados Se os dados estiverem agrupados, as medidas resumo são calculadas por: )(Xdp xx z ii 22,3 2,7 1782,201 iz 2 3-3 -2 -1 0 1 Valores IncomunsValores Incomuns Valores Usuais Valores Raros Valores Raros 2 3-3 -2 -1 0 1 Valores IncomunsValores Incomuns Valores Usuais 2 3-3 -2 -1 0 1 Valores IncomunsValores Incomuns Valores Usuais Valores Raros Valores Raros n fx x n 1i ii 1n f)xx( )Xvar( n 1i i 2 i )Xvar()X(dp © Tânia F Bogutchi – PUC Minas – Revisão 2012 106 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Em que, • xi é o ponto médio da classe (faixa de intervalo) ou o valor observado; • fi é a frequência da classe ou do valor observado • n= total geral (soma de todos os fi’s) Exemplo 1: A tabela a seguir apresenta o número de erros de impressão por página em um livro. Calcular a média e o desvio-padrão dos erros de impressão. ; ; Exemplo 2: Cálculo da nota média e do desvio-padrão para as notas em Estatística: ; ; Os alunos obtiveram média 56,95 com desvio-padrão de 20,6 Se as notas forem consideradas como um bom balizador do aprendizado da disciplina, o coeficiente de variação: 362,0 95,56 6,20 CV , indica que nesse grupo de alunos o aprendizado é processado de forma bastante heterogênea! Erros (xi) Freqüência (f i) xifi 0 25 0 10,89 1 20 20 2,31 2 3 6 5,39 3 1 3 5,48 4 1 4 11,16 Total 50 33 35,22 ii fxx 2)( Faixa de Nota Freq. (fi) xi xifi (xi-56,95) 2fi 10 ⱶ-- 25 44 17,5 770 68.477,31 25 ⱶ-- 40 70 32,5 2.275 41.846,18 40 ⱶ-- 55 92 47,5 4.370 8.215,83 55 ⱶ-- 70 147 62,5 9.188 4.527,97 70 ⱶ-- 85 115 77,5 8.913 48.564,79 85 ⱶ-- 100 32 92,5 2.960 40.441,68 Total 500 28.475 212.073,75 66,0 50 33 n fx x n 1i ii 7188,0 49 22,35 1n f)xx( )Xvar( n 1i i 2 i 8478,0)Xvar()X(dp 6,20)var()( XXdp 95,56 500 475.28 x 0,425 499 75,073.212 )var( X © Tânia F Bogutchi – PUC Minas – Revisão 2012 107 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Medidas separatrizes São valores que separam os dados ordenados (rol) em quatro (quartis), dez (decis) ou em cem (percentis) partes iguais. Note que para a sua correta aplicação, exige-se que os dados estejam ordenados, ou seja, organizados num rol. • Percentis 1. Px , o percentil de ordem x , é o valor que deixa x% dos dados nele e abaixo dele e (1-x)% dos dados acima dele. A mediana, por exemplo, é o P50. 2. Os percentis de ordem 25, 50 e 75 são chamados de Quartis 1, 2 e 3. A mediana é o Q2. Exemplo: - dados brutos. Sejam os dados, em decibéis, do ruído de certo cruzamento: 52,0 54,4 54,5 55,7 55,8 55,9 55,9 56,2 56,4 56,4 56,7 56,8 57,2 57,6 58,9 59,4 59,4 59,5 59,8 60,0 60,2 60,3 60,5 60,6 60,8 61,0 61,4 61,7 61,8 62,0 62,1 62,6 62,7 63,1 63,6 63,8 64,0 64,6 64,8 64,9 65,7 66,2 66,8 67,0 67,1 67,9 68,2 68,9 69,4 77,1 Os dados fornecidos encontram-se ordenados – crescentemente. São 50 valores. Para encontrar o valor do percentil 80, precisamos obter as posições que deixam 80% dos dados nele ou abaixo dele e 20% nele ou acima dele. Um recurso de cálculo pode ser: 1) “do menor para o maior” (“→”) – o elemento que ocupa a posição: 80% de 50 = (0,80)(50) = 40ª. posição. Na tabela, encontramos o valor 64,9. 2) “do maior para o menor” (“ ”) – o elemento que ocupa a posição: 20% de 50 = (0,20)(50) = 10ª. posição. Na tabela encontramos o valor 65,7 O percentil 80 é obtido pelo cálculo da média entre esses dois valores: 3,65 2 7,659,64 P80 Esse valor significa que 80% do ruído do tráfego desse cruzamento é de até 65,7 decibéis, ou, de maneira análoga, 20% dos ruídos do trêfego desse cruzamento encontram-se acima de 65,7 decibéis. Em dados agrupados, os percentis podem ser estimados: Pelos percentuais acumulados: Nota Simples Acumulada Freq Perc Freq Perc 10 Ⱶ 25 44 8,80% 44 8,80% 25 Ⱶ 40 70 14,00% 114 22,80% 40 Ⱶ 55 92 18,40% 206 41,20% 55 Ⱶ 70 147 29,40% 353 70,60% 70 Ⱶ 85 115 23,00% 468 93,60% 85 Ⱶ 100 32 6,40% 500 100,00% Total 500 100,00% © Tânia F Bogutchi – PUC Minas – Revisão 2012 108 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados 1. A mediana está na 4ª. Classe (55 a 70) - pois até 70 o percentual acumulado é de 70,6% 2. n=500 50% de 500 = 250 (posição do elemento que será o valor da mediana). 3. Tamanho da classe: 70 - 55=15 4. Freqüência da classe: 147 5. Até a classe anterior tem-se 206 elementos. 6. x é o valor correspondente ao elemento 250 250-206= 44º. Como se tem 147 elementos em uma faixa de tamanho 15, cada um deles ocupa 0,102 (=15/147) x 4,5 (=44x0,102) Esquematicamente: 7. Mediana: 55+4,5 59,5 Ou pela Ogiva (histograma das frequências relativas (percentuais) acumuladas): Por exemplo, o percentil 80 (80% dos dados nele e abaixo dele): x 15 102,0 147 15 (distância entre as posições dos 147 elementos) (posição) 206a 250a 353a x =(44)(0,102)=4,5 Notas Per cen tua l Ac um ula do 100857055402510 100 80 60 40 20 0 80 74 Histograma (Ogiva) para Notas 7480P Notas Per cen tua l Ac um ula do 100857055402510 100 80 60 40 20 0 80 74 Histograma (Ogiva) para Notas 7480P © Tânia F Bogutchi – PUC Minas – Revisão 2012 109 Estatística eProbabilidade Unidade 3: Amostragem e Descrição de dados Ou pela formula geral para o percentil de ordem 100p ( 0 p 1): Li = limite inferior da classe que contém o percentil desejado; A = np B = Freqüência acumulada da classe anterior C = freqüência da classe que contem o percentil desejado H = Tamanho da classe que contem o percentil Fazendo os cálculos para a mediana por esse método: Li = 55 n = 500 p = 0,5 A = (500)(0,50) = 250 B = 206 C = 147 H = 15 Desvio Interquartílico (DI) Quando a distribuição é assimétrica e a mediana é considerada a medida de tendência central mais recomendada, nesse caso a medida de variação mais indicada é o desvio interquartílico (ou amplitude entre quartis, ou desvio entre quartis) definida por: DI = Q3 – Q1 Em que, Q3, Q1 representam o terceiro e o primeiro quartil, respectivamente. Exemplo: Medidas de Transaminase-glutâmico-pirúvica sérica (TGP) em 95 recém-nascidos prematuros de Porto Alegre (fonte: Callegari-Jaqques, pág. 37) H C BA LP ip 100 11Desvio interquartílico95Total 18Quartil 35100 ou + 7Quartil 1160 |-- 70 211Máximo150 |-- 60 3Mínimo140 |-- 50 30,6Desvio-padrão430 |-- 40 10Mediana (Quartil 2)1020 |-- 30 20Média3110 |-- 20 95N420 |-- 10 Estatísticas Descritivas Freq. TGP (U/mL) 11Desvio interquartílico95Total 18Quartil 35100 ou + 7Quartil 1160 |-- 70 211Máximo150 |-- 60 3Mínimo140 |-- 50 30,6Desvio-padrão430 |-- 40 10Mediana (Quartil 2)1020 |-- 30 20Média3110 |-- 20 95N420 |-- 10 Estatísticas Descritivas Freq. TGP (U/mL) 5,5949,455)15( 147 .206250 5550 P © Tânia F Bogutchi – PUC Minas – Revisão 2012 110 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Observe que a distribuição é bastante assimétrica e a mediana está localizada na faixa com maior frequência. A média é maior que a mediana. As “Cinco medidas resumo” São utilizadas como resumo de um conjunto de dados: (Mínimo , 1o. Quartil, Mediana, 3o. Quartil, Máximo) Essas medidas encontram-se representadas graficamente no Box plot. Outros gráficos: Gráfico caixa – Box & Whiskers Plot ou simplesmente Box plot Distribuição TGP (U/mL) em 95 recém nascidos 0 5 10 15 20 25 30 35 40 45 0 |-- 10 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 50 50 |-- 60 60 |-- 70 100 ou + Faixas de TGP (U/mL) Fr eq uê nc ia © Tânia F Bogutchi – PUC Minas – Revisão 2012 111 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Exemplo: Distribuição dos salários dos funcionários da Cia MB, em frações de salário-mínimo (SM). Fonte: Bussab-Morettin, 2000 A linha interna da “caixa” é a mediana. Se essa linha estiver bem centralizada, a indicação é de dados com distribuição simétrica. A base inferior da caixa representa o primeiro quartil e a superior o terceiro quartil. Esse gráfico também pode fornecer a informação por grupos ou estratos definidos por uma variável qualitativa. Exemplo anterior estratificado por grau de instrução: Sa lá rio 25 20 15 10 5 Boxplot para Salário (SM) - Cia MB Grau de instrução Sa lá rio Superior2o grau1o grau 25 20 15 10 5 Boxplot of Salário vs Grau de instrução - Cia MB © Tânia F Bogutchi – PUC Minas – Revisão 2012 112 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados O gráfico apresenta a distribuição dos salários para cada categoria ordinal do grau ou nível de instrução. Percebe-se que maiores níveis de instrução se associam com maiores salários. Alguns aspectos das distribuições de dados Vimos que o histograma mostra o formato da distribuição dos dados. Considerando, agora, as medidas numéricas, uma distribuição de freqüências será: • Simétrica: a média, a mediana e a moda serão iguais. • Assimétrica à esquerda: a média será menor do que a mediana, que por sua vez, geralmente, será menor do que a moda. • Assimétrica à direita: a média será maior que a mediana, que por sua vez, será geralmente, maior do que a moda. Um exemplo de uma distribuição de freqüências perfeitamente simétrica é dada por uma distribuição com a forma de sino e apresenta as seguintes particularidades de concentração dos dados em torno da média (média como ponto médio do intervalo): 1. Amplitude de 2 desvios-padrão: 68,3% dos dados; 2. Amplitude de 4 desvios-padrão: 95,4% dos dados; 3. Amplitude de 6 desvios-padrão: 99,7% dos dados. Curva perfeitamente simétrica. Medidas resumo aplicável: média e desvio-padrão. © Tânia F Bogutchi – PUC Minas – Revisão 2012 113 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Curva assimétrica à direita – exemplo do preço das moradias Cauda estende à direita; média > mediana Medidas resumo aplicável: mediana e desvio interquartílico. Tabelas de dupla classificação Suponha que se queira conhecer o comportamento de uma determinada característica em relação a uma outra suposta sua determinante. Exemplo: Será que o uso de capacete reduz as lesões na cabeça em acidentes envolvendo motocicletas? Para responder a essa pergunta foram coletadas informações de 793 acidentados de moto com lesões na cabeça e classificados em relação ao uso ou não do capacete. Os dados obtidos estão apresentados no formato de uma tabela de dupla classificação: A leitura dessas informações é feita pelas linhas: dados sobre as lesões na cabeça e; pelas colunas: dados do uso de capacete. Dessa maneira, tem-se que das 793 pessoas analisadas, 235 delas tiveram lesões na cabeça e 147 faziam uso do capacete. Esses são as informações de apenas uma das características. As interseções entre as linhas e colunas (caselas, ou células) contêm a informação das duas características simultaneamente. Usualmente as informações são apresentadas em sua forma relativa, ou seja, por meio dos percentuais. Os percentuais podem ser calculados em três maneiras: Percentual pelo Total Geral: Observe que o 100,0% está na casela que informa o total geral da tabela! A leitura dos percentuais é feita considerando as duas características simultaneamente, ou seja, 2,1% dos acidentados tiveram lesão na cabeça E faziam uso de capacete. 100,0%81,5%18,5%Total 70,4%54,0%16,4%Não 29,6%27,5%2,1%Sim NãoSim Total Uso de capacete Lesão na cabeça 100,0%81,5%18,5%Total 70,4%54,0%16,4%Não 29,6%27,5%2,1%Sim NãoSim Total Uso de capacete Lesão na cabeça 793646147Total 558428130Não 23521817Sim NãoSim Total Uso de capacete Lesão na cabeça 793646147Total 558428130Não 23521817Sim NãoSim Total Uso de capacete Lesão na cabeça © Tânia F Bogutchi – PUC Minas – Revisão 2012 114 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Percentual por linha: Observe que agora o 100,0% está na total das linhas! A leitura dos percentuais é feita considerando apenas a característica da linha, ou seja, dos acidentados que tiveram lesão na cabeça, 7,2% faziam uso de capacete.Percentual por coluna: Observe que agora o 100,0% está na total das colunas! A leitura dos percentuais é feita considerando apenas a característica da coluna, ou seja, dos acidentados que faziam uso do capacete, 11,6% tiveram lesão na cabeça. Para medirmos a associação entre elas precisamos aplicar um teste que será apresentado na próxima Unidade. 100,0%81,5%18,5%Total 100,0%76,7%23,3%Não 100,0%92,8%7,2%Sim NãoSim Total Uso de capacete Lesão na cabeça 100,0%81,5%18,5%Total 100,0%76,7%23,3%Não 100,0%92,8%7,2%Sim NãoSim Total Uso de capacete Lesão na cabeça 100,0%100,0%100,0%Total 70,4%66,3%88,4%Não 29,6%33,7%11,6%Sim NãoSim Total Uso de capacete Lesão na cabeça 100,0%100,0%100,0%Total 70,4%66,3%88,4%Não 29,6%33,7%11,6%Sim NãoSim Total Uso de capacete Lesão na cabeça © Tânia F Bogutchi – PUC Minas – Revisão 2012 115 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados 3. RESOLUÇÃO DE ALGUNS EXERCÍCIOS 1) Você está fazendo um estudo para determinar a opinião de estudantes de sua escola com respeito ao controle do porte de armas. Identifique a técnica de amostragem que você irá usar se selecionar uma das amostras relacionadas abaixo: a) Selecione aleatoriamente uma classe e faça perguntas a cada estudante; b) Divida a população estudantil com relação às especialidades estudadas, realize uma amostra aleatória e faça perguntas a estudantes de cada especialidade; c) Atribua um número a cada estudante e escolha números aleatórios. Você irá então questionar a cada estudante cujo número for selecionado ao acaso Solução: (a) amostra aleatória por conglomerado – a classe é um agrupamento de alunos. (b) amostra aleatória estratificada – as especialidades forma grupos. (c) amostra aleatória simples. 2) Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: E e F. Em uma análise do custo do material,foram consideradas 30 faturas representadas a seguir pelo preço de 10 m de eletroduto: a) Retirar, sem reposição, uma amostra estratificada proporcional de tamanho n=8. b) Selecionar a amostra. Solução: (a) N=30 e n = 8 Passo 1: calcular a fração da amostra: 267,0 30 8 f Eletroduto Ni ni E 6 6x0,267=1,6 ≈ 2 F 24 24x0,267= 6,4≈ 6 Total 30 8 Outra maneira: 820810800795795790790785785770770770Preço 242322212019181716151413Fatura Eletroduto F 765765765765765760760765750750750750Preço 121110987654321Fatura Eletroduto F 760755715715710710Preço 654321Fatura Eletroduto E 820810800795795790790785785770770770Preço 242322212019181716151413Fatura Eletroduto F 765765765765765760760765750750750750Preço 121110987654321Fatura Eletroduto F 760755715715710710Preço 654321Fatura Eletroduto E © Tânia F Bogutchi – PUC Minas – Revisão 2012 116 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Eletroduto Ni Fraçãoi (pesoi) ni E 6 6/30 = 0,20 8x0,20=1,6 ≈ 2 F 24 24/30 = 0,80 8x0,80= 6,4≈ 6 Total 30 1,00 8 Passo 2: selecionar pela TNA (ou por um software) 2 números de fatura entre 1 e 6 para o Eletroduto E e 6 números de fatura entre 1 e 24 para o eletroduto F. Escolhendo a ultima coluna para o eletroduto E e as duas ultimas colunas da penúltima macro-coluna para o Eletroduto F Eletroduto Faturas selecionadas E 2 1 Preço 710 710 Eletroduto Faturas selecionadas F 11 3 19 9 2 12 Preço 765 750 790 765 750 765 3) Classifique as variáveis de um determinado banco de dados em qualitativa (ordinal ou nominal) ou quantitativa (discreta ou contínua): 1. Turno: 0 - manhã; 1 - noite; (qualitativa nominal) 2. Sexo: 0 - feminino; 1 - masculino; (qualitativa nominal) 3. Idade: em anos; (quantitativa contínua) 4. Resultados das prova de matemática do vestibular: em 100 pontos; (quantitativa contínua) 5. Dinheiro: valor (em reais) em poder do pesquisado; (quantitativa contínua) 6. Cartões: número de cartões de crédito; (quantitativa discreta) 7. Exercícios: 0 – não pratica exercícios físicos (qualitativa ordinal) 1 – Pratica exercícios físicos esporadicamente 2 – pratica exercícios físicos regularmente 1. Celular: 0 – não tem; 1 – tem (qualitativa nominal) 2. Trabalha: 0 – não trabalha; 1 – trabalha. (qualitativa nominal) 3. Matemática: nota na 1a. avaliação do curso de graduação (em 25 pts) (quantitativa contínua) 4) Os gráficos, a seguir, representam a freqüência relativa das respostas de um determinado grupo sobre preferências partidárias políticas (PMDB, PT, ..). Qual gráfico está sendo utilizado incorretamente? (a) (b) (c) Solução: PCdoB (32; 32,0%) PT (38; 38,0%) Verde ( 5; 5,0%) PSDB (25; 25,0%) Partidos Políticos Graf. Setores PCdoB PSDB PT Verde 0 10 20 30 40 Partido C ou nt o f P ar tid o Graf. Barras PT PSDB PCdoB PMDB Verde 0 10 20 30 40 Partido Político Pe rc en tu al Histograma © Tânia F Bogutchi – PUC Minas – Revisão 2012 117 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Resposta correta: (c) – pois esse gráfico é apropriado para variáveis aleatórias contínuas e a variável do exercício “preferência partidária” é qualitativa nominal. 5) Em um posto de controle rodoviário, doze motoristas multados por excesso de velocidade estavam dirigindo a: 15, 18, 23, 10, 17, 16, 32, 18, 21, 29, 15 e 24 km/h acima do limite regulamentar de velocidade. Calcule: a) A média dos excessos de velocidade; b) a média das multas que esses motoristas tiveram que pagar se o motorista que exceder o limite em menos de 24 km/h for multado em R$ 185,00 e os outros em R$ 310,00. Solução: (a) média simples: 8,19 12 238 12 24.....231815 x Conclusão: Os motoristas excederam em média 19,8 km/h (b) média ponderada Velocidade Valor da multa (xi) Freqüência (fi) (xi)(fi) < 24 km/h 185 9 1.665 ≥ 24 km/h 310 3 930 Total 12 2.595 25,216 12 595.2 xp Conclusão: O valor da multa média é R$ 216,25 4. MISCELÂNEA DE EXERCÍCIOS RESOLVIDOS EM ATIVIDADES E PROVAS Questão 1: Cada uma das afirmações abaixo é Verdadeira (V) ou Falsa (F) para a seguinte frase: a forma de uma distribuição de freqüência pode ser descrita usando a) um gráfico de box-plot ou box-whisker b) um histograma; c) um gráfico de ramo e folhas; d) a média e a variância; e) uma tabela de freqüências. Respostas: a) V b) V c) V d) F e) V Justificativa da letra d): © Tânia F Bogutchi – PUC Minas – Revisão 2012 118 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados - As medidas resumo de uma característica informam apenas sua locação e oscilação (espalhamento, dispersão) em torno da média. Para informação sobre a forma da distribuição (simetria, assimetria) elas precisam agregar outras medidas, tais como os quartis. Questão 2: Cada uma das afirmações abaixo é Verdadeira (V) ou Falsa (F) para o seguinte conjunto de dados: 3, 1, 7, 2, 2 a) a média é 3; b) a mediana é 7; c) a moda é 2; d) a amplitude é 1; e) a variância é 5,5. Respostas: a) V b) Fc) V d) F e) V Justificativa das letras (b) e (d): b) mediana = 2, pois ao ordenarmos os dados ele é o valor que separa os dados em duas partes iguais (50% para cada lado): 1 2 2 3 7 d) Amplitude (A) é a diferença entre o maior e o menor valor do conjunto de dados, logo, A = 7 – 1 = 6 Questão 3: O histograma abaixo apresenta a distribuição dos valores, em reais, em poder de uma amostra de estudantes de certa universidade. Os dados coletados foram armazenados em uma variável chamada Dinheiro. Com base nas informações do histograma responda Verdadeiro (V) ou Falso (F) para cada uma das frases seguintes: a) O número de classes é 8 b) 10 e 20 são os limites da primeira classe 80706050403020100 30 20 10 0 Dinheiro Fr eq ue nc ia 5 4 19 20 24 19 16 13 © Tânia F Bogutchi – PUC Minas – Revisão 2012 119 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados c) Os limites da classe de maior frequência são: 40 e 50 d) A classe com maior frequência tem 24 alunos e) 40% dos estudantes estavam com até R$ 30,00 no bolso; f) A mediana está na 3ª. Classe e é aproximadamente R$ 36,32 g) A mediana está na 4ª. Classe e é aproximadamente R$ 35,00 h) A média é aproximadamente R$ 35,00 Respostas: a) V b) F c) F d) V e) V f) F g) V h) V Justificativas das letras (b), (c) e (f): - Primeiramente, para facilitar a visualização do histograma, vamos transformá-lo em uma tabela de dupla entrada: nº Classes Ponto xi fi Xi . fi Fi% Perc. Acum. 1 0 ⊢ 10 5 13 65 10,83 10,83 2 10 ⊢ 20 15 16 240 13,33 24,16 3 20 ⊢ 30 25 19 475 15,83 39,99 4 30 ⊢ 40 25 24 840 20 59,99 mediana 5 40 ⊢ 50 45 20 900 16,67 76,66 6 50 ⊢ 60 55 19 1045 15,83 92,49 7 60 ⊢ 70 65 4 260 3,33 95,82 8 70 ⊢ 80 75 5 375 4,17 99,99 120 4200 99,99 (b) A 1ª classe é 0 ⊢ 10 , logo seus limites são 0 e 10. (c) A classe de maior frequência é a 4ª classe, com limites 30 e 40 e com 24 alunos. (f) A mediana está na 4ª classe e é aproximadamente R$ 35,00. Pode-se verificar pelo percentual acumulado que até o limite superior dessa classe, 40, tem-se 59,99% dos dados. O valor pode ser estimado pela ogiva: © Tânia F Bogutchi – PUC Minas – Revisão 2012 120 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados ou calculado por interpolação: , 0 < p <1 Logo, Questão 4: Por engano o professor omitiu uma nota no grupo dos 7 alunos que não praticam exercícios físicos. As notas dos seis alunos restantes são: 72, 76, 82, 74, 65 e 64. A média das 7 notas é 72,86. O valor da nota omitida é: a) 72,86 b) 85,07 c) 77,02 d) 69,89 Resposta: C Justificativa: vamos supor que ele tenha esquecido a x7 . Temos: Li = limite inferior da classe que contem o percentil desejado; A = np B = Freqüência acumulada da classe anterior C = freqüência da classe que contem o percentil desejado H = Tamanho da classe que contem o percentil 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 10 20 30 40 50 60 70 80 Dinheiro (R$) Pe rc A cu m ul ad o H C BA LP ip 100 3553010 24 4860 3050 P © Tânia F Bogutchi – PUC Minas – Revisão 2012 121 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados 02,77=x x=43302,510 x+433=02,510 7 x+64+65+74+82+76+72 =86,72 n x =x 86,72=x 7 7 7 7 i∑ Questão 5: Em certo ano, uma universidade pagou a cada um de seus 45 professores auxiliares um salário médio mensal de R$1.500,00, a cada um de seus 67 professores assistentes R$2.000,00, a cada um de seus 58 professores adjuntos R$2.600,00, e a cada um de seus 32 professores titulares R$3.000,00. Qual o salário médio mensal dos docentes dessa universidade? a) R$2.275,00 b) R$2.219,31 c) R$2.000,00 d) R$1.875,56 Resposta: B Justificativa: A média do salário é ponderada pela categoria do professor. Temos: 31,2219 202 448300 32586745 )32)(3000()58)(2600()67)(2000()45)(1500(∑ x p px x i ii Questão 6: Certa marca de lâmpada que dura 1020 horas tem escore padronizado z = 2. Sabendo-se que as vidas dessas lâmpadas têm coeficiente de variação (CV) de 14%, a média e o desvio-padrão das vidas das lâmpadas, são respectivamente: a) 796,88 ; 58,96 b) 720,85 ; 58,96 c) 510 ; 14,0 d) 796,88 ; 111,56 Resposta: D Justificativa: temos as seguintes fórmulas do escore padronizado (z) e do coeficiente de variação (CV), respectivamente: )(Xdp xx z ii ; x Xdp CV )( , as quais relacionam as duas incógnitas – média ( x ) e desvio-padrão (dp(X)) Seja a v.a. X: tempo de vida das lâmpadas, em horas. Xi =1020 © Tânia F Bogutchi – PUC Minas – Revisão 2012 122 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Temos: (3) x0,14dp(X) (2) de )( 14,0 )2( )( 2 )1( x Xdp Xdp xxi Levando a equação obtida em (3) em (1) temos: 796,88x1020x1,28 1020)14,0(2 xx Logo, em (3) obtemos dp(X) =111,56 Questão 7: O gráfico a seguir, apresenta as medidas do tórax dos ursos de certa área de preservação. Essas medidas são feitas para facilitar a estimação dos pesos dos ursos, em kg, por meio de um modelo estatístico. Os valores estimados para a mediana e o terceiro quartil são respectivamente: a) 87 ; 106 b) 50 ; 75 c) 95 ; 130 d) 75 ; 125 Resposta: A Justificativa: Os valores estimados são obtidos diretamente no gráfico: Mediana é o percentil 50, logo traçando uma reta paralela ao eixo das abscissas – tórax -, no valor 50% do eixo das ordenadas – percentual acumulado - , até encontrar a curva, e projetando esse ponto encontrado, obtemos aproximadamente 87 (vide figura) Ogiva: Tórax dos Ursos 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 50 60 70 80 90 100 110 120 130 140 toráx (cm) P er ce n tu al A cu m u la d o © Tânia F Bogutchi – PUC Minas – Revisão 2012 123 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Analogamente, o terceiro quartil é o percentil 75% - 75% dos dados nele ou abaixo dele. Repetindo o mesmo processo para ele, obtemos o ponto aproximado: 106 (vide figura) Questão 8: O gráfico a seguir, apresenta as medidas do tórax dos ursos de certa área de preservação. Essas medidas são feitas para facilitar a estimação dos pesos dos ursos, em kg, por meio de um modelo estatístico. Ogiva: Tórax dos Ursos 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 50 60 70 80 90 100 110 120 130 140 toráx (cm) Pe rc en tu al A cu m ul ad o Ogiva: Tórax dos Ursos 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 50 60 70 80 90 100 110 120 130 140 toráx (cm) P er ce n tu al A cu m u la d o © Tânia F Bogutchi – PUC Minas – Revisão 2012 124 Estatística e Probabilidade Unidade 3: Amostragem e Descrição de dados Um urso com 90 cm de tórax está aproximadamente no percentil: a) 50
Compartilhar