Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva Organização: Professor Paulo R. A. Nacaratti Mestre em Engenharia de Sistemas e Computação (UFRJ) Especialista em Estatística (UFLA) Bacharel em Matemática (UFF) Belo Horizonte Sumário 1. Introdução .................................................................................................................................... 4 1.1. Definições: estatística, população e amostra. ................................................................... 4 1.2. Razões para uso das amostras .......................................................................................... 5 1.3. Dados .................................................................................................................................... 6 1.3.1. Classificação dos dados............................................................................................... 6 1.3.2. Dados brutos e Rol ....................................................................................................... 7 1.3.3. Características dos dados ............................................................................................ 7 2. Medidas ....................................................................................................................................... 7 2.1. Medidas de centro ou de tendência central....................................................................... 7 2.1.1. Média aritmética ............................................................................................................ 8 2.1.2. Mediana. .......................................................................................................................13 2.1.3. Moda .............................................................................................................................14 2.1.4. Ponto médio .................................................................................................................16 2.2. Medidas de Dispersão ou de Variação .............................................................................16 2.2.1. Amplitude ou Amplitude total ......................................................................................16 2.2.2. Desvio Padrão de uma Amostra .................................................................................17 2.2.3. Variância. ......................................................................................................................19 2.2.4. Desvio médio ................................................................................................................19 2.2.5. Coeficiente de variação ...............................................................................................20 2.4. Medidas de Posição Relativa.............................................................................................20 2.4.1. Quartis ..........................................................................................................................21 2.4.2. Percentis .......................................................................................................................22 2.4.3. Decis .............................................................................................................................23 3. Medidas e tabelas de distribuição de frequências ..................................................................23 3.1. Termos padrões de uma distribuição de frequência........................................................23 3.2. Como construir uma Distribuição de Frequência .............................................................24 3.3. Distribuição de Frequência Relativa .................................................................................25 3.4. Distribuição de Frequência Acumulada ............................................................................26 3.5. Cálculo de Medidas em Tabelas de Distribuição de Frequência ...................................26 3.5.1. Média aritmética. ..........................................................................................................26 3.5.2. Mediana. .......................................................................................................................27 3.5.3. Moda. ............................................................................................................................28 3.5.4. Variância e Desvio Padrão. ........................................................................................30 3.5.4. Quartis. .........................................................................................................................31 3.5.5. Decis. ............................................................................................................................33 3.5.6. Percentis. ......................................................................................................................33 4. Gráficos – introdução. ...............................................................................................................34 4.1. Gráficos para descrever dados qualitativos. ....................................................................35 4.1.1. Gráficos de barras .......................................................................................................35 4.1.2. Gráficos de setores ......................................................................................................37 4.2. Gráficos para descrever dados quantitativos. ..................................................................37 4.2.1. Histograma ...................................................................................................................37 4.2.2. Polígono de frequência ...............................................................................................38 4.2.3. Diagrama de dispersão ...............................................................................................38 4.2.4. Gráfico de pontos (dot-plot) ........................................................................................39 4.2.5. Gráfico de Séries Temporais. .....................................................................................39 4.2.6. Ogiva. ............................................................................................................................40 Exercícios de fixação de estatística descritiva. ...................................................................41 Exercícios diversos. ...............................................................................................................45 Exercícios com gráficos. ................................................................................................................55 Referências .....................................................................................................................................58 Estatística Descritiva - 4 1. Introdução Pesquisadores aplicam a estatística com o objetivo de aprender algo sobre um conjunto com muitos elementos analisando os dados de alguns elementos, um subconjunto, desse conjunto. Assim, os estudos que envolvem estatística em geral coletam dados de uma parte de uma população, uma amostra, para que seja possível aprender algo a respeito da população. Segundo Arango (2005), a estatística pode ser dividida em: a) Descritiva: é a parte que se encarrega do levantamento, organização, classificação e descrição dos dados em tabelas, gráficos ou outros recursos visuais, além do cálculo de parâmetros representativos desses dados. b) Inferencial ou Analítica: é a parte que trabalha com os dados de forma a estabelecer hipóteses em função desses dados, procede a sua comprovação e, posteriormente, elabora conclusões científicas. A seguir são apresentadas definições formais de termos importantes para o perfeito entendimentoda estatística. 1.1. Definições: estatística, população e amostra. Estatística é um conjunto de métodos para: a) planejar estudos e experimentos; b) obter dados; c) organizar, resumir, apresentar, analisar, interpretar dados e d) elaborar conclusões baseadas nos dados. O termo população é usado normalmente para indicar um conjunto de pessoas. Por exemplo: a população de uma cidade é de 150.000 habitantes. Mas, em estatística, população é definida de modo mais abrangente. Vamos ver algumas definições: a) População ou universo é o conjunto de unidades sobre o qual desejamos obter informações (Vieira, 2008). b) Uma população é a coleção completa de todos os elementos (escores, pessoas, medidas e outros) a serem estudados. A coleção é Estatística Descritiva - 5 completa no sentido de que inclui todos os sujeitos a serem estudados (Triola, 2008). c) Entende-se por população a totalidade dos elementos ou de um atributo dos elementos referentes a um conjunto determinado (Arango, 2005). O termo população é usado pelos estatísticos para designar conjuntos com grandes números de elementos que têm algo em comum. Exemplos de população: pacientes, animais, radiografias, população de Belo Horizonte (número de habitantes), todas as geladeiras produzidas por uma indústria, etc. Censo é o conjunto de dados coletados de todos os elementos de uma população. Amostra é um subconjunto de elementos extraídos de uma população. Dados são observações coletadas. Por exemplo: sexo, idade, peso, estatura, grau de instrução, etc. A partir das definições apresentadas, o leitor pode observar a importância de se usar dados amostrais para tirar conclusões sobre populações. 1.2. Razões para uso das amostras Pode-se dizer que os dados são a “matéria - prima” da estatística. Não seria possível aumentar o conhecimento sobre uma população sem trabalhar com dados. Entretanto, nem sempre é possível levantar todos os dados de uma população, isto é, fazer um censo. Um bom exemplo são as pesquisas eleitorais. Uma população pode ser enumerável e finita (quando é possível contar todos os seus elementos), mas pode ter um número muito grande de elementos. A população de um país é um exemplo desse tipo de população. Uma população também pode ser classificada como infinita, nesse caso é difícil, ou até mesmo impossível, de contar seus elementos. Algumas populações são finitas, porém a dificuldade de contar seus elementos é muito grande. As pessoas com pressão alta exemplificam esse último caso. As características das populações apresentadas permitem ao leitor entender a dificuldade para tratar todos os elementos de um conjunto de dados. Para Estatística Descritiva - 6 contornar essa dificuldade o pesquisador pode selecionar uma parte da população, extrair uma amostra, para estudo. Mas existem outras razões para usar amostras. Os pesquisadores usam amostras pelas seguintes razões: a) Dificuldades de coletar dados de populações muito grandes; b) Custo e tempo para realizar um censo; c) Impossibilidade de trabalhar com populações infinitas e d) Comprovado valor científico dos dados amostrais. 1.3. Dados 1.3.1. Classificação dos dados. Definições: Dados quantitativos são expressos por números que representam contagens ou medidas. São classificados em dois tipos: discreta e contínua. Dados discretos apresentam alguns valores de um determinado intervalo. Exemplos: número de filhos, número de alunos matriculados em um curso, número de pessoas numa sala. Dados contínuos assumem qualquer valor de um dado intervalo. Exemplos: peso, tempo, quantidade de chuva, etc. Para facilitar a identificação e o entendimento dos dados discretos e contínuos, podemos associar os dados discretos aos números naturais e os contínuos aos números reais. Dados qualitativos (ou categóricos ou de atributos) expressam características não numéricas e podem ser separados em diferentes categorias. São classificados em dois tipos: nominal e ordinal. Os dados nominais são distribuídos em categorias mutuamente exclusivas e não podem ser ordenados. Exemplos: cor do cabelo (loiro, castanho, preto, ruivo), tipo de sangue (0, A, B, AB), gênero (masculino, feminino), etc. Os dados ordinais são distribuídos em categorias mutuamente exclusivas, porém com uma ordenação natural. Exemplos: escolaridade (fundamental, médio, superior), classe social (A, B, C, D, E), gravidade de uma doença (leve, moderada, severa), etc. Estatística Descritiva - 7 1.3.2. Dados brutos e Rol Os dados brutos são os valores resultantes da coleta, ou levantamento, de dados. Para visualizar as características da amostra coletada e, em consequência, entender melhor a população que originou a amostra, é útil organizar e resumir os dados coletados. Se os dados brutos são quantitativos, podemos ordená-los de forma crescente, ou decrescente. Assim obteremos um rol. Os dados qualitativos podem ser organizados por agrupamento. Depois de organizá-los como um rol ou um agrupamento, os dados podem ser apresentados em tabelas ou gráficos. 1.3.3. Características dos dados Segundo Triola (2008), os dados apresentam as seguintes características importantes: Centro: Um valor representativo ou médio, que indica onde se localiza o meio dos dados amostrais. Variação: Medida que indica quanto os valores dos dados varia entre eles. Distribuição: A natureza ou forma da distribuição dos dados (em forma de sino, uniforme ou assimétrica). Outliers ou Valores Discrepantes: Valores amostrais que se localizam muito longe da grande maioria dos outros valores amostrais. Tempo: Características dos dados que mudam com o tempo. 2. Medidas Neste capítulo serão apresentadas estatísticas básicas para a descrição de diversas características dos conjuntos de dados. 2.1. Medidas de centro ou de tendência central. São números que, de alguma maneira, representam o valor central de um conjunto de dados. Definição: uma medida de centro é um valor no centro ou no meio do conjunto de dados. Estatística Descritiva - 8 O valor no centro do conjunto de dados pode ser definido e calculado de várias maneiras. Em consequência observam-se diferentes medidas como a média aritmética, a mediana, a moda e o ponto médio. 2.1.1. Média aritmética A média aritmética, comumente chamada apenas de média, é a medida mais conhecida e mais utilizada para descrever dados amostrais. Também é considerada a medida mais importante para a descrição de dados. Definição: A média aritmética de uma amostra é o valor calculado pela soma de todos os dados amostrais e dividindo essa soma pelo número de dados amostrais. Representa-se a média por x (x barra). Fórmulas: amostrais dados de número amostrais dados os todos de soma Média n x x O número de dados amostrais também é chamado de tamanho da amostra. Exemplo: Calcular a média do seguinte conjunto de dados: 2, 3, 3, 5, 8. 2,4 5 21 5 85332 n x x A média indica o centro de gravidade (ponto de equilíbrio) dos dados amostrais (o leitor entenderá melhor mais adiante). O valor da média é sensível a qualquer valor, em particular a valores extremos. Isto é, um valor muito menor “puxa” a média para baixo, assim como um valor muito maior “puxa” para cima. Para ilustrar isso, considere a amostra 5, 40, 45, 48 que tem média igual a 5,34 4 138 4 4845405 n x x O valor 5 é bem menor que os outros e por isso “puxou” a média para baixo, pois 34,5 é menor que quase todos os elementos da amostra. Agora considere a amostra 40, 45, 48, 200 que tem média igual a Estatística Descritiva - 9 25,83 4 333 4 200484540 n x x O valor 200 é bem maior que os outros e “puxou” a média para cima, pois 83,25 é maior que quase todos os elementos da amostra. Propriedades. Propriedade 1: Se os dados amostraisforem valores iguais (constante), a média é esse valor. Exemplo: Calcular a média aritmética do seguinte conjunto de dados: 4, 4, 4. 4 3 12 3 444 n x x Propriedade 2: Somando-se uma constante a cada um dos dados amostrais, a média também ficará somada dessa constante. Exemplo: Calcular a média do seguinte conjunto de dados: 3, 4, 6, 9. 5,5 4 22 4 9643 n x x Somando-se a constante 2 a todos os dados amostrais obteremos: 5 (3 + 2), 6 (4 + 2), 8 (6 + 2), 11 (9 + 2). E a média será: )25,5(5,7 4 30 4 11865 n x x Propriedade 3: A soma algébrica dos desvios dos elementos de uma amostra em relação à média dessa amostra é igual à zero. 0 xx Em que xx são os desvios dos elementos em relação à média. Observação: Essa propriedade ilustra bem a ideia da média como centro de gravidade. O leitor pode observar que a soma dos desvios dos valores abaixo da média é equivalente à soma dos desvios dos valores acima da média (mesmo valor com sinais opostos). Pode-se entender a média como um valor que equilibra os valores abaixo e acima da média. Exemplo: Considere a amostra 3, 4, 6, 9. Estatística Descritiva - 10 A amostra tem média 5,5x . A tabela a seguir mostra os desvios em relação à média. Elementos Desvios 3 3 – 5,5 = 2,5 4 4 – 5,5 = 1,5 6 6 – 5,5 = 0,5 9 9 – 5,5 = 3,5 0445,35,05,15,2 xx Propriedade 4: Multiplicando-se ou dividindo-se os dados amostrais por uma constante não nula (c ≠ 0) a média amostral ficará multiplicada ou dividida por essa constante. Exemplo: Considere a amostra 3, 4, 6, 9 para verificar a propriedade. 5,5 4 22 4 9643 n x x Multiplicando os dados por 10, obteremos os seguintes valores: 30, 40, 60, 90. E a média será )55105,5(55 4 220 4 90604030 n x x Dividindo essa nova amostra por 2, obteremos os valores: 15, 20, 30, 45. E a média será )5,27255(5,27 4 110 4 45302015 n x x Propriedade 5: Se F1 números têm média M1, F2 números têm média M2,... e Fk números têm média Mk, então a média de todos os números será n FM F FM FFF MFMFMF x K KK ... ... 21 2211 Exemplo: Considere as amostras A1, A2, A3 e suas médias para verificar a validade da propriedade. Estatística Descritiva - 11 7 5 35 5 158732 15,8,7,3,2 4 4 16 4 6442 6,4,4,2 6 3 18 3 1143 11,4,3 33 22 11 MA MA MA 75,5 12 69 12 351618 543 754463 321 332211 FFF MFMFMF x 75,5 12 69 12 15873264421143 n x x Média aritmética para dados apresentados em tabelas. Exemplo (Vieira, 2008): Para calcular a média do número de filhos em idade escolar que têm os funcionários de uma empresa, a psicóloga que trabalha em Recursos Humanos obteve uma amostra de 20 funcionários. Os dados (brutos) estão apresentados na tabela seguinte. Tabela 1 Número de filhos em idade escolar de 20 funcionários. 1 2 2 0 3 0 1 2 1 0 1 2 1 1 0 0 1 5 1 0 Como já estudamos na seção 1.3 para melhor visualizar as características das amostras coletadas, vamos organizar os dados e apresentá-los em uma tabela. Observe que quanto maior o tamanho da amostra, mas útil se torna esse procedimento. Estatística Descritiva - 12 Tabela 2 Distribuição de frequências* para o número de filhos em idade escolar de 20 funcionários. Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 *Estudaremos com mais detalhes posteriormente. Vamos usar a seguinte fórmula para o cálculo f xf x Nesta fórmula x corresponde ao valor possível (valores da primeira coluna) e f sua respectiva frequência. A tabela seguinte mostra os cálculos intermediários da solução. Tabela 3 Cálculos intermediários. Número de filhos em idade escolar (x) Frequência (f) Produto (xf) 0 6 0 1 8 8 2 4 8 3 1 3 4 0 0 5 1 5 Total 20 24 Estatística Descritiva - 13 2,1 20 24 f xf x A média é de 1,2 filho em idade escolar. 2.1.2. Mediana. Como estudado na seção anterior, a média é uma medida sensível a qualquer valor e isso é uma desvantagem, pois um valor muito diferente pode afetar de modo significativo o valor da média (“puxando” para cima ou para baixo). Em amostras que alguns dados sejam bem maiores ou menores que os outros (dados discrepantes), a mediana descreve melhor a tendência central dos dados. A mediana divide a amostra em duas partes iguais. Metade são menores ou iguais à mediana e a outra metade, maiores ou iguais à mediana (Triola, 2008 e Vieira, 2008). Definição: A mediana de uma amostra é o valor que ocupa a posição central (do meio) quando os dados amostrais encontram-se ordenados em ordem crescente ou decrescente. Em geral é representada por x~ (x til) ou por Md. Para encontrar a mediana de uma amostra, primeiro ordene os valores e em seguida encontre da posição a mediana conforme indicado a seguir: a) Se o número de elementos da amostra for ímpar, a mediana ocupará a posição (n + 1)/2 (n é o número de elementos da amostra). A mediana encontra-se no meio da lista. b) Se o número de elementos da amostra (n) for par, a mediana será a média dos dois números mais centrais. Esses números ocupam as posições n/2 e n/2 + 1. Exemplo: Dada a amostra {5, 8, 13} (n = 3, ímpar). A amostra está ordenada e a mediana se encontra na posição 2 2 4 2 13 mediana da posição Logo, 8~ x , pois é o valor que se encontra na posição 2. Exemplo: Dada a amostra {2, 5, 9, 12} (n = 4, par). A amostra está ordenada e as posições mais centrais são 2 2 4 2 n e 3121 2 n Estatística Descritiva - 14 O número da posição 2 é o 5 e o da posição 3 é o 9 e a mediana da amostra será a média desses dois valores Assim, o valor da mediana é 7. Observe que 7 não é um dado amostral, mas está de acordo com a definição de mediana. Mediana para dados apresentados em tabelas. Vamos calcular a mediana para o mesmo exemplo usado para o cálculo da média. A tabela seguinte apresenta os dados ordenados desse exemplo. Como o total de elementos da amostra é um número par (20) é preciso calcular a média entre os números das posições 10 e 11 para determinar a mediana. Analisando a tabela concluímos que os números dessas posições são iguais a 1. Tabela 1 Distribuição de frequências para o número de filhos em idade escolar de 20 funcionários. Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 1 2 11 Md Conclui-se então que a mediana dessa amostra é igual a 1. 2.1.3. Moda Definição: A moda de uma amostra é o valor que ocorre com maior frequência. É o valor que aparece maior número de vezes. 7 2 14 2 95~ x Estatística Descritiva - 15 Exemplo: Na amostra 4, 2, 5, 0, 5, 3, 3, 7, 1, 6, 5, 8, a moda (ou valor modal) é 5, porque ocorre o maior número de vezes (três vezes) que os outros. Quando nenhum valor se repete ou quando todas as frequências são iguais, a amostra não tem moda. Uma amostra também pode ter dois (bimodal) ou mais (multimodal) valores como moda. Exemplo: Determinar as modas das seguintes amostras. a) 1, 2, 3, 4, 5, 6, 7, 8, 9 Não tem moda, nenhum valor se repete. b) 13, 25, 10, 17, 25, 18, 11, 13, 21, 27 Os números 13 e 25 são modas da amostra, pois ocorrem com a mesma maior frequência. A moda também pode ser usada em dados não numéricos e representa a categoria de maior frequência. Exemplo. Tabela 1. Distribuição de indivíduos segundo o esporte preferido. Esporte Frequência Futebol 305 Voleibol 280 Basquete 200 Natação 98 Total 883 Nessa amostra a moda é a categoria futebol, pois futebol ocorre com maior frequência. Moda para dados apresentados em tabelas.Vamos calcular a moda para o mesmo exemplo usado para o cálculo da média e da mediana. A tabela seguinte apresenta os dados ordenados desse exemplo. Estatística Descritiva - 16 Tabela 1 Distribuição de frequências para o número de filhos em idade escolar de 20 funcionários. Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 Analisando a coluna da frequência conclui-se que a moda é igual a 1, pois é o valor que apresenta a maior frequência (o que aparece o maior número de vezes). 2.1.4. Ponto médio Definição: O ponto médio é a medida que tem exatamente a mesma “distância” entre o menor e o maior valor da amostra. É calculado pela fórmula 2 valor maior valor menor médio ponto Cuidado para não confundir com a mediana. Exemplo. Calcular o ponto médio da seguinte amostra 3,25 1,50 2,25 4,83 2,65 1,80 5,50 4,18 3,500 2 7,00 2 5,50 1,50 médio ponto Observação sobre arredondamento: apresente a resposta com uma casa decimal a mais do que é apresentado originalmente. 2.2. Medidas de Dispersão ou de Variação 2.2.1. Amplitude ou Amplitude total Definição: A amplitude de uma amostra é a diferença entre o maior valor e o menor valor. )()( valormenorvalormaioramplitude Estatística Descritiva - 17 Exemplo. Calcular a amplitude da seguinte amostra 3,25 1,50 2,25 4,83 2,65 1,80 5,50 4,18 00,450,150,5 amplitude A amplitude apresenta a vantagem de ser facilmente calculada, mas é considerada uma medida de variação inadequada por não considerar todos os dados amostrais em seu cálculo. Outra desvantagem é que no caso de dados agrupados (em tabela que estudaremos mais adiante), os limites abertos impossibilitam o cálculo. Propriedade: A amplitude de uma amostra com valores constantes (todos iguais) é igual a zero. 2.2.2. Desvio Padrão de uma Amostra Definição: O desvio padrão de uma amostra é a medida de variação dos valores em torno da média. Fórmula do desvio padrão amostral 1 2 n xx s Fórmula abreviada do desvio padrão amostral )1( )()( 22 nn xxn s Nas fórmulas apresentadas, n é o tamanho da amostra (número de elementos da amostra). Propriedades Propriedade 1: O desvio padrão é uma medida de variação de todos os valores em relação à média. Propriedade 2: O valor do desvio padrão é um número positivo. Quando todos os dados são o mesmo número (uma constante) o desvio padrão é zero. Maiores valores indicam variação maior ou maior dispersão dos dados. Propriedade 3: O valor do desvio padrão pode aumentar muito com a inclusão de um ou mais outliers (valores de dados que estão muito afastados dos demais). Propriedade 4: A unidade do desvio padrão é a mesma dos dados amostrais (centímetros ou quilogramas por exemplo). Estatística Descritiva - 18 Propriedade 5: A Soma ou subtração de uma constante não nula (c ≠ 0) a cada um dos dados amostrais não altera o valor do desvio padrão. Propriedade 6: Multiplicando/dividindo cada um dos dados amostrais por uma constante não nula (c ≠ 0) o desvio padrão também ficará multiplicado/dividido por esse valor. Exemplo de cálculo do desvio padrão. Calcular o desvio padrão das seguintes medidas em centímetros: 2, 5, 11. Primeiro calcule a média: cmx 0,6 3 18 3 1152 Em seguida, crie uma tabela para continuar o cálculo (acompanhe esse desenvolvimento na tabela seguinte). Na coluna (1) encontram-se os dados amostrais. Na coluna (2), os valores dos desvios em relação à média e na coluna (3) os valores dos desvios elevados ao quadrado. Com a tabela completa, some todos os valores registrados na terceira coluna e obteremos 2)( xx . (1) x (2) xx (3) 2)( xx 2 4 16 5 1 1 11 5 25 Em seguida, é só substituir na fórmula. Como 42)( 2 xx , cms 6,421 2 42 13 42 Cálculo usando a fórmula abreviada. 1501212541152 2222x 32418)1152()( 222x cm nn xxn s 6,421 6 126 )2(3 324450 )13(3 324)150(3 )1( )()( 22 Estatística Descritiva - 19 2.2.3. Variância. Definição: A variância de uma amostra é uma medida de variação igual ao quadrado do desvio padrão. Para o exemplo da seção anterior temos 222 21)21( cms . Observe que a variância apresenta unidade diferente dos dados originais, está em cm2. Essa propriedade dificulta a interpretação da dispersão e por isso o desvio padrão é mais usado. Propriedades: As propriedades do desvio padrão também são válidas para a variância, entretanto as propriedades 4 e 6 devem ser reformuladas como a seguir. Propriedade 4: A unidade da variância é expressa pelo quadrado da unidade dos dados amostrais (cm2 ou kg2, por exemplo). Propriedade 6: Multiplicando/dividindo cada um dos dados amostrais por uma constante não nula (c ≠ 0) a variância ficará multiplicado/dividido pelo quadrado desse valor. 2.2.4. Desvio médio Desvios simples: são calculados pela diferença entre os dados amostrais e a média amostral. xxd ii Desvios absolutos: são os valores absolutos, ou em módulo, dos desvios médios. Para o cálculo do desvio médio são considerados os valores absolutos. n xx DM i Em que n é o tamanho da amostra. Exemplo de cálculo do desvio médio. Calcular o desvio médio das seguintes medidas em centímetros: 2, 5, 11. cmx 6 3 18 3 1152 cm n xx DM i 3,3 3 10 3 514 3 514 3 6116562 Estatística Descritiva - 20 Propriedade: O desvio médio de uma amostra com valores constantes (todos iguais) é igual a zero. 2.2.5. Coeficiente de variação Definição: O coeficiente de variação (CV) de dados amostrais não negativos descreve o desvio padrão relativo à média. É expresso como um percentual. É calculado pela fórmula 100100 média padrãodesvio x s CV Com o coeficiente de variação é possível comparar amostras de medidas com unidades diferentes (cm e kg, por exemplo). Quanto menor for o valor do coeficiente de variação mais homogênea é a amostra. Exemplo de cálculo do coeficiente de variação. Calcular o coeficiente de variação das seguintes medidas em centímetros: 2, 5, 11. Para essa amostra sabemos que a média é igual a 6 cm e que o desvio padrão é igual a 4,6 cm. Assim, o coeficiente de variação será %7,76100 6 6,4 CV 2.4. Medidas de Posição Relativa As medidas de posição relativa podem ser usadas para comparar valores de amostras diferentes ou para comparar dados de uma mesma amostra. A mediana divide a amostra em duas partes iguais. É o valor central que tem 50% de valores menores ou iguais à mediana e 50% de valores maiores ou iguais à mediana. Agora estudaremos outras medidas que, assim como a mediana, divide a amostra em partes iguais. Essas medidas são chamadas quantis. Os quantis são medidas que dividem os dados amostrais em grupos como aproximadamente o mesmo número de valores. Estatística Descritiva - 21 2.4.1. Quartis Os quartis dividem os valores amostrais ordenados em quatro partes iguais. Cada parte com aproximadamente 25% do total de dados amostrais. São representados por Q1, Q2 e Q3. O primeiro quartil (Q1) é a medida que divide a amostra nas seguintes proporções: 25% (um quarto) dos valores ordenados são menores ou iguais a Q1 e 75% (três quartos) dos valores são maiores ou iguais a Q1. O segundo quartil (Q2) é a mediana, 50% dos valores ordenados são menores ou iguais a Q2 e 50% dos valores são maiores ou iguais a Q2. O terceiro quartil (Q3) é a medida que divide a amostra nas seguintes proporções: 75% (três quartos) dos valores ordenados são menores ou iguais a Q3 e 25% (um quarto) dos valores são maiores ou iguais a Q3. Conforme Triola (2008), não há consenso sobre um procedimento único para calcular quartis. O cálculo dos quartispode ser feito de forma simples usando-se o conceito de mediana. Exemplo: Calcular os quartis da amostra {10, 11, 22, 23, 34, 35, 46, 47}. Primeiro calcula-se a mediana (Q2). Como n é par 5,285,28 2 57 2 3423 22 QQ A mediana divide a amostra em duas partes iguais. Agora, calcula-se a mediana de cada uma dessas partes. A mediana de {10, 11, 22, 23} corresponde a Q1, e como n é par 5,165,16 2 33 2 2211 11 QQ A mediana de {34, 35, 46, 47} corresponde a Q3, e como n é par 5,405,40 2 81 2 4635 33 QQ Assim, Q1 = 16,5, Q2 = 28,5 e Q3 = 40,5. Observe que esses valores estão de acordo com o conceito de quartil apresentado. Outras estatísticas com uso dos quartis: Estatística Descritiva - 22 a) Intervalo interquartil (ou IIQ) = Q3 Q1; b) Intervalo semi-interquartil = 2 13 QQ ; c) Ponto médio dos quartis = 2 13 QQ 2.4.2. Percentis Os percentis dividem os valores amostrais ordenados em 100 partes iguais. Cada parte com aproximadamente 1% do total de dados amostrais. São representados por P1, P2,..., P99. De forma semelhante aos quartis, o primeiro percentil (P1) é a medida que divide a amostra nas seguintes proporções: 1% dos valores ordenados é menor ou igual a P1 e 99% dos valores são maiores ou iguais a P1. E assim sucessivamente para todos os outros percentis. Cálculo dos percentis: Siga o seguinte procedimento: Passo 1: Ordene os dados amostrais de modo crescente. Passo 2: Calcule L pela fórmula n k L 100 Em que: L é o localizador, é o valor que indica a posição do percentil. n é o número total de valores da amostra. k é o percentil desejado (para o 25º. Percentil, k = 25). Passo 3: Nesse passo deve-se observar se o valor de L é um número inteiro ou não. Se L é um número inteiro, o valor do percentil k está entre o valor da posição L e o da posição seguinte, na lista ordenada. O Pk é calculado pela média dos dois valores identificados e o problema está resolvido. Se L não é um número inteiro, arredonde o valor para o maior inteiro mais próximo. O Pk é o valor da posição L (depois de arredondado), contando a partir do menor e o problema está resolvido. Estatística Descritiva - 23 Observações: a) Q1 = P25; b) Q2 = P50; c) Q3 = P75; e d) Intervalo percentílico 10-90 = P90 – P10. 2.4.3. Decis Os decis dividem os valores amostrais ordenados em 10 partes iguais. Cada parte com aproximadamente 10% do total de dados amostrais. São representados por D1, D2, D3, D4, D5, D6, D7, D8, D9. De forma semelhante aos quartis, o primeiro decil (D1) é a medida que divide a amostra nas seguintes proporções: 10% dos valores ordenados são menores ou iguais a D1 e 90% dos valores são maiores ou iguais a D1. E assim sucessivamente para todos os outros decis. Os decis podem ser calculados como percentis, uma vez que: D1 = P10, D2 = P20,..., D9= P90 3. Medidas e tabelas de distribuição de frequências As tabelas de distribuição de frequência são uteis para organizar, resumir e apresentar dados. Definição: Uma distribuição de frequência (ou tabela de frequência) lista os valores dos dados (individualmente ou por grupos de intervalo) e suas respectivas frequências (ou contagens). Razões para a construção de uma distribuição de frequência: a) Resumir os dados de amostras grandes; b) Compreender a natureza dos dados coletados; e c) Facilitar a construção de gráficos importantes. 3.1. Termos padrões de uma distribuição de frequência Definições (Triola, 2008). Limites inferiores de classe são os menores números que podem pertencer às diferentes classes. Estatística Descritiva - 24 Limites superiores de classes são os maiores números que podem pertencer às diferentes classes. Fronteiras de classe são os números usados para separar as classes sem saltos. Pontos médios das classes são os pontos médios dos intervalos que determinam cada classe. Podem ser calculados conforme indicado na seção 2.1.4 usando os limites inferior e superior da classe. Amplitude de classe é a diferença entre dois limites inferiores de classe consecutivos ou duas fronteiras inferiores de classe consecutivas. O leitor deve tomar cuidado para evitar o erro comum de calcular a amplitude de classe como a diferença entre os limites superior e inferior da classe. 3.2. Como construir uma Distribuição de Frequência Justificativas para a construção das distribuições de frequência (Triola, 2008). a) Grandes conjuntos de dados podem ser resumidos, b) Podemos obter alguma compreensão sobre a natureza dos dados, e c) Temos uma base para construir gráficos importantes (histogramas, por exemplo). Procedimento de construção: Etapa 1: Cálculo do número de classes (K). O número de classes é diretamente proporcional ao número de dados, ou seja, quanto maior for o número de dados, maio será o número de classes. O número de classes deve estar entre 5 e 20, e deve ser escolhido pela conveniência de se usar números redondos. Mas a definição de um número excessivo de classes pode criar classes sem nenhum valor compreendido entre seus limites inferior e superior (classes vazias). Uma fórmula eficiente de cálculo do número de classes (K) é a fórmula de Sturges: K = 1 + 3,33 (log n). Onde K é o número de classes e n o número de elementos da amostra. Estatística Descritiva - 25 Outra forma de calcular o número de classes é dada pela raiz quadrada do número de elementos da amostra ( nK ), entretanto é considerada uma aproximação mais grosseira que a fórmula de Sturges. Etapa 2: Cálculo da amplitude de classe (h). classesdenúmero mínimovalormáximovalor h )()( O resultado deve ser arredondado para se obter um número conveniente, geralmente é arredondado para cima. A ideia é usar valores que permitam fácil entendimento. Etapa 3: Definição do ponto inicial. O ponto inicial será o limite inferior da primeira classe. Escolha o valor mínimo dos dados ou um valor conveniente que seja um pouco menor. Etapa 4: Definição dos outros limites inferiores de classe. Adicione a amplitude de classe (h) ao ponto inicial para obter o segundo limite inferior de classe. Repita essa adição para obter o terceiro limite inferior de classe e assim por diante. Etapa 5: Definição dos intervalos de classe. Liste os limites inferiores de classe e em seguida defina os limites superiores de cada classe. O limite superior será facilmente identificado ao se observar o limite inferior da classe seguinte. Com os limites inferior e superior de uma classe definidos, os intervalos de classe também estarão definidos. Etapa 6: Cálculo da frequência de classe. Para cada dado amostral, faça uma marca na classe apropriada. Terminadas as marcações, use as marcas para calcular a frequência de cada classe. 3.3. Distribuição de Frequência Relativa É uma variação da distribuição de frequência mostrada na seção anterior. As frequências relativas são calculadas como a indicação a seguir sfrequência as todas de soma classe de frequência relativa frequência Estatística Descritiva - 26 3.4. Distribuição de Frequência Acumulada É uma variação da distribuição de frequência usada quando se desejam os totais acumulados. A frequência acumulada para uma classe é a soma da frequência daquela classe mais as frequências do todas as classes anteriores. 3.5. Cálculo de Medidas em Tabelas de Distribuição de Frequência Nesta seção estudaremos as medidas para os dados amostrais xi depois de agrupados com suas respectivas frequências absolutas i. Observe a seguinte distribuição de frequência (Martins, 2002) para calcular as medidas. Tabela de distribuição de frequência de idades, em anos, de 50 funcionários. Intervalos de classe Frequências 18 – 25 6 25 – 32 10 32 – 39 13 39 – 46 8 46 – 53 6 53 – 60 5 60 – 67 2 Total 50 3.5.1. Média aritmética.A média aritmética ou média amostral é expressa pela fórmula: n fx x ii Em que xi é o ponto médio de classe e n é o número de elementos da amostra. Observe o desenvolvimento para o exemplo. Estatística Descritiva - 27 Intervalos de classe Frequências xi xifi 18 – 25 6 21,5 129 25 – 32 10 28,5 285 32 – 39 13 35,5 461,50 39 – 46 8 42,5 340 46 – 53 6 49,5 297 53 – 60 5 56,5 282,50 60 – 67 2 63,5 127 Total 50 1.922 Assim: 44,38 50 922.1 x anos 3.5.2. Mediana. Procedimento de cálculo. Etapa 1: Calcular a posição da mediana (n/2). Lembre-se que n é o tamanho da mostra. Etapa 2: Identificar a classe que contém a mediana com auxílio da frequência acumulada ac. Etapa 3: A mediana é calculada pela fórmula: Md Md f hf n lMd 2 Em que: Mdl = limite inferior da classe da mediana. f = soma das frequências anteriores à classe da mediana. h = amplitude de classe em que se encontra a mediana. Mdf = frequência da classe da mediana Observe o desenvolvimento para o exemplo. Estatística Descritiva - 28 Intervalos de classe Frequências fac 18 – 25 6 6 25 – 32 10 16 32 – 39 13 29 39 – 46 8 37 46 – 53 6 43 53 – 60 5 48 60 – 67 2 50 Total 50 Etapa 1: A mediana encontra-se na posição: 25 2 50 2 n Observando a coluna de frequência acumulada (fac) conclui-se que a classe da mediana é a 32 – 39, pois é a classe em que se encontra o elemento da posição 25. Etapa 2: A classe da mediana é a terceira classe. Etapa 3: Aplica-se a fórmula dada. 8,36 13 71625 32 2 Md Md f hf n lMd Logo, a mediana é 36,8. 3.5.3. Moda. a) Moda Bruta. Etapa 1: Identifica-se a classe modal (classe com maior frequência). Etapa 2: A moda bruta é a média aritmética entre os limites da classe modal. 2 lsli Mo Em que: li= limite inferior da classe modal. ls = limite superior da classe modal. Estatística Descritiva - 29 b) Fórmula de Czuber. Procedimento de cálculo. Etapa 1: Identifica-se a classe modal (classe com maior frequência). Etapa 2: Aplica-se a fórmula: hlMo Mo 21 1 Em que: Mol = limite inferior da classe modal. 1 = diferença entre a frequência da classe modal e a frequência da classe imediatamente anterior. 2 = diferença entre a frequência da classe modal e a frequência da classe imediatamente posterior. h = amplitude de classe modal. Observe o desenvolvimento para o exemplo. Intervalos de classe Frequências 18 – 25 6 25 – 32 10 32 – 39 13 39 – 46 8 46 – 53 6 53 – 60 5 60 – 67 2 Total 50 A terceira classe (32 – 39) é a classe modal (classe de maior frequência). A moda bruta será 5,35 2 71 2 3932 Mo Estatística Descritiva - 30 Desenvolvimento pela Fórmula de Czuber: Etapa 1: A terceira classe (32 – 39) é a classe modal (classe de maior frequência). Etapa 2: Mol = 32. 1 = 13 – 10 = 3. 2 = 13 – 8 = 5. h = 7. Aplica-se a fórmula: 6,347 53 3 32 21 1 hlMo Mo 3.5.4. Variância e Desvio Padrão. Para dados agrupados calcula-se a variância pela fórmula n fx fx n s ii ii 2 22 1 1 Como já visto, a variância de uma amostra é uma medida de variação igual ao quadrado do desvio padrão. Assim, o desvio padrão s é calculado pela relação 2ss . Observe o desenvolvimento para o exemplo. Intervalos de classe Frequências xi xifi xi 2fi 18 – 25 6 21,5 129 2.773,50 25 – 32 10 28,5 285 8.122,50 32 – 39 13 35,5 461,50 16.383,50 39 – 46 8 42,5 340 14.450,00 46 – 53 6 49,5 297 14.701,50 53 – 60 5 56,5 282,50 15.961,25 60 – 67 2 63,5 127 8.064,50 Total 50 1.922 80.456,50 Estatística Descritiva - 31 A variância amostral será 18,134 50 )922.1( 50,456.80 49 1 1 1 2 2 22 n fx fx n s ii ii E o desvio padrão 58,1118,134 s anos. 3.5.4. Quartis. Primeiro quartil (Q1) Etapa 1: Calcular a ordem, ou posição, n/4. Etapa 2: Identificar a classe Q1 pela frequência acumulada (fac). Etapa 3: Aplicar a fórmula 1 11 4 Q Q f hf n lQ Em que: 1Ql = limite inferior da classe Q1 (classe em que se encontra o primeiro quartil). f = soma das frequências anteriores à classe Q1. h = amplitude da classe Q1. 1Qf = frequência da classe Q1. Terceiro quartil (Q3) Etapa 1: Calcular a ordem, ou posição, 3n/4. Etapa 2: Identificar a classe Q3 pela frequência acumulada (fac). Etapa 3: Aplicar a fórmula 3 33 4 3 Q Q f hf n lQ 3Ql = limite inferior da classe Q3 (classe em que se encontra o terceiro quartil). Estatística Descritiva - 32 f = soma das frequências anteriores à classe Q3. h = amplitude da classe Q3. 3Qf = frequência da classe Q3. Observe o desenvolvimento para o exemplo. Intervalos de classe Frequências fac 18 – 25 6 6 25 – 32 10 16 32 – 39 13 29 39 – 46 8 37 46 – 53 6 43 53 – 60 5 48 60 – 67 2 50 Total 50 Primeiro quartil (Q1) Etapa 1: Ordem, ou posição, n/4 = 50/4= 12,5. Etapa 2: A classe Q1 é a segunda classe. Etapa 3: Aplicar a fórmula 1Ql = 25 (limite inferior da segunda classe). f = 6. h = 7. 1Qf = 10. 55,2955,425 10 7)65,12( 25 4 1 11 Q Q f hf n lQ Terceiro quartil (Q3) Etapa 1: Ordem, ou posição, 3n/4 = 3(50)/4 = 37,5. Estatística Descritiva - 33 Etapa 2: A classe Q3 é a quinta classe. Etapa 3: Aplicar a fórmula 3Ql = 46 (classe em que se encontra o terceiro quartil). f = 37. h = 7. 3Qf = 6. 58,4658333,046 6 7375,37 46 4 3 3 33 Q Q f hf n lQ 3.5.5. Decis. Cálculo de um decil Di. Etapa 1: Calcular a ordem in/10. Em que i = 1, 2, 3, 4, 5, 6, 7, 8, 9. Etapa 2: Identificar a classe Di pela frequência acumulada (fac). Etapa 3: Aplicar a fórmula Di Dii f hf in lD 10 Em que: Dil = limite inferior da classe Di (classe em que se encontra o decil procurado). f = soma das frequências anteriores à classe Di. h = amplitude da classe Di. Dif = frequência da classe Di. 3.5.6. Percentis. Cálculo de um percentil Pi. Etapa 1: Calcular a ordem in/100. Em que i = 1, 2, 3,..., 98, 99. Etapa 2: Identificar a classe Pi pela frequência acumulada (fac). Estatística Descritiva - 34 Etapa 3: Aplicar a fórmula Pi Pii f hf in lP 100 Em que: Pil = limite inferior da classe Pi (classe em que se encontra o percentil procurado). f = soma das frequências anteriores à classe Pi. h = amplitude da classe Pi. Pif = frequência da classe Pi. 4. Gráficos – introdução. Gráficos facilitam a visualização dos valores e são muito utilizados na apresentação de dados estatísticos. Com a representação gráfica se perde informação, porque não existem mais as observações originais. Entretanto a perda é pequena e compensada pela concisão e facilidade de interpretação (Silva, 1999). Conforme Silva (1999) os seguintes aspectos devem ser observados na elaboração de um gráfico (por motivos estéticos): “o gráfico, em seu conjunto, deve enquadrar-se em um retângulo de dimensões torne agradável à vista”; “as figuras não devem ser nem muito largas, nem muito estreitas, devendo obedecer a um sentido estético”; “o gráfico, por seu objetivo de simplificar, deve conter somente algumas divisões da escala vertical; as linhas horizontais devem ser poucas, de modo a torná-lo agradável em relação à sua leitura e interpretação.” Elementos de um gráfico: “título geral, indicativo da situação estudada, a época e o local”; “as escalas e as respectivas unidades de medida”; Estatística Descritiva - 35 “a indicação das convenções adotadas (geralmente quando se representamos resultados das observações de uma mesma situação em duas ou mais regiões ou em datas diversas)”; “a fonte da informação de onde foram retirados os valores”. 4.1. Gráficos para descrever dados qualitativos. Para os dados qualitativos os gráficos mais usados são os de barras e o de setores (pizza). 4.1.1. Gráficos de barras Comparação entre categorias. As categorias são representadas por um retângulo de área proporcional ao seu valor. As barras podem ser verticais e são chamadas de colunas. A ordem de apresentação dos retângulos é indiferente, pois a série é ordenada segundo uma característica qualitativa. Não há, em geral, uma ordem 0 50.000 100.000 150.000 200.000 Gol Uno Palio Astra Automóveis nacionais vendidos: janeiro/agosto de 2000. 0 50.000 100.000 150.000 200.000 Gol Uno Palio Astra Automóveis nacionais vendidos: janeiro/agosto de 2000. Estatística Descritiva - 36 única técnica e lógica, diversas ordens podem ser determinadas conforme diversos critérios. Outros gráficos de barras comuns: 0 5 10 15 20 25 30 35 40 Produto A Produto B Exportações 2010 2011 0 10 20 30 40 Produto A Produto B Exportações 2011 2010 Estatística Descritiva - 37 4.1.2. Gráficos de setores Também são conhecidos como gráficos de pizza. Cada categoria corresponde a um setor (uma divisão) de um círculo. Geralmente usado quando se quer comparar o total de cada categoria com o conjunto total. 4.2. Gráficos para descrever dados quantitativos. Nesses gráficos os valores devem estar ordenados. Os mais usados são os histogramas, polígono de frequências, diagramas de dispersão. 4.2.1. Histograma Adequado para mostrar o comportamento de valores agrupados em classes (tabelas distribuição de frequência). É um gráfico composto de retângulos verticais adjacentes. No eixo horizontal são representados os intervalos de classe e no eixo vertical as frequências das classes. Em geral, os retângulos têm a mesma largura, o que equivale afirmar que a amplitude das classes é a mesma. O histograma pode ser construído tanto com frequência relativa quanto com frequência acumulada. Gol 50% Uno 17% Palio 26% Astra 7% Automóveis nacionais vendidos: janeiro/agosto de 2000. Estatística Descritiva - 38 Idade Fr e q u ê n c ia 6760534639322518 14 12 10 8 6 4 2 0 Idade, em anos, de 50 funcionários. 4.2.2. Polígono de frequência Gráfico usado para mostrar os dados de tabela de distribuição de frequência. No polígono as classes são indicadas pelos seus pontos médios e as alturas dos pontos indicam as frequências. Os segmentos de retas entre os pontos são traçados da esquerda para a direita começando e terminando no eixo horizontal. O polígono de frequência pode ser tanto com frequência relativa quanto com frequência acumulada. 4.2.3. Diagrama de dispersão Adequado para visualizar a relação entre duas variáveis. A representação gráfica é a mesma feita no plano cartesiano. 0 2 4 6 8 10 12 14 14,5 21,5 28,5 35,5 42,5 49,5 56,5 63,5 70,5 Fr e q u ên ci a Idade Idades, em anos, de 50 funcionários Estatística Descritiva - 39 Fonte: Pagano (2004). 4.2.4. Gráfico de pontos (dot-plot) Adequado para ilustrar o comportamento de valores individuais em relação ao conjunto desses valores. Idade 63564942352821 Gráfico de pontos de Idade 4.2.5. Gráfico de Séries Temporais. É um gráfico em que os dados foram coletados em instantes de tempo diferentes. 0 50 100 150 200 250 0 20 40 60 80 100 120 Ta xa d e m o rt al id ad e d e p o r 1. 00 0 n as ci d o s vi vo s Porcentagem imunizada contra DPT Estatística Descritiva - 40 O gráfico acima apresenta a série das exportações de suco concentrado de laranja em US $ 1.000.000 entre os anos de 1970 e 1980 e indica uma tendência de valores crescentes. 4.2.6. Ogiva. É um gráfico de linha que representa frequências acumuladas da mesma maneira que em uma tabela de distribuição de frequência acumulada. Pode ser construída com frequência acumulada crescente ou decrescente. 0 50 100 150 200 250 300 350 400 450 500 U S $ 1 .0 0 0 .0 0 0 Ano Exportações de suco concentrado de laranja 6 16 26 36 46 56 18 25 32 39 46 53 60 67 Fr e q u ê n ci a A cu m u la d a Idade Idade, em anos, de 50 funcionários. Estatística Descritiva - 41 Exercícios de fixação de estatística descritiva. Medidas de Tendência Central 1) (Vieira, 2008) Na Tabela 1 estão apresentados estaturas, em metros, pesos, em quilogramas, e pressão arterial, em milímetros de mercúrio de pacientes hospitalizados. Calcule a média, a mediana e a moda para cada variável. Tabela 1 Estaturas, em metros, pesos, em quilogramas, e pressão arterial, em milímetros de mercúrio de 11 pacientes hospitalizados. No. do paciente Estatura Peso Pressão arterial 1 1,75 90 180 2 1,58 60 200 3 1,80 80 140 4 1,65 76 220 5 1,80 70 170 6 1,73 65 150 7 1,68 72 140 8 1,65 70 140 9 1,65 75 180 10 1,75 70 160 11 1,65 70 140 2) (Vieira, 2008) Quatro pessoas reunidas numa sala têm, em média, 20 anos. Se uma pessoa com 40 anos entrar na sala, qual passa a ser a idade média do grupo? 3) (Triola, 2008) Os tempos de espera, em minutos, de clientes no Banco 1 (onde os clientes esperam em fila única) e no Banco 2 (onde os clientes esperam em filas individuais para cada um dos caixas) estão listados na tabela abaixo. Tabela 2 Banco 1 (fila única) 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Banco 2 (filas individuais) 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 Determine a média, a mediana e a moda para cada um dos conjuntos de dados. Estatística Descritiva - 42 4) (Martins, 2002) A média mínima para a aprovação em determinada disciplina é 5,0. Se um estudante obtém as notas: 7,5; 8,0; 6,0; 2,5; 2,0; 5,5; 4,0 nos trabalhos mensais da disciplina em questão, pergunta-se se ele foi ou não aprovado. 5) (Martins, 2002) Considerando a tabela apresentada, determine a moda. Tabela 5 Automóveis nacionais mais vendidos: janeiro/agosto de 2000. Veículos Quantidades vendidas Gol 166.158 Uno 58.556 Palio 86.776 Astra 22.006 Corsa 66.065 Vectra 23.162 Palio Weekend 18.997 Fiesta 24.586 Corsa Sedan 55.334 Parati 18.765 Fonte: Jornauto, São Paulo, agosto 2000. 6) (Martins, 2002) A seguir, é dada a distribuição da quantidade de defeitos por microcomputador para uma amostra de 100 aparelhos. Quantidade de defeitos por microcomputador 0 1 2 3 4 5 6 Número de aparelhos 15 28 20 14 10 7 6 a) Determine o número médio de defeitos por microcomputador. b) Determine a mediana da amostra. c) Determine a moda da amostra. 7) Calcule a média, a mediana e a moda da distribuição xi 3 4 7 8 12 fi 2 5 8 4 3 Estatística Descritiva - 43 8) Calcule a média, a mediana e a moda da distribuição xi 10 11 12 13 fi 5 8 10 6 9) Calcule a média, a mediana e a moda da distribuição xi 1 2 3 4 fi 1 3 5 2 10) Calcule a média, a mediana e a moda da distribuição xi 82 85 87 89 90 fi 5 10 15 8 4 Medidas de Dispersão ou de Variação 11) Calcule a amplitude total, a variância, o desvio padrão, o desvio médio e o coeficiente de variação (CV) dos dados da tabela do exercício 1. Qual a amostra mais homogênea? 12) Calcule a amplitude total, a variância, o desvio padrão, o desvio médio e o coeficiente de variação (CV) dos dados da tabela do exercício 3. Qual dos dois bancos apresentou atendimento mais homogêneo? 13) Calcule a amplitude total, a variância, o desvio padrão, o desvio médio e o coeficiente de variação (CV) dos dados da tabela do exercício 6. 14) Calcule a amplitude total, a variância, o desvio padrão, o desvio médio e o coeficiente de variação (CV) dos dados da tabela do exercício 7. 15) Calcule a amplitude total,a variância, o desvio padrão, o desvio médio e o coeficiente de variação (CV) dos dados da tabela do exercício 10. Respostas 1) Estatura (m) Peso (kg) Pressão arterial (mmHg) Média 1,70 72,5 165,5 Mediana 1,68 70 160 Estatística Descritiva - 44 Moda 1,65 70 140 2) 24 anos 3) Média Mediana Moda Banco 1 (fila única) 7,15 7,2 7,7 Banco 2 (filas individuais) 7,15 7,2 7,7 4) Sim, com média de aproximadamente 5,1. 5) Gol 6) a) 2,21 defeitos por microcomputador. b) 2 defeitos por microcomputador. c) 1 defeito por microcomputador. 7) média: 6,8; mediana: 7; moda: 7. 8) média: 11,6; mediana: 12; moda: 12. 9) média: 2,7; mediana: 3; moda: 3. 10) média:86,6 ; mediana: 87; moda: 87. 11) Estatura (m) Peso (kg) Pressão arterial (mmHg) Amplitude 0,22 30 80 Desvio padrão 0,071 7,866 27,336 Variância 0,005 m2 61,873 kg2 747,273 mmHg2 Desvio médio 0,061 5,603 22,314 CV 4,19% 10,84% 16,52% A amostra de estatura é a mais homogênea. Estatística Descritiva - 45 12) Banco 1 Banco 2 Amplitude 1,2 5,8 Desvio padrão 0,477 1,822 Variância 0,227 3,318 Desvio médio 0,41 1,49 CV 6,67% 25,48% O Banco 1apresentou atendimento mais homogêneo. 13) Amplitude = 6, Desvio padrão = 1,731, Variância = 2,996, Desvio médio = 1,425 e CV = 78,32% 14) Amplitude = 9, Desvio padrão = 2,719, Variância = 7,394, Desvio médio = 1,975 e CV = 39,88% 15) Amplitude = 8, Desvio padrão = 5,791, Variância = 33,532, Desvio médio = 1,854 e CV = 6,69% Exercícios diversos. 1) (AFC – CGU – 2008) - Uma distribuição de frequência com dados agrupados em classe forneceu os pontos médios de classes m e as respectivas frequências absolutas f abaixo: m f 49 7 52 15 55 12 58 5 61 1 Calcule a média aritmética simples dos dados. a) 52. b) 52,25. c) 53,35. Estatística Descritiva - 46 d) 54,15. e) 55. 2) (AFC – CGU – 2008) - Determine a mediana do seguinte conjunto de dados: 58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e 56. a) 28. b) 31. c) 44. d) 50. e) 56. 3) (AFC – CGU – 2008) - Dado o conjunto de dados da questão anterior, determine a amplitude interquartílica Q3 – Q1. a) 33. b) 37. c) 40. d) 46. e) 51. 4) (AFC – CGU – 2008) - Calcule o valor mais próximo do desvio-padrão da amostra representada pela distribuição de frequências abaixo representada pelos pontos médios das classes x e respectivas frequências f. x f 5 5 15 10 25 31 35 10 45 5 a) 1. b) 2,44. c) 5,57. d) 7,056. e) 10. Estatística Descritiva - 47 5) Um engenheiro ao calcular a média aritmética de uma amostra de 13 medidas obtém o valor 80g. Mas em seguida observa que os valores 50g, 70g e 100g devem ser desconsiderados do cálculo, pois foram medidos incorretamente. Qual será o novo valor da média? 6) Determine a média aritmética do seguinte conjunto de dados: 58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e 56. 7) Determine a moda do seguinte conjunto de dados: 58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e 56. a) 28. b) 31. c) 44. d) 50. e) o conjunto não tem moda. 8) Uma turma do ensino fundamental é formada por 5 crianças com idade igual a 10 anos, 5 com idade igual a 8 anos e 15 crianças com idade igual a 9 anos. Desse modo, a idade média destes alunos é, em anos: a) maior que 9 b) igual a 8 c) menor que 9 d) igual a 9 e) maior que 10 9) (MPU – 2004) A mediana é uma medida de posição usualmente utilizada na análise de distribuições de renda porque as distribuições de renda a) têm intervalos de classe distintos. b) sempre são normais. c) tipicamente são do tipo uniforme. d) geralmente se mostram bastante assimétricas. e) sempre são bimodais. Estatística Descritiva - 48 10) (MPU – 2004) A norma euclidiana n i i AX 1 2)( é mínima quando A é igual a) à média dos valores Xi. b) à mediana dos valores Xi. c) à moda dos valores Xi. d) ao primeiro quartil dos valores Xi. e) ao desvio padrão dos valores Xi. As questões 11, 12 e 13 dizem respeito ao enunciado seguinte: a distribuição de frequências de determinado atributo X é dada na seguinte tabela. Não existem observações coincidentes com os extremos das classes. Classes Frequências 2.000 – 4.000 18 4.000 – 6.000 45 6.000 – 8.000 102 8.000 – 10.000 143 10.000 – 12.000 51 12.000 – 14.000 41 11) (MPU – 2004) Assinale a opção que corresponde à amplitude interquartílica. a) 4.500,1 b) 6.200,2 c) 3.000,4 d) 3.162,6 e) 2.400,0 12) (MPU – 2004) Assinale a opção que corresponde ao ponto médio da classe modal. a) 3.000 b) 7.000 c) 10.000 d) 8.000 e) 9.000 Estatística Descritiva - 49 13 (MPU – 2004) Assinale a opção que corresponde à estimativa do valor x que não é superado por aproximadamente 80% das observações do atributo x. a) 12.000 b) 10.000 c) 10.471 d) 9.000 e) 11.700 14) (ESAF/AFPS/2002) Assinale a opção que dá o valor de “a” para o qual a equação 0)( 1 n i i ax é sempre verdadeira. a) A média dos valores x. b) A mediana dos valores x. c) A moda dos valores x. d) O desvio padrão dos valores x. e) O coeficiente de variação dos valores x. 15) (ESAF/Auditor Tesouro Municipal/Recife/2003) Em uma amostra, realizada para se obter informação sobre a distribuição salarial de homens e mulheres, encontrou- se que o salário médio vale R$ 1.200. O salário médio observado para os homens foi de R$ 1.300 e para as mulheres foi de R$ 1.100. Assinale a opção correta: a) O número de homens na amostra é igual ao de mulheres. b) O número de homens na amostra é o dobro do de mulheres. c) O número de homens na amostra é o triplo do de mulheres. d) O número de mulheres na amostra é o dobro do de homens. e) O número de mulheres na amostra é o quádruplo do de homens. Estatística Descritiva - 50 16) (ESAF/AFPS/2002) Numa pesquisa amostral, observa-se que o salário médio mensal dos indivíduos entrevistados é de R$ 500. Os salários médios de homens e mulheres são de R$ 600 e R$ 420, respectivamente. Assinale a opção que dá a relação entre o número de homens e de mulheres da amostra. a) O número de homens é o dobro do número de mulheres. b) O número de homens é 4/5 do número de mulheres. c) O número de homens é igual ao número de mulheres. d) O número de homens é 1/5 do número de mulheres. e) O número de homens é 3/5 do número de mulheres. Para efeito das questões 17 a 19, considere os seguintes dados: Idades dos funcionários da Empresa ALFA, em 01.01.90. Classe de Idades fi Ponto Médio (xi) 19,5 – 24,5 2 22 24,5 – 29,5 9 27 29,5 – 34,5 23 32 34,5 – 39,5 29 37 39,5 – 44,5 18 42 44,5 – 49,5 12 47 49,5 – 54,5 7 52 Total 100 17) (ESAF/AFRF/1996) Marque a opção que representa a média das idades dos funcionários em 01.01.90. a) 37,4 anos b) 37,8 anos c) 38,2 anos d) 38,6 anos e) 39,0 anos Estatística Descritiva - 51 18) (ESAF/AFRF/1996) Marque a opção que representa a mediana das idades dos funcionários em 01.01.90. a) 35,34 anos b) 35,73 anos c) 35,91 anos d) 37,26 anos e) 38,01 anos 19) (ESAF/AFRF/1996) Marque a opção que representa a moda das idades dos funcionários em 01.01.90. a) 35,97 anos b) 36,26 anos c) 36,76 anos d) 37,03 anos e) 37,31 anos Resolver as questões de números 20 e 21, baseando-se na tabela de frequência a seguir. Classe de Salário (em mil reais) Frequências Acumuladas (3; 6] 12 (6; 9] 30 (9; 12] 50 (12; 15] 60 (15; 18] 65 (18; 21] 68 20) (ESAF/APRF/2000) Quer-se estimar o salário médio anual para os empregados da Cia. Alfa. Assinale a opção que representa a aproximação desta estatística calculada com base na distribuição de frequências. a) 9,93 b) 15,00 c) 13,50 d) 10,00 e) 12,50 Estatística Descritiva - 5221) (ESAF/APRF/2000) Quer-se estimar o salário mediano anual da Cia. Alfa. Assinale a opção que corresponde ao valor aproximado desta estatística, com base na distribuição de frequências. a) 12,5 b) 9,60 c) 9,00 d) 12,00 e) 12,10 22) (ESAF/APRF/2002) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. A coluna Classes, na tabela de frequência, representa intervalos de valores de X em reais e a coluna P representa a frequência relativa acumulada. Não existem observações coincidentes com os extremos das classes. Classes P(%) 70 – 90 5 90 – 110 15 110 – 130 40 130 – 150 70 150 – 170 85 170 – 190 95 190 – 210 100 Assinale a opção que dá o valor médio amostral de X. a) 140,10 b) 115,50 c) 120,00 d) 140,00 e) 138,00 Estatística Descritiva - 53 As questões 23 e 24 referem-se a tabela de frequências a seguir. O atributo do tipo contínuo X, observado como um inteiro numa amostra de tamanho 100 obtida de uma população de 1000 indivíduos, produziu a tabela de frequências seguinte. Classes Frequência (f) 29,5 – 39,5 4 39,5 – 49,5 8 49,5 – 59,5 14 59,5 – 69,5 20 69,5 – 79,5 26 79,5 – 89,5 18 89,5 – 99,5 10 23) (ESAF/AFRF/2002/2) Assinale a opção que corresponde à estimativa da mediana amostral do atributo X. a) 71,04 b) 65,02 c) 75,03 d) 68,08 e) 70,02 24) (ESAF/AFRF/2002/2) Assinale a opção que corresponde ao valor modal do atributo X no conceito de Czuber. a) 69,50 b) 73,79 c) 71,20 d) 47,53 e) 80,10 Estatística Descritiva - 54 25) (ESAF/Fiscal de Tributos Estaduais/PA/1998) Uma empresa possui dois técnicos em informática recebendo salários, mensalmente, de R$ 3.400 cada um, quatro economistas recebendo R$ 4.500 cada um por mês um diretor de RH com salário mensal de R$ 7.000 e três outros profissionais recebendo R$ 5.500 cada um por mês. A média mensal destes salários é: a) 5.830 b) 6.830 c) 2.830 d) 3.830 e) 4.830 Resolva as questões de número 26 a 30 usando a distribuição de frequências a seguir. Classes Frequência 7 – 17 6 17 – 27 15 27 – 37 20 37 – 47 10 47 – 57 5 Total 56 26) Calcule o Intervalo interquartil. 27) Calcule a Mediana. 28) Calcular o D3. 29) Calcular o P80. 30) Refaça o exercício 26 por meio de percentis. Gabarito 1 2 3 4 5 6 7 8 9 10 C C D E 82 kg 43,8 E D D A 11 12 13 14 15 16 17 18 19 20 D E C A A B B D B A 21 22 23 24 25 26 27 28 29 B E A B E 15,67 30,5 24,2 40,8 Estatística Descritiva - 55 Exercícios com gráficos. 1) (FCC/BACEN/2006) O histograma de frequências absolutas a seguir foi elaborado com base nas informações contidas na revista “O Empreiteiro”, de junho de 2005, que demonstra o comportamento das empresas construtoras do ramo da construção civil do Brasil que obtiveram faturamento em 2004 maior ou igual a 15 milhões de reais e menor ou igual a 120 milhões de reais. Com base nestas informações, obteve-se a média aritmética do faturamento das empresas deste estudo, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Com relação ao total das empresas deste histograma, o valor encontrado para esta média pertence ao intervalo de classe que contém: a) 24% das empresas b) 16% das empresas c) 9% das empresas d) 7% das empresas e) 5% das empresas Estatística Descritiva - 56 12) (FCC/Agente Fiscal de Rendas/SP/2006) O histograma de frequências absolutas, abaixo, demonstra o comportamento dos valores arrecadados de um determinado tributo, no ano de 2005, em um região a ser analisada. Observação: Considere que todos os intervalos de classe do histograma são fechados à esquerda e abertos à direita. Utilizando as informações contidas neste histograma, calculou-se a média aritmética destes valores arrecadados considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Também calculou-se a mediana de tais valores pelo método da interpolação linear. Então, o módulo da diferença entre a média aritmética e a mediana é igual a: a) R$ 100,00 b) R$ 400,00 c) R$ 800,00 d) R$ 900,00 e) R$ 1.000,00 Estatística Descritiva - 57 13) (FCC/Analista Estatística/MPU/07) Considere o histograma da variável X a seguir, em que as frequências simples absolutas foram anotadas no interior dos retângulos. O valor do terceiro quartil de X é a) 40 b) 35 c) 30 d) 25 e) 12 14) (FCC/Regulação Estatística/ANSS/07) O histograma abaixo representa a distribuição das idades dos pacientes atendidos no ano de 2000 em uma clínica infantil expressa em anos. A idade que separa os 30% mais jovens é a) 3,5 b) 4,2 c) 4,4 d) 4,6 e) 5,0 Gabarito Estatística Descritiva - 58 1 2 3 4 5 6 7 8 9 10 E A A E D E B E D B 11 12 13 14 B A B D Referências Arango, Héctor Gustavo. Bioestatística: teórica e computacional. - 2. ed. – Rio de Janeiro: Guanabara Koogan, 2005. Martins, Gilberto de Andrade. Estatística geral e aplicada. -2. ed. – São Paulo: Atlas, 2002. Meyer, Paul L.. Probabilidade: Aplicações à Estatística. – 2.ed. - Rio de Janeiro: LTC, 2000. Pagano, Marcello; Gauvreau, Kimberlee. Princípios de bioestatística. São Paulo: Pioneira Thomson Learning, 2004. Silva, Paulo Afonso Lopes da. Probabilidades & estatística. Rio de Janeiro: Reichmann & Affonso Editores, 1999. Triola, Mario F. Introdução à Estatística. - 10. ed. - Rio de Janeiro: LTC, 2008. Vieira, Sonia. Introdução à bioestatística. – 4.ed.- Rio de Janeiro: Elsevier, 2008.
Compartilhar