Baixe o app para aproveitar ainda mais
Prévia do material em texto
MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE CAMPINA GRANDE UNIDADE ACADÊMICA DE AGRONOMIA E TECNOLOGIA DE ALIMENTOS DISCIPLINA: ESTATÍSTICA BÁSICA Estatística descritiva (Parte 3) Profª Railene Hérica Carlos Rocha 6. Análise de grandes conjuntos de dados Pg. 32 Introdução Organizar a informação! Arranjo ou subconjunto que apresentem características similares Dados agrupados (idade, peso, rendimento, altura) Tabelas, representação gráfica ou medidas numéricas Distribuição de freqüência Apresentação de dados a) Dados primários: Quando são publicados pela própria pessoa ou organização que os haja recolhido. Ex: Pesquisa experimental, tabelas do censo demográfico do IBGE. O que é mais seguro, trabalhar com fontes primárias ou secundárias ? Classificação dos dados: → Os dados são obtidos mediante um processo que envolve a observação ou mensuração de itens. b) Dados secundários: quando são publicados por outra organização. Ex: Anuários, livros, periódicos, arquivos, banco de dados. Coleta dos dados Coleta Direta: Quando é obtida diretamente da fonte Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta. 6. Tabelas a) Temporal: os dados são observados segundo a época de sua ocorrência. Tabela 1 – População brasileira no período de 1940 a 1970 Anos População 1940 41.236.315 1950 51.944.397 1960 70.119.071 1970 93.139.037 Fonte: IBGE. 6.1 Classificação das tabelas b) Geográfica: os dados são observados segundo o local onde ocorreram. Tabela 2 – c) Especificativa: os dados são agrupados segundo a modalidade (espécie) de ocorrência. Tabela 3 – Entrevistados segundo a distribuição ocupacional. Natal, 2001 Distribuição ocupacional N0 de entrevistados Artesanato 52 Gerencial 29 Serviços burocráticos 34 Trabalho não qualificado 65 Total 180 Fonte: IBGE. d) Mista ou de dupla entrada: corresponde a fusão de duas ou mais séries simples. Tabela 4 – Número de alunos em uma exposição de pinturas segundo o sexo e o tipo de arte preferida. São Paulo, 2000 Tipo de arte Sexo Clássica Moderna Masculino 80 70 Feminino 20 30 Fonte: livro de estatística. - Título: explica o que a tabela contém. - Cabeçalho: indica o conteúdo das colunas. - Coluna indicadora: indica o conteúdo das linhas. - Corpo: células onde são registrados os dados. - Rodapé: notas de identificação da fonte de onde foram coletados os dados. NÚMERO TABELA 2.1 Arrecadação do imposto sobre a renda, segundo os tipos, no Paraná – 2004 - 2006 TÍTULO CABEÇALHO Arrecadação (R$) TIPOS 2004 2005 2006 (1) CORPO Coluna indicativa Pessoa Física 175.378 210.475 240.777 Pessoa Jurídica 704.255 584.639 981.221 Retido na fonte 1.089.872 1.388.436 1.513.980 Total 1.969..485 2.183.550 2.735.938 Rodapé Fonte: SRRF Nota: Dados extraídos do BDE - IPARDES Nota (1) Dados sujeitos à retificação Nota especificada (chamada) 6.2 Componentes da tabela 7.1 Distribuições de freqüências Safra mensal (Kg/árvore) para 40 pés de acerola 11,1 12,5 32,4 7,8 21,0 16,4 11,2 22,3 4,4 6,1 27,5 32,8 18,5 16,4 15,1 6,0 10,7 15,8 25,0 18,2 12,2 12,6 4,7 23,5 14,8 22,6 16,0 19,1 7,4 9,2 10,0 26,2 3,5 16,2 14,5 3,2 8,1 12,9 19,1 13,7 Método de agrupamento de dados em classes ou intervalos Facilidade para lidar com grande qnt. de dados Dados brutos É um agrupamento de dados em classes, exibindo o número ou porcentagem de observações em cada classe. Pode ser apresentada sob a forma gráfica ou tabular Distribuição de freqüência ??? Depende dos tipos de dados: NÍVEL DE MENSURAÇÃO QUALITATIVAS: suas realizações são atributos dos elementos pesquisados. QUANTITATIVAS (intervalares): suas realizações são números resultantes de contagem ou mensuração Nominais: apenas identificar as categorias Ordinais: é possível ordenar as categorias Discretas: podem assumir apenas alguns valores Contínuas: podem assumir infinitos valores Sexo, Naturalidade Classe social Número de filhos Temperatura, velocidade 7.1.1 Distribuição de freqüência para dados contínuos 1) Intervalo de dados (I): Maior safra: 32,8 Menor safra: 3,2 2) Número de classe (k): Recomendado: 5 a 15 Regra prática (Sturges): K ≈ 1 + 3,3 log n, Para 40 árvores de acerola: 40 = 6,15 ≈ 6 Construção da distribuição de freqüência para a safra de acerola: Exemplo: Organização: Dados brutos rol I = 29,6 3) Amplitude da classe: nº de elementos por classe I/k I: intervalo; k: classe 29,6/6 = 4,93 ~ 5 4) Estabelecer os intervalos: 1ª Classe: 3 a 8 2ª Classe: 8 a (8 + 5) 13 3ª Classe: 13 a (13 + 5) 18 4ª Classe: 18 a (18 + 5) 23 5ª Classe: 23 a (23 + 5) 28 6ª Classe: 28 a (28 + 5) 33 Limite inferior: 3 Limite superior: 3 + 5 (amplitude) = 8 5) Contagem Classe Contagem [ 3 - 8 ) 8 [ 8 - 13 ) 10 [ 13 - 18 ) 9 [ 18 - 23 ) 7 [ 23 - 28 ) 4 [ 28 - 33 ) 2 Total: 40 Safra mensal (Kg/árvore) para 40 pés de acerola 3,2 3,5 4,4 4,7 6,0 6,1 7,4 7,8 8,1 9,2 10,0 10,7 11,1 11,2 12,2 12,5 12,6 12,9 13,7 14,5 14,8 15,1 15,8 16,0 16,2 16,4 16,4 18,2 18,5 19,1 19,1 21,0 22,3 22,6 23,5 25,0 27,5 26,2 32,4 32,8 Rol 6) Distribuição de freqüência Kg/árvore Número de árvores Percentagem de árvores [ 3 - 8 ) 8 8/40 = 0,200 [ 8 - 13 ) 10 10/40 = 0,250 [ 13 - 18 ) 9 9/40 = 0,255 [ 18 - 23 ) 7 7/40 = 0,175 [ 23 - 28 ) 4 4/40 = 0,100 [ 28 - 33 ) 2 2/40 = 0,050 Total: 40 1,000 Distribuição de freqüência para a safra de acerola 7) Histograma de freqüência 3 8 13 18 23 28 33 0,00 0,10 0,20 0,30 8 13 18 23 28 33 0,00 0,10 0,20 0,30 8) Histograma e polígono de freqüência 7.1.2 Distribuição de freqüência para dados discretos Considere: Dados relativos ao número de acidentes diários num grande estacionamento durante 50 dias. 6 9 2 7 0 8 2 5 4 2 5 4 4 4 4 2 5 6 3 7 3 8 8 4 4 4 7 7 6 5 4 7 5 3 7 1 3 8 0 6 5 1 2 3 6 0 5 6 6 3 Números inteiros de 0 a 9 6 9 2 7 0 8 2 5 4 2 5 4 4 4 4 2 5 6 3 7 3 8 8 4 4 4 7 7 6 5 4 7 5 3 7 1 3 8 0 6 5 1 2 3 6 0 5 6 6 3 Classe Nº Acidentes % Acidentes 0 3 0,06 1 2 0,04 2 5 0,10 3 6 0,12 4 9 0,18 5 7 0,14 6 7 0,14 7 6 0,12 8 4 0,08 9 1 0,02 Distribuição de freqüência Classe Nº Acidentes % Acidentes 0 – 1 5 0,10 2 – 3 11 0,22 4 – 5 16 0,32 6 – 7 13 0,26 8 – 9 5 0,10 Total: 50 1,00 Total: 50 1,00 Ou 5 10 15 20 0 1 2 3 4 5 6 7 8 9 a) Sem perda de informação N úm e ro d e a ci d e nt e s 5 10 15 20 0 - 1 2 - 3 4 - 5 6 - 7 8 - 9 b) Com perda de informação N úm e ro d e a ci d e nt e s Prefere-se uma distribuição de freqüência sem perda de informação, quando: Os dados são constituídos de valores inteiros; Há menos de 16 dados; Há suficientes observações para originar uma distribuição significativa. Prefere-se uma distribuição de freqüência em que o agrupamento ocasiona perda de informação, quando: Os dados são inteiros e não inteiros ( ou não inteiros, somente); Grande quantidade de dados inteiros; A perda de informação éde importância secundária. 7.1.3 Construção de uma distribuição de freqüência acumulada Objetivo: Indicar o número ou percentagem de itens menores do que, ou iguais a, determinado valor. a) Sem perda de informação Classe % Acidentes Freqüências acumuladas 0 0,06 0,06 1 0,04 0,04 + 0,06 = 0,10 2 0,10 0,10 + 0,10 = 0,20 3 0,12 0,12 + 0,20 = 0,32 4 0,18 0,18 + 0,32 = 0,50 5 0,14 0,14 + 0,50 = 0,64 6 0,14 0,14 + 0,64 = 0,78 7 0,12 0,12 + 0,78 = 0,90 8 0,08 0,08 + 0,90 = 0,98 9 0,02 0,02 + 0,98 = 1,00 1,0 b) Com perda de informação Classe % Acidentes Freqüências acumuladas 0 – 1 0,10 0,10 2 – 3 0,22 0,22 + 0,10 = 0,32 4 – 5 0,32 0,32 + 0,32 = 0,64 6 – 7 0,26 0,26 + 0,64 = 0,90 8 – 9 0,10 0,10 + 0,90 = 1,00 0 1 2 3 4 5 6 7 8 9 0,00 0,20 0,80 1,00 0,60 0,40 a) Sem perda de informação F re qü ê nc ia a cu m ul ad a b) Com perda de informação 0,20 0,40 0,60 0,80 1,00 0 - 1 2 - 3 4 - 5 6 - 7 8 - 9 F re qü ên ci a ac um ul ad a 7.1.4 Distribuição de freqüência para dados qualitativos Dados nominais sobre venda de bebidas leves Freqüências Tipo Vendas absolutas Vendas relativas Cola 600 60% Limão 200 20% Laranja 100 10 Uva 50 5% Cereja 40 4% Outros 10 1% 1000 100% Exemplo 1: Venda de bebidas leves em um dia. 0 10 20 30 40 50 60 Cola Limão Laranja Uva Cereja Outros V e nd as r e la ti va s (% ) Gráfico. Venda de bebidas leves. Tabela 1. Automóveis nacionais mais vendidos: janeiro/agosto de 2000. Exemplo 2: Gráficos. Automóveis nacionais mais vendidos: janeiro/agosto de 2000. Gráficos. Automóveis nacionais mais vendidos: janeiro/agosto de 2000. Exercício em sala ... Uma amostra de 50 estudantes apontou o seguinte rol de notas de Química (Avaliações de 0 a 100): 33 – 35 – 35 – 39 – 41 – 41 – 42 – 45 – 47 – 48 50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 – 60 – 60 61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68 69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78 80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97 a) Construa uma tabela de distribuição de freqüência em classe contendo as freqüências absoluta, relativa e acumulada b) Construa o histograma e polígono de freqüência absoluta dos dados da amostra. 7.1.5 Medidas para grande conjunto de dados São idênticas às medidas para pequenos conjuntos de dados Média Mediana Moda Amplitude total Variância ou Quadrado médio Desvio padrão Coeficiente de variação Medidas de tendência central Medidas de dispersão a) Determinação da média de uma distribuição de freqüência x = fixi n fi: frequência da i-ésima classe; n: número de observações (igual a fi) Exemplo 1: i xi fi fixi 1 0 2 2 5 4 3 10 5 4 15 10 5 20 2 6 25 1 7 30 1 n = 25 Resolver Calcule a média para a distribuição de freqüência simples: 7.1.5.1 Medidas de tendência central Exemplo 2: Calcule a média para a distribuição de freqüência em dados agrupados: Classe PM Ponto médio da classse fi Freqüência fixi [ 0 - 10 ) 5 2 [ 10 - 20 ) 15 1 [20 - 30 ) 25 5 [30 - 40 ) 35 8 [ 40 - 50 ) 45 4 n = 20 Resolver PM: Ponto médio da classe fi: frequência da i-ésima classe; n: número de observações b) Determinação da mediana de uma distribuição de freqüência Para dados discretos: Processo para determinar a mediana: 1º: Ordenar os valores 2º: Verificar se há um número ímpar ou par de valores 3º: Se n for ímpar: elemento central de ordem n + 1 Se n for par: média entre os elementos centrais, de ordem n e n + 1. 2 2 2 Exemplo: Calcular a mediana para as distribuições: a) n ímpar xi fi fac 1 1 1 2 3 4 3 5 9 4 2 11 11 n = 11, ímpar Mediana = n + 1, ou seja 11 + 1 = 6º 2 2 Contém o 6º elemento b) n par xi fi fac 82 5 5 85 10 15 87 15 30 89 8 38 90 4 42 42 n = 42, par Mediana = n e n + 1 Mediana = 42 = 21º e 42 + 1 = 22º 2 2 2 2 b) Determinação da mediana de uma distribuição de freqüência 1º Passo: calcula-se a ordem n/2, independentemente se n é par ou ímpar 2º Passo: Pela Fac, identifica-se a classe que contém a mediana 3º Passo: utiliza-se a fórmula: linf = lim. inf. da classe que contém a mediana n = número de elementos do conjunto de dados fa = soma das freqüências acumuladas das classes anteriores a que contém a Md fmd = freqüência da classe absoluta que contém a mediana hmd = amplitude da classe que ontem a mediana Para dados contínuos: Exemplo: Dada a distribuição amostral, calcular a mediana. 1 - n / 2 = 58 / 2 = 29. 2 - Pela Fac, identifica-se a classe que contém a mediana (terceira). 3 – Utiliza-se a fórmula: Md = 55 + (58 / 2 – 17)/18 x 10 = 61,57 Intervalo de classes fa fac [35, 45) 5 5 [45, 55) 12 17 [55, 65) 18 35 [65, 75) 14 49 [75, 85) 6 55 [85, 95) 3 58 ∑ 58 - 61,57 50% 50% c) Determinação da moda de uma distribuição de freqüência Calcule a moda para a distribuição de freqüência simples: Exemplo: xi 243 245 248 251 307 fa 7 17 23 20 8 Mo= 248 Distribuição de freqüência simples Mo é o elemento que apresenta maior freqüência Mo para distribuição de freqüência de dados agrupados (Contínuos): Passos: 1º Identifica-se a classe modal (maior freqüência) 2º Aplica-se a fórmula: Linf = limite inferior da classe modal d1 = diferença entre a freqüência da classe modal e a da classe imediatamente anterior d2 = diferença entre a freqüência da classe modal e a da classe imediatamente posterior h = amplitude da classe modal Classes fi Fac 41 46 3 3 46 51 10 13 51 56 19 32 56 61 12 39 61 66 8 47 66 71 2 49 71 76 1 50 Total 50 Mo= 51 + (9/9 + 7) x 5 = 53,81 Exemplo: Determinar a moda para a distribuição: Intervalo de classes fa fac , , , , , , , ) ) ) ) ) ) ) 7.1.5.2 Medidas de dispersão Dada pela diferença entre o maior e menor valor do conjunto de dados Dá uma idéia do campo de variação dos elementos (pouca informação) a) Amplitude total Dados não agrupados: A = xmax – xmin Exemplo 1: Série = 10, 12, 22, 25, 33 e 38 A = ? Resolver Exemplo 2: Calcule a amplitude referente as notas dos alunos abaixo. Alunos Notas (5 avaliações) X A Antônio 5 5 5 5 5 5 ? João 6 4 5 4 6 5 ? José 10 5 5 5 0 5 ? Pedro 10 10 5 0 0 5 ? Resolver Amplitude para uma distribuição de freqüência simples: Exemplo: Seja Xi o número de frutos de melão abaixo do peso de comercialização, em Mossoró-RN, no período de observação de 11 dias. Calcule a amplitude total. Xi fa 1 1 2 3 3 5 4 2 11 ∑ A = ? Resolver Amplitude para dados agrupados com intervalo de classes: Exemplo: Seja Xi o consumo mensal de leite “ in natura ” em litros de 80 famílias de uma comunidade rural do município de Mossoró-RN. Determine a amplitude total. → Primeiro critério: At = LS da Última Classe – LI da Primeira Classe → Segundo critério: At = PM da Última Classe – PM da Primeira Classe Classes fa PM 0 – 2 10 1 2 – 4 183 4 – 6 50 5 6 – 8 2 7 80 - ∑ Resolver - É a medida de dispersão mais utilizada. - É a média do quadrado dos desvios. b) Variância ou quadrado médio Usa-se n-1 se a variância é considerada uma estimativa da população (n < 25) Usa-se n se os dados constituem por si uma população (n > 25) S² amostra ² populacional Sx 2 = fixi 2 - [( fixi) 2/n] n -1 xi fi xifi xi² Xi²fi 0 3 0 0 0 1 4 4 1 4 2 3 6 4 12 3 2 6 9 18 4 2 8 16 32 6 1 6 36 36 15 30 - 102 Exemplo 1: Resolver Classes fi xi fixi xi² fixi² [35, 45) 5 40 200 1600 8000 [45, 55) 12 50 600 2500 30000 [55, 65) 18 60 1080 3600 64800 [65, 75) 14 70 980 4900 68600 [75, 85) 6 80 480 6400 38400 [85, 95) 3 90 270 8100 24300 ∑ 58 3610 234100 Dados agrupados Sx 2 = fixi 2 - [( fixi) 2/n] n - 1 Resolver Exemplo 2: - Atenção: na variância a unidade de medida é igual ao quadrado da unidade de medida dos dados. Ex: Se os dados estão em metros (m), o valor da variância encontrada corresponde a metros quadrados c) Desvio padrão É a raiz quadrada positiva da variância (sigma) desvio padrão da população S desvio padrão da amostra Exemplos 1 e 2: calcular do resultado anterior item (b) Resolver d) Coeficiente de variação: É a relação ente o desvio-padrão e a média. CV = S . 100 x Conforme os exemplos anteriores ... Exemplos 1 e 2: calcular do resultado anterior item (c) Resolver 7.1.5.3 Gráficos de distribuições de freqüências
Compartilhar