Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 UNIVERSIDADE FEDERAL DO CEARÁ PRÓ-REITORIA DE GRADUAÇÃO CENTRO DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA PROF. DR. JOÃO WELLIANDRE CARNEIRO ALEXANDRE NOTAS DE AULA DE ESTATÍSTICA BÁSICA Fortaleza –CE 2 Sumário 1. ESTATÍSTICA DESCRITIVA .................................................................................................. 4 1.1 CONSIDERAÇÕES GERAIS ............................................................................................... 4 1.2 CONCEITOS IMPORTANTES ............................................................................................ 5 1.3 FASES DO MÉTODO ESTATÍSTICO ................................................................................ 8 1.4 SÉRIES ESTATÍSTICAS ..................................................................................................... 9 1.5 ELABORAÇÃO DE TABELAS ESTATÍSTICA .............................................................. 12 1.6 APRESENTAÇÃO GRÁFICA ........................................................................................... 13 2. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS ......................................... 24 2.1 MEDIDAS DE TENDÊNCIA CENTRAL ......................................................................... 24 2.2 ANÁLISE DE PEQUENOS CONJUNTOS DE DADOS ................................................... 25 2.3 MEDIDAS DE VARIABILIDADE .................................................................................... 29 3. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS (CONTINUAÇÃO) ........ 34 3.1 ANÁLISE DE GRANDES CONJUNTOS DE DADOS ..................................................... 34 3.2 DISTRIBUIÇÃO DE FREQUÊNCIA PARA DADOS AGRUPADOS EM CLASSES .... 37 3.3 GRÁFICOS REPRESENTATIVOS PARA DISTRIBUIÇÕES DE FREQUÊNCIA ........ 41 3.4 MEDIDAS DE ASSIMETRIA ............................................................................................ 43 4. PROBABILIDADE................................................................................................................... 45 4.1 INTRODUÇÃO ................................................................................................................... 45 4.2 EXPERIMENTO ALEATÓRIO ......................................................................................... 45 4.3 ESPAÇO AMOSTRAL ....................................................................................................... 45 4.4 EVENTO ............................................................................................................................. 46 4.5 UNIÃO DE EVENTOS ....................................................................................................... 46 4.6 EVENTOS MUTUAMENTE EXCLUSIVOS .................................................................... 46 4.7 DEFINIÇÃO........................................................................................................................ 46 4.8 CONSEQUÊNCIAS DA DEFINIÇÃO............................................................................... 47 4.9 MODELO EQUIPROBABILÍSTICO ................................................................................. 47 4.10 PROBABILIDADE CONDICIONAL .............................................................................. 48 4.11 REGRA DO PRODUTO ................................................................................................... 49 4.12 EVENTOS INDEPENDENTES........................................................................................ 50 ....................................................................................................................................................... 5.VARIÁVEIS ALEATÓRIAS DISCRETAS ............................................................................ 56 5.1 INTRODUÇÃO ................................................................................................................... 56 5.2 DISTRIBUIÇÃO UNIFORME DISCRETA ...................................................................... 58 5.3 DISTRIBUIÇÃO DE BERNOULLI ................................................................................... 58 5.4 DISTRIBUIÇÃO BINOMIAL ............................................................................................ 59 5.5 DISTRIBUIÇÃO HIPERGEOMÉTRICA .......................................................................... 60 5.6 DISTRIBUIÇÃO DE POISSON ......................................................................................... 62 6.VARIÁVEIS ALEATÓRIAS CONTÍNUAS ............................................................................ 66 6.1 INTRODUÇÃO ................................................................................................................... 66 6.2 MODELO UNIFORME CONTÍNUO ................................................................................ 68 6.3 DISTRIBUIÇÃO NORMAL ............................................................................................... 68 6.4 DISTRIBUIÇÃO NORMAL PADRÃO ............................................................................. 70 6.5 DISTRIBUIÇÃO EXPONENCIAL .................................................................................... 72 6.6 DISTRIBUIÇÃO GAMA .................................................................................................... 73 6.7 DISTRIBUIÇÃO BETA ..................................................................................................... 74 6.8 DISTRIBUIÇÃO WEIBULL .............................................................................................. 74 7.AMOSTRAGEM E ESTIMAÇÃO ........................................................................................... 77 7.1 INTRODUÇÃO ................................................................................................................... 77 7.2 POPULAÇÃO E AMOSTRA ............................................................................................. 77 3 7.3 PROBLEMAS DE INFERÊNCIA ...................................................................................... 78 7.4 COMO SELECIONAR UMA AMOSTRA ........................................................................ 79 7.5 AMOSTRAGEM DE UMA POPULAÇÃO FINITA ......................................................... 80 7.6 PLANOS DE AMOSTRAGEM .......................................................................................... 85 8.DISTRIBUIÇÕES AMOSTRAIS .............................................................................................. 86 8.1 INTRODUÇÃO ................................................................................................................... 86 8.2 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA ..................................................................... 86 8.3 TEOREMA DO LIMITE CENTRAL ................................................................................. 88 8.4 DISTRIBUIÇÕES DE PROPORÇÕES AMOSTRAIS ...................................................... 89 8.5 AMOSTRAGEM DE UMA POPULAÇÃO FINITA ......................................................... 90 9.ESTIMAÇÃO ............................................................................................................................ 93 9.1 EXEMPLOS DE ESTIMATIVAS ...................................................................................... 93 9.2 DEFINIÇÃO........................................................................................................................ 93 9.3 INTERVALO DE CONFIANÇA ........................................................................................ 94 9.4 ESTIMAÇÃO DA MÉDIA DE UMA POPULAÇÃO ....................................................... 95 9.5 INTERVALO DE CONFIANÇA PARA PROPORÇÃO ................................................... 99 9.6 DISTRIBUIÇÃO AMOSTRAL DAS DIFERENÇAS..................................................... 100 9.7 INTERVALOS DE CONFIANÇA PARA DIFERENÇAS .............................................. 102 10.ESTIMAÇÃO (CONTINUAÇÃO) ....................................................................................... 106 10.1 ESTIMAÇÃO PONTUAL E VARIÂNCIA POPULACIONAL .................................... 106 10.2 INTERVALO DE CONFIANÇA PARA VARIÂNCIA POPULACIONAL ................. 107 10.3 INTERVALO DE CONFIANÇA PARA RAZÃO DE VARIÂNCIAS ......................... 111 11.TESTES DE HIPÓTESES ..................................................................................................... 117 11.1 INTRODUÇÃO ............................................................................................................... 117 11.2 ELEMENTOS PARA TESTES DE HIPÓTESES .......................................................... 119 11.3 IDENTIFICAÇÃO DA DISTRIBUIÇÃO AMOSTRAL ADEQUADA ........................ 121 11.4 NÍVEL DE SIGNIFICÂNCIA DO TESTE ..................................................................... 122 11.5 ROTEIRO PARA TOMADA DE DECISÕES ............................................................... 123 11.7 TIPOS DE TESTES DE SIGNIFICÂNCIA .................................................................... 124 4 1. ESTATÍSTICA DESCRITIVA 1.1. CONSIDERAÇÕES GERAIS 1.1.1. O que é Estatística? É possível distinguir duas concepções para a palavra Estatística: a. No plural (estatísticas), indica qualquer coleção consistente de dados numéricos com a finalidade de fornecer informações acerca de uma atividade qualquer. b. No singular indica a atividade humana especializada, ou um corpo de técnicas, ou ainda uma metodologia desenvolvida para coleta, a apresentação, organização, a análise e a interpretação de dados quantitativos e sua utilização para tomada de decisões. Por b a utilização dessas técnicas, destinada à análise de situações complexas ou não, tem aumentado e faz parte do nosso cotidiano. Tome-se, por exemplo, as transmissões esportivas. Em jogos de futebol, o número de escanteios, número de faltas cometidas e o tempo de posse de bola são dados fornecidos ao telespectador e fazem com que as conclusões sobre qual time foi o melhor em campo se torne objetiva (não que isso implique em quem tenha sido o vencedor...). O que tem levado a essa quantificação de nossas vidas no dia-a-dia? Um fator importante é a popularização dos computadores. Atualmente grande quantidade de informações pode ser analisada rapidamente, com programas adequados, o que antes, era um trabalho bastante lento e tedioso. Assim é necessária a compreensão dos conceitos básicos da Estatística, bem como as suposições necessárias para seu uso de forma criteriosa. 1.1.2. O papel da Estatística A indústria Americana, por exemplo, tem de continuar a melhorar a qualidade de seus produtos e serviços se quiser continuar a competir efetivamente nos mercados interno e externo. Uma porção significativa desse esforço de melhoria da qualidade será comandada por engenheiros e cientistas, porque esses são os indivíduos que projetam e desenvolvem novos produtos e sistemas, sendo também aqueles que melhoram os sistemas existentes. 1.1.3. Resolução de Problemas Os engenheiros são pessoas que resolvem problemas de interesse social pela aplicação eficiente de princípios científicos. Eles executam isso através de processos que encontrem a necessidade dos consumidores. Os métodos estatísticos ajudam a resolver esses problemas. As etapas são as seguintes: a. Desenvolver uma descrição clara e concisa do problema. b. Identificar os fatores importantes que afetam esse problema ou que ajudem a sua resolução. c. Propor um modelo para o problema. d. Conduzir experimentos apropriados e coletar dados para testar ou avaliar o modelo ou conclusões feitas nas etapas a e b. e. Refinar o modelo, com base nos dados observados. f. Manipular o modelo de modo a ajudar o desenvolvimento da solução do problema. g. Conduzir um experimento apropriado para confirmar que a solução é efetiva. h. Tirar conclusões ou fazer recomendações baseadas na solução do problema. 5 1.1.4. A Estatística Descritiva e Inferência estatística Estatística Descritiva: É extremamente difícil captar intuitivamente todas as informações que os dados contém. É necessário, portanto, que estas informações sejam reduzidas até o ponto em que se possa interpretá- las mais claramente. Em outras palavras, é indispensável resumi-las, através de certas medidas, sínteses, mais comumente conhecidas como estatísticas descritivas ou simplesmente estatísticas. Então, Estatística Descritiva é um número que, sozinho, descreve uma característica de um conjunto de dados. Em um sentido mais amplo, a Estatística Descritiva pode ser interpretada como uma função cujo objetivo é a observação de fenômenos da mesma natureza, a coleta de dados numéricos referentes a esses fenômenos, a organização e classificação desses dados observados e a apresentação através de gráficos e tabelas, além do cálculo de medidas (estatísticas) que permitem descrever resumidamente os fenômenos. Inferência Estatística: A Inferência Estatística refere-se ao processo de generalização feito a partir de resultados particulares. Consiste em obter e generalizar conclusões para o todo, com base no particular. O processo de generalização está associado a uma margem de incerteza. A existência da incerteza deve-se ao fato de que a conclusão que se pretende obter para o todo, baseia-se em uma parcela do total. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria da probabilidade. 1.2. CONCEITOS IMPORTANTES 1.2.1. População: 1. Estatística Descritiva Consistência de dados Interpretações iniciais 1. Inferência Estatística Estimação de quantidades desconhecidas Extrapolação dos resultados Teste de Hipóteses 6 O conjunto da totalidade dos indivíduos sobre o qual se faz uma inferência recebe o nome de população ou universo. Em linguagem mais formal, é o conjunto constituído por indivíduos ou objetos que apresentam, pelo menos, uma característica em comum, cujo comportamento interessa fazer análise. As características da população são chamadas de parâmetros, os quais são valores fixos e ordinariamente desconhecidos. É importante ficar bem claro que uma população é estudada em termos de observações de características nos indivíduos, e não em termos de pessoas ou objetos em si. Ex: - Resistência à compressão de 80 corpos de prova da liga de alumínio - Matrículas de alunos no curso de Engenharia de Produção Mecânica da UFC, 2004.2. - Produção de espaçonaves pela Companhia Boeing, em 2004. - Dados das medidas de viscosidade para um produto químico observado de hora em hora. 1.2.1.1 Tipos de População: a. Finita É a população onde se consegue contar todos os elementos que a formam, ou seja, possui um número limitado de elementos. Ex.: Número de trabalhadores contratados entre os anos de 1994 a 2004 pela Empresa Materials Engineering. b. Infinita A população onde não se consegue contar todos os elementos que a formam. Geralmente está associada à processos, e o número de observações tende a ser infinito, dando origem a uma população infinita. Uma população infinita deverá, então, ser concebida como um esquema conceitual e teórico. Ex.: Um técnico de laboratório pesando certo material. Por maior que seja o cuidado na experimentação ele poderia, em cada pesagem, obter uma leitura de certo modo diferente. 1.2.2. Amostra É um subconjunto,uma parte selecionada da totalidade de observações abrangidas pela população, através do qual se faz um juízo ou inferência sobre as características da população. As características da amostra são chamadas estatísticas descritivas, como apresentam os exemplos abaixo: a. Estudo sobre o conteúdo de ferro natural exportado por um navio. População: todo o minério de ferro a ser exportado. Amostra: parte do minério a ser exportado. b. Estudo sobre os alunos matriculados na disciplina Introdução à Estatística na UFC, 2004.2. População: alunos matriculados em Introdução à Estatística. Amostra: cem alunos matriculados em Introdução à Estatística, escolhidos aleatoriamente. 7 c. Estudo da situação sócio-econômica dos habitantes de Fortaleza, com renda entre 1 e 5 salários mínimos, 2004. População: habitantes de Fortaleza com renda entre 1 e 5 salários mínimos. Amostra: 20% dos habitantes de Fortaleza com renda entre 1 e 5 salários mínimos, escolhidos ao acaso. 1.2.3. Amostragem É a técnica de extrair amostras de uma população e apresenta dois tipos, a amostragem Probabilística (aleatória simples, estratificada, por sistemática, por conglomerado) e Não Probabilística (conceitos que serão vistos posteriormente). A amostragem também pode ser sem reposição e com reposição a. Sem reposição É quando não verificamos repetições de elementos na amostra, ou seja, cada elemento não pode ser escolhido mais de uma vez. b. Com reposição É quando verificamos repetições de elementos na amostra, ou seja, cada elemento pode ser escolhido mais de uma vez. 1.2.4. Variáveis e dados Em qualquer estudo envolvendo indivíduos, objetos, fenômenos da natureza, etc., estamos interessados em algumas características dos mesmos, que chamamos de variáveis. Aos resultados possíveis dessas características chamamos de dados. Os dados relativos a unidades experimentais e a fenômenos químicos ou físicos são coletados diretamente pelo pesquisador, enquanto os dados relativos a indivíduos podem ser coletados tanto pelo pesquisador como através de declaração feita pelos próprios indivíduos. Um mesmo elemento pode fornecer diversos dados e os dados coletados se referem a determinadas variáveis. Ex.: Um pesquisador aplicou um questionário aos alunos do curso de Engenharia de Produção Mecânica da UFC. Selecionando alguns alunos ao acaso, foram obtidos vários dados relativos ao sexo, estado civil, idade, número de vezes que vai ao cinema por semana, se fuma ou não, remuneração mensal, atividade física (veja lista de exercícios), que constituem variáveis. De um modo geral, para cada elemento investigado, tem-se associado um resultado (ou mais de um resultado) correspondendo à realização de certa variável (ou variáveis). Na variável, estado civil, por exemplo, para cada aluno temos associado solteiro, casado ou outros. 1.2.5 Classificação das Variáveis Algumas variáveis como sexo, atividade física, fumar e estado civil, apresentam como possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras, como número de vezes que vai ao cinema, idade, remuneração mensal apresentam como possíveis realizações números resultantes de uma contagem ou mensuração. As variáveis do primeiro tipo são chamadas qualitativas e as do segundo tipo são chamadas quantitativas. a. Qualitativas 8 Variáveis Qualitativas Nominais: quando o dado se apresenta sob o aspecto qualitativo. Ex.: Sexo, cor, estado civil, causa de morte, tipo de doença, profissão, etc. Observe que, quem é branco não é melhor do que quem é negro. Variáveis Qualitativas Ordinais: quando os valores das variáveis são atribuídos para denotar uma ordenação natural. Ex.: Grau de instrução, status social, estágio de uma doença, patente militar, conceito escolar, cargo que ocupa na empresa, etc.Neste caso, quem tem uma graduação é muito melhor do que quem tem apenas o primeiro grau. b. Quantitativas Variáveis Quantitativas Discretas: de uma maneira mais geral, são todas as variáveis numéricas cujos valores se obtém a partir de procedimento de contagem. Ex.: nº de pessoas numa família, nº de funcionários numa empresa, nº de alunos numa classe, etc. Variáveis Quantitativas Contínuas: são as variáveis numéricas cujos valores são obtidos no procedimento de mensuração, de sorte que ao menos teoricamente os resultados das medidas são capazes de variações insensíveis ou contínuas. Ex.: peso, altura, temperatura, área, volume, densidade, salário, etc. Resumindo a classificação das variáveis: Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua 1.3. FASES DO METODO ESTATÍSTICO Quando se pretende empreender um estudo estatístico completo, existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas são chamadas fases do trabalho estatístico e podemos definí-la como sendo um processo utilizado para coletar, apresentar, descrever, interpretar e até mesmo prever os aspectos quantitativos dos fenômenos analisados, desde que eles possam conseguir a forma de contagem ou medida. As fases principais são: definição do problema, planejamento, coleta de dados, apresentação dos dados, análise e interpretação dos dados. Saber exatamente aquilo que se pretende estudar é o mesmo que definir corretamente o problema. O pesquisador deve realizar uma revisão bibliográfica sobre o assunto a fim de subsidiá- lo no estudo. Para isso, ele deve seguir os seguintes passos: Planejamento Consiste em determinar o procedimento necessário para resolver o problema. Como levantar as informações? Que dados deverão ser obtidos? Como se deve obtê-los? Coleta de Dados 9 Refere-se à obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Existem dois tipos de Dados, os Dados Primários ou Diretos, que são dados obtidos diretamente pelo pesquisador, na fonte originária e os Dados Secundários ou Indiretos, aqueles obtidos em instituições que já os coletou. Ex .: Quando o IBGE faz o levantamento (censo) da população brasileira, normalmente se utiliza do processo de obtenção primário. Caso queira, com base nos dados obtidos nos censos anteriores, projetar esta mesma população para anos seguintes, estará utilizando o processo secundário, pois os dados já foram obtidos anteriormente. Apresentação dos Dados Após a coleta dos dados, torna-se necessária sua apuração, ou contagem, denominando-a tabulação. Há duas formas de apresentação dos dados. A apresentação tabular é uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado, segundo regras adotadas pelos diversos sistemas estatísticos. Já a apresentação gráfica, permite ao analista obter uma visão rápida, fácil e clara do fenômeno estudado. Análise e Interpretação dos Dados De todas as fases do Método Estatístico, esta é a que apresenta maiores dificuldades. Isto porque todo trabalho efetuado até o momento deixará de ter o valor devido, se a conclusão não estiver coerente. A análise dos dados está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. O significado exato de cada um dos valores, obtidos através do cálculo das várias medidas estatísticas disponíveis, deve ser bem interpretado. Não existe, portanto, um critério a ser usado nesta fase. Exige, sim, que o analisador tenha muita sensibilidade com os dados que ora estão sendo manipulados. Muitas vezes, alguma prática lhe é indispensável. 1.4. SÉRIES ESTATÍSTICAS Coletados os dados, não é conveniente apresentá-los para análise sob a forma a que sechegou pela simples apuração. Na maioria das vezes, o conjunto de valores é extenso e desorganizado, e seu exame requer maior atenção. Resumindo, os valores devem estar organizados em tabelas, assim, consegue-se apresentá- los e descrever-lhes com mais eficiência. Essa condensação dos valores permite ainda a utilização de representação gráfica que normalmente representa uma forma mais útil e elegante de apresentação da característica analisada. Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos a uma mesma ordem de classificação quantitativa. Para diferenciar uma série estatística de outra, há de se levar em conta, os três caracteres presentes na tabela que ela se apresenta: fenômeno, local e época. - Fenômeno: é o fato que foi investigado e cujos valores numéricos estão sendo apresentados na tabela. - Local: é o espaço geográfico onde o fenômeno ocorreu. - Época: tempo em que o fenômeno foi analisado. As séries estatísticas podem ser de quatro tipos, conforme a variação de um desses caracteres ou fatores. Vejamos, então, esses tipos: 1.4.1 Série Temporal 10 A variável é o tempo, permanecendo fixos o local e o fenômeno estudado. Exemplo 1: GL. T. S.A. – INDÚSTRIA DE COMPONENTES ELETRÖNICOS Vendas -- Mercado Interno – Janeiro a Junho 2002 Janeiro 2300 Fevereiro 1800 Março 2200 Abril 2210 Maio 2360 Junho 2600 Fonte: Departamento de Analise de Mercado Exemplo 2: BRASIL - RENDA PER CAPTA ANUAL –2000/2003 2000 3.480,31 2001 5.180,03 2002 5.986,97 2003 6.307,55 Fonte: IBGE 1.4.2 Série Geográfica A variável é o local, permanecendo fixos o tempo e o fenômeno. Exemplo 3: G.L. T S.A. – INDÚSTRIA DE COMPONENTES ELETRÔNICOS. Vendas por Unidade da Federação – 2002 Cidades Vendas (R$) Minas Gerais 4.000 Paraná 2.230 Rio Grande do Sul 6.470 Rio de Janeiro 8.300 São Paulo 10.090 Outros 420 TOTAL - BRASIL 31.510 Fonte: Departamento de Analise de Mercado 1.4.3 Série Específica A ocorrência do fenômeno é variável, permanecendo fixos o local e o tempo. Meses Vendas (R$) Ano Renda (R$) 11 Exemplo 4: G.L.T S.A. -- INDÚSTRIA DE COMPONENTES ELETRÔNICOS Vendas por linha de produto -- 2002 Linha do Produto Vendas(R$) Linha A 6.450 Linha B 9.310 Linha C 15.750 Linha D 16.100 TODOS OS PRODUTOS 47.610 Fonte: Departamento de Analise de Mercado 1.4.4 Distribuição de Frequência Na distribuição de frequência, os dados são ordenados segundo a magnitude, em classes, permanecendo constantes o fato, o local e o tempo. Exemplo 5: Número de Empregados das Várias Classes de Salários No Estado de São Paulo -- 2001 Classe de Salário (R$) Nº de Empregados 1---| 2 41326 2---| 3 123236 3---| 4 428904 4---| 5 324437 5---| 6 787304 6---| 7 266002 7---| 8 102375 8---| 9 56170 9---| 10 1 03788 Total 2233542 Fonte : Serviço de Estatística da Previdência e Trabalho OBSERVAÇÃO: É comum haver necessidade de apresentar, em uma única tabela, mais do que uma série, surgindo as chamadas séries mistas ou conjugadas. Dessa forma, podemos encontrar séries: temporal-específica, temporal-geográfica, específico-geográfica e temporal-específica- geográfica. Exemplo 6: EMPRESA DE CONTRUÇÃO CIVIL Trabalhadores contratados divididos por ano. Situação 2003 2004 Trabalhadores assalariados 160 140 Trabalhadores horistas 40 80 Totais 200 220 Fonte:Dados Hipotéticos 1.5 ELABORAÇÃO DE TABELAS ESTATÍSTICAS 12 As séries estatísticas surgem quando os dados são apresentados em quadros especiais, denominados de Tabelas. A finalidade da tabela é poder apresentar os dados de modo ordenado, simples e de fácil percepção. Dessa forma a tabela deve ser construída de modo a fornecer o máximo de esclarecimento com um mínimo de espaço. 1.5.1 Elementos Fundamentais de uma Tabela Estatística a. Título A parte superior da tabela destina-se à indicação do título, que deve informar o fenômeno que está sendo apresentado. O título deve responder às perguntas: O quê? Onde? e Quando? Tais perguntas correspondem respectivamente, ao fenômeno, ao local e á época. b. Corpo No corpo da tabela encontramos as seguintes zonas: Designativa, Indicativa e Enumerativa. - A Zona Designativa está colocada logo abaixo do título e compreende o chamado cabeçalho, observando-se que nessa zona são colocados os diversos informes referentes ao conteúdo de cada coluna. - A Zona Indicativa situa-se ao lado esquerdo, servindo para a colocação vertical de valores ou nomes que especificam o conteúdo das linhas. - As Zonas Enumerativas são as expressões numéricas do fato estudado, compondo-se de colunas, linhas e células ou casas. . Coluna: é uma série vertical de informação. . Linha: é uma série horizontal de informação. . A interseção de uma linha com uma coluna corresponde a uma célula ou casa. c. Fonte Indicação da entidade responsável pelo fornecimento do dado ou pela sua elaboração. Deve ser sempre citada no rodapé, exceto quando se tratam de dados obtidos pelo autor do trabalho. 1.5.2 Elementos Complementares a. Notas São informações suplementares destinadas a conceituar ou esclarecer o conteúdo das tabelas ou indicar a metodologia adotada no levantamento ou na elaboração dos dados. b. Chamadas São informações de natureza específica sobre determinada parte da tabela, destinadas a conceituar ou esclarecer dados. Devem obedecer a uma ordem de sucessão. Organização da Tabela: Título 13 Subtítulo Zona designativa ou cabeçalho Zona Indicativa Zona Enumerativa Fonte: Notas e Chamadas Rodapé OBSERVAÇÕES: 1. Os dados devem ser organizados segundo a ordem cronológica, geográfica, alfabética ou de acordo com a magnitude. 2. As unidades devem ser expressas claramente, usando-se as convenções apropriadas. 3. As tabelas devem ser fechadas acima e abaixo, nunca nas laterais. 4. Quando a tabela ocupar mais de uma página, não existirá o fechamento abaixo, e sim a palavra "continua", sendo repetido o cabeçalho na página seguinte, com o título e a palavra "continuação". 5. Nenhuma célula deverá ficar em branco, apresentando sempre um número ou um sinal convencional. 1.5.3 Sinais Convencionais: - (traço): quando o dado inexistir. ... (três pontos): quando não se dispuser da informação, muito embora ela possa ser quantificada. 0 (zero): quando o valor numérico é muito pequeno para ser expresso na unidade adotada. 1.6 APRESENTAÇÃO GRÁFICA "Os gráficos possuem efeito mágico. O perfil de uma curva revela, num golpe de vista, a situação toda - a história de uma epidemia, o pânico, uma era de prosperidade ou uma era de miséria. O gráfico informa, desperta a imaginação, convence. Sendo uma linguagem internacional, os gráficos transmitem a informação à mente, de forma direta". Principais utilidadesdos gráficos: - Necessidades de apuração da tendência dos dados; - Importância de apuração de correlação; - Destaque para alguns dados expressivos; - Ênfase às diferenças entre alguns valores; - Melhor entendimento da magnitude, mediante escala visual; - Apresentação simplificada de dados complexos. Todo gráfico, para alcançar seu objetivo, deve ter: simplicidade, clareza e veracidade. Os elementos essenciais dos gráficos são o título e a fonte, de acordo com as séries que estão representando. Em alguns casos haverá necessidade de uma legenda, que serve para diferenciar as informações usadas no gráfico. Os gráficos mais importantes são: 14 I. Diagramas: a. Por ponto; b. Por linha; c. Por superfície: i. Barras verticais, horizontais ou compostas; ii. Setor; iii. Polar; iv. Faixas; v. Histograma. II. Pictograma; III. Estereograma; IV. Cartograma; V. Organograma; VI. Fluxograma. 1.6.1 Diagramas Os diagramas são gráficos de análise, pois são mais rigorosos e exatos. a. Diagrama por ponto: é feito nos eixos cartesianos, onde representamos as informações nas duas ordenadas. É usado para visualizar o comportamento dos dados. 0 20 40 60 80 100 120 0 1 2 3 4 5 6 T em pe ra tu ra (º F) Nº de Lançamentos Temperaturas das junções dos anéis para cada lançamento real ou de teste para um motor de um foguete espacial b. Diagrama por linha: depois de feito o diagrama por pontos, unimos os pontos formando uma linha. Usamos quando desejamos dar a idéia da evolução do fenômeno. 15 Análise do diâmetro medio de anéis para pistao de motores automotivos em função do tempo 50 51 52 53 54 55 56 57 58 59 60 1 2 3 4 5 Tempo (horas) D iâ m e tr o m é d io ( c m ) c. Diagrama por superfície: quando os dados são representados por meio de área. i. Gráfico de barras vertical, compostas ou horizontal : as informações são representadas nos eixos cartesianos por retângulo horizontal (barras) ou vertical (colunas). As barras só diferem em comprimento, e não em largura, a qual é arbitrária. As barras ou colunas devem vir separadas uma das outras pelo mesmo espaço. Como regra prática, pode-se tomar o espaço entre as barras como aproximadamente a metade ou dois terços de suas larguras. As barras devem ser desenhadas observando sua ordem de grandeza, para facilitar a leitura e análise comparativa dos dados. Já o gráfico de barras compostas difere do gráfico de barras convencional apenas pelo fato de apresentar cada barra segmentada em partes componentes. É utilizado para representar séries específicas (barras), séries temporais (colunas) e séries mistas (barras compostas ou colunas compostas). Ex.: 1) Colunas 16 Temperaturas das junções dos anéis para cada lançamento real ou de teste para um motor de um foguete espacial 0 20 40 60 80 100 120 1 2 3 4 5 Nº de Lançamentos T em p er at u ra ( ºF ) 2) Barras Análise do diâmetro medio de anéis para pistao de motores automotivos em função do tempo 50 51 52 53 54 55 56 57 58 59 60 1 2 3 4 5 T e m p o ( h o ra s ) Diâmetro médio (cm) 3) Barras compostas 17 Importação Brasileira De Vinho e Champagne provenientes de varias origens -- 2002 (R$) 0 50 100 150 200 250 300 350 França Portugal Itália Espanha Chile Argentina P a ís e s Dados Fictícios Vinho Champagne ii. Gráfico em setores: são usados para representar valores absolutos ou porcentagens complementares. O gráfico em setores deve ser evitado para representar númerosas parcelas, por dividir o círculo em muitos setores. O comprimento do raio não tem nenhuma interpretação. As porcentagens poderão ser colocadas dentro de cada setor. É utilizado quando desejamos ressaltar as partes de um todo. Número médio de defeitos de um chip da empresa X durante os anos de 2000 a 2004 Com defeito 1% Sem defeito 99% iii. Gráfico polar: os dados são representados em um círculo que deve ser dividido em partes iguais, dependendo do número de valores a serem representados. Cada valor será representado em um dos raios, na mesma ordem, e cada raio é um eixo orientado, cuja origem é o centro do círculo. Após a marcação dos pontos, liga-se através de semirretas, formando uma curva. É utilizado quando queremos dar a idéia sobre a evolução de um fenômeno, principalmente para dados relativos à fenômenos da natureza: temperatura, precipitação pluviométrica, etc. 18 0 10 20 30 J F M A M J J A S O N D Temperaturas Médias Mensais Registradas da Região x 23º=Temperatura Média Mensal iv. Faixas: São gráficos lineares, equivalentes em uso aos gráficos em barras compostas. É um instrumento útil para a apresentação da produção acumulada, porcentagens complementares, da mesma forma como acontece com os gráficos em colunas. Ex.: Diesel Gasolina 0 100 200 300 400 500 600 Ano 1999 Ano 2000 Ano 2001 Ano 2002 Ano 2003 Produção Brasileira de Caminòes Pesados no Periodo de 1999 a 2003 v. Histograma: é utilizado para representar a distribuição de frequência. (Será usado no capítulo seguinte). 19 0,00% 5,00% 10,00% 15,00% 20,00% 25,00% 40--|43 43--|46 46--|49 49--|52 52--|55 55--|58 58--|61 Porcentagem Vida em Km Investigação da vida de um pneu em relação a um novo componente da borracha 1.6.2 Pictograma - usam-se desenhos de pessoas, produtos, etc., em geral alusivos à variável em questão. Telefones portáteis vendidos no Brasil -- 2002 - 2004 2002 =1000 celulares 2003 2004 1.6.3 Estereograma: são gráficos desenhados em três dimensões. 20 Impressora A Impressora B Impressora C Impressora D S1 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% Desempenho na Impresão de Impressoras 1.6.4 Cartograma: é a representação de um fenômeno com o auxílio do mapa geográfico em estudo. Sua utilidade é limitada à representação simplificada dos dados geográficos. Área com Pastagem no Mato Grosso do Sul,2002 1.000 HECTARES Até 200 Mais de 200 a 400 Mais de 400 a 600 Mais de 600 a 800 Mais de 800 a 1.000 Mais de 1.000 a 1.200 Mais de 1.200 1.6.5 Organograma: representa distribuições de funções de uma empresa. É formado por retângulos que devem ser colocados num mesmo nível horizontal para representar o mesmo nível hierárquico. 21 Distribuição das funções da Empresa X * - Algo emergencial, que não estava previsto. 1.6.6 Fluxograma: é um esquema para descrever o andamento de ordem de uma linha de montagem, para descrever a ordem de um programa de computador, etc.. Controle de Falhas no Processo Se a média cair dentro Se a média ultrapassar o do limite de controle limite de controle EXERCÍCIOS Abrir Nova Filial AD-HOC * Relatório Anual de Evolução das Vendas Diret Gerência Intermediária Aumentar a Produção em 6% Ranking dos Vendedores Mão-de-Obra Catálogo de Produtos Fazer “Hora Extra” Inspeciona-se uma amostra de n itens Calcula-se a Média a cada Intervalo de Tempo Para-se a produção para verificação Continua-se a produção normalmente 22 1. Nos exemplos seguintes diga quem é a população e a amostra: a. Exame do tipo sanguíneo de um indivíduo. b. Pesquisa eleitoral emFortaleza. c. Estado de conservação dos aparelhos telefônicos de uma empresa. 2. Classifique as variáveis abaixo em qualitativas nominal ou ordinal, e quantitativas discretas ou contínuas: a. Funcionários de uma indústria em Fortaleza. Salário: Classificação dos funcionários por tempo na empresa: Estado civil: Nº de funcionários que recebem adicional de salubridade: b. Alunos do curso de Engenharia Elétrica na UFC, 2005.1 Nº de alunos matriculados: Classificação do aluno no vestibular: Disciplina cursada pelo aluno nesse semestre: Renda familiar: c. Computadores ligados à Internet no Ceará 2004. Custo das instalações: Nº de usuários: Marca dos computadores: Ordem de inscrição na rede: 3. O que caracteriza uma série do tipo: a. Temporal? b. Temporal-Específica? c. Geográfica? d. Específica-Geográfica? 23 4. Nas tabelas abaixo, classifique as séries e faça os gráficos convenientes. a. TABELA 1 - GL.T. S.A. – INDUSTRIA DE COMPONENTES ELETRÖNICOS Vendas -- Mercado Interno – Janeiro a Junho 2002 Janeiro 2300 Fevereiro 1800 Março 2200 Abril 2210 Maio 2360 Junho 2600 Fonte: Departamento de Analise de Mercado b. TABELA 2 - Número de Empregados das Varias Classes de Salários No Estado de São Paulo -- 2001 Classe de Salário (R$) Nº de Empregados 1---| 2 41326 2---| 3 123236 3---| 4 428904 4---| 5 324437 5---| 6 787304 6---| 7 266002 7---| 8 102375 8---| 9 56170 9---| 10 103788 Total 2233542 Fonte: Serviço de Estatística da Previdência e Trabalho c. TABELA 3 - EMPRESA DE CONTRUCAO CIVIL Trabalhadores contratados divididos por ano. Situação 2003 2004 Trabalhadores assalariados 160 140 Trabalhadores horistas 40 80 Totais 200 220 Fonte:Dados Hipotéticos d. TABELA 4 - Exemplo 2: BRASIL - RENDA PER CAPTA ANUAL –2000/2003 2000 3.480,31 2001 5.180,03 2002 5.986,97 2003 6.307,55 Fonte:IBGE Meses Vendas(R$) Ano Renda(R$) 24 2. MEDIDAS ASSOCIADAS ÀS VARIÁVEIS QUANTITATIVAS 2.1 MEDIDAS DE TENDÊNCIA CENTRAL Nas aulas anteriores vimos que a redução dos dados através de tabelas e gráficos nos fornece muito mais informações sobre o comportamento de uma variável do que a própria série original dos dados. É muito comum que se façam suposições ou que se estabeleçam hipóteses a serem confirmadas pelas observações feitas nas tabelas ou gráficos. Muitas vezes tiramos conclusões erradas apenas com uma análise superficial dos dados. Contudo, queremos resumir ainda mais esses dados, apresentando um ou alguns valores que sejam “representativos” da série toda. Porém, quando usamos um só valor, obtemos uma redução drástica dos dados. De modo geral, as perguntas mais usuais e importantes que são feitas, relativas à população, são as seguintes: onde é, ou está, o centro da distribuição? Como se distribuem os valores em torno desse centro? Como é a forma da distribuição? Se houver duas ou mais variáveis, como elas se relacionam e qual a intensidade dessa relação? Para ressaltar as tendências características de um conjunto de dados, ou de uma distribuição de frequências, isoladamente ou em confronto com outros conjuntos ou outras distribuições, necessitamos introduzir conceitos que se expressem através de números que constituem uma forma de traduzir estas tendências. Estes conceitos classificam-se como: Medidas de Posição e Medidas de Dispersão. 2.1.1 Medidas de Posição As Medidas de Posição são usadas para representar um conjunto de números, orientando-nos onde se localiza o centro da distribuição em relação ao eixo das abcissas. Em geral, os dados observados tendem a se agrupar em torno de valores centrais, assim são também conhecidas com Medidas de Tendência Central, e são as seguintes: Média Aritimética (X-barra), Moda (Mo) e a Mediana (Md). Quando empregadas sozinhas, essas medidas fornecem apenas uma visão incompleta de um conjunto de dados e, portanto, podem confundir ou distorcer tanto quanto esclarecer. 2.1.2 Medidas de Dispersão As Medidas de Dispersão medem o grau, o qual, os dados numéricos tendem a dispersar-se em torno de um valor central. O cálculo de uma medida de tendência central só se justifica em razão da variabilidade presente nos dados. Não há razão para se calcular, por exemplo, a média aritmética de um conjunto de observações onde não há variação. Entretanto, se a variabilidade dos dados for muito grande, sua média terá um grau de confiabilidade é tão pequeno, que será inútil calculá-la. As medidas de dispersão (ou variação) são as seguintes: Amplitude Total (At), Desvio Médio (DM), Variância ( 2 ou s 2 ), Desvio Padrão ( ou s) e Coeficiente de variação (C.V.) 25 2.2 ANÁLISE DE PEQUENOS CONJUNTOS DE DADOS Um conjunto de dados pode receber tratamentos diferentes, caso ele seja considerado um "pequeno" ou um "grande" conjunto de dados. Considera-se um pequeno conjunto de dados aquele para o qual não são necessários métodos que exijam primeiramente o grupamento dos dados. Como já foi informado anteriormente, a finalidade principal das medidas de tendência central é a de informar sobre onde se localiza o centro da distribuição. O seu cálculo é um dado importante para o estabelecimento de um esquema de trabalho, para a efetivação de uma compra, para a avaliação de um projeto ou de um produto qualquer, etc.. 2.2.1 Medidas de Posição 2.2.1.1 Média Aritmética A média aritmética é a medida de tendência central mais comumente usada, cujo cálculo é dado pela soma das observações dividida pelo número delas, e é representada pelo símbolo x e seu cálculo pode expressar-se em notação como segue: => x = média (lê-se “x-barra”) onde, = soma (expressa pela letra grega maiúscula “sigma”) xi = qualquer escore bruto do conjunto (isto é, a própria variável) n = total de escores do conjunto Exemplo: Sejam as idades de seis pessoas que moram em uma casa 19, 21, 25, 29, 23, 27 anos. A idade média dessas pessoas é = = = 24 anos Propiedades da Média: 1- A média de um conjunto de dados pode sempre ser calculada. 2- Para um dado conjunto de valores, a média é única. 3- A soma algébrica dos desviostomados em relação à média é nula, isto é: = 0 ou = 0 4- A média é sensível a todos os valores do conjunto. 5- Seja x é a média de x 1 , x 2 , ..., x n . Somando-se ou subtraindo-se uma constante c≠0 a cada valor de um conjunto de valores, a média do conjunto fica somada ou diminuída desta constante. Seja x 1 c, x 2 c, ..., x n c um novo conjunto, cuja média seria dada por: x' = 1 1n x c x ci i n . De modo análogo, multiplicando-se ou dividindo-se todos os valores de um conjunto por uma constante c, então a média do conjunto fica multiplicada ou dividida por esta constante. Seja outro conjunto de dados dado por: c.x 1 , c.x 2 , ..., c.x n . Sua média aritmética seria: 26 x n c x c x i n ' ' . . 1 1 1 2.2.1.2 Moda (Mo) Denotamos moda o valor que ocorre com maior frequência em uma série de valores, se é que existe algum valor. Em alguns casos pode haver mais de uma moda, ou seja, a distribuição de valores pede ser bimodal ou trimodal, etc. Desse modo, o salário modal dos empregados de uma indústria é o salário mais comum, ou seja, é o salário percebido pelo maior número de empregados desta indústria. Exemplos: 1) Comprimentos de doze semicondutores (cm) : 7, 8, 10, 12, 13, 10, 15, 10, 9, 11, 8, 7 Mo = 10 cm Unimodal 2) Peso de placaa para micros: (g) 500, 625, 430, 610, 600 Amodal 3) Diâmetro de oito bastões de alumínio: 12, 14, 11, 11, 16, 15, 17, 13. Bimodal 2.2.1.3 Mediana (Md) A mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto, que à sua esquerda e à sua direita há sempre a mesma quantidade de elementos, ou seja, a mediana corresponde ao valor central da distribuição. Portanto, a mediana é considerada a medida de tendência central que corta a distribuicao em duas partes iguais. Se estivermos diante de uma distribuição com número ímpar de dados, a mediana sera o dado que cai exatamente no meio da distribuição. A posição do valor mediano pode ser determinada pelo exame dos dados ou pela fórmula: EMD = n + 1 2 Assim, 16 é o valor mediano na distribuição ordenada 11, 12, 13, 16, 17, 20, 25. De acordo com a fórmula, (7+1) / 2, vemos que a mediana, 16, é o quarto valor da distribuição independente do lado por onde se inicie a contagem. Se o número de dados for par, a mediana será sempre aquele ponto da distribuição que antecedido e precedido por igual número de dados. Para uma distribuição par de dados, sempre há dois valores considerados centrais. Ilustrando: os números 16 e 17 representam os dados centrais na seguinte distribuição: 11, 12, 13, 16, 17, 20, 25, 26. Pela fórmula, (8+1) / 2 = 4,5 o que significa que a mediana vai cair entre o quarto e o quinto valor. 27 Quadro Resumo: ESPECIFICAÇÃO M E D I D A S MÉDIA ARITMÉTICA MODA MEDIANA DEFINIÇÃO x x n i - valor mais frequente - divide o conjunto ordenado em duas partes com o mesmo número de elementos. EMPREGO - desejamos obter uma medida que possui maior estabilidade. - houver necessidade de tratamento algébrico ulterior. - desejamos obter uma medida rápida e aproximada. - quando o valor mais típico da distribuição é procurado. - deseja-se obter o ponto que divide a série em partes iguais. - quando há valores extremos que afetam acentuadamente a média. VANTAGENS - reflete cada valor. - possui propriedades matemáticas atraentes. - valor "típico": maior quantidade de valores concentrado neste ponto. - menos sensível a valores extremos do que a média. LIMITAÇÕES - É influenciada por valores extremos. - Não se presta a análise matemática. - pode não haver moda para certos conj. de dados. - difícil de determinar para grandes conjuntos de dados. EXERCÍCIOS: 1. Calcule a média, moda e mediana para cada uma das séries abaixo: a. Sete empregados horistas numa companhia de porte médio ganham 153, 136, 153, 68, 17, 102, 51 (R$). b. Itensidade solar direta (watts/m2), em dias diferentes, em uma localização no sul do Brasil: 2, 5, -4, 3, 1, 6. c. O pH de uma solução é medido oito vezes por um mesmo instrumento, que obtem os seguintes dados : 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16; 7,18. 2. Responda: a. Se o salário médio de 10 funcionários é de R$ 800,00, e se um aumento de R$ 80,00 for concedido a cada um dos 10 funcionários, então o novo salário médio será:___________________. b. O salário de 5 estagiários de engenraria elétrica em uma empresa governamental está descrito a seguir: (R$) : 170; 150; 170; 170; 180. Temos x = R$ ______________. Após 3 meses de estágio, o salário de cada um dos 5 estagiários será duplicado. Então, o novo salário médio será y = R$ _________________. 28 c. O que ocorreria com o salário mediano acima encontrado se fosse duplicado o menor salário observado? d. O salário médio de 20 estatísticos de uma empresa, no último mês, foi de R$ 2.500,00. Se for feita uma redução de 20% no salário de cada profissional desta empresa, como ficaria o salário médio? E o salário mediano? E o salário modal? 3. Os dados a seguir correspondem ás temperaturas (graus F) das junções dos anéis para cada lançamento de um motor de um foguete espacial, ordenados em ordem crescente: º F: 44,00 49,00 61,00 63,00 67,00 71,00 75,00 77,00 80,00 º F: 84,00 89,00 89,00 91,00 95,00 102,00 a. Determine: a média aritmética, a moda e a mediana. b. Qual medida de tendência central você utilizaria para representar a temperatura "típica" das junções dos anéis? 4. Para um projeto de ampliação de rede de esgoto de u7ma certa região, as altoridades tomaram uma amostra de tamanho 50 dos 270 quarteiros que compõe a região, e foram encontrados os seguintes números de casas por quarteirão. Estime o centro da distribuição pela média, mediana e moda. 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 Estime o centro da distribuição pela média, mediana e moda. 5. Suponha que a variavel de interesse tenha a distribuição como na figura abaixo. Você acha que a média e uma boa medida de posição? E a mediana? Justifique. 29 2.3 MEDIDAS DE VARIABILIDADE Vimos que a moda, a mediana e a media podem ser usadas para resumir, num único número, aquilo que é médio ou “típico” numa distribuição. Quando empregada sozinha, entretanto, qualquer medida de tendência central fornece apenas uma visão imcompleta de um conjunto de dados e, portanto, pode confundir ou distorcer, tanto quanto esclarecer. Com vistas a ilustrar essa situação, admitam que no Havaí, por exemplo, e Texas tenham quase a mesma temperatuta media diária de 20º C. Será que, por isso, podemos admitir que a temperatura é basicamente a mesma em ambas as localidades? Dados colhidos mostram as temperaturas das cidades de Janeiro a Maio: Havaí: 18,9º, 20,0º, 20,2º, 20,4º, 20,5º Texas: 15,3º,16,2º, 16,9º, 25,5º, 26,1º. Desnecessário dizer que as praias do Texas não estão apinhadas de gente durante esse período. Tal fato demostra que necessitamos, além de uma medida de tendência central, de um índice que indique o grau de dispersão dos escores brutos em trono do centro da distribuição (em torno da media). Voltandoao exemplo anterior, poderíamos dizer que as temperaturas no Texas tem uma maior variabilidade do que no Havaí. 2.3.1 Amplitude Total (At) É a medida mais simples de variação que temos e é obtida tomando-se a diferença entre o maior e o menor dos valores da série. Indicaremos, = - Essa medida não é sempre confiável por envolver apenas 2 resultados, máximo e mínimo, nada informando sobre a distribuição dos dados intermediários, o que poderia conduzir o analista a interpretações equivocadas. Muitas vezes, um valor particularmente anormal poderá afetar de maneira acentuada essa medida. Exemplo: A = 98 no seguinte conjunto de dados: 2, 6, 7, 7, 10, 12, 13, 100 (At = 100 – 2 = 98); entretanto, a = 12 neste outro conjunto: 2, 6, 7, 7, 10, 12, 13, 14. (At = 14 - 2 = 12). Portanto, pela simples troca de um único valor (14 em lugar de 100), fizemos com que a amplitude total flutuasse bruscamente de 98 para 12. Assim, ela não fornece uma ideia precisa da variabilidade. 2.3.2 Desvio Médio ( DM ) O desvio médio ( DM ) é baseado na diferença entre cada valor do conjunto de dados e a média desse conjunto. Para a variável X, nota de um aluno do curso de cálculo III: 3, 4, 5, 6, 7. Com média igual à 5, os desvios di = xi - x são: d1 = -2 ; d2 = -1 ; d3 = 0 ; d4 = 1 ; d5 = 2. E para a nota de outros alunos: Y = 1, 3, 5, 7, 9. Z = 5, 5, 5, 5, 5. W = 3, 5, 5, 7. V = 3.5, 5, 6.5 30 É fácil ver que para qualquer conjunto de dados, di = ( xi - x ) = 0. Por essa razão, uma das soluções seria tomar as diferenças em valores absolutos e somá-las. Entretanto, o uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações. Assim, exprimimos as medidas como a média, ou seja: DM = Para as variáveis X e W, temos: DM (X) = 6 5 = 1,2 e DM (W) = 4 4 = 1 Então podemos dizer que segundo o desvio médio, o grupo D, referente à variável W, é mais homogêneo que o grupo A, referente à variável X. 2.3.3 Variância ( 2 ou s 2 ) A variância (s 2 ), assim como o desvio médio (DM), mede também a concentração dos dados em torno de sua média. A diferença entre as duas medidas está no fato de que a variância considera as diferenças (ou desvios) elevadas ao quadrado, antes de serem somadas. Para uma população, a variância é representada pela letra grega minúscula 2 (ler "sigma quadrado" ou "sigma dois") sendo a fórmula: : valores populacionais onde, µ: média populacional N tamanho da população A variância para uma amostra não é, em termos computacionais, exatamente igual à variância da população. É introduzido um fator de correção nesta fórmula, de tal maneira que a variância amostral seja um estimador não tendencioso da variância populacional. Então, a variância amostral é representada por s2, e sua fórmula é: : valores amostrais onde : média amostral n: tamanho da amostra 31 Propriedades da Variância: I - Se somarmos (ou subtrairmos) uma mesma constante c≠0 a todos os valores do conjunto de dados, a variância ficará inalterada. X x c x ci i ' x' S n x x n x x Si i n i i n ' ' '2 2 1 2 1 21 1 II - Se multiplicarmos (ou dividirmos) cada valor do conjunto de dados por uma mesma constante c≠0, a variância ficará multiplicada (ou dividida) pela constante ao quadrado ( c2 ). X c x c xi i ' . . x' S n x x c n x x c Si i n i i n ' ' ' . .2 2 1 2 2 1 2 21 1 2.3.4 Desvio Padrão ( ou s) Em geral, é difícil interpretar o significado do valor da variância, porque as unidades nas quais tal valor é expresso não são as mesmas das observações do conjunto de dados. Por esta razão, a raiz quadrada da variância, representada pela letra grega (para população) ou s (para amostra) é chamada de desvio padrão, é o que se utiliza com mais frequência. As fórmulas são: Desvio Padrão Populacional: Desvio Padrão Amostral: O desvio padrão mede, então, a dispersão existente no conjunto de valores, em termos absolutos. Exemplo: Para as variáveis X e Y do exemplo anterior, temos: Variável X: Média = 5,0 ; Variância = 2,0 ; Desvio Padrão = 1,41 Variável Y: Média = 5,0 ; Variância = 8,0 ; Desvio Padrão = 2,83 Podemos, então, concluir que as notas estão mais homogêneas em X do que Y, ou seja, a média é mais representativa no primeiro grupo. 32 Para determinadas classes de problemas, as medidas de dispersão relativa proporcianam uma avaliação mais apropiada do grau de dispersão da variável do que as de dispersão absoluta (Amplitude Total, Desvio Médio, Desvio Padrão e Variância). A dispersão relativa permite ainda comparar duas ou mais distribuições, mesmo que essas se refiram a diferentes fenômenos e sejam expressas em unidades de medidas distintas, gerando a medida chamada Coeficiente de Variação. 2.3.5 Coeficiente de Variação de Pearson (CV) O Coeficiente de Variação (CV) é útil quando queremos verificar a variabilidade de um conjunto de dados ou comparar a variabilidade de dois ou mais conjuntos de dados. Ele indica a magnitude relativa do desvio padrão quando comparado com as médias das distribuições das medidas. As fórmulas, portanto, são: Coeficiente de Variação Populacional: ou em termos percentuais Coeficiente de Variação Amostral ou em termos percentuais . 100% Observe, então, que o coeficiente de variação mede a dispersão existente no conjunto de valores, em termos relativos, e sua condição de existência é que ou x sejam diferentes de zero. Uma alternativa para o caso de termos média igual a zero, é usarmos uma outra medida de dispersão relativa, o Coeficiente de Variação de Thorndike que é dado pela formula: . 100% ou em termos percentuais . 100% Observação: Quanto mais próximo de zero está o coeficiente de variação de um conjunto de valores, mais homogeneidade existe neste conjunto, ou seja, a média encontrada é mais representativa. Exemplos: Para a variaval X, do exemplo inicial, temos: X = 5,0 ; s2 = 2,0 ; s = 1,41 . Então o CV = 1,41 = 0,282 ou CV = 1,41 x 100 = 28,2% 5,0 5,0 33 EXERCÍCIOS: 1. Calcule a amplitude total, o desvio médio, a variância, o desvio padrão e o coeficiente de variação de pearson e de Thorndike para cada uma das séries abaixo: a. Sete empregados horistas numa companhia de porte médio ganham 153, 136, 153, 68, 17, 102, 51 (R$). b. Itensidade solar direta (watts/m2), em dias diferentes, em uma localização no sul do Brasil: 2, 5, -4, 3, 1, 6. c. O pH de uma solução é medido oito vezes por um mesmo instrumento, que obtem os seguintes dados : 7,15; 7,20; 7,18; 7,19; 7,21; 7,20; 7,16; 7,18. 2. Dados os conjuntos de números X = {10, 20, 30, 40, 50} e Z = {15, 25, 35, 45, 55}. Some e multiplique pela constante c = 7, cada um dos conjuntos X e Z. (Comprove as propiedades da variância). 3. Suponha que em uma empresa fabricante de fios, queira-se estudar o tempo de resistência de um fio (à flexões repetidas), cuja média seja igual a 140 min e o desvio padrão de 15min, e o tempo de resistência á tração cuja media seja de 18 Kg, e desvio padrão de 0,730 Kg. O novo fio apresenta maior dispersão de resistentencia à tração ou à flexões?4. Os dados abaixo referen-se às notas de seis alunos em duas avaliações. Avaliação 1 Avaliação 2 5,9 5,9 7,8 2,7 6,8 6,9 5,9 3,9 7,2 7,2 8,4 9,4 ________________ _________________ a. Em qual das duas avaliações ouve um maior rendimento? b. Em qual das duas avaliações ouve menor dispersão absoluta? E relativa? c. Em qual das duas avaliações a média e mais representativa? 34 3. MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS (Continuação) 3.1 ANÁLISE DE GRANDES CONJUNTOS DE DADOS Em sua forma não organizada, os dados estatísticos podem quase não ter sentido, ou seja, grande quantidade de informações tendem a confundir, ao invés de esclarecer, simplesmente porque nossa mente não é capaz de abranger a variedade e os detalhes inerentes a um grande conjunto de dados. Ficamos simplesmente atolados em pequenos detalhes. Quando se estuda um fenômeno precisamos recolher fatos que pareçam relevantes em relação a alguma característica em comum de um conjunto de dados. Essa característica em comum, definida por variáveis, deve ter suas informações condensadas de modo que possamos interpretar seus resultados. Uma maneira de condensar essas informações é através de uma tabela, que concentra todos os dados em um pequeno espaço, sem que sejam perdidas informações relevantes destes. Essa tabela é chamada de distribuição de frequências. 3.1.1 Distribuição de frequência Em muitos casos, os valores apresentam muitas repetições. Esse fato irá sugerir, naturalmente, que se condensem todos os resultados em uma tabela, estabelecendo-se a correspondência entre o valor individual e o respectivo número de vezes que ele foi observado (frequência desse valor). Essa tabela de frequências proporciona uma apresentação esteticamente mais vantajosa dos dados, facilitando a verificação do comportamento do fenômeno. Normalmente ao nos depararmos com um conjunto de dados, especificamente numérico, devido à desorganização destes, não é possível tirarmos alguma conclusão. Esse conjunto de dados desorganizados é chamado de dados brutos, que se apresentam da maneira como foram coletados. Podemos, em princípio, organizá-los em ordem (crescente ou decrescente); essa forma ordenada é chamada de rol. Posteriormente chegaremos a uma forma mais condensada, chamada de distribuição de frequências de dados quantitativos. 3.1.2 Tipos de Frequência: Uma tabela de frequências pode representar e caracterizar um dos seguintes tipos de frequências: 1) Frequência simples absoluta ( fi ); 2) Frequência simples relativa ( fri ); 3) Frequência acumulada crescente absoluta (Fci); “abaixo de” 4) Frequência acumulada crescente relativa (Fcri ); 5) Frequência acumulada decrescente absulura (Fdi); “acima de” 6) Frequência acumulada decrescente relatativa (Fdri). 35 a. Frequência simples absoluta (fi): A frequência simples absoluta de um valor individual (ou de uma classe) é o número de observações correspondentes a esse valor (ou a essa classe). b. Frequência simples relativa (fri): A frequência relativa representa a proporção de observações de um valor individual (ou de uma classe) em relação ao número total de observações (ou seja, em porcentagem). Trata-se, portanto, de um número relativo. Para calcular a frequência relativa basta dividir a frequência absoluta do valor individual (ou da classe) pelo número total de observações. Temos, então: fri = f n i , onde n é o número total de observações ou tamanho da amostra. Caso desejamos expressar o resultado em termos percentuais, multiplicamos o quociente obtido por 100. A soma das frequências relativas de uma tabela de frequências é sempre igual a 1 ou 100%. c. Frequência acumulada “Abaixo de”: A expressão "abaixo de" refere-se ao fato de que as frequências a serem acumuladas correspondem aos valores menores ou anteriores ao valor (ou à classe) cuja frequência acumulada se deseja obter, incluindo no cálculo a frequência do valor (ou da classe). Toda vez que se procura saber quantas observações existem até um determinado valor individual (ou uma determinada classe), recorre-se à frequência acumulada "abaixo de". Ela pode ser expressada em termos absolutos ou relativos (%). d. Frequência acumulada “Acima de”: A frequência acumulada "acima de" de um valor individual (ou de uma classe) representa o número de observações existentes além do valor ou da classe, incluindo no cálculo, as observações correspondentes a esse valor ou a essa classe. Para se obter a frequência acumulada "acima de" basta somar à frequência do valor individual (ou da classe) as frequências dos valores individuais (ou das classes) posteriores. Exemplo: Distribuição de frequências simples: TABELA: Número diário de máquinas que apresentam defeito no primeiro mês de funcionamento da empresa gama – Janeiro de 2004. 36 Nº de máquinas Frequência (fi) Percentagem (fri) (Fi) (Fri) (Faci) (Fraci) com defeito 1 2 6,67 2 6,67 30 100,00 2 2 6,67 4 13,34 28 93,33 3 5 16,67 9 30,01 26 86,66 4 10 33,33 19 63,34 21 69,99 5 6 20,00 25 83,34 11 36,66 6 5 16,66 30 100,00 5 16,66 Total 30 100,00 Fonte: Dados fictícios 3.1.3 Medidas de Posição e Dispersão para dados não agrupados. Podemos, em uma distribuição de frequências simples, efetuar cálculos referentes às medidas de posição e dispersão: a. Média Aritmética onde k é o número de valores individuais (ou classes). b. Moda : valor mais frequente. c. Mediana: valor que divide a distribuição em duas partes iguais, ou seja, é a mesma definição anterior, só que na distribuição os valores da variável já estão ordenados e deve-se observar as frequências acumuladas para verificarmos aonde está o valor central ( se n é ímpar) ou a média aritmética entre os dois valores centrais ( se n é par). d. Variância (2 ou S2 ) Variância Populacional Variância Amostral e. Desvio Padrão Desvio Padrão Populacional Desvio Padrão Amostral 37 f. Coeficiente de Variação: Coeficiente de variação Populacional Coeficiente de variação Amostral Exemplo: Voltemos ao exemplo do número de maquina com defeitos na empresa gama. Agora responda: 1) Qual o número médio demáquinas com defeito na empresa gama? 2) Qual o número mediano de maquinas com defeito? E o número modal? 3) Em quantos dias observamos no mínimo 3 maquinas com defeito? 4) Em quantos dias observamos 4 maquinas com defeito? 5) Em que porcentagem dos dias observamos no Maximo 3 maquinas com defeito? 6) Em quantos dias e em que porcentagem observamos no mínimo 2 e no Maximo 4 maquinas com defeito? 7) Calcule a variância, o desvio padrão e o coeficiente de variação. 8) Se uma outra empresa do mesmo ramo apresentou uma dispersão relativa ( C.V. ) de 30%, em qual das duas o número médio de defeitos foi mais representativo? Justifique. 9) Represente a distribuição acima graficamente. 3.2 DISTRIBUIÇÃO DE FREQUÊNCIA PARA DADOS AGRUPADOS EM CLASSES Muitas vezes, mesmo com o risco de sacrificar algum detalhe manifestado na ordenação dos valores individuais, há vantagens em resumir os dados originais em uma distribuição de frequências, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes. Principalmente quando a variável em estudo for contínua, ou o número distinto de valores representativos dessa variável for muito grande. Mas, quando utilizar? - Quando a variável de estudo for continua; - Quando a variável de estudo for discreta e o número de valores representativos (distintos) da variave for muito grande. 3.2.1 Passos para construção da tabela de frequência (Regra Prática) 38 1º Passo: Identificar o valor máximo e o valor mínimo do conjunto de dados e encontrar a amplitude total (At). Definimos por amplitude total a diferença entre o maior e o menor valor do conjunto de dados: 2º Passo: Determinar o número de classes (k) que irão formar uma distribuição de frequências. Embora não exista uma fórmula precisa para esse número K, podemos nos orientar pela seguinte regra prática: 3º Passo: Calcular o comprimento ou a amplitude que deve ter o intervalo de classe (h), que é obtido dividindo-se a amplitude total pelo número de classes, ou seja: 4º Passo: Determinar os limites das classes, escolhendo-se, preferencialmente, números inteiros. Escolher o tipo de intervalo ( |--- ou ---| ). Observações: Cada valor pode pertencer apenas a uma classe. Uma mesma observação não pode pertencer a duas classes diferentes. O número de classes deve está entre 5 e 15. Uma distribuição de frequências com menos de 5 classes pode estar omitindo informações importantes e, acima de 15 classes pode pecar pelo excesso de detalhes e fugir do objetivo de uma distribuição de frequências, que é resumir informações contidas no conjunto de dados de forma a melhorar a sua observação. Uma dúvida que pode também surgir é a determinação do limite inferior do primeiro intervalo. Uma solução seria tomar o menor inteiro do conjunto ordenado (rol), caso ele seja discreto, ou o primeiro inteiro imediatamente anterior ao menor valor do rol, caso o conjunto de dados seja contínuo. Uma vez determinado o limite inferior da primeira classe, soma-se a esse limite o comprimento do intervalo ou amplitude ( h ) para encontrarmos o seu limite superior; esse limite superior passa então a ser o inferior da classe seguinte e as classes subsequentes são formadas utilizando-se o mesmo procedimento descrito acima. Além das frequências absolutas de cada classe, a distribuição de frequências pode também conter as frequências relativas e acumuladas, e o ponto médio da classe. O ponto médio ( Xi ) é o valor que representa a classe, para efeito de cálculo das medidas descritivas, e é definido como a média aritmética entre os limites inferior e superior da classe. Temos, então: i = 1, 2, 3 ..., k Exemplo: Levantamento do salário dos empregados da seção de orçamento da empresa Beta. Dados Brutos: 4,0 4,5 4,8 7,4 8,0 8,0 5,5 6,3 5,6 7,5 7,8 9,3 10,0 9,8 10,0 11,5 11,5 11,5 10,5 11,2 11,6 16,0 16,4 17,0 17,0 19,5 12,4 13,5 14,2 14,2 13,5 15,0 15,5 15,5 23,9 4,8 39 Vamos, então, montar a nossa distribuição, alocando as frequências em cada classe. Consideremos, por opção, intervalos abertos à esquerda e fechados à direita. At= 23,9 – 4,0 = 19,9 n = 36 => k = (36)1/2 => k = 6 classes h = 19,9 => h ~ 3,2 usaremos h = 4 6 Agora complete a tabela: Tabela: Levantamento do salário dos empregados da seção de orçamento da empresa Beta. Classes de salários f i f ri (%) Ponto Médio Xi f i (Xi –X ) 2 f i (em salários-minimo) (Xi) 4,0 |--- 8, 0 8,0 |--- 12,0 12,0 |--- 16,0 16,0 |--- 20,0 20,0 |--- 24,0 Total 3.2.2 Medidas de Posição e dispersão para dados agrupados. a. Média Aritmética: xi = ponto médio da i-ésima classe; onde: fi = frequência absoluta da i-ésima classe; n = tamanho da amostra ou conjunto de dados. b. Mediana Quando estamos trabalhando com uma distribuição de frequências, devemos, inicialmente, identificar a ordem do elemento mediano. Se existe um número ímpar de dados, procuramos o elemento de ordem (n + 1)/ 2; caso o número de dados seja par, buscamos o elemento de ordem (n/ 2). Em seguida, identificamos a classe mediana, ou seja, a classe que vai conter a mediana. Nessa classe deverá estar até metade das observações n ou as as 2 n +1 2 , e ela pode ser encontrada através da informação dada pela frequência acumulada. A mediana será, então, dada por: 40 lmd = limite inferior da classe mediana (classe que contém a mediana); (fac)md = Fi = frequência acumulada anterior a da classe mediana; onde: fmd = frequência absoluta de classe mediana; h = comprimento do intervalo da classe mediana; n = número de observações ou tamanho da amostra. c. Moda A moda vai nos mostrar que porção da distribuição dos dados tem a maior frequência de ocorrência. Identificamos, então, a classe modal como aquela que detém a maior frequência. A moda pode ser obtida através de: lmo = limite inferior da classe modal. = diferença entre a frequência absoluta da classe modal e a da onde: classe imediatamente anterior = diferença entre a frequência absoluta da classe modal e a da classe imediatamente posterior h = comprimento do intervalo da classe modal. d. Amplitude Total ( At ) A amplitude total da distribuição de frequências é definida como a diferença entre o limite superior da última classe da distribuição e o limite inferior da primeira classe. e. Variância Variância Populacional Variância Amostral 41 f. Desvio Padrão O desvio padrão é definido da mesma forma anterior, ou seja, é a raiz quadrada da variância. Assim, Desvio Padrão Populacional Desvio Padrão Amostral g. Coeficiente de Variação (C.V.) Coeficiente de variação Populacional Coeficiente de variação Amostral Exemplo: Voltemos ao exemplo do levantamento do salário dos empregados da seção de orçamento da empresa Beta. Em relação ao exemplo dado, responda: i) Qual o número médio do salário dos empregados na empresa
Compartilhar