Baixe o app para aproveitar ainda mais
Prévia do material em texto
Professora: Thaís Ribeiro Pagliarini E-mail: thais_pagliarini@uniritter.edu.br ESTATÍSTICA 2017-2 Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 2 INTRODUÇÃO Atualmente vivemos rodeados por uma quantidade de informações tão grande que não podemos deixar de pensar o quanto a Estatística nos é útil e o quanto esta ciência vem configurando-se como uma das competências mais importantes para quem precisa tomar decisões. A palavra estatística tem origem na palavra em latim status, traduzida como o estudo do Estado e significava, originalmente, uma coleção de informação de interesse para o estado sobre população e economia. Essas informações eram coletadas objetivando o resumo de informações indispensáveis para os governantes conhecerem suas nações e para a construção de programas de governo. No fim do século XVIII a estatística foi definida como sendo "o estudo quantitativo de certos fenômenos sociais, destinados à informação dos homens de Estado", desde então esta definição tem agregado uma série de outras funções além, é claro, a de fornecer informações a nossos governantes. Ao longo do século XX, os métodos estatísticos foram desenvolvidos como uma mistura de ciência, tecnologia e lógica para a solução e investigação de problemas em várias áreas do conhecimento humano (STIGLER, 1986). Ela foi reconhecida como um campo da ciência neste período. De acordo com Levin (1987) é quando o pesquisador usa números - quando ele quantifica seus dados - que ele muito provavelmente emprega a estatística como instrumento de descrição e/ou decisão. A estatística é uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões (TRIOLA, 1998). A estatística moderna é uma tecnologia quantitativa para a ciência experimental e observacional que permite avaliar e estudar as incertezas e os seus efeitos no planejamento e interpretação de experiências e de observações de fenômenos da natureza e da sociedade. A Estatística divide-se em três ramos: estatística descritiva, teoria da probabilidade e inferência estatística. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 3 Divisão da estatística Estatística descritiva Trata da coleta, da organização, classificação, apresentação e descrição dos dados de observação; se refere à maneira de apresentar um conjunto de dados em tabelas e gráficos e à maneira de resumir, através de certas medidas, as informações contidas nestes dados. Teoria das probabilidades Sempre que estudamos fenômenos de caráter aleatório, deparamos com a incerteza de seus resultados, pois não podem ser previstos com plena certeza; então é a teoria das probabilidades que se encarrega de realizar e desenvolver esses estudos. Estatística indutiva ou inferencial Visa tirar conclusões sobre a população a partir de amostras. Refere-se à maneira de estabelecer conclusões para toda uma população quando se observar apenas parte desta população. DEFINIÇÕES População x Amostra População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo, podendo ser finita ou infinita. (1) Finita - apresenta um número limitado de observações, que é passível de contagem. (2) Infinita - apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 4 Amostra (n): É um subconjunto da população e deverá ser considerada finita, a amostra deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta. Censo x Amostragem Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem. Censo: É a coleta exaustiva de informações das "N" unidades populacionais. Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem). Parâmetros x Estatísticas Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada. Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a população. Dado x Variável Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma maneira. As matérias-primas da estatística são os dados observáveis (respostas). Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z,... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser classificadas dos seguintes modos: http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 5 (1) Qualitativas (ou atributos): São características de uma população que não pode ser medidas. São classificadas como ordinais ou nominais. Variáveis qualitativas ordinais: quando as variáveis têm uma ordenação natural ou sequencial classificatória. Exemplos: Tamanho (pequeno, médio, grande) Gravidade de uma doença (leve, moderada ou severa) Nível de instrução da pessoa ( ensino fundamental, médio ou superior) Variáveis qualitativas nominais: quando não é possível estabelecer uma ordem natural entre seus valores. Exemplos: Esporte de prática (futebol, natação, ...) Nacionalidade (brasileiro ou estrangeiro) Tipo sanguíneo ( A, B, AB ou O) Importante: Codificar um atributo com um número não o torna um dado numérico. Algumas vezes existe uma ordenação natural nos atributos. Por exemplo: 1 = graduação; 2 = mestrado; 3 = doutorado. Dados Binários: uma variável binária assume somente dois valores, indicando presença (1) ou ausência (0) de uma característica de interesse. Por exemplo, para um indivíduo: Emprego Educação Estado Civil 1 = empregado 1 = com nível superior 1 = atualmente casado 0 = desempregado 0 = sem nível superior 0 = atualmente não casado (2) Quantitativas: São características populacionais que podem ser quantificadas, sendo classificadas em discretas e contínuas. Discretas: são aquelas variáveis que podem assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número deveículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula. Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 6 Escala de medidas As principais escalas de medidas para os dados são: nominal, ordinal, intervalar e razão. Essa tipologia foi proposta há mais de 60 anos pelo psicólogo Stevens. A adequação dos testes estatísticos depende da escala de medidas. Escala nominal: é a escala mais simples e fácil de ser reconhecida, simplesmente identifica uma categoria. Dados do tipo nominal são mesmo que “qualitativos”, por “atributo”. Exemplo de questões: Você entrou com um pedido de sinistro do seu seguro no mês passado? 1. Sim 2. Não Que marca de computador portátil você possui? 1. IBM 2. Sony 3. Toshiba 4. Dell 5. Outro 6. Nenhum Escala Ordinal: Dados ordinais pressupõem a possibilidade de ordenação dos valores. Por exemplo: Qual é o tamanho do automóvel que você costuma dirigir? 1. Grande 2. Compacto 3. Subcompacto. Assim, um valor 2 (compacto) implica um carro maior que um valor 3 (subcompacto). Da mesma forma que dados nominais, os códigos numéricos ordinais não têm propriedades que sejam necessárias para calcular muitas estatísticas, como a média. Escala Intervalar: refere-se a dados intervalares, que não apenas são ordenáveis, mas também os intervalos entre pontos da escala tem significado. Um caso especial de dados intervalares é a Escala Likert, utilizada com frequência nas pesquisas investigativas. Exemplo: Como uma mudança na inflação afeta o clima de investimento? 5 = ajudará muito 4 = ajudará um pouco 3 = não afetará o clima de investimento 2 = prejudicará um pouco 1= prejudicará muito http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 7 Atividade de fixação – LISTA DE EXERCÍCIOS 1 1. Para cada uma das seguintes variáveis aleatórias, determine se a variável é quantitativa (numérica) ou qualitativa (categórica). Se quantitativa, determine se a variável de interesse é discreta ou contínua. a. Número de telefones por domicílio. b. Tipo de telefone mais utilizado. c. Número de chamadas de longa distância realizadas por mês. d. Duração (em minutos) da mais demorada chamada de longa distância. e. Cor do telefone mais utilizado. f. Quantia em dinheiro gasto em reais com livros. g. Número de livros didáticos comprados. h. Tempo gasto em minutos na livraria. i. Número de créditos matriculados para o semestre corrente. j. Crediário (parcelas em reais) numa empresa. k. Tarifa mensal do serviço de internet. l. Quantidade de tempo gasto, em horas, por semana navegando na internet. m. Número semanal de e-mails recebidos. n. Número mensal de compras on-line. o. Total gasto, em reais, em compras no supermercado. p. Número de agasalhos que possui. q. Quantia de tempo gasto, em horas, no mês passado comprando vestuário. r. Temperatura (em ºC) de uma amostra de contribuintes irritados por estarem sendo fiscalizados. s. Graus finais (A, B, C, D, F) de uma prova de classificação. t. Carros classificados como compacto, intermediário ou grande. Fases do método estatístico O método estatístico abrange as seguintes fases: Definição do Problema Consiste na: - formulação correta do problema; - examinar outros levantamentos realizados no mesmo campo; - saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) Planejamento Determinar o procedimento necessário para resolver o problema: - Como levantar informações; - Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial). - Cronograma , Custos, etc. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 8 Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode ser: (1) Direta - diretamente da fonte; (2) Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). Apuração dos Dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação. Apuração: manual, mecânica, eletrônica e eletromecânica. Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. Esta apresentação pode ser: Tabular ou Gráfica Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema, fazer inferências sobre a população (se a pesquisa for feita por amostragem). Atividade de fixação – LISTA DE EXERCÍCIOS 2 1. Numere os parênteses de acordo com as questões elencadas abaixo, e registre a opção correta: 1) Estudo de números associados a fenômenos. 2) Parte da população observada. 3) Denominação dada a atributos ou a quantidades, que variam quanto à grandeza. 4) Grupo de indivíduos ou coisas cujas características são estudadas em forma de um todo, não interessando um elemento em particular. 5) Cada valor observado de uma variável. ( ) Amostra a) 5 -1 -4 -3 -2 ( ) Estatística b) 2 -3 -4 -1 -5 ( ) População c) 3 -1 -4 -2 -5 ( ) Variável d) 2 -1 -4 -5 -3 ( ) Dado e) 2 -1 -4 -3 -5 2. O que é Estatística? 3. Cite três ou mais atividades do planejamento empresarial em que a Estatística se faz necessária. 4. Explique a diferença entre uma variável qualitativa e uma variável quantitativa. Dê um exemplo de cada. 5. Explique a diferença entre uma variável numérica discreta e uma variável numérica contínua. Dê um exemplo de cada. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 9 AMOSTRAGEM Nas pesquisas científicas, em que se quer conhecer algumas características de urna população, é muito comum se observar apenas urna amostra de seus elementos e, a partir dos resultados dessa amostra, obter valores aproximados, ou estimativas, para as características populacionais de interesse. Esse tipo de pesquisa é usualmente chamado de levantamento por amostragem. Num levantamento por amostragem, a seleção dos elementos que serão observados deve ser feita através de uma metodologia adequada, de tal forma que os resultados da amostra sejam representativos de toda a população. Definição deamostragem A amostragem é definida como o processo de seleção de amostras de uma população, podendo ser probabilística ou não probabilística. A amostragem é probabilística quando a seleção da amostra é feita de forma aleatória, sendo que cada elemento da população tem uma probabilidade conhecida de participar desta amostra. A amostragem é não probabilística quando há uma escolha deliberada dos elementos da amostra. Este tipo de amostragem pode prejudicar a representatividade da mesma em relação à população. Importância da utilização da amostragem Quatro razões para o uso de amostragem em levantamento de grandes populações: Economia —> Em geral, torna-se bem mais econômico o levantamento de somente uma parte da ação; Tempo —> Numa pesquisa eleitoral, há três dias de uma eleição presidencial, não haveria tempo para pesquisar toda a população de eleitores do país, mesmo que houvesse recursos financeiros em abundância; Confiabilidade dos dados —> Quando se pesquisa um número reduzido de elementos, pode-se dar mais aos casos individuais, evitando erros nas respostas; Operacionalidade —> E mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores. Situações em que pode não valer a pena a realização de uma amostragem População pequena —> Sob o enfoque de amostragens aleatórias, se a população for pequena, para uma amostra ser capaz de gerar resultados precisos para os parâmetros da população, é necessário que ela seja relativamente grande; Característica de mensuração —> Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensaria investir num plano de amostragem; http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 10 Necessidade de alta precisão —> A cada dez anos o IBGE realiza um censo demográfico para estudar diversas características da população brasileira. Dentre estas características tem-se o parâmetro número habitantes residentes no país, que é fundamental para um bom planejamento. Desta forma, o parâmetro - número de habitantes - precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população. Para se fazer um plano de amostragem deve-se ter bem definidos: os objetivos da pesquisa, a população a ser amostrada, bem como os parâmetros necessários a serem estimados para que os objetivos sejam alcançados. Num plano de amostragem deve constar a definição da unidade de amostragem, a forma de seleção dos elementos da população e o tamanho da amostra. Tipos de amostragem (1) Métodos de amostragem probabilística Os métodos para obtenção de uma amostra probabilística são: Amostragem aleatória simples Para a seleção de uma amostra aleatória simples é necessário ter o conjunto de todos os elementos e enumerá-los. Este tipo de amostragem consiste em selecionar a amostra através de um sorteio, sem restrição. Na amostragem aleatória simples cada elemento da população tem a mesma probabilidade de pertencer a amostra, sendo que as tabelas de números aleatórios facilitam o processo de seleção dos números que identificarão os elementos que irão compor a amostra. Estas tabelas são formadas por sucessivos sorteios de algarismos do conjunto {0, 1, 2, ..., 9), com reposição. Considera-se: N = número de elementos (tamanho) da população; n = número de elementos (tamanho) da amostra. Exemplo: O professor que selecionar cinco estudantes para apresentar um trabalho. Escreve o nome dos 30 estudantes em pedaços de papel e seleciona os estudantes por sorteio. Amostragem sistemática Muitas vezes é possível obter uma amostra de características parecidas com a amostra aleatória simples, por um processo bem mais rápido do que o anterior, desde que a população se encontre ordenada; organizada segundo algum critério de tal modo que cada um de seus elementos possa ser unicamente identificado pela posição. Por exemplos, os fichários de um médico, os prédios de uma rua, as linhas de produção, etc.. O método mais usado na amostragem sistemática é a formação de progressões aritméticas (P.A) de razão K, sendo K = N/n. O primeiro elemento da P.A é determinado por sorteio http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 11 Procedimento: 1. Calcula-se o intervalo de amostragem k =N/n aproximando-o para o inteiro mais próximo; 2. Utilizando-se a tabela dos números aleatórios, sorteia-se um número x dentro do primeiro intervalo amostragem ( 1 a k); 3. A amostra será composta pelos elementos correspondentes aos números x, x + k, x + 2k,..., Exemplo: Num consultório médico, os clientes estão cadastrados em fichas numeradas de 1 a 500. Compor uma amostragem sistemática com 10 elementos, começando pela ficha número 12. Amostragem estratificada A técnica da amostragem estratificada consiste em dividir a população em k subgrupos denominados de estratos. Estes estratos devem ser internamente mais homogêneos do que a população toda, com respeito as variáveis em estudo. Por exemplo, para estudar o interesse dos funcionários, de uma grande empresa, em realizar um programa de treinamento, podemos estratificar a população por nível de instrução, pelo nível hierárquico ou por setor de trabalho. Devemos escolher um critério de estratificação que forneça estratos bem homogêneos, com respeito ao que se está estudando. Assim, é fundamental um prévio conhecimento sobre a população em estudo. Sobre os diversos estratos da população, são realizadas seleções aleatórias, de forma independente. A amostra completa é obtida através da agregação das amostras de cada estrato. Amostragem estratificada proporcional Neste caso particular de amostragem estratificada, a proporcionalidade do tamanho de cada estrato da população é mantida na amostra. Por exemplo: se um estrato corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra. A amostragem estratificada proporcional garante que cada elemento da população tenha a mesma probabilidade de pertencer à amostra. Exemplo: Com o objetivo de estudar o estilo de liderança preferido pela comunidade de uma escola, vamos realizar um levantamento por amostragem. A população é composta por 10 professores, 10 servidores técnicos administrativos e 30 alunos. Pretende-se realizar uma amostragem estratificada proporcional por categorias, para obter uma amostra global de tamanho n =10. ESTRATO Proporção na população Tamanho do subgrupo na amostra Professores 10/50 = 0,20 ( ou 20%) n = 10 . 0,20 = 2 Servidores 10/50 = 0,20 (20%) n = 10 . 0,20 = 2 Alunos 30;50 = 0,60 (60%) n = 10 . 0,60 = 6 n / N = n1 / N1 http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 12 Resumo dos métodos de amostragem probabilísticos Tipo Descrição Aleatória Simples A seleção pode ser feita por uma lista aleatória de elementosou sorteio. Sistemática População organizada sob algum critério. Começa com um início aleatório e depois a amostragem é realizada por intervalos fixos. Estratificada A população é dividida em estratos homogêneos e amostras são selecionadas de cada estrato. (2) Métodos de amostragem não probabilística Dentre os métodos de amostragem não probabilística, destacamos: a amostragem por julgamento e a amostragem por conveniência. Amostragem por julgamento Neste método é o pesquisador quem faz a escolha dos elementos da amostra, os quais são selecionados com base no seu julgamento. Exemplo: Um pesquisador pretende entrevistar pessoas, com idade entre 40 e 50 anos e que recebam entre 8 a 10 salários mínimos. Ao avistar uma pessoa, ele poderá julgar, por exemplo, pela sua aparência, que ela se enquadra nessas características, e assim poderá entrevistá-la. Também se encaixam neste método as pessoas que são voluntárias, como, por exemplo, doadores de sangue, pessoas que se submetem a um tratamento para testar um novo medicamento, etc. Amostragem por conveniência (ou intencional) A amostragem por conveniência é um método bem simples e prático, no qual o pesquisador utiliza os resultados que já estão disponíveis, ou que são fáceis de coletarem. Exemplo: Pesquisa com pessoas que moram no mesmo edifício em que o pesquisador mora, ou fazem compras no mesmo supermercado, ou que frequentam o mesmo clube, ou que residam no mesmo bairro. Resumo dos métodos de amostragem não - probabilísticos Tipo Descrição Conveniência Os elementos são selecionados com base na sua semelhança presumida com a população e na sua disponibilidade imediata. Julgamento Pesquisador usa seu julgamento para escolher intencionalmente os indivíduos ou elementos que ele considera representativos da população. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 13 IMPORTANTE: Qualquer que seja o método de amostragem, sempre está sujeito a cometer um erro de amostragem (diferença entre os resultados da amostra e da população), porém, se utilizarmos os métodos da amostragem probabilística, teremos resultados mais confiáveis. Tamanho Mínimo da amostra Um primeiro cálculo do tamanho da amostra pode ser feito, mesmo sem conhecer o tamanho da população, através da seguinte expressão: 20 1 E n , sendo E = erro amostral. Se a população for muito grande (digamos, mais que vinte vezes o tamanho calculado do n 0 ), então n 0 já pode ser adotado como tamanho da amostra. Caso contrário, é sugerida a seguinte correção: n = 0 0. nN nN , sendo N = tamanho da população Exemplo: Planeja-se um levantamento por amostragem para avaliar diversas características (parâmetros) da população das 200 famílias moradoras de certo bairro (N= 200). Qual deve ser o tamanho mínimo de uma amostra aleatória simples para que possamos admitir, com 95% de probabilidade, que o erro amostral não ultrapasse 4%. 20 1 E n 20 )04,0( 1 n = 625 Corrigindo, em função do tamanho N da população, temos: N = 0 0. nN nN n = 625200 )625).(200( = 152 famílias Considerando os objetivos e os valores fixados no exemplo anterior, qual deveria ser o tamanho da amostra se a pesquisa fosse ampliada para todo o município, que contém N = 200.000 residentes? n = 625000.200 )625).(000.200( = 623 famílias Praticamente não houve alteração com a correção em termos do tamanho N da população (n 0 = 625 e n = 623). Em geral, se a população for muito grande, podemos usar n 0 como o tamanho da amostra (n = n 0 ). http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 14 Atividade de fixação – LISTA DE EXERCÍCIOS 3 1. Numa empresa com 1.000 funcionários, deseja-se estimar a porcentagem de funcionários favoráveis a certo programa de treinamento. Qual deve ser o tamanho de uma amostra aleatória simples que garanta, com 95% de probabilidade, um erro amostral não superior a 5%? 2. Uma empresa tem 3.414 empregados repartidos nos seguintes departamentos: Administrativos: 914; Transporte: 348; Produção: 1.401 e outros: 751. Deseja-se extrair uma amostra para verificar o grau de satisfação em relação à qualidade da comida do refeitório da empresa. Apresente um plano de amostragem para esse problema. 3. Determine se o conjunto de dados é uma amostra ou uma população. Explique seu raciocínio: a) A idade de cada governador de Estado. b) A velocidade de cada quinto carro que passa por um medidor de velocidade da policia. c) Um levantamento de 500 estudantes de uma universidade que tenha 2.000 estudantes. d) O salário anual de cada empregado de uma empresa. 4. Determine se o valor numérico é um parâmetro ou uma estatística: a) O salário médio de 35 dentre 1.200 contadores é de R$ 5.700,00. b) Em um levantamento feito de uma amostra de usuários de computador, 10% afirmaram que seus computadores apresentaram defeito. c) O salário inicial dos administradores de empresas aumentou 8,5% em relação ao ano anterior. 5. Considere os seguintes estudos estatísticos. Qual método de coleta de dados você empregaria em cada estudo? Explique seu raciocínio. a) Um estudo a respeito do efeito que a mudança dos padrões de vôo tem sobre o numero de acidentes aéreos. b) Um estudo sobre o efeito da aspirina na prevenção de ataques cardíacos. c) Um estudo sobre o peso de todos os atacantes de futebol. d) Um estudo sobre o índice de aprovação do presidente do Brasil em meio às pessoas que residem no país. 6. Numa indústria há 655 operários. Qual o tamanho de uma amostra aleatória que represente 11% da população? 7. Durante a Bienal do Livro, foi feita uma pesquisa com o objetivo de verificar a preferência de leitura. Supondo que foi colhida uma amostra aleatória de 150 pessoas, que corresponde a 4% do total de presentes ao evento, qual a população presente ao evento? 8. Na feira do automóvel, você fará uma pesquisa para conhecer as preferências relativas a determinados modelos de carros. A população é composta por 680 homens e 490 mulheres. Na impossibilidade de entrevistar todos, faça um levantamento da amostragem proporcional estratificada de 13% dos visitantes: (a) Qual o tamanho da população? (b) Qual o tamanho da amostra? (c) Qual o número de homens e de mulheres que irão compor a amostra? http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 15 9. Uma seguradora vendeu 450 apólices de seguro de carro. Com o objetivo de verificar o nível de satisfação dos clientes segurados, foi extraída uma amostra sistemática de 30 clientes, começando pelo cliente número 10. (a) Quais os números dos cinco primeiros clientes selecionados? (b) Qual o número do último cliente selecionado da amostra? 10. Uma empresa da área de saúde esta interessada em conhecer o nível de satisfação de seus associados em relação ao atendimento dos planos de saúde. Para isso, seleciona uma amostra composta por 300 pessoas sorteadasentre os 7.400 associados da empresa. Que tipo de amostragem foi utilizada? 11. Algumas escolas vem desenvolvendo inúmeras atividades extracurriculares, com o objetivo de melhorar o desempenho dos alunos na assimilação do conteúdo programático repassado em sala de aula pelas professoras. Foi pesquisada a opinião dos alunos da sexta série referentes às atividades extras desenvolvidas nas respectivas escolas. Elabore uma amostra proporcional estratificada, determinando o número de alunos do sexo masculino e feminino selecionados em cada escola. (a) Que corresponda a 12% da população de alunos; (b) Contendo 120 alunos. Escola Alunos da sexta série Masculino Feminino A B C D E 111 148 95 119 140 129 163 113 131 124 Total 613 660 1.273 12. Uma frota de 800 caminhões a diesel de uma transportadora deve ser avaliada quanto ao nível de emissão de poluentes (emissão de fumaça, gases e partículas solidas), para decidir sobre a instalação de conversores catalíticos, o que implicará em aumento de custos nos serviços. Os veículos foram enumerados de 01 a 800. Utilizando a técnica da amostragem sistemática, obtenha uma amostra representativa dessa frota, contendo 10% do total de caminhões. (a) Qual o tamanho da população? (b) Qual o tamanho da amostra? (c) Calcule o valor do “intervalo de seleção” para a obtenção da amostra; (d) Como será escolhido o número do primeiro caminhão da amostra? (e) Supondo que o primeiro caminhão sorteado tenha sido o de número 7, escreva os números dos 5 primeiros caminhões que farão parte da amostra; (f) Calcule o número do último caminhão da amostra. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 16 APRESENTAÇÃO TABULAR A apresentação de dados estatísticos na forma tabular consiste na reunião ou grupamento dos dados em tabelas ou quadros com a finalidade de apresentá-los de modo ordenado, simples e de fácil percepção e com economia de espaço. Componentes Básicos Em termos genéricos, uma tabela se compõe dos seguintes elementos básicos: Exemplo: Principais Elementos de uma Tabela Título: Conjunto de informações, as mais completas possíveis, localizado no topo da tabela, respondendo às perguntas: O quê? Onde? Quando? Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 17 Linhas: Retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas. Casa ou Célula: Espaço destinado a um só número. Rodapé: são mencionadas a fonte se a série é extraída de alguma publicação e também notas ou chamadas que são esclarecimentos gerais ou particulares relativos aos dados. SÉRIES ESTATÍSTICAS É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função de três elementos: a. da época: refere-se a data ou ao tempo em que o fato foi observado; b. do local: região onde o fato ocorreu; c. da espécie: fenômeno observado. Esses elementos determinam o surgimento de quatro tipos fundamentais de séries estatísticas. Série Temporal ou Cronológica São aquelas nas quais os dados são reunidos segundo a época que varia, permanecendo fixos o local e a espécie. Exemplo: Produção de petróleo bruto - Brasil Anos Quantidade em (cm3) 1966 6.748.889 1967 8.508.848 1968 9.509.639 1969 10.169.531 1970 9.685.641 Fonte: Brasil em dados Série Geográfica São aquelas nas quais os dados são reunidos segundo o local que varia, permanecendo fixos a época e a espécie. Exemplo: % do PIB destinada a educação por país - 2009 País % de PIB EUA 2,5 Brasil 1,0 Japão 7,1 México 0,8 Fonte: Dados fictícios http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 18 Série Específica São aquelas nas quais os dados são reunidos segundo a modalidade de ocorrência. Espécie variável, permanecendo fixos a época e o local. Exemplo: PIB por setor econômico, Brasil - 2009 Setor PIB (U$$) Primário 12,5 Secundário 5,8 Terciário 279,1 Fonte: Dados fictícios Série Conjugada Também chamadas de tabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. Exemplo: Série geográfica-temporal Evolução do transporte de carga marítima nas 4 principais bacias brasileiras Brasil - 968– 1970 Bacias Anos Anos Anos 1968 1969 1970 Amazônica 233.768* 324.350 316.557 Nordeste 16.873 20.272 20.246 Prata 177.705 203.966 201.464 São Francisco 53.142 48.667 57.948 Fonte Brasil em dados. * Os dados estão em toneladas RELAÇÃO ENTRE VARIÁVEIS QUALITATIVAS – TABELAS DE CONTINGÊNCIA Quando se deseja investigar a relação entre duas variáveis qualitativas, o caminho natural é, a partir do conjunto de dados originais, montarmos uma tabela de contingência, contendo as frequências cruzadas relativas a essas duas variáveis. A montagem da tabela de contingência implica somente em se contar o número de ocorrências em cada cruzamento das duas variáveis. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 19 Uma vez obtida a tabela de contingência, é importante também que sejam calculados os percentuais de linha e de coluna. Através dessa abordagem, uma das variáveis é usada para dividir a população em estratos, e depois se determina o perfil de frequências relativas (ou percentuais) da outra variável em cada um desses estratos. Exemplo: Foi feito um levantamento em uma universidade com os cursos de ciências sociais e ciências exatas para verificar o número de alunos do sexo feminino e do sexo masculino. Os resultados estão indicados na tabela abaixo: SEXO OPÇÃO TOTAL CIÊNCIAS SOCIAIS (CS) CIÊNCIAS EXATAS (CE) MASCULINO (M) 60 55 115 FEMININO (F) 50 35 85 TOTAL 110 90 200 Analise: (a) O percentual de que o aluno escolhido seja do sexo masculino? (b) O percentual de que o aluno escolhido seja do sexo feminino? (c) O percentual de que o aluno escolhido seja do curso de ciências sociais? (d) O percentual de que o aluno escolhido seja do curso de ciências exatas? (e) O percentual de que o aluno escolhido seja do sexo masculino e do curso de ciências sociais? (f) O percentual de que o aluno escolhido seja do sexo feminino e do curso de ciências exatas? (g) Do total de alunos do sexo masculino, qualpercentual de que o aluno escolhido seja do curso de Ciências Sociais? (h) Do total de alunos do curso de Ciências Exatas, qual percentual de que o aluno escolhido seja do curso do sexo feminino? http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 20 Atividade de fixação – LISTAS DE EXERCÍCIOS 4 1. Os dados a seguir representam as respostas para duas perguntas de uma pesquisa realizada entre 40 alunos da faculdade que se especializam em determinada graduação. As perguntas são: “Qual o seu gênero? (masculino = M; feminino = F) e Qual é a sua graduação? (Administração = A; Contábeis = C e Recursos Humanos = R)” M M M F M F F M F M A C C R A C A A C C F M M M M F F M F F R A A R C R A R A C M M M M F M F F M M C C A A R R R A A A F M M M M F M F M M R C A A A R C C A C a) Posicione os dados em uma tabela de contingência na qual as duas linhas representam as categorias relacionadas a gênero e as três colunas representam as principais categorias de graduação acadêmica. b) Forme tabelas de contingência baseadas em porcentagens de todas as 40 respostas dos alunos, e em relação as linhas e colunas. c) Faça uma análise dos dados. 2. A tabela abaixo representa um levantamento a respeito do tipo de lesão sofrido na cabeça, por motociclistas, em relação do uso do capacete. TIPO DE LESÃO USO DO CAPACETE TOTAL SIM NÃO GRAVE 15 22 37 LEVE 45 18 63 TOTAL 60 40 100 a) Encontre as porcentagens do tipo de lesão em função do uso do capacete. b) Você diria que existe associação entre o uso do capacete e a gravidade da lesão na cabeça de motociclistas? http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 21 3. Na tabela de dupla entrada apresentada abaixo temos dados sobre o grau de instrução por região de procedência de funcionários de uma empresa (livro BUSSAB & MORETTIN). PROCEDÊNCIA TABELA COM OS VALORES OBSERVADOS: GRAU DE INSTRUÇÃO TOTAL 1º GRAU 2º GRAU SUPERIOR CAPITAL 4 5 6 15 INTERIOR 11 4 13 18 OUTRO 2 3 2 7 TOTAL 17 12 11 40 a) Forme tabelas de contingência baseadas em porcentagens de todas as 40 respostas dos funcionários, baseadas nas percentagens de linhas e colunas. b) Faça uma análise dos dados. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 22 ORGANIZAÇÃO DOS DADOS DISTRIBUIÇÕES DE FREQUÊNCIA Uma distribuição de frequência é uma tabela que reúne o conjunto de dados, conforme as frequências ou as repetições de seus valores. Esta tabela pode representar os dados em classes ou não, de acordo com a classificação dos dados em discretos ou contínuos. Representação de variáveis Discretas: Neste caso, representam-se as observações em uma tabela de frequências, não agrupadas em classes designadas de séries de magnitude por ponto. É útil quando a série apresenta poucos valores distintos. Contínuas: Neste caso, utiliza-se também a tabela de frequências, mas sob forma de intervalos, mesmo que isto sacrifique algum detalhe na ordenação de valores individuais. É útil quando a série apresenta muitos valores distintos. Conceitos básicos dos elementos de uma distribuição de frequência Dados brutos (tabela primitiva) São os valores originais conforme eles foram coletados, não estando ainda prontos para análise, pois não estão numericamente organizados ou tabelados. Rol É uma lista, onde as observações são dispostas em uma determinada ordem: crescente ou decrescente. O objetivo da ordenação é tornar possível a visualização das variações ocorridas, uma vez que os valores extremos são percebidos de imediato, e também facilitar a construção da distribuição de freqüências. I I rol crescente Xmin Xmáx Distribuição de frequência Denominamos frequência o número de dados que são relacionados a um determinado valor da variável. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 23 Exemplos: Sem intervalo classe Valores de lanches vendidos no carnaval, Tucunduva - 2000 Valores Frequência 10 15 20 25 30 7 12 14 8 10 Total 51 Fonte: Dados fictícios Com intervalo classe Preço, em R$. de certo produto Preço (R$) Frequência 0 2 2 4 4 6 6 8 8 10 10 12 2 4 5 8 6 2 Fonte: Dados fictícios Classes Limites inferiores Limites superiores Frequência das classes http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 24 Elementos de uma distribuição de frequência: Amplitude total dos dados H = (X máximo – X mínimo) ou seja: H = Maior valor coletado – menor valor coletado (amplitude total) Classe É aconselhável usar de 4 a 20 classes. Para se determinar o número de classes (k), a partir do rol, usa-se a Fórmula de Sturges ou o Método da Raiz. Fórmula de Sturges n > 40 nlog3,31k Método da Raiz n ≤ 40 nk onde n é o número de observações coletadas. Amplitude do intervalo de classe É a diferença entre o limite superior e o limite inferior da classe, ou seja: infsup LLh , quando a distribuição de frequência já existe; ou h = H/k, para a determinação da amplitude das classes de uma distribuição de frequência a ser construída Importante: A amplitude do intervalo de classe poderá sofrer um arredondamento adequado em função do tipo de dado coletado. Esse valor geralmente será arredondado para cima, de preferência na casa decimal dos dados. O intervalo de classe deverá ser preferencialmente constante em toda a distribuição de frequência. Limites de classe São os dois valores extremos de cada classe. (1) Limite inferior ( Linf): é o menor valor da classe considerada. (2) Limite superior (Lsup): é o maior valor da classe considerada. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 25 Ponto médio de classe É a medida aritmética dos limites da classe. É o valor representativo da classe.Linf + Lsup x1= 2 Tipos de frequências Para construção de uma tabela de distribuição de frequência é necessário conhecer alguns de seus termos: Absoluta Simples Tipos Relativa de Absoluta Frequência Acumulada Relativa Frequência absoluta (Simbologia: fi ) É o número de observações que aparecem em uma classe ou valor individual. Frequência relativa (Simbologia: fr ) É o quociente entre a frequência absoluta e o número total de observações, geralmente expressa em porcentagem. fri = fi /∑ fi Frequência acumulada (Simbologia: Fac ou Fi) É a soma de todas as frequências anteriores com a frequência do intervalo considerado. Frequência acumulada relativa (Simbologia: Fri) É o quociente entre a frequência acumulada e o número total de observações, geralmente expressa em porcentagem. Fri = Fi / ∑ fi http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 26 Exemplos de distribuição de frequência (1) Distribuição de Frequência Discreta ou Pontual – sem intervalos de classe É uma série de dados agrupados na qual o número de observações está relacionado com um número real. Idade de 15 alunos da ADM, 1º semestre da UNIRITTER, 2013/2 Idade (xi) Nº alunos (fi) 17 2 18 3 19 5 20 2 21 3 15 Fonte: Dados Hipotéticos (2) Distribuição de Frequências Intervalar Na distribuição de frequência, os intervalos parciais deverão ser apresentados de maneira a evitar dúvidas quanto à classe a que permanece determinado elemento. O tipo de intervalo mais usado é do tipo fechado a esquerda e aberto a direita, representado pelo símbolo: |---. Altura dos Alunos da ADM, 1º semestre da UNIRITTER, 2013/2 Altura (cm) Ponto médio (xi) nº alunos (fi) 150 |--- 158 154 4 158 |--- 166 162 12 166 |--- 174 170 20 174 |--- 182 178 13 182 |--- 190 186 5 ---- 54 Fonte: Dados Hipotéticos http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 27 REPRESENTAÇÃO GRÁFICA DA DISTRIBUIÇÃO DE FREQUÊNCIA Histograma: é a representação gráfica de uma distribuição de frequência, através de retângulos justapostos onde a base colocada no eixo das abscissas (eixo x) corresponde ao intervalo das classes, e a altura é dada pela frequência absoluta (ou relativa) das classes. Polígono de Frequência: é outro tipo de apresentação bastante comum para dados quantitativos, ou seja, é um sumário gráfico que pode ser preparado para dados que tenham sido sumariamente sintetizados numa distribuição de frequência. Utilizando-se os pontos médios de cada classe para a construção do mesmo, ou seja, é um gráfico em linhas, sendo que as frequências são marcadas no eixo vertical e no eixo horizontal são colocados os pontos médios dos intervalos de cada classe. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 28 Exemplo 01: Uma auditoria de 20 declarações de impostos de renda revelou 0, 2, 0, 0, 1, 3, 0, 0, 0, 1, 0, 1, 0, 0, 2, 1, 0, 0, 1 e 0 erros de cálculos. Contando o número de números 0, 1, 2 e 3, podemos apresentar esses dados na forma tabular: Número de erros Número de declarações 0 12 1 5 2 2 3 1 Exemplo 02: Considere a seguinte distribuição de frequência correspondente aos diferentes preços de um determinado produto em 20 lojas pesquisadas. Preços ($) Número de lojas 50 2 51 5 52 6 53 6 54 1 Total 20 a) Quantas lojas apresentaram um preço de $52,00? b) Construa uma tabela de frequências relativas. c) Construa uma distribuição de frequência acumulada relativa. d) Quantas lojas apresentaram um preço de até $51,00 (inclusive)? e) Qual a porcentagem de lojas com preço maior que $52,00? f) Qual a porcentagem de lojas com preço maior do que $51,00 e menor do que $54,00? http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 29 Exemplo 03: Com referência tabela abaixo Distribuição de frequência de Diárias para 200 apartamentos Diárias (R$) Número de apartamentos 150 |--- 180 3 180 |--- 210 8 210 |--- 240 10 240 |--- 270 13 270 |--- 300 33 300 |--- 330 40 330 |--- 360 35 360 |--- 390 30 390 |--- 420 16 420 |--- 450 12 Total 200 Responda: a) Quais os limites (inferior e superior) da primeira classe? b) A amplitude dos intervalos de classe é a mesma para todas as classes? c) Suponha um aluguel mensal de R$239,50. Identificar os limites superior e inferior da classe na qual esta observação seria registrada. d) Construir a distribuição de frequência relativa. e) Construir a distribuição de frequência acumulada. f) Construir o histograma e o polígono de frequência Exemplo 04: Os seguintes dados referem-se ao número de acidentes diários num grande estacionamento, durante o período de 50 dias: 6 9 2 7 0 8 2 5 4 2 5 4 4 4 4 2 5 6 3 7 3 8 8 4 4 4 7 7 6 5 4 7 5 3 3 1 3 8 0 6 5 1 2 3 3 0 5 6 6 3 Construa a distribuição de frequência absoluta e relativa utilizando: a. Dados não agrupados em classes; b. Dados agrupados em classes de amplitude 2. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 30 Atividade de fixação – LISTAS DE EXERCÍCIOS 5 1. Conhecidas as notas de alunos: 84 68 33 52 47 73 68 61 73 77 74 71 81 91 65 55 57 35 85 88 59 80 41 50 53 65 76 85 73 60 67 41 78 56 94 35 45 55 64 74 65 94 66 48 39 69 89 86 42 54 Obtenha a distribuição de frequência, tendo 30 para limite inferior da primeira classe e 10 para intervalo de classe. Construa o histograma da distribuição. 2. Os resultados do lançamento de um dado, 50 vezes, foram os seguintes: 6 5 2 6 4 3 6 2 6 5 1 6 3 3 5 1 3 6 3 4 5 4 3 1 3 5 4 4 2 6 2 2 5 2 5 1 3 6 5 1 5 6 2 4 6 1 5 2 4 3 Forme uma distribuição de frequência sem intervalos de classe. 3. Considere as notas de um teste de inteligência aplicada a 100 alunos: 64 78 66 82 74 103 78 86 103 87 73 95 82 89 73 92 85 80 81 90 78 86 78 101 85 98 75 73 90 86 86 84 86 76 76 83 103 86 84 85 76 80 92 102 73 8770 85 79 93 82 90 83 81 85 72 81 96 81 85 68 96 86 70 72 74 84 99 81 89 71 73 63 105 74 98 78 78 83 96 95 94 88 62 91 83 98 93 83 76 94 75 67 95 108 98 71 92 72 73 a) Forme uma distribuição de frequência. b) Calcule a distribuição de frequência relativa c) Calcule a distribuição de frequência acumulada d) Construa o polígono de frequência da distribuição. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 31 4. Complete a tabela abaixo: i CLASSES fi fri Fi Fri 1 2 3 4 5 8 —׀ 0 16 —׀ 8 24 —׀ 16 32 —׀ 24 40 —׀ 32 4 10 14 9 3 .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ∑ = 40 ∑ = 1,00 5. A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes: ÁREAS (m2) 300 ι— 400 ι— 500 ι— 600 ι— 700 ι—800 ι— 900 ι— 1.000 ι— 1.100 ι— 1.2000 Nº DE LOTES 14 46 58 76 68 62 48 22 6 Com referência a essa tabela, determine: a. a amplitude total b. o limite superior da quinta classe c. o limite inferior da oitava classe d. o ponto médio da sétima classe e. a amplitude do intervalo da segunda classe f. a frequência da quarta classe g. a frequência relativa da sexta classe h. a frequência acumulada da quinta classe i. o número de lotes cuja área não atinge 700 m2 j. o número de lotes cuja área atinge e ultrapassa 800 m2 k. a percentagem dos lotes cuja área não atinge 600 m2 l. a percentagem dos lotes cuja área seja maior ou igual a 900 m2 m. a percentagem dos lotes cuja área é de 500 m2, no mínimo, mas inferior a 1000 m2 http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 32 6. A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma empresa de ônibus: Nº ACIDENTES 0 1 2 3 4 5 6 7 Nº MOTORISTAS 20 10 16 9 6 5 3 1 Determine: a. o número de motoristas que não sofreram nenhum acidente b. o número de motoristas que sofreram pelo menos 4 acidentes c. o número de motoristas que sofreram menos de 3 acidentes d. o número de motoristas que sofreram no mínimo 3 e no máximo 5 acidentes e. a percentagem dos motoristas que sofreram no máximo 2 acidentes MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL As MEDIDAS DE POSIÇÃO expressam a característica dos dados observados tenderem a se agrupar (ou concentrar) em torno dos valores centrais. Representam valores intermediários da série (entre o menor e o maior valor), em torno dos quais os elementos da série estão distribuídos. Simultaneamente, as medidas deste tipo nos indicam a posição da série em relação ao eixo dos valores assumidos pela variável ou característica em estudo (numa representação gráfica, o eixo horizontal, das abscissas ou eixo do x). Cabe lembrar que estas medidas se referem a valores da variável em estudo, e por esta razão serão sempre expressos na unidade de medida da variável (quilos, metros, $, kWh, etc.). As principais medidas de tendência central são MÉDIA, MODA e MEDIANA. Média de dados agrupados sem intervalo de classe: = , onde fi são as frequências de cada classe e xi são os valores da variável Média de dados agrupados com intervalos de classe: = , onde fi são as frequências de cada classe e xi são os valores do ponto médio das classes MÉDIA ARITMÉTICA Matematicamente, a média é definida como a soma dos valores dividida pelo número de valores. Usando o conceito físico de ponto de equilíbrio, a média indica o centro de um conjunto de valores. Numa POPULAÇÃO a média é denotada por (letra grega equivalente ao ‘m’ minúsculo) e pronuncia-se ‘mi’. Numa AMOSTRA a média é denotada por x e pronuncia-se ‘xis barra’. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 33 Moda de dados agrupados sem intervalo de classe: É o valor da variável que apresentar maior frequência relacionada. Moda de dados agrupados com intervalo de classe: A classe que apresenta a maior frequência é denominada classe modal. Pela definição, afirmamos que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. Moda Bruta O método mais simples para o cálculo da moda (moda bruta) consiste em tomar o ponto médio da classe modal. A CLASSE MODAL é a classe que apresenta a maior frequência simples absoluta. Salários ($) fi xi 200 |---- 300 2 250 300 |---- 400 3 350 400 |---- 500 13 450 500 |---- 600 11 550 600 |---- 700 9 650 700 |---- 800 2 750 Σ 40 A Média da moda bruta é Mo = $450,00 MODA A moda de um conjunto de valores é definida como o valor que ocorre com maior frequência. Referências comuns à moda incluem expressões como valor dominante, valor que ocorre o maior número de vezes, valor que predomina num conjunto, valor modal, valor mais comum, etc. Não é imperativa, mas a ordenação dos dados facilita a identificação do valor mais frequente. A moda é denotada por Mo. Classe Modal http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 34 Moda Exata ou Moda de Czuber É uma medida mais precisa, pois leva em consideração as frequências das classes anterior a da classe modal e da classe posterior à classe modal. onde: lmo – limite inferior da classe modal fmo – frequência absoluta da classe modal fant – frequência absoluta da classe anterior à classe modal fpos – frequência absoluta da classe posterior à classe modal h – amplitude do intervalo de classe D1 = fmo – fant e D2 = fmo - fpos Salários ($) fi xi 200 |---- 300 2 250 300 |---- 400 3 350 400 |---- 500 13 450 500 |---- 600 11 550 600 |---- 700 9 650 700 |---- 800 2 750 Σ 40 Identificando componentes da fórmula: mo=400; D1=13-3=10; D2=13-11=2; h=500-400=100 h DD D lMo 21 1 mo Classe Modal 33,483$100 210 10 400Mo MEDIANA A mediana é o valor que separa o ROL em duas partes iguais, deixando à sua esquerda o mesmo número de elementos que à sua direita (50% para cada lado). O conceito de mediana implica necessariamente em ordenação dos dados, já que é definida sobre o ROL dos valores. A mediana é um caso particular de um conjunto de medidas chamado de SEPARATRIZES, cuja característica é dividir um conjunto de dados em duas partes, deixando P% dos elementos à sua esquerda e 100%-P% à sua direita. A mediana é denotada por Md. http://www.uniritter.edu.br/index.phpFaculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 35 Mediana de dados agrupados sem intervalo de classe: O valor que divide a distribuição de frequências em 2 grupos com mesmo número de elementos estará na posição dada por Neste caso basta identificar a frequência acumulada imediatamente superior à metade da soma das frequências. Mediana de dados agrupados com intervalo de classe: Para determinar a mediana dos dados agrupados em tabelas com intervalos de classes, devemos seguir os seguintes passos: a) Determinar as frequências acumuladas b) Calcular a ordem do elemento mediano c) Marcamos a classe correspondente à frequência acumulada imediatamente superior à − classe mediana − e, em seguida, empregamos a fórmula: onde lmed = limite inferior da classe mediana fmed = frequência absoluta da classe mediana Fant = frequência acumulada da classe anterior à classe mediana hmed = amplitude do intervalo da classe mediana Salários ($) fi Fi 200 |---- 300 2 2 300 |---- 400 3 5 400 |---- 500 13 18 500 |---- 600 11 29 600 |---- 700 9 38 700 |---- 800 2 40 Σ 40 hmed fmed Fant fi lmedMd 2 Classe Mediana 1ª Classe com F maior ou igual a fi / 2 (20). http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 36 Identificando componentes da fórmula: (fi/2) ou (50% de n) = 20; Classe Mediana = 4ª; lmed = 500; fmed = 11; hmed = 100; Fant = 18 Visando proporcionar um melhor entendimento da fórmula de cálculo da mediana para VARIÁVEIS CONTÍNUAS, vamos aplicar os mesmos conceitos utilizados na determinação da mediana no caso de VARIÁVEIS DISCRETAS. Foi visto que a primeira providência é identificar, através das frequências acumuladas, qual a classe mediana, ou seja, a classe que contém o elemento de ordem (fi/2). No caso de exemplo, identifica-se a 4ª classe como a classe mediana, pois ela agrupa os elementos de ordem 19º ao 29º. Como consequência, sabemos que o 20º elemento, que é pertencente a esta classe, possui então um salário de $500 a menos de $600. Mas como determinar exatamente, ou pelo menos com maior precisão do que $500|---$600, qual o valor do salário do elemento central da distribuição (20º elemento)? A hipótese subjacente ao modelo de cálculo adotado, é de que os elementos pertencentes à classe mediana se distribuem uniformemente no intervalo delimitado pela classe. Com base nessa premissa, podemos antever que o resultado propiciado pela fórmula é apenas uma aproximação do valor procurado, pois não há garantias sobre a uniformidade assumida. 18,518$Md100 11 2 500Md100 11 )1820( 500Md http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 37 ANÁLISE DE ASSIMETRIA (Média, Mediana e Moda) Denomina-se assimetria o grau de afastamento de uma distribuição da unidade de simetria. Em uma distribuição simétrica tem-se igualdade dos valores da média, mediana e moda. Quando a distribuição apresenta uma deformação, ou seja, ela não se parece mais com um “sino”, ela sempre será assimétrica. Entretanto, a assimetria pode dar-se na cauda esquerda ou na direta da curva de frequência. Em uma distribuição assimétrica positiva, ou assimétrica à direita, tem-se: Em uma distribuição assimétrica negativa, ou assimetria à esquerda, predominam valores inferiores à Moda. Assimetria à direita (ou positiva) Mo < Md < Assimetria à esquerda (ou negativa) < Md < Mo http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 38 Atividade de fixação – LISTAS DE EXERCÍCIOS 6 1. Um produto é acondicionado em lotes contendo cada um deles 10 unidades. O lote só é aprovado se apresentar um peso superior a 40 quilos. Se as unidades que compõe determinado lote pesam 3; 4; 3,5; 5; 3,5; 4; 5; 5,5; 4; 5. Este lote será aprovado? Qual o peso médio do produto? 2. Uma loja vende cinco produtos básicos A, B, C, D, E. O lucro por unidade comercializada destes produtos vale respectivamente R$ 200,00; R$ 300,00; R$ 500,00; R$ 1.000,00; R$5.000,00. A loja vendeu em determinado mês 20; 30; 20; 10; 5 unidades respectivamente. Qual foi o lucro médio por unidade comercializada por esta loja? 3. O gráfico apresenta os resultados de uma pesquisa realizada em dezembro de 2013, que buscou analisar o tempo de serviço dos empregados da Empresa Alfa. Fonte: Setor de Recursos Humanos da Empresa Alfa – 2014. a) Organize os dados na forma de tabela pontual. b) Faça uma análise estatística completa dos dados apresentados (frequência relativa, frequência acumulada, média, moda exata e mediana). Relação do número de empregados por tempo de Serviço 0 1 2 3 4 5 6 7 8 Tempo de serviços (anos) N úm er o de E m pr eg ad os 0 6 12 18 24 30 http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 39 4. O setor de marketing da loja ABC selecionou aleatoriamente um grupo de 54 notas fiscais, referentes ao dia 10 de março de 2014. A pesquisa teve como objetivo observar a média de consumo diário por cliente. A tabela intervalar apresenta os dados coletados. Tabela 01: Consumo diário Fonte: Setor de Marketing – Loja ABC Faça uma análise estatística completa dos dados apresentados (frequência relativa, frequência acumulada, média, moda e mediana). 5. Uma pesquisa para determinar a eficiência de uma nova ração para animais, em termos de ganho de peso, mostrou que após um mês em que a ração normal foi substituída pela nova ração, os animais apresentaram um aumento de peso segundo a tabela: Classe Aumento de peso em kg Nº de animais 1 2 3 4 5 0 |.....1 1 |.....2 2 |....3 3 | ....4 4 |....5 1 5 35 37 28 a) Calcule o aumento médio de peso por animal. b) Se a ração antiga proporcionava em iguais circunstancias um aumento médio de peso de 3.100kg/animal, esta nova ração pode, a princípio, ser considerada mais eficiente? Consumo por nota R$ Nº de notas fiscais Ponto médio (xi) xi . fi 0|____50 50|____100 100|____150 150|____200 200|____250 250|____300 10 28 12 2 1 1 54 http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores:Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 40 MEDIDAS DE DISPERSÃO OU VARIABILIDADE As MEDIDAS DE DISPERSÃO visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central. Elas indicam se um conjunto é homogêneo (pouca ou nenhuma variabilidade) ou heterogêneo (muita variabilidade). As principais Medidas de Dispersão são: Amplitude Total, Desvio Padrão, Variância e Coeficiente de Variação. AMPLITUDE TOTAL Para uma rápida medida de variabilidade, podemos calcular a amplitude total (AT), que é a diferença entre o mais alto e o mais baixo valor de distribuição. AT = Vmax - Vmin Exemplo: 1. Calcule a amplitude total das notas dos alunos da Turma B: Turma B 4 4,5 5 5 5 5 5,5 6 AT = Vmax - Vmin = VARIÂNCIA ( = população, S = amostra) A variância é definida como a média aritmética dos quadrados dos desvios. Para calcular a variância, eleva-se esta diferença ao quadrado e divide-se por n ou n-1, conforme fórmulas indicadas abaixo. Variância populacional α2 = Variância amostral S2 = http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 41 Exemplo: Calcule a variância para as notas dos alunos da turma A. Aluno Nota ( ( ² A 0 B 2 C 4 D 5 E 5 F 6 G 8 H 10 TOTAL 40 DESVIO PADRÃO ( = população, S = amostra) O desvio padrão é uma das medidas mais úteis na variação de um grupo de dados e a vantagem é que se trata de uma medida de variabilidade que leva em conta toda a informação contida na amostra. Desvio Padrão para dados não agrupados É definido como a raiz quadrada da média aritmética dos quadrados dos desvios, ou seja, a raiz quadrada da variância. Desvio- padrão populacional α = Desvio-padrão amostral s = http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 42 Exemplo: Calcule o desvio-padrão para os seguintes dados amostrais: 25 – 26 – 33 – 21 – 30 Desvio Padrão para dados agrupados Exemplo sem intervalo de classes: Número de filhos homens em 30 famílias de 4 filhos xi fi fi xi xi 2 fi xi² 0 2 0 0 0 1 6 6 1 6 2 12 24 4 48 3 7 21 9 63 4 3 12 16 48 Logo: Então, S = 1,06 http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 43 Exemplo com intervalo de classes: Estaturas (cm) de 40 alunos i ESTATURAS (cm) fi xi fi xi xi 2 fi xi² 1 150 154 4 152 608 23.104 92.416 2 154 158 9 156 1404 24.336 219.024 3 158 162 11 160 1760 25.600 281.600 4 162 166 8 164 1312 26.896 215.168 5 166 170 5 168 840 28.224 141.120 6 170 174 3 172 516 29.584 88.752 Então, s = 5,64 cm COEFICIENTE DE VARIAÇÃO É definido como o quociente entre o desvio padrão e a média, e em geral. Nos dá uma indicação da precisão do experimento. População = CV = . 100 Amostra = CV = . 100 http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 44 Como o coeficiente de variação analisa a dispersão em termos relativos, ele será dado em %. Quanto menor for o valor do coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão em torno da média. Parâmetros do coeficiente de variação: I) Quanto a QUALIDADE DE DISPERSÃO (a) 0 a 15% = baixa dispersão: representa um grupo homogêneo em torno da média (b) 15% a 30% = média dispersão (c) 30% a mais = alta dispersão: representa um grupo heterogêneo em torno da média II) Quanto a MEDIDA CENTRAL ADEQUADA (a) 0 a 30% = a medida indicada é a média (b) 30% a 60% = a medida indicada é a mediana (c) 60% a mais = a medida indicada é a moda III) Quanto ao COMPORTAMENTO DA VARIÁVEL (a) 0 a 10% = a variável apresenta um ótimo padrão (b) 10% a 20% = a variável apresenta um bom padrão (c) 20% a 30% = a variável apresenta um padrão regular Exemplo: Tabela de distribuição de frequência com os valores das compras dos clientes da Loja Estilo Modas. Valor Compra (R$) fi Fi fri% xi xifi xi² fi xi² 12 |---- 72 11 11 44% 42 462 1764 19404 72 |---- 132 9 20 36% 102 918 10404 93636 132 |---- 192 2 22 8% 162 324 26244 52488 192 |---- 252 2 24 8% 222 4444 49284 98568 252 |---- 312 1 25 4% 282 282 79524 79524 Total 25 ---- 100% ---- 2430 ---- 343620 ANALISE ESTATISTICA DO PROBLEMA: O valor médio das compras pelos clientes da Loja Estilo Modas é de R$ 97,20. Conclui-se que 50% dos clientes gastam menos que R$ 82,00, ou seja, não apresentam um gasto superior a R$ 82,00. Os gastos com as compras variam entre R$ 12,00 a R$ 312,00. O coeficiente de variação encontrado representa 68,83% de afastamento do desvio padrão em relação a media, então os gastos efetuados pelos clientes da loja se tratam de um grupo heterogêneo (CV > 30%) e a medida indicada para representar a variável é a moda. A medida da moda mais precisamente é um valor de R$ 42,00, isto é, os gastos mais presentes na loja são de R$ 42,00. http://www.uniritter.edu.br/index.php Faculdade de Negócios Estatística Professores: Neusa Spillari Dembogurski Thaís Ribeiro Pagliarini 45 Atividades de fixação – LISTA DE EXERCÍCIOS 7 1. Um posto de gasolina registrou a seguinte distribuição de frequência para o número de litros de gasolina vendidos por carro em uma amostra de 680 carros abastecidos. Gasolina (litros) fi fa fr% xi fixi xi 2 fixi 2 0 |---- 10 74 74 11% 5 370 25 1850 10 |---- 20 192 266 28% 15 2880 225 43200 20 |---- 30 280 546 41% 25 7000 625 175000 30 |---- 40 105 651 15% 35 3675 1225 128625 40 |---- 50 23 674 4% 45 1035 2025 46575 50 |---- 60 6 680 1% 55 330 3025 18150 Total 680 ---- 100% ---- 15290 ---- 413400 FONTE: Anderson, Sweeney e Williams. a) Defina o tipo de variável da amostra. b) Calcule as medidas de posição. c) Calcule as medidas de variabilidade (desvio padrão e coeficiente de variação). d) Qual medida de posição melhor representa a variável? Por quê? e) Se o posto de gasolina espera atender cerca de 120 carros em um determinado dia, qual é a estimativa do número total de litros de gasolina que serão vendidos? f) Faça um relato estatístico da situação. 2. De acordo com o serviço do Setor Administrativo da Empresa Gama, os gastos referentes aos custos variáveis de
Compartilhar