Baixe o app para aproveitar ainda mais
Prévia do material em texto
TÉCNICO CONTABILIDADE Estatística História da Estatística WWW.CETES.COM.BR Disciplina: Estatística Professor: Marcelo Nascimento dos Santos 1º Semestre de 2014 CENTRO EDUCACIONAL TÉCNICO SUZANENSE • Telefone: 4747-1500 •• WWW.CETES.COM.BR 1 História da Estatística A origem da palavra Estatística está associada à palavra latina STATUS (Estado). Há indícios de que 3000 anos A.C. já se faziam censos na Babilônia, China e Egito e até mesmo o 4o. livro do Velho Testamento faz referência à uma instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel que estivessem aptos para guerrear. Usualmente, estas informações eram utilizadas para a taxação de impostos ou para o alistamento militar. O Imperador César Augusto, por exemplo, ordenou que se fizesse o Censo de todo o Império Romano.A palavra "CENSO" é derivada da palavra "CENSERE", que em Latim significa "TAXAR". Em 1085, Guilherme, O Conquistador, solicitou um levantamento estatístico da Inglaterra, que deveria conter informações sobre terras, proprietários, uso da terra, empregados e animais. Os resultados deste Censo foram publicados em 1086 no livro intitulado "Domesday Book" e serviram de base para o cálculo de impostos.Contudo, mesmo que a prática de coletar dados sobre colheitas, composição da população humana ou de animais, impostos, etc., fosse conhecida pelos egípcios, hebreus, caldeus e gregos, e se atribuam a Aristóteles cento e oitenta descrições de Estados, apenas no século XVII a Estatística passou a ser considerada disciplina autônoma, tendo como objetivo básico a descrição dos BENS do Estado.A palavra Estatística foi cunhada pelo acadêmico alemão Gottfried Achenwall (1719-1772), que foi um notável continuador dos estudos de Hermann Conrig (1606-1681). A escola alemã atingiu sua maturidade com A. L. von Schlozer (1735-1809), mas sempre com idéias diferentes daquelas que fundamentaram a Estatística Moderna. Com algum exagero, pode-se dizer que o seu principal legado foi o termo "STAATENKUNDE", que deu origem à designação atual. Na Enciclopédia Britânica, o verbete "STATISTICS" apareceu em 1797.Em contraposição à natureza eminentemente qualitativa da escola alemã, na Inglaterra do século XVII surgiram os aritméticos políticos, dentre os quais destacaram-se John Graunt (1620-1674) e William Petty (1623-1687). Eles preocuparam-se com o estudo numérico dos fenômenos sociais e políticos, na busca de leis quantitativas que pudessem explicá-los. O estudo consistia essencialmente de exaustivas análises de nascimentos e mortes, realizadas através das Tábuas de Mortalidade, que deram origem às atuais Tábuas de Mortalidade usadas pelas companhias de seguros. Um dos resultados mais importantes foi a constatação de que o percentual de nascimento de crianças do sexo masculino (51%) é levemente superior ao do sexo feminino (49%). Dessa forma, a escola dos aritméticos políticos pode ser considerada o berço da Demografia. Um de seus mais notáveis adeptos foi o pastor alemão Sussmilch (1707-1767), com o qual pode-se dizer que a Estatística aparece pela primeira vez como meio indutivo de investigação.Na última metade do século XIX, os alemães Helmert (1843-1917) e Wilhelm Lexis (1837-1914), o dinamarquês Thorvald Nicolai Thiele (1838-1910) e o inglês Francis Ysidro Edgeworth (1845-1926), obtiveram resultados extremamente valiosos para o desenvolvimento da Inferência Estatística, muitos dos quais só foram completamente compreendidos mais tarde. Contudo, o impulso decisivo deve-se a Karl Pearson (1857-1936), William S. Gosset (1876-1937) e, em especial, a Ronald A. Fisher (1890-1962).Karl Pearson (1857-1936) formou-se em 1879 pela Cambridge University e inicialmente 2 dedicou-se ao estudo da evolução de Darwin, aplicando os métodos estatísticos aos problemas biológicos relacionados com a evolução e hereditariedade. Em 1896, Pearson foi eleito membro da Royal Society of London. Entre 1893 e 1912 escreveu um conjunto de 18 artigos denominado Mathematical Contribution to the Theory Evolution, com contribuições extremamente importantes para o desenvolvimento da teoria da Análise de Regressão e do Coeficiente de Correlação, bem como do teste de hipóteses de qui-quadrado. Em sua maioria, seus trabalhos foram publicados na revista Biometrika, que fundou em parceria com Walter Frank Raphael Weldon (1860-1906) e Francis Galton (1822-1911). Além da valiosa contribuição que deu para a teoria da regressão e da correlação, Pearson fez com que a Estatística fosse reconhecida como uma disciplina autônoma. Uma coleção de seus artigos foi publicada em "Karl Pearson Early Statistical Papers" (Ed. por E. S. Pearson, Cambridge University Press, 1948). Para ver uma relação de alguns trabalhos publicados por Karl Pearson William Sealey Gosset (1876-1937) estudou Química e Matemática na New College Oxford. Em 1899 foi contratado como Químico da Cervejaria Guiness em Dublin, desenvolvendo um trabalho extremamente importante na área de Estatística. Devido à necessidade de manipular dados provenientes de pequenas amostras, extraídas para melhorar a qualidade da cerveja, Gosset derivou o teste t de Student baseado na distribuição de probabilidades.Esses resultados foram publicados em 1908 na revista Biometrika, sob o pseudônimo de Student, dando origem a uma nova e importante fase dos estudos estatísticos. Gosset usava o pseudônimo de Student, pois a Cervejaria Guiness não desejava revelar aos concorrentes os métodos estatísticos que estava empregando no controle de qualidade da cerveja. Os estudos de Gosset podem ser encontrados em "Student Collected Papers" (Ed. por E.S.Pearson e J. Wishart, University College, Londres, 1942). Para ver uma relação de alguns trabalhos publicados por Gosset, clique neste link de referências bibliográficas.A contribuição de Ronald Aylmer Fisher (1890-1962) para a Estatística Moderna é, sem dúvidas, a mais importante e decisiva de todas. Formado em astronomia pela Universidade de Cambridge em 1912, foi o fundador do célebre Statistical Laboratory da prestigiosa Estação Agronômica de Rothamsted, contribuindo enormemente tanto para o desenvolvimento da Estatística quanto da Genética. Ele apresentou os princípios de planejamento de experimentos, introduzindo os conceitos de aleatorização e da Análise da Variância, procedimentos muito usados atualmente.No princípio dos anos 20, estabeleceu o que a maioria aceita como a estrutura da moderna Estatística Analítica, através do conceito da verossimilhança (likelihood, em inglês). O seu livro intitulado "Statistical Methods for Research Workers", publicado pela primeira vez em 1925, foi extremamente importante para familiarizar os investigadores com as aplicações práticas dos métodos estatísticos e, também, para criar a mentalidade estatística entre a nova geração de cientistas. Os trabalhos de Fisher encontram-se dispersos em numerosas revistas, mas suas contribuições mais importantes foram reunidas em "Contributions to Mathematical Statistics" (J. Wiley & Sons, Inc., Nova Iorque, 1950).Fisher foi eleito membro da Royal Society em 1929 e condecorado com as medalhas Royal Medal of the Society e Darwin Medal of the Society em 1938 e em 1948, respectivamente. Em 1955 foi novamente condecorado, desta vez com a medalha Copley Medal of the 3 Royal Society. Outra área de investigação extremamente importante para o desenvolvimento da Estatística é a Teoria das Probabilidades. Usualmente, costuma-se atribuir a origem do Cálculo de Probabilidades às questões relacionadas aos jogos de azar que o célebre cavaleiro Méré (1607-1684) encaminhou à Blaise Pascal (1623-1662). No entanto, outros autores sustentam que o Cálculo de Probabilidades teve a suaorigem na Itália, com especial referência para Luca Pacioli (1445-1517), Girolamo Cardano (1501-1576), Nicolo Fontana Tartaglia (1500-1557) e Galileo Galilei (1564-1642). Três anos depois de Pascal ter previsto que a "aliança do rigor geométrico" com a "incerteza do azar" daria lugar a uma nova ciência, Christiaan Huygens (1629-1695) publicou o trabalho denominado "De Raciociciis in Ludo Aleae", que é considerado o primeiro livro sobre o Cálculo de Probabilidades. Além disso, ainda teve a notável particularidade de introduzir o conceito de esperança matemática. Gottfried Wilhelm von Leibniz (1646-1716) também dedicou-se ao estudo do Cálculo de Probabilidades, publicando um trabalho sobre a "arte combinatória" e outro sobre aplicações às questões financeiras. Leibniz também estimulou Jacques Bernoulli (1654-1705) ao estudo do Cálculo de Probabilidades, cuja grande obra, denominada "Ars Conjectandi", foi publicada oito anos após a sua morte. Em Ars Conjectandi de Jacques Bernoulli, foi publicada e rigorosamente provada a Lei dos Grandes Números de Bernoulli, considerada o primeiro teorema limite. Pode-se dizer que graças às contribuições de Bernoulli o Cálculo de Probabilidades adquiriu o status de ciência. Além da obra póstuma de Bernoulli, o início do século XVII foi marcado pelos livros de Pierre Rémond de Montmort (1678-1719), denominado "Essai d'Analyse sur les Jeux de Hazard", e de Abraham De Moivre (1667-1754), intitulado The Doctrine of Chances. De Moivre era Francês de nascimento, mas desde a sua infância refugiou-se na Inglaterra devido às guerras religiosas, fazendo aplicações ao cálculo de anuidades e estabelecendo uma equação simples para a lei da mortalidade entre 22 anos e o limite da longevidade que fixou em 86 anos. Mais tarde, na "Miscellanea Analytica", apresentou resultados aos quais Laplace deu uma forma mais geral e que constituem o segundo teorema limite. É extremamente importante falar, também, do reverendo Thomas Bayes (1702-1761) a quem se deve o conceito de probabilidade inversa, relacionado com situações em que se caminha do particular para o geral. No seu livro denominado "Essay towards solving a problem of the doctrine of chances" (Philosophical Transactions of the Royal Society of London, 1764-65, póstumo), Bayes formula através do teorema que leva seu nome e do postulado que tantas vezes se lhe associa: a primeira tentativa de matematização da inferência Estatística. Mesmo sem ter publicado nenhum trabalho com seu nome, em 1742 Thomas Bayes foi eleito membro da Royal Society of London. Os estudos dos astrônomos Pierre-Simon Laplace (1749-1827), Johann Carl Friedrich Gauss (1777-1855) e Lambert Adolphe Jacques Quetelet (1796-1874) foram fundamentais para o desenvolvimento do Cálculo de Probabilidades. Devido aos novos métodos e idéias, o trabalho de Laplace de 1812, intitulado "Théorie Analytique des Probabilités", até o presente é considerado um dos mais importantes trabalhos sobre a matéria.Johann Carl Friedrich Gauss, professor de astronomia e diretor do Observatório de Gottingen, em 1809 apresentou o estudo intitulado "Theoria combinationis Observatorium Erroribus Minimis Obnoxia", 4 explanando uma teoria sobre a análise de observações aplicável a qualquer ramo da ciência, alargando o campo de aplicação do Cálculo de Probabilidades. Com Lambert Adolphe Jacques Quetelet, por sua vez, inicia-se a aplicação aos fenômenos sociais. O seu escrito "Sur l'homme et le développement de ses facultés" foi publicado em segunda edição com o título "Physique sociale ou Essai sur le développement des facultés de l'homme", que incluía pormenorizada análise da teoria da probabilidade. Quetelet introduziu também o conceito de "homem médio" e chamou particular atenção para a notável consistência dos fenômenos sociais. Por exemplo, mostrou que fatores como a criminalidade apresentam permanências em relação a diferentes países e classes sociais. Antoine Augustin Cournot (1801-1877) percebeu a importância da Teoria das probabilidades na análise estatística, tendo sido o pioneiro no tratamento matemático dos fenômenos econômicos. Suas idéias foram publicadas em "Exposition de la théorie des chances et des probabilités". Na segunda metade do século XIX a Teoria das Probabilidades atingiu um dos pontos mais altos com os trabalhos da escola russa fundada por Pafnuty Lvovich Chebyshev (1821-1894), que contou com representantes como Andrei Andreyevich Markov (1856-1922) e Aleksandr Mikhailovich Lyapunov (1857-1918).Contudo, o seu maior expoente foi Andrey Nikolayevich Kolmogorov (1903-1987), a quem se deve um estudo indispensável sobre os fundamentos da Teoria das Probabilidades, denominado "Grundbegrife der Warscheinlichkeitrechnung", publicado em 1933. Em 1950 foi traduzido para o Inglês sob o título "Foundations of Probability". A arte de coletar e analisar dados Em um sentido amplo a estatística é a arte de coletar, analisar e interpretar dados. Os dados são os fatos e os números que são coletados, analisados e interpretados. Para fins de análise estatística, os dados são qualificados como quantitativos e qualitativos. Os dados qualitativos consistem de rótulos ou nomes que são usados para identificar os atributos de um elemento. Os dados quantitativos são sempre numéricos e indicam a quantidade para uma variável de interesse. As operações numéricas comuns têm significado somente se os dados são quantitativos. Portanto os cálculos estatísticos usados para dados quantitativos nem sempre são apropriados para os dados qualitativos. 5 Considere a tabela abaixo: Tabela 1: Conjunto de dados contendo informações referentes a 10 empresas Empresa Bolsa de valores Símbolo no painel eletrônico Vendas anuais milhões de US$ Award Software OTC AWRD 15,7 Chesaeake energy NYSE CHK 255,3 Craig Corporation NYSE CRG 29,4 Edisto Resourse AMEX EDT 254,6 Franklin Elect.Pbls NYSE FEP 88,7 Gentia Software OTC GNIY 27,7 Giant Group NYSE GPO 7,2 Hot Topic OTC HOTT 48,3 Hudson General AMEX HGC 30,3 ICU Medial OTC ICUI 26,5 Fonte: Stock Investor Pro American Association of individual Investors, 31 de agosto de 1997. Características da tabela Os dados Os dados são os fatos e números coletados, analisados e sintetizados para apresentação e interpretação. Juntos os dados coletados em um estudo particular são denominados de conjunto de dados. Exemplo: OTC, AWRD, 15,7. Elementos Os elementos são as entidades sobre os quais os dados são coletados. Exemplo: Award Software Variável Uma variável é uma característica de interesse para os elementos. Exemplo: Símbolo no painel eletrônico 6 Dados qualitativos Dados que fornecem nomes ou rótulos para uma característica de um elemento. Exemplo: OTC Dados quantitativos Dados que indicam a quantidade de alguma coisa. Exemplo: 255,3 População O conjunto de todos os elementos de interesse de um determinado estudo. Exemplo: Tabela 1.1 7 Nome RGM Nota Curso Série/Módulo/Turma Período Data Disciplina Tipo de Atividade Lista de Exercícios 1 Conteúdo ou Módulos Objetivo Visto do Coordenador do Curso 01) Realize uma pesquisa com os colegas de sala de acordo com a tabela abaixo: Tabela 1.1: Dados pessoais alunos da sala Iniciais Cor dos olhos Altura Cidade residência Condição de emprego Fonte: Sala de aula 2 ) Para cada caso abaixo verifique se as informações correspondem a dados qualitativos ou quantitavos. Todas as respostas deverão serjustificadas 1) A Columbia House fornece CD´s e fitas de gravações para os membros de seu clube de compra via mala-direta. Uma pesquisa sobre música da Columbia House solicitava aos novos membros do clube que completassem um levantamento de 11 questões. Eis algumas das questões: a) Quantos CD´s você comprou nos últimos meses? b) Você é membro de algum clube nacional de compra de livros via mala direta?(Sim/Não) c) Qual é a sua idade? d) Incluindo você, quantas pessoas (adultos e crianças existem em sua família)? e) Que tipo de música você está interessado em comprar? (15 categorias eram listadas incluído hard rock, contemporâneo adulto, heavy metal, rap e country). Comente se cada questão fornece dados qualitativos ou quantitativos. 2) Declare se cada uma das seguintes variáveis é qualitativa ou quantitativa: a) Idade; 8 b) Gênero; c) Classe social; d) Marca de automóvel; e) Número de pessoas que são favoráveis à pena de morte. 3) Declare se cada uma das variáveis é qualitativa ou quantitativa: a) Vendas anuais; b) Tamanho dos refrigerantes (pequeno, médio ou grande); c) Classificação dos empregados (GS1 até GS18) d) Ganho por ação; e) Método de pagamento (à vista, com cheque, com cartão de débito); 4) O estudo de assinantes norte-americanos da revista Business Week de 1996 coletou dados de uma amostra de 2861 assinantes. Dos que responderam, 59% indicaram que sua renda anual era de US$ 75.000,00 ou mais e 50% disseram ter o cartão de crédito American Express. a) Qual é a população de interesse nesse estudo? b) A renda anual é uma variável qualitativa ou quantitativa? c) O possuidor de um cartão de crédito American Express é qualitativo ou quantitativo? 9 DISTRIBUIÇÃO DE FREQUENCIA / HISTOGRAMA E OGIVAS / MÉTODO CAULE E FOLHA Frequência Absoluta e Frequência relativa A frequência absoluta é o número de vezes que uma variável assume um determinado valor. Para representarmos a frequência absoluta utilizamos a sigla Fi A frequência relativa percentual é a representação na frequência absoluta em termos percentuais. Para representarmos a frequência relativa percentual utilizamos a sigla Fr%. Fr% é calculado da seguinte maneira: 100.% Fi FiFr Considerando os dados da tabela 0.1, podemos observar o seguinte relatório: Exemplo: Tabela 0.1 – Frequências e porcentagem da comercialização de ações de 25 empresas __________________________________________________________________ Bolsa de valores (xi) Frequência absoluta (Fi) Frequência relativa (Fr%) NYSE 5 20 AMEX 3 12 OTC 17 68 Total 25 100 Frequência acumulada A distribuição de frequências pode ser complementada com a frequência acumulada cujos valores são obtidos adicionando-se a cada valor absoluto os valores das frequências anteriores. 10 Exemplo: Bolsa de valores (xi) Frequência absoluta (Fi) Frequência acumulada (Fa) NYSE 5 5 AMEX 3 8 OTC 17 25 Total 25 25 Fa=Fi+Faanterior Fa = 5+0 = 5 Fa = 5+3 = 8 Fa = 17+8 = 25 Distribuição de frequência Uma distribuição de frequência é um sumário tabular que mostra a frequência de observações em cada um das classes não sobrepostas. Para os dados quantitativos devemos ser cuidadosos ao definir as classes a serem utilizadas na distribuição de frequência. Etapas para definir as classes a) Determinar o número de classes não sobrepostas As classes são formadas especificando-se os intervalos que serão usados para agrupar os dados. Recomendamos usar entre 05 e 20 classes. b) Determinar a extensão de cada classe Para determinarmos a largura de uma classe, identificamos os maiores e os menores valores num conjunto de dados, então, uma vez que o número de classes tenha sido determinado, usamos a seguinte expressão para determinar a largura aproximada de uma classe: n mML Onde: L = largura da classe M = Maior valor de dados m= Menor valor de dados n = número de classes 11 A largura aproximada pode ser arredondada para um valor mais conveniente, baseado na preferência da pessoa que está desenvolvendo a distribuição de freqüência. c) Determinar o limite de cada classe Os limites de classe precisam ser escolhidos de modo que cada uma das observações pertença a só uma classe. O limite inferior identifica o menor valor possível de dados atribuído a uma classe. O limite superior identifica o maior valor possível de dados atribuído a uma classe. O mérito da distribuição de freqüência está em fornecer subsídios sobre os dados que não são facilmente obtidos observando-se os dados em sua forma original não organizada. Exemplo: Considere a tabela abaixo que fornece o tempo em dias exigido para se completar a auditoria de fim de ano para uma amostra de 20 clientes da Sanderson and Clifford, uma pequena firma de contabilidade. Tabela 1.0 Tempo em dias de auditorias de fim de ano 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13 __________________________________________________________________ Fonte: Sanderson and Clifford Resolução: Número de classes adotadas: 05 Maior valor de dados (M): 33 Menor valor de dados (m): 12 2,4 5 1233 n mML Observando a largura calculada, arredondamos para 5 dias, formando assim a largura de classes: 12 Tabela 1.1 Distribuição de frequência para os dados do tempo de auditoria Tempo de auditoria (dias) (xi) Freqüência (Fi) 10-14 4 15-19 8 20-24 5 25-29 2 30-34 1 Total 20 Fonte: Tabela 1.0 Podemos verificar que definimos intervalos de freqüência de 05 dias: 10, 11, 12, 13,14 = 5 dias O menos valor é 12 dias que está no intervalo 10 a 14 O maior valor é 33 dias que está no intervalo 30 a 34 Histograma Chamamos de histograma o gráfico de colunas onde no eixo x colocamos a variável de interesse e no eixo y a frequência absoluta, a frequência relativa ou frequência percentual. Histograma do tempo de auditoria Fonte: Tabela 1.1 0 5 10 15 20 25 .10-14 15-19 20-24 25-29 30-34 Total 13 Ogivas Chamamos de gráfico de ogivas a representação da frequência acumulada de um determinado evento. Os valores dos dados são mostrados no eixo horizontal (x) e a frequência acumulada é mostrada no eixo vertical (y). Ogivas para dados do tempo de auditoria de uma empresa Fonte: Tabela 1.1 Apresentação de Caule e Folha Trata-se de uma técnica de análise exploratória de dados utilizada para sintetizar rapidamente as informações. Uma apresentação de caule e folha pode ser usada para mostrar tanto a ordem de classificação como a forma do conjunto de dados. Para desenvolver uma apresentação de caule e folha, antes de tudo arranjamos os dígitos, à exceção do último, de cada valor dos dados a esquerda de uma linha vertical. À direita dessa linha registramos o último dígito de cada valor dos dados conforme repassamos as observações, na ordem em que eles foram registrados. O último dígito para cada valor dos dados é colocado na linha que corresponde ao seu primeiro dígito fa 4 12 17 19 20 0 5 10 15 20 25 .10-14 15-19 20-24 25-29 30-34 fa 14 Exemplo __________________________________________________________________ Tabela 2.0 Número de questões respondidas em um teste de aptidão __________________________________________________________________ 112 72 69 97 107 73 92 76 86 124 126128 118 127 73 82 104 132 134 83 92 108 96 100 92 115 76 91 102 81 95 141 81 80 106 84 119 113 98 75 68 98 115 106 95 100 85 94 106 119 __________________________________________________________________ Distribuição de caule e folha 6 8 9 7 2 3 3 5 6 6 8 0 1 1 2 3 4 5 6 9 1 2 2 2 4 5 5 6 7 8 8 10 0 0 2 4 6 6 6 7 8 11 2 3 5 5 8 9 9 12 4 6 7 8 13 2 4 14 1 Cada linha nessa representação é chamada de caule, e cada dígito no caule é uma folha. Para a primeira linha temos: 6 | 8 9 Isto significa 68 e 69. Embora a apresentação de caule e folha pareça oferecer a mesma informação que um histograma, ela tem duas vantagens principais: 1) A apresentação do caule e folha é mais fácil de construir; 2) Dentro de um intervalo de classes a apresentação de caule e folha fornece mais informações que um histograma, porque o caule e a folha mostram os valores reais dos dados. 15 Nome RGM Nota Curso Série/Módulo/Turma Período Data Disciplina Tipo de Atividade Lista de exercícios 2 Conteúdo ou Módulos Objetivo Visto do Coordenador do Curso 1) Considere as seguintes notas dos alunos de um curso de informática. Determine a frequência absoluta, a frequencia relativa e a acumulada. No. 1 2 3 4 5 6 7 8 9 10 11 Nota 5,0 4,0 6,0 8,0 3,0 5,0 7,0 6,0 8,0 4,0 6,0 No. 12 13 14 15 16 17 18 19 20 21 22 Nota 9,0 7,0 5,0 7,0 7,0 5,0 6,0 8,0 7,0 4,0 2,0 Notas (xi) Frequência relativa (Fr) Freqüência relativa % (Fr%) Freqüência absoluta (Fi) 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 Total 16 2) Considere a seguinte tabela de venda de refrigerantes de um determinado fornecedor. Preencha a tabela abaixo bem como elabore o histograma. Tabela 2.0 Dados de uma amostra de 50 compras de refrigerantes _________________________________________________________________ Coca-cola Sprite Pepsi Coca-cola light Coca-cola Coca-cola Pepsi Coca-cola light Coca-cola Coca-cola light Coca-cola Coca-cola Coca-cola Coca-cola light Pepsi Coca-cola Coca-cola Dr.Pepper Dr.Pepper Sprite Coca-cola Coca-cola light Pepsi Coca-cola light Pepsi Coca-cola Pepsi Pepsi Coca-cola Pepsi Coca-cola Coca-cola Pepsi Dr.Pepper Pepsi Pepsi Sprite Coca-cola Coca-cola light Coca-cola Sprite Dr. Pepper Coca-cola light Dr.Pepper Pepsi Coca-cola Pepsi Sprite Coca-cola light Coca-cola Refrigerante (xi) Freqüência Absoluta (Fi) Freqüência acumulada (Fa) Freqüência relativa (Fr%) Coca-cola Pepsi Sprite Coca-cola light Dr.Pepper Total 17 3) Considere os seguintes dados 14 21 23 21 16 18 22 25 16 16 24 24 25 19 16 19 18 19 21 12 16 17 18 23 25 20 23 16 20 19 24 26 15 22 24 20 22 24 22 20 a) Desenvolva uma distribuição de freqüência usando os limites de classe: 12-14 15-17 18-20 21-23 24-26 b) Desenvolva uma distribuição de freqüência relativa e uma distribuição de freqüência percentual usando os limites de classe do item anterior. 4) Construa uma distribuição de freqüência acumulada e uma distribuição de freqüência absoluta para as classes que seguem: Classe freqüência 10-19 10 20-29 14 30-39 17 40-49 07 50-59 02 0 5 10 15 20 25 30 35 40 45 50 Coca-cola Pepsi Sprite Coca-cola light Dr.Pepper 18 5)O corpo administrativo de um consultório médico estudou o tempo de espera dos pacientes que chegavam ao consultório com uma solicitação de serviço de emergência. Os seguintes dados foram coletados no período de um mês (tempos de espera em minutos): 2 5 10 12 4 4 5 17 11 8 9 8 12 21 6 8 7 13 18 3 Utilize classe 0-4; 5-9; etc e: a) Mostre a distribuição de freqüência; b) Mostre a distribuição de freqüência relativa; c) Mostre a distribuição de freqüência acumulada; d) Que proporção de pacientes que necessitam de serviços de emergência enfrentam um tempo de espera de nove minutos ou menos? 6) A National Airlines aceita reservas de vôos por telefone. Os seguintes dados mostram a duração das chamadas (em minutos) para uma amostra de 20 reservas feitas por telefone. Construa a tabela de distribuição de freqüência bem como determine a freqüência relativa, bem como seu histograma. 2,1 4,8 5,5 10,4 3,3 3,5 4,8 5,8 5,3 5,5 2,8 3,6 5,9 6,6 7,8 10,5 7,5 6,0 4,5 4,8 7) Os serviços de recursos humanos da Roth Young relataram que os salários anuais para os gerentes assistentes de lojas de departamento variam de US$ 28.000 a US$ 57.000 (National Business Employment Weekly, 16-22 de 10/1994).Assuma que os seguintes dados são uma amostra dos salários anuais de 40 gerentes assistentes de lojas de departamento (os dados estão em mil dólares): 48 35 57 48 52 56 51 44 40 40 50 31 52 37 51 41 47 45 46 42 53 43 44 39 50 50 44 49 45 45 50 42 52 55 46 54 45 41 45 47 a) Quais foram os salários mais altos e os mais baixos relatados? b) Use uma amplitude de classe de US$ 5.000 e prepare sumários tabulares dos dados de salário anuais. c) Que proporção dos salários anuais é de US$ 35.000 ou menos (utilize a freqüência acumulada para analisar)? d) Que porcentagem de salários anuais é maior que US$ 50.000? e) Prepare um histograma dos dados. 19 8) Os dados para os números de unidades produzidas por um empregado da produção durante 20 dias que antecederam a pesquisa são apresentados a seguir: 160 170 181 156 176 148 198 179 162 150 162 156 179 178 151 157 154 179 148 156 Sintetize os dados construindo a) Distribuição de freqüência; b) Distribuição de freqüência relativa; c) Distribuição de freqüência acumulada; d) Uma ogiva 9) Construa uma apresentação de caule e folha para os seguintes dados: 70 72 75 64 58 83 80 82 76 75 68 65 57 78 85 72 10)Um psicólogo desenvolveu um novo teste de inteligência para adultos. O teste foi administrado em 20 indivíduos e foram obtidos os seguintes dados: 114 99 131 124 117 102 106 127 119 115 98 104 144 151 132 106 125 122 118 118 Construa uma apresentação caule e folha para esses dados. 11) Periodicamente, o Barron´s publica as previsões para as empresas listadas na média industrial Dow Jones. Os dados que seguem são as previsões de relação preço/ganho (P/G) de 1998 para essas empresas sugeridas pela Barron´s Empresa Previsão P/G 1998 Empresa Previsão P/G 1998 AT&T 20 Hewlett-Packard 18 Alcoa 10 IBM 16 Allied Signal 16 International Paper 17 American Express 18 Johnson&johnson 23 Boeing 21 McDonald´s 18 Caterpillar 11 Merck 24 Chevron 18 Minnesota Mining 21 Coca-Cola 38 J.P.Morgan 15 Disney 27 Philip Morris 13 Dupont 16 Procter&gamble 27 Eastman Kodak 15 Sears 13 Exxon 20 Travelers 17 General Eletric 26 Union Carbide 12 General Motors 8 United Technologies 17 Goodyear 13 Wal-Mart 24 20 a)Desenvolva uma apresentação de caule e folha para os dados; b) Utilize os dados do caule folha para desenvolver uma distribuição de freqüência absoluta e percentual para os dados 21 A Estatística na Prática Small Fry Desing Santa Ana, Califórnia,EUA Fundada em 1997, a Small Fry Desing é uma empresa de brinquedos e de acessórios que projeta e importa produtos para as crianças. A linha de produtos da empresa inclui ursinhos,móbiles,brinquedos musicais,chocalhos e cobertores de segurança,caracterizando-se por projetos de brinquedos delicados de alta qualidade, comênfase na cor, textura e som. Os produtos são projetados nos Estados Unidos e fabricados no China. A Small Fry Desing utiliza representantes independentes para vender os produtos para as crianças,fornecendo para varejistas,lojas de roupas e acessórios infantis,lojas de presentes,lojas de departamento de grande porte e principalmente empresas de catálogo.Atualmente,os produtos da Small Fry Desing são distribuídos em mais de mil canais de varejo por todo o território do EUA. O gerenciamento do fluxo de caixa é uma das mais críticas atividades na operação do dia-a-dia dessa jovem empresa. Assegurar a suficiente entrada de caixa para satisfazer tanto as obrigações de débitos correntes como as vindouras,pode significar a diferença entre o sucesso e o fracasso do negócio. Um fator crítico no gerenciamento do fluxo de caixa é a análise e o controle das contas a receber.Avaliando-se o período médio e o valor em dólares das faturas pendentes, os gerentes podem prever a disponibilidade de caixa e monitorar as mudanças na posição das contas a receber.A empresa estabeleceu os seguintes objetivos: o tempo médio de atraso no pagamento das faturas não deve exceder á 45 dias e o valor das faturas com mais de 60 dias não deve exceder a mais de 5% de todas as contas a receber. Em um recente sumário da posição das contas a receber,as seguintes estatísticas descritivas foram fornecidas para os períodos das faturas pendentes: Média: 40 dias Mediana: 35 dias Moda: 31 dias A interpretação dessas estatísticas mostra que o período médio de uma fatura é de 40 dias. A mediana mostra que metade das faturas tem ficado pendente 35 dias ou mais. A moda de 31 dias é período mais freqüente de fatura indicando que a extensão de tempo mais comum que uma fatura tem ficado pendente é 31 dias. O sumário estatístico também mostrou que somente 3% do valor monetário de todas as contas a receber ficou acima de 60 dias .Baseado na informação estatística, a administração ficou satisfeita de saber que as contas a receber e a entrada de caixa estejam sob controle. 22 1.0 Medidas de Posição Média A media é a medida de posição mais importante de uma variável. A média fornece uma medida da posição central. Se os dados são de uma amostra a média é denotada pela letra x Se os dados são de uma população a média é denotada pela letra grega . Nas fórmulas estatísticas, é costume denotar o valor da primeira observação por x1, o valor da segunda observação por x2 e assim por diante. Assim temos: Média da amostra n xi x Onde no numerados temos xi que é a somatória dos eventos e no denominador n temos o número de eventos. Exemplo: Considere os seguintes dados de tamanho de classe para uma amostra de cinco salas de um colégio técnico: 46 54 42 46 32 n xi x = 5 3246425446 = 44 Mediana A mediana é uma medida da posição central de uma variável. A mediana é o valor que fica no meio da seqüência quando os dados são arranjados na ordem ascendente (do menor para o maior) Com um número ímpar de observações a mediana é o valor do meio. Com um número par de observações a mediana é a média dos dois valores do meio. Exemplo 23 Considere os seguintes dados de tamanho de classe para uma amostra de cinco salas de um colégio técnico: 32 42 46 46 54 Temos cinco observações, número ímpar logo a mediana é o valor do meio: 46 32 42 46 46 54 Considere os salários mensais para uma amostra de 12 graduados de uma escola de administração. Graduado Salário US$ 1 2.210 2 2.255 3 2.350 4 2.380 5 2.380 6 2.390 7 2.420 8 2.440 9 2.450 10 2.550 11 2.630 12 2.825 Como o número de observações é par (12) escolhemos as duas observações do meio. A mediana é a média entre esses valores. Graduado Salário US$ 1 2.210 2 2.255 3 2.350 4 2.380 5 2.380 6 2.390 7 2.420 8 2.440 9 2.450 10 2.550 11 2.630 12 2.825 24 n xi x = 2405 2 24202390 Podemos generalizar para dizer que a mediana é a melhor medida de posição central sempre que um conjunto de dados tenha valores extremos (muito grandes e muito pequenos). Moda A moda é o valor de dados que ocorre com maior freqüência. Exemplo Considere o seguinte tabela de consumos de refrigerantes Refrigerante Freqüência Coca-cola 19 Coca-cola light 8 Dr.Pepper 5 Pepsi-Cola 13 Sprite 5 Total 50 A moda ou o refrigerante mais comprado é a Coca-cola : 19 2.0 Medidas de Variabilidade Alem das medidas de posição é desejável considerar as medidas de variabilidade ou dispersão. Amplitude A amplitude é a diferença entre o maior valor e o menor valor. Como é uma medida apenas entre duas observações, é altamente influenciada pelos extremos. Amplitude Amplitude: Maior Valor – Menor Valor Exemplo: Determine a amplitude para os salários que seguem: 25 R$ 10.000,00 R$ 2.825,00 R$ 2.210,00 Amplitude = Maior Valor – Menor Valor = 10.000 – 2.210 = 7.790 Variância A variância é a medida de variabilidade que utiliza todos os dados. A variância é baseada na diferença do valor de cada observação e a média. Essa diferença chama de desvio ao redor da média. Variância 1 )( 22 n xxi s onde : xi - observação x - média n – número de observações Desvio Padrão O desvio padrão é a raiz-quadrada positiva da variância. 1 )( 2 n xxi s Exemplo Determine a variância para os salários de 12 graduados do curso de administração: 26 Graduado Salário US$ 1 2.350 2 2.450 3 2.550 4 2.380 5 2.255 6 2.210 7 2.390 8 2.630 9 2.440 10 2.825 11 2.420 12 2.380 Salário Média Desvio ao redor da média Desvio ao Redor da média elevado ao quadrado xi x (xi- x ) 2)( xxi 2.350 2440 90 8100 2.450 2440 10 100 2.550 2440 110 12100 2.380 2440 60 3600 2.255 2440 185 34225 2.210 2440 230 52900 2.390 2440 50 2500 2.630 2440 190 36100 2.440 2440 0 0 2.825 2440 385 148225 2.420 2440 20 400 2.380 2440 60 3600 a) Calculamos a média: n xi x 12 238024202825244026302390221022552380255024502350 = =2440 b) Calculamos o desvio ao redor da média (desconsideramos o sinal negativo) (xi- x ) = 2350 - 2440 = 90 (xi- x ) = 2450 - 2440 = 10 (xi- x ) = 2550 - 2440 = 110 27 (xi- x ) = 2380 - 2440 = 60 (xi- x ) = 2255 - 2440 = 185 (xi- x ) = 2210 - 2440 = 230 (xi- x ) = 2390 - 2440 = 50 (xi- x ) = 2630 - 2440 = 190 (xi- x ) = 2440 - 2440 = 0 (xi- x ) = 2825 - 2440 = 385 (xi- x ) = 2420 - 2440 = 20 c) calculamos o desvio ao redor da média elevado ao quadrado 2)( xxi = 902 = 8100 2)( xxi = 102 = 100 2)( xxi = 1102 = 12100 2)( xxi = 602 = 3600 2)( xxi = 1852 = 34225 2)( xxi = 2302 = 52900 2)( xxi = 502 = 2500 2)( xxi = 1902 = 36100 2)( xxi = 02 = 0 2)( xxi = 3852 = 148225 2)( xxi = 202 = 400 c ) Calculamos a variância 1 )( 22 n xxi s = 112 )3600400148225036100250052900342253600121001008100( = 27440,91 d) Calculamos o desvio padrão 1 )( 2 n xxi s = 91,27440 = 165,65 28 Nome RGM Nota Curso Série/Módulo/Turma Período Data Disciplina Tipo de Atividade Lista de exercícios 3 Conteúdo ou Módulos Objetivo Visto do Coordenador do Curso 1) Considere uma amostra com valores de dados de 10, 20, 12,17 e 16, calcule a média,mediana, variância e o desvio padrão. 2) Considere uma amostra com valores de dados de 10,20,21,17,16 e 12, calcule a média , mediana,variância e o desvio padrão. 3) Considere uma amostra com valores de dados de 53,55,70,58,64,57,53,69,57,68 e 53.Calcule a média, a mediana a moda, a variância e o desvio padrão. 4) O salário médio inicial de 1996-97 para os novos graduados em contabilidade foi US$ 30.393 (US News Online, US News and World Report,dezembro de 1997).Uma amostra dos salários iniciais é apresentada a seguir: Os dados estão em milhares de dólares. 30,7 28,8 29,1 31,1 30,1 29,7 30,7 30,0 30,6 30,5 31,2 32,1 30,2 30,3 32,9 32,2 29,9 28,9 30,6 31,8 32,2 30,3 30,4 32,3 33,3 32,7 29,3 30,3 30,9 30,3 a) Qual o salário médio inicial? b) Qual a mediana do salário inicial? c) Qual é a moda? d) Esses dados são consistentes com o salário anunciando de US$ 30.393? e) Determine a variância e o desvio padrão. 29 5) Uma pessoa gasta em média 45 minutos por dia ouvindo música (The Dês Moines Register,5 de dezembro de 1997).Os seguintes dados foram obtidos para o número de minutos gastos ouvido música em uma amostra de 30 indivíduos. 88,3 4,3 4,6 7,0 9,2 0,0 99,2 34,9 81,7 0,0 85,4 0,0 17,5 45,0 53,3 29,1 28,8 0,0 98,9 64,5 4,4 67,9 94,2 7,6 56,6 52,9 145,6 70,4 65,1 63,6 a) Calcule a média b) Os dados são coerentes com a média anunciada pelo jornal? c) Calcule a mediana d) Determine a variância e o desvio padrão 6) Milhões de americanos se levantam todas as manhãs e vão para o escritório, em sua própria casa. Sugere-se que o uso crescente de computadores pessoais seja uma das razões para que mais pessoas possam trabalhar em casa. A seguir está uma amostra de dados de indivíduos que trabalham em casa: 22 58 24 50 29 52 57 31 30 41 44 40 46 29 31 37 32 44 49 29 a) Calcule a média, a moda e a mediana; b) Calcule a variância e o desvio padrão. 7) A Associação Americana de Agências de Propaganda registra os dados sobre nove minutos de intervalo por meia hora de programação de horário nobre de televisão (U.S News & Word Report,13 de abril de 1992).A seguir, os dados representativos de minutos de intervalo para uma amostra de programas de horário nobre nas principais redes às 20:30h: 6,0 6,6 5,8 7,0 6,3 6,2 7,2 5,7 6,4 7,0 6,5 6,2 6,0 6,5 7,2 7,3 7,6 6,8 6,0 6,2 a) Calcule a média, a moda e a mediana; b) Calcule a variância e o desvio padrão. 30 Medidas de associação entre duas variáveis Geralmente estudamos métodos numéricos para sintetizar dados de uma variável, entretanto gerentes, que são tomadores de decisões necessitam, por exemplo, de relações entre duas variáveis. Covariância É uma medida de associação linear entre duas variáveis. Valores positivos indicam uma relação positiva, valores negativos indicam uma relação negativa. Fórmula da Covariância 1 )).(( _ n yyxx sxy Onde: x – observação da variável 1 (dado); x - média da variável x; y – observação da variável 2 (dado); y - média da variável 2; n – número de observações. O resultado da covariância pode ser: 0 – Indica que não existe uma relação linear direta entre as duas variáveis; Número positivo – Indica uma relação linear positiva entre as duas variáveis; Número negativo – Indica uma relação linear negativa entre as duas variáveis; Exemplo 1: Um determinado gerente de uma loja de equipamentos de som está interessado em investigar a relação entre o número de comerciais mostrados no fim de semana e as vendas na loja durante a semana seguinte. 31 Semana Número de comerciais ( x ) Volume de vendas (US$100,00) – ( y ) 1 2 50 2 5 57 3 1 41 4 3 54 5 4 54 6 1 38 7 5 63 8 3 48 9 4 59 10 2 46 Resolvendo: Média para x: _ x = 3 Média para y: 51 _ y Utilizando a equação: xi yi _xx yy )).(( yyxx 2 50 -1 -1 1 5 57 +2 6 12 1 41 -2 -10 20 3 54 0 3 0 4 54 +1 3 3 1 38 -2 -13 26 5 63 2 12 24 3 48 0 -3 0 4 59 1 8 8 2 46 -1 -5 5 30 510 0 0 99 1 )).(( _ n yyxx sxy = 119 99 32 Gráfico de dispersão No gráfico de dispersão, no eixo x plotamos os valores da variável x e no eixo y plotamos os valores da variável y em forma de pares ordenados. 1ª.linha da tabela: (2,50) 2ª.linha da tabela: (5,57) 3ª.linha da tabela: ... Gráfico 1: Dispersão de x e y Assim como a covariância da amostra é um número positivo podemos concluir que os comerciais influenciam diretamente nas vendas. Correlação É uma medida de associação linear entre duas variáveis que tomam valores entre -1 e +1. Valores próximos a +1 indicam uma forte relação linear positiva. Valores próximos a -1 indicam uma forte relação linear negativa. Valores próximos a zero indicam a falta de uma relação linear. Fórmula do coeficiente de correlação sysx s rxy xy . Onde: Sxy – covariância de x e y; 35 40 45 50 55 60 65 0 1 2 3 4 5 6 33 Sx – desvio padrão de x; Sy – desvio padrão de y. Exemplo 2: Determine o coeficiente de correlação para a tabela de comerciais x vendas de produtos e interprete o dado obtido. Semana Número de comerciais ( x ) Volume de vendas (US$100,00) – ( y ) 1 2 50 2 5 57 3 1 41 4 3 54 5 4 54 6 1 38 7 5 63 8 3 48 9 4 59 10 2 46 Resolvendo: Covariância de x e y: 11 Desvio padrão de x: 49,1 9 20 sx 93,7 9 566 sy Assim: 93,0 )93,7).(49,1( 11 rxy Como o valor está próximo de 1 podemos concluir que existe uma relação linear positiva entre o número de comerciais e o número de vendas nos finais de semana. 34 Nome RGM Nota Curso Série/Módulo/Turma Período Data Disciplina Tipo de Atividade Lista de Exercícios 4 Conteúdo ou Módulos Objetivo Visto do Coordenador do Curso 1) Para a tabela abaixo determine: a) Gráfico de dispersão das variáveis; b) Coeficiente de covariância; c) Coeficiente de correlação; xi 4 6 11 3 16 yi 50 50 40 60 30 2) Para a tabela abaixo determine: a) Gráfico de dispersão das variáveis; b) Coeficiente de covariância; c) Coeficiente de correlação; xi 6 11 15 21 27 yi 6 9 6 17 12 3) Um orientador escolar coletou os seguintes dados sobre média escolar e contagens dos testes de matemática. Determine: a) Gráfico de dispersão das variáveis; b) Coeficiente de covariância; c) Coeficiente de correlação; d) Faça a interpretação da relação; ME 2,7 3,5 3,7 3,3 3,6 3,0 Contagem 450 560 700 620 640 570 35 4) Um estudo do departamento de transportes sobre a velocidade de condução e a distância percorrida em quilômetros para automóveis do tamanho médio resultou nos seguintes dados: Velocidade km/h 30 50 40 55 30 25 60 25 50 55 Consumo km/l 28 25 25 23 30 32 21 35 26 25 Calcule e interprete o coeficiente de correlação da amostra. 36 Teoria das Probabilidades A teoria das probabilidades estuda a forma de estabelecer as possibilidades de ocorrência de cada experimento aleatório. Exemplos: a) Lançamento de uma moeda; b) Lançamento de um par de dados; c) Nascimento de uma criança; Elementos Espaço amostral: conjunto de todos os resultados possíveis deum experimento aleatório é denominado espaço amostral,do qual podemos denominar como U. Exemplos: a) Espaço amostral do lançamento de uma moeda: U={cara , coroa} b) Espaço amostral de um dado com a face voltada para cima: U={1,2,3,4,5,6} Eventos São os subconjuntos do espaço amostral. Exemplo: Uma urna contém 3 bolas pretas e 3 bolas vermelhas.Dessa urna são retiradas sucessivamente 3 bolas. 1ª.bola 2ª.bola 3ª.bola Combinações P PPP P V PPV P P PVP V V PVV P P VPP V V VPV V P VVP V VVV Espaço amostral: U={PPP, PPV, PVP, PVV, VPP, VPV, VVP, VVV}·. Evento 1 : as três bolas são vermelhas : { VVV } Evento 2 : as três bolas possuem a mesma cor : {PPP, VVV}. 37 Probabilidade de um evento Se, num deteminado fenômeno aleatório o número de elementos do espaço amostral é n(U) e o número de elementos do evento A é n(A),então a probabilidade de ocorrer o evento A é o número P(A) tal que: )( )()( Un AnAP Exemplo: Num lançamento de uma moeda não viciada determine a probabilidade de ocorrer cara. Evento : { coroa } : n(A) = 1 Espaço amostral : { cara , coroa } : n(U) = 2 2 1 )( )()( Un AnAP Geralmente expressamos a probabilidade de um evento em termos percentuais: P(A) = 50% De acordo com a definição a probabilidade de um evento está contido em: 1)(0 AP Assim no exemplo acima a soma das probabilidades parciais será igual a 1 ou 100 % Cara : ½ Coroa : ½ P(U) = ½+ ½ = 1 38 Nome RGM Nota Curso Série/Módulo/Turma Período Data Disciplina Tipo de Atividade Lista de exercícios 5 Conteúdo ou Módulos Objetivo Visto do Coordenador do Curso 1) No lançamento de um dado, determine a probabilidade de se obter: a) o número 1; b) um número primo; c) um número divisível por 2; d) um número menor do que 5; e) um número maior do que 6; 2) No lançamento simultâneo de 2 dois dados , um branco e um vermelho,determine a probabilidade dos seguintes eventos: a) os números são iguais b) a soma dos números é igual a 9 3) Você faz parte de um grupo de 10 pessoas para três das quais serão distribuídos prêmios iguais. Calcule a probabilidade de que você seja um dos premiados; 4) Jogando-se dois dados, qual a probabilidade de que a soma dos pontos obtidos seja menor que 4? 5) Lançam-se dois dados com faces numeradas de 1 a 6.Calcule a probabilidade de que a soma obtida seja 10.
Compartilhar