Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 1 Notas de Aula Estatística Curso: Administração ―Estatística é a arte de torturar os dados até que eles confessem‖ Prof. Dra. Sabrina Luzia Caetano Este material tem por objetivo auxiliar as aulas de estatística. Os conceitos e exemplos contidos ajudarão para o entedimento da metodologia. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 2 Esta disciplina tem como finalidade auxiliar o profissional a planejar, coletar, organizar, analisar e interpretar dados. Todavia, apenas conceitos básicos serão estudados neste curso. É importante que o profissional tenha em mente que a estatística é um instrumento de grande utilidade na tomada de decisões. Além disso, o desenvolvimento do raciocínio estatístico é extremamente útil em aplicações de caráter científico, comercial, financeiro, na área da saúde, engenharia, sociologia, etc. A utilização dessas técnicas, destinadas à análise de situações complexas ou não, tem aumentado. Tome-se, por exemplo, as pesquisas científicas. Todos os dias, cientistas estudam curas de doenças, como melhorar a eficiência de máquinas, melhoramento de carne, enfim são inúmeras as áreas que podem ser consideradas. Para obtenção dos resultados obtidos nessas pesquisas, houve planejamento, coleta, organização, análise e interpretação de dados. A ciência precisa da estatística para quantificar seus resultados. No nosso cotidiano, o que tem levado a essa quantificação de informações? Até em tarefas básicas somos forçados a usar cálculos estatísticos, muitas das vezes sem saber ao certo o procedimento a ser utilizado. O orçamento familiar, por exemplo, pode ser feito a média de gastos como água, luz, telefone, cartão de crédito. Verificar a variação desses gastos em relação aos meses. Enfim são inúmeras situações que fazem da estatística um instrumento indispensável. Com a popularização dos computadores e com máquinas cada vez mais potentes, é possível trabalhar com planilhas de controle de gastos no próprio excel ou então trabalhar com bilhões de informações em softwares mais sofisticados. Desta forma, o computador contribui, positivamente, na difusão e uso de métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar um indivíduo sem preparo específico a utilizar técnicas inadequadas para resolver um dado problema. Assim, é necessário a compreensão dos conceitos básicos da Estatística, bem como as suposições necessárias para o uso de forma criteriosa. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 3 Unidade 1 - Conceitos básicos Objetivo: apresentar uma imagem inicial do campo da Estatística; introduzir o vocabulário básico. Robert Johnson (Monroe Community College) em seu livro ―Statistics‖ afirma que ―Statistics is more than just a kit of tools‖( Estatística é mais que um ―kit ― de ferramentas). Isto significa que como usuários potenciais da Estatística, necessitamos saber usar as ferramentas disponibilizadas por ela corretamente; entender a Estatística como linguagem universal das ciências. O uso cuidadoso dos métodos estatísticos nos torna capazes de: descrever precisamente as pesquisas científicas tomar decisões tirar conclusões gerais e significativas que vão além dos dados originais. A Estatística é muito mais do que um conjunto de números, abrange muito mais do que o simples cálculo de uma média ou um traçado de gráficos. Estatística é a ciência de planejar, coletar, organizar, analisar e interpretar dados para extrair conclusões. Quando realizamos o planejamento da situação a qual queremos obter resultados, nos deparamos com a pergunta, qual o objetivo dessa pesquisa/análise ? Sabendo o que se quer, fica muito mais fácil de fazer todo o processo estatístico, que dependerá dos critérios estabelecidos no planejamento. Além do objetivo, que deverá ser traçado, na fase do planejamento deve-se considerar quais são as variáveis que deverão ser coletadas para alcançar o objetivo estabelecido. A escolha das variáveis Planejamento Coleta ou observação dos dados Organização dos mesmos Análise Interpretação Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 4 corretas é de extrema importância, uma vez que por meio desta será possível obter os resultados. A escolha de variáveis incorretas poderá trazer gastos desnecessários e resultados inespressivos. A coleta ou observação de dados dependerá do tipo de análise realizada. Considerando experimentos que os dados não estão disponíveis, é necessário realizar a coleta dos mesmos. A coleta poderá ser realizada de duas maneiras, a primeira é por meio da coleta de dados de toda a população considerada como alvo do estudo. A segunda é por meio da realização de amostragem. A primeira com certeza é a mais segura e eficaz, porque não haverá erro de estimação, ou seja, os resultados retrataram a realidade da população considerada. Todavia, na maioria das vezes, não é possível coletar informação de toda a população, porque este procedimento demanda muito tempo e dinheiro, o que acaba inviabilizando-o. A amostragem, realizada de forma correta, permite a obtenção de resultados muito próximos da realidade, gastando-se bem menos dinheiro e tempo. Caso os dados já tenham sido coletados, é importante saber quais variáveis são importantes para alcançar o objetivo e separá-las por meio das que já estão disponíveis. A organização dos dados é de extrema importância para todo procedimento estatístico. Colunas e linhas organizadas em softwares específicos para análise devem ser consideradas. Muitos dados podem ser organizados em tabelas e gráficos para uma melhor visualização dos mesmos e para resultados prévios. A análise dos dados deverá ser realizada mediante a uma análise inicial que irá descrever os mesmos. Medidas básicas, como medidas de tendência central e de dispersão serão estudadas neste curso e são de grande utilidade para conclusões prévias e sucintas sobre o objetivo proposto. Análises mais rebuscadas devem ser realizadas dependendo do objetivo a ser alcançado, considerando que por exemplo, o interesse seja verificar se existe diferença entre dois tipos de medicamentos para determinado tratamento, para esta situação, o ideal é realizar um teste de hipótese. A estatística tem diversos seguimentos que são específicos para várias situações, cabe ao pesquisador saber qual é a melhor forma de se analisar os dados. A interpretação dos resultados obtidos na análise deverá ser realizada de forma a responder o objetivo formulado no planejamento da pesquisa. A Estatística é dividida em três áreas: Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 5 Estatística Descritiva Probabilidade Inferência Estatística 1.1 Estatística Descritiva A Estatística Descritiva é, em geral, utilizada na etapa inicial de umaanálise, quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais simples seria a observação de valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, percebemos, imediatamente, que a tarefa pode não ser tão simples. Para tentar despreender dos dados informações a respeito do fenômeno sob estudo, é preciso aplicar alguma técnica que nos permita resumir a informação daquele particular conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito de características de interesse. 1.2 Probabilidade A probabilidade pode ser pensada como a teoria da matemática utilizada para estudar a incerteza oriunda de fenômenos de caráter aleatório. A história da teoria das probabilidades, teve início com os jogos de cartas, dados e de roleta. Esse é o motivo da grande existência de exemplos de jogos de azar no estudo da probabilidade. Apesar de ser uma área extremamente atraente e estudada do ponto de vista matemático, não será abordado neste curso. 1.3 Inferência Estatística É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensão muito maior. Deve ser notado que, se tivermos acesso a todos os elementos que desejamos estudar, não é necessário o uso de técnicas de inferência Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 6 estatística. Entretanto elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física. E é nestes casos que entra a amostragem que será melhor tratada na seção 1.2. Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente, incluem as três áreas mencionadas acima. 1.5 Estatística com calculadoras e computadores 1.5.1 Calculadoras Os alunos de estatística cedo descobrem que uma calculadora é um de seus melhores auxiliares. Para este curso recomenda-se o uso de uma calculadora científica. Qualquer que seja a calculadora escolhida, o manual que a acompanha é um guia valioso e deve ser mantido o tempo todo ao alcance das mãos. Neste curso, a maioria dos cálculos serão efetuados por meio da programação da calculadora. É de extrema importância o aluno portá-la em todas as aulas. 1.5.2 Computadores Atualmente, o computador desempenha papel relevante em quase todos os aspectos da análise estatística. A ampla diversidade de computadores e de softwares possibilitou a utilização da estatística por pessoas com diferentes tipos de formação matemática, mas também criou maior oportunidade de uso indevido da estatística. É importante reconhecer que tanto os pacotes de software como os computadores têm uma limitação muito séria: eles seguem cegamente as instruções, ainda que inadequadas ou mesmo absurdas. O computador não raciocina, e não pode formular julgamentos. A compreensão dos princípios da estatística é pré-requisito importante para o uso correto do computador. O computador vai ajudá-lo, mas não vai pensar por você. Existem muitos pacotes estatísticos no mercado, e dentre eles podemos citar: R(software free- pode ser baixado pela internet), MINITAB, SPSS, SAS, S-Plus, Statistica, BioStat, entre outros. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 7 Usaremos neste curso o Excel por satisfazer neste momento nossas necessidades. Nas unidades a seguir iremos ver as etapas da estatística e suas especificidades. Na unidade 2, estudaremos como o planejamento dever ser conduzido. Unidade 3, a observação de dados ou a coleta por meio da população ou amostragem. Unidade 4, organização dos dados por meio do excel, construindo tabelas e gráficos. Unidade 5, análise descritiva dos dados, medidas de tendência central, medidas de dispersão, conceitos básicos de correlação e regressão. Unidade 6, interpretação dos resultados para tomadas de decisão. 1.6 Exercícios 1) Descreva as etapas da estatística e explique cada uma delas. 2) O que é Estatística Descritiva? 3) O que é Inferência Estatística? Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 8 Unidade 2 - Planejamento Nesta unidade iremos aprender como devemos planejar a nossa pesquisa, primeiramente temos que ter em mente o objetivo, que é formulado por meio das hipóteses que devem ser respondidas. Saber o porquê do estudos dos dados, é fundamental para poder compreender o que deve ser feito, além de conseguir interpretá- los. 2.1 Objetivo da pesquisa O objetivo da pesquisa deve ser formulado em cima do problema que pretende- se resolver, ou em relação a situação que pretende-se analisar. Este deve ser cuidadosamente formulado. Caso a sua formulação seja errônea, todo o procedimento estatístico que será desenvolvido será em vão. Desta forma, não será possível obter resultados para aquilo que se prentede avaliar. Considerando o problema ou situação a ser testada em questão, deve-se verificar quais são as variáveis necessárias para atender aquele objetivo. Além disso, é importante considerar que variáveis desnecessárias não devem ser coletadas, uma vez que trará maiores gastos e disponibilidade de tempo, sem necessidade. Um planejamento bem feito, otimiza todas as etapas seguintes e fornece os resultados pretendidos. 2.2 Variáveis Estatísticas Dá-se o nome de variável à característica de interesse que deverá ser estudada. A característica de interesse poderá ser qualitativa ou quantitativa. É importante saber o tipo de variável, para que o tratamento estatístico adequado seja empregado. As variáveis estatísticas devem ser identificadas já no planejamento, devido as etapas seguintes serem diferenciadas dependendo de sua classificação. 2.2.1 Variável qualitativa: quando resultar de uma classificação por tipos ou atributos. São dados não numéricos. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 9 Exemplos: sexo (masculino ou feminino), estado civil (casado, solteiro, outro), profissão (engenheiro, advogado, médico, etc), Marcas de cigarros consumidos por estudantes da Fatec As variáveis qualitativas se subdividem em: Variável Qualitativa Ordinal: São aquelas que podem ser colocadas em ordem, por exemplo, a classe social (A,B,C,D, ou E). Variável Qualitativa Nominal: São aquelas que não podem ser hierarquizadas ou ordenadas,não tem nenhuma ordem de variações, como tipo sanguíneo, o local de nascimento, sexo, estado civil, profissão. Obs: para efeito de análise estatística esta subdivisão das variáveis qualitativas pode não ser relevante. 2.2.2 Variável quantitativa quando seus valores forem expressos em números. As variáveis quantitativas podem ser subdivididas em quantitativas discretas e quantitativas contínuas. Essa classificação corresponde aos conceitos matemáticos de discreto e contínuo. Assim, uma variável contínuaserá aquela que, teoricamente, pode assumir qualquer número em um certo intervalo razoável de valores. Como variáveis quantitativas contínuas temos: idade, peso, altura. volume líquido dos frascos de veneno de pragas de certa marca e tipo, quantidade de alcatrão em diferentes marcas de cigarros peso de peças que uma fábrica produz A variável discreta, ao contrário, pode assumir apenas valores pertencentes a um conjunto enumerável. Apresentamos a seguir exemplos de variáveis quantitativas discretas. número de filhos ( 0, 1, 2, ..) número de profissionais graduados na Fatec em efetivo exercício, número de peças defeituosas em uma linha de produção (0,1, 2, 3... ) Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 10 Pelos exemplos apresentados, podemos perceber que os valores das variáveis discretas são obtidos mediante alguma forma de contagem, ao passo que os valores das variáveis contínuas resultam, em geral de uma medição, sendo freqüentemente dados em alguma unidade de medida. 2.3 Exercícios Classifique as seguintes variáveis em qualitativas ou quantitativas discretas/contínuas: a) Tipo sanguíneo ( A, B, AB e O) b) Rendas anuais de profissionais na área de exatas, em reais c) Número de peças produzidas por uma máquina específica d) Peso de uma peça de uma linha de produção e) Quantidade de cana-de-açúcar produzida por uma usina f) Número de funcionários de uma empresa g) Número de setores de uma Empresa h) Cor da pelagem de bovinos i) Quantidade de árvores plantadas em um hectare j) Estado civil k) Marca de carro l) Peso corporal m) Sexo n) Comprimento de uma piscina o) Volume de um tambor p) Raça de cães Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 11 Unidade 3 – Coleta ou observação de dados A coleta de dados deve ser realizada mediante a necessidade do objetivo formulado no planejamento. Em muitas situações estes dados já fazem parte de um conjunto de dados pré-existente, e neste caso podemos trabalhar apenas com as variáveis necessárias. Quando há a necessidade de se coletar os dados isto pode ser realizado por meio da população ou por amostragem. 3.1 População Na terminologia estatística, o grande conjunto de dados que contém a característica que temos interesse recebe o nome de população. Podemos dizer que população é o conjunto de elementos (pessoas, animais, vegetais e objetos) com pelo menos uma característica comum. Esta característica comum deve delimitar perfeitamente quais os elementos que pertencem à população e quais os que não pertencem. Observe com atenção, que para a Estatística, população não é necessariamente um conjunto de pessoas. O termo população é muito mais abrangente. Assim, podemos citar como exemplos de população: o número de peças fabricadas por uma máquina por dia; o número de funcionários contratados no mês de janeiro de 2014; um conjunto de frascos de determinado cola utilizados no ano de 2013 em uma indústria; os indivíduos que trabalham na época de safra em uma determinada Usina de cana-de-açúcar; Uma população pode ser finita ou infinita. População Finita: é aquela em que os seus elementos podem ou poderiam ser listados. Como exemplo, podemos citar: Número de alunos que cursam Engenharia no UNIFEB; Indivíduos desempregados que procuram a central de empregos de Barretos; todos os exemplos dados acima na definição de população. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 12 População Infinita: seus elementos não podem ser listados. As populações muito grandes são tratadas pela Estatística como populações infinitas. Por exemplo: Indivíduos que poderão ficar desempregados no ano de 2014; Número total de computadores do estado de São Paulo; Número total de metalúrgicos na região Sudeste; Número de bezerros nascidos no ano de 2013. Caracterizada a população, o passo seguinte é fazer o levantamento de dados. Às vezes não é conveniente, ou nem mesmo possível levantar os dados de toda uma população. Surge então o conceito de amostra. 3.2 Amostra Amostra é um subconjunto de elementos extraídos da população de interesse. Este subconjunto deve ser necessariamente finito, pois todos os seus elementos serão examinados para efeito da realização do estudo estatístico desejado. O objetivo da Inferência Estatística é o de tirar conclusões sobre populações, com base nos resultados observados em amostras extraídas dessas populações. Consideremos um exemplo. Em uma pesquisa, foi utilizada uma amostra de 50 indústrias que produzem ração e, com base nos resultados, foi formulada conclusões acerca de todas as indústrias que produzem ração do Brasil. Ilustramos aqui que utilizar uma amostra e estender o resultado encontrado para toda uma população é fazer inferência. O processo de indução não é exato. Ao induzir estamos sempre sujeitos a cometer erros. A Inferência Estatística, entretanto, irá nos dizer até que ponto podemos estar errando em nossas induções, e com que probabilidade. Em suma, a Inferência Estatística busca obter resultados sobre populações a partir de amostras, dizendo qual a precisão desses resultados e com que probabilidade se pode confiar nas conclusões obtidas. É intuitivo que quanto maior a amostra, mais precisas e mais confiáveis deverão ser as induções realizadas sobre a população. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 13 Levando este raciocínio ao extremo concluiríamos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda população, ao qual se costuma denominar censo ou recenseamento. De fato, o emprego de amostras pode ser feito de modo tal que se obtenham resultados confiáveis, em termos práticos equivalentes ou até mesmo melhores do que os que seriam conseguidos através de um censo. Ocorre que na realidade, existem diversas razões que levam, em geral, à necessidade de recorrer-se apenas aos elementos de uma amostra. Entre elas, podemos citar o custo do levantamento de dados e o tempo necessário para realizá-lo, especialmente se a população for muito grande. Ou, então, podemos não ter acesso fácil ou possível a todos os elementos da população, etc. Além das razões citadas, deve-se mencionar o fato de que muitas vezes nem mesmo é necessário examinar toda a população para se chegar às conclusões desejadas. Desde que o tamanho da amostra necessária seja convenientemente determinado, induções suficientemente precisas e confiáveis podem ser realizadas, não havendo necessidade de se onerar o estudo estatístico pelo exame de uma amostra maior ou de toda a população. A determinação do tamanho da amostra é o primeiro passo para se realizar uma boa pesquisa estatística. Existem fórmulas para isto, porém estas não serão abordadas neste curso introdutório, porém cabe ao aluno buscar fontes que as contenham caso se necessário. Deve-se mencionar que a teoria da Inferência Estatística recorre intensivamente a conceitos e resultadosdo Cálculo de Probabilidades. Esse ramo da Matemática é, portanto, fundamental ao estudo da Estatística lndutiva (Inferência Estatística). Por outro lado, antes de iniciar qualquer análise dos dados através dos métodos da Inferência Estatística, é preciso organizar os dados da amostra, o que é feito com as técnicas da Estatística Descritiva, que será abordado na unidade 5 deste material. É claro que, se nossas conclusões referentes à população vão se basear no resultado de amostras, certos cuidados básicos devem ser tomados no processo de obtenção dessas amostras, ou seja, no processo de amostragem que será estudado. 3.2.1 Amostragem Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 14 Definida a população, é preciso estabelecer as técnicas de amostragem, isto é, o procedimento que será adotado para escolher os elementos que irão compor a amostra. Conforme a técnica utilizada tem-se um tipo de amostra. 3.2.1.1 Amostragem Casual Simples A amostra casual simples é composta por elementos retirados ao acaso da população. Todo elemento da população tem igual probabilidade de ser escolhido para a amostra. Para se fazer uma amostra casual simples é necessário fazer uma listagem de todos os elementos da população e obter os elementos da amostra por sorteio, tabela de números aleatórios ou geração de números aleatórios por computador. É utilizada quando não se tem muita informação sobre a população e por sua simplicidade. Exemplo: Em um determinado setor de uma empresa existem 45 funcionários. Sortear uma amostra de 10 deles para recebimento de uma função especial. Este sorteio poderá ser feito de várias formas, tabela de números aleatórios, ou geração de números aleatórios, ou então através de papeizinhos enumerados de 1 a 45, sorteando-se 10. Cada funcionário deverá ter um número. Exercício: Escolher de forma aleatória ―n‖ colegas de sala, perguntar e anotar a altura dos mesmos. Em seguida fazer a média dessas medidas. A média é calculada somando todos os valores e dividindo-os pelo número de informações (―n‖ no caso). Feito isto os resultados serão comparados com o verdadeiro valor da população que será calculado pela professora. 3.2.1.2 Amostragem Estratificada Coletamos amostras por meio da Amostragem Estratificada, quando a população se divide em sub-populações ou estratos, sendo razoável supor que a característica de interesse apresente um comportamento mais ou menos homogêneo dentro de cada estrato e substancialmente diverso de estrato para estrato. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 15 A amostra estratificada pode ser: uniforme, quando é sorteado igual número de elementos em cada estrato; proporcional se o número de elementos sorteados em cada estrato for proporcional ao número de elementos existentes no estrato. Exemplo. Em uma empresa temos o setor de vendas, recursos humanos, compras, qualidade e produção, totalizando 1500 funcionários. Sabendo que 300 são de vendas, 180 do RH, 250 de compras, 220 de qualidade e 550 da produção, retirar uma amostra estratificada uniforme e proporcinal de 500 funcionários. Solução 1- utilizando amostra estratificada uniforme: Considerando uma amostra estratificada uniforme, poderia ser feito um sorteio, selecionando 100 funcionários de cada setor. As pessoas sorteadas poderiam ser selecionadas por meio de uma tabela de números aleatórios. Solução 2- utilizando amostra estratificada proporcional: Considerando a amostra estratificada proporcional, observe a tabela a seguir: Funcionários Número Proporção Amostra Vendas 300 300/1500 = 0,2000 0,2000 * 500 = 100 RH 180 180/1500 = 0,1200 0,1200 * 500= 60 Compras 250 250/1500= 0,1667 0,1667 * 500 = 83 Qualidade 220 220/1500 = 0,1467 0,1467 * 500 = 73 Produção 550 550/1500 = 0,3667 0,3667 * 500 = 184 Total 1500 500 Passos: 1- Soma-se as frequências de cada categoria obtendo o número total de elementos (n=1500). 2- Calcula-se a frequência relativa de cada categoria (terceira coluna). 3- Multiplica-se a frequência relativa pelo tamanho da amostra desejada. A amostra desejada terá então 100 funcionários de vendas, 60 de RH etc... Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 16 Exercício: Realizar uma amostra estratificada da turma, considerando como estrato a variável sexo, coletar a informação de altura. Deverão ser utilizadas as amostras estratificada uniforme e proporcional. A professora calculará os tamanhos das amostras. 3.2.1.3. Amostragem por Conglomerados Coletamos amostras através da Amostragem por Conglomerados, quando a população se divide em sub - populações ou conglomerados, sendo razoável supor que a característica de interesse apresente um comportamento heterogêneo dentro de cada conglomerado e substancialmente homogêneo de conglomerado para conglomerado. De acordo com Levy & Lemeshow (1980) o procedimento denomina-se amostragem por conglomerados, quando os elementos da população são reunidos em grupos e, por sua vez, alguns destes são sorteados para compor a amostra. Exemplo. Em 50 empresas do ramo automotivo, existem um total 5000 funcionários. Todavia queremos retirar uma amostra de apenas 500 funcionários. Idéia: funcionários (grupo heterogêneo em relação ao cargo ocupado), empresas do ramo automotivo (grupos homogêneos). Em vez de sortear os funcionários (elementos) diretamente de uma listagem de todos eles, poder-se-iam sortear algumas empresas e considerar todos os funcionários desses lugares para compor a amostra. Assim se as empresas do ramo automotivo tivessem o mesmo número de funcionários (por exemplo, 100), o procedimento seria selecionar 5 empresas. A amostragem por conglomerado dispensa a necessidade de listar o total de elementos que compõe a população, além disso, o custo de locomoção e acesso aos elementos para obtenção da informação desejada também é significantemente reduzido. Exercício: A classe será dividida em conglomerados, considerando a variável faixa etária e a informação de altura será anotada. O cálculo para o tamanho da amostra será realizada pela professora. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 17 3.2.1.4 Amostragem Sistemática Na amostragem sistemática os seus elementos são escolhidos por um sistema. Para se fazer uma amostra sistemática de c % da população, buscamos o primeiro elemento da amostra por sorteio entre os 100/c primeiros elementos listados da população. Os outros elementos são localizados a cada 100/c posição na população. Exemplo. Uma Usina de cana-de-açúcar tem 540 funcionários. Selecionar uma amostra de 2% desta população. Solução: 1- Em primeiro lugar fazemos uma lista dos 540 funcionários desta população. 2- Efetuamos a divisão 100/2 = 50. 3- Sorteamos o primeiro elemento da amostra entre 1 e 100/2 = 50. Imagine que neste sorteio tenhamos obtido o número 30. Isto significa que o trigésimo funcionário é o primeiro elemento de minha amostra. Os demais elementos são escolhidos a cada 50 elementos. 4- Assim farão parte da amostraos indivíduos de número: 30, 80, 130, 180, 230, 280, 330, 380, 430, 480 e 530. 5- Serão ao todo em número de 11 os indivíduos desta amostra. Exercício Numa população de 1500 elementos selecionar os elementos que vão compor uma amostra para que ela tenha 5% da população. Os quatro tipos de amostragem mencionados até o momento são considerados Probabilísticas, porque todos os elementos da amostra têm probabilidade conhecida diferente de zero, podendo ser incluído na amostra. As amostragens a seguir diferenciam-se porque a escolha dos elementos da amostra é feita de forma não aleatória, existindo um procedimento de seleção dos elementos da população segundo critérios estabelecidos pelo pesquisador. Nenhum Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 18 elemento qualquer pode fazer parte da amostra e por isso ela é denominada não Probabilística. 3.2.1.5 Amostragem não probabilística Amostragem não Probabilística por Conveniência: Os elementos são selecionados conforme conveniência do pesquisador. A amostra pesquisada muitas vezes está disponível no local e no momento onde a pesquisa estava sendo realizada. Exemplo: Verificação do índice de doenças periodontais em crianças de 9 à 12 anos. Amostragem não Probabilística Intencional ou por Julgamento: Os elementos da amostra são julgados como adequados baseado em escolhas de casos específicos, na população onde o pesquisador está interessado. Exemplo: a utilização de Campinas e Curitiba como mercado piloto para lançamento de novos produtos pois, segundo experts, essas duas cidades são representativas do mercado brasileiro como um todo. Amostragem não Probabilística por Fluxo: A amostra é entrevistada ou observada em lugares de tráfego mais intenso, como em ruas de comércio, grandes lojas de departamentos, eventos esportivos, etc. Este tipo de amostragem é muito utilizada em pesquisas de opinião. As pesquisas de opinião são de grande importância para o mercado de investimento, porque dependendo da opinião dos clientes, consumidores ou munícipes, o investidor irá atuar de maneira a satisfazê-lo. A amostragem por Fluxo consiste em definir o produto ou o sistema que será avaliado e buscar intrevistar o seu público alvo de forma aleatória. Os resultados obtidos servirão de base para atuação dos investidores. Exercício: Criar uma situação em que uma pesquisa de opinião deverá ser aplicada (lançamento de um produto, opinião, intenção de compra...). Descrever o público alvo, o melhor lugar que ela deverá ser aplicada, qual a melhor forma de coleta de informação (entrevista pessoal, questionário via e-mail, entrevista via telefone, desgustação...) e o melhor período do ano. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 19 Existem outros tipos de amostras não probabilísticas como Amostragem não Probabilística por Cotas ou Proporcional que não serão tratadas neste material. É de grande importância salientar que os métodos de amostragens vão além dos métodos vistos neste material. Em muitas das vezes, métodos mais sofisticados são combinações desses métodos considerados. 3.3 Parâmetros e Estimativa do Parâmetro (Estatística) Para nosso trabalho futuro é importante saber distinguir os termos estimativa do parâmetro e parâmetros. Parâmetros: é uma medida numérica que descreve uma característica de uma população. Exemplo de parâmetro: Uma pesquisa efetuada com todos os governadores brasileiros revela que 42% deles se candidatarão à reeleição. Neste caso a população pesquisada é o conjunto de todos os governadores brasileiros. A cifra 42% é um parâmetro porque se baseia em toda a população de governadores. Estimativa do parâmetro (Estatística): é uma medida numérica que descreve uma característica de uma amostra. Veja agora o exemplo de uma estatística: Numa amostra de 500 pessoas, 25 estão desempregadas. Com o auxílio de uma regra de três temos que 500 pessoas representam o total da população, ou seja, 100%. Então, 25 pessoas representarão 0,05 ou 5% da amostra. 500 ------- 100% 25 ------- x 500 x = 25 * 100 ( * quer dizer multiplicação) %5100* 500 25 x . Neste caso 5% é uma estatística por se referir a uma amostra. 3.4 Exercícios Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 20 1) Definir amostra e população. 2) Definir População finita e população infinita. 3) Citar exemplos de população estatística, como conjunto de pessoas. 4) Citar exemplos de população estatística, como conjunto de animais. 5) Citar exemplos de população estatística, como conjunto de coisas. 6) O que é um censo? 7) Dar as vantagens no uso de amostras. 8) Qual a diferença entre amostragem probabilística e não probabilística? 9) Aponte as principais diferenças entre amostragem estratificada e amostragem por conglomerados. 10) Considere uma fazenda que tem três diferentes tipos de solo (A, B, C), deseja-se verificar a quantidade de matéria seca de pés de laranja. Sabendo que o total de pés de laranja plantados nesta fazenda é de 100.000, e que 20.000 estão plantados no solo A, 50.000 no solo B e 30.000 no solo C. Qual seria a melhor forma de realizar uma amostragem de 10% dos pés de laranja, sabendo que o tipo de solo influencia na variável de interesse? Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 21 Unidade 4 – Organização dos dados Para realizar a organização dos dados devemos saber a quantidade de variáveis e dados que deverão ser armazenados. Se o número de variáveis e dados for muito pequeno, podemos organizá-los em uma folha de papel mesmo. Todavia, não é conveniente organizá-los desta forma, uma vez que os cálculos que serão realizados podem ser feitos pelo computador. Quando o número de observações não é extremamente grande, a planilha do excel é frequentemente utilizada. Esta comporta cerca de 65 mil registros (linhas). Quando o número de observações, ultrapassa esta quantidade pode-se armazená-los em arquivos com extensão .txt ou .dat. Para realizar um resumo dos dados e verificar o seu comportamento, é importante estudarmos como fazer isto por meio de tabelas e gráficos. 4.1 Distribuições de frequência (Tabelas) Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento da mesma analisando a ocorrência de suas possíveis realizações. Nesta seção, veremos uma maneira de se dispor um conjunto de realizações, para se ter uma idéia global sobre elas, ou seja, de sua distribuição. Considerando a Tabela 4.1 verificamos a variável grau de instrução, variável qualitativa, que foi quantificada para ser expresa na tabela. O principal objetivo é fazer um resumo das informações, possibililando a realização dos cálculos de frequência relativa/acumulada e porcentagem. Tabela 4.1. Frequência e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução Grau de instrução Frequência Absolutain Frequência Absoluta Acumulada Frequência Relativa if Frequência Relativa Acumaulada Porcentagem 100 if Médio 12 12 0,3333 0,3333 33,33 Superior 18 30 0,5000 0,8333 50,00 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 22 Especialização 6 36 0,1667 1,0000 16,67 Total 36 1,0000 100,00 Observando os resultados da segunda coluna (frequência absoluta), observa-se que dos 36 empregados da companhia, 12 têm ensino médio, 18 tem ensino superior e 6 possuem pós graduação. A frequência absoluta acumulada foi calculada por meio da soma dos elementos referentes a coluna de frequência absoluta acumulada. Uma outra medida bastante útil na interpretação de tabelas de frequências é a frequência relativa. Esta medida é calculada por meio da divisão de cada valor da frequência absoluta pelo o total. Desta forma, 6/36=0,1667 dos empregados da companhia MB (seção de orçamentos) têm especialização. Na última coluna da Tabela são apresentadas as porcentagens para cada realização da variável grau de instrução. Usaremos a notação in para indicar a frequência absoluta de cada classe, ou categoria, da variável, e a notação if = nni / para indicar a proporção (frequência relativa) de cada classe, sendo n o número total de observações. As proporções são muito úteis, quando se quer comparar resultados de duas pesquisas distintas. Por exemplo, suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha 2.000 empregados e que a distribuição de frequência seja a da Tabela 4.2. Tabela 4.2 Frequência e porcentagens dos 2000 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução Grau de instrução Frequência Absoluta in Frequência Absoluta Acumulada Frequência Relativa if Frequência Relativa Acumaulada Porcentagem 100 if Médio 650 650 0,3250 0,3250 32,50 Superior 1020 1670 0,5100 0,8350 51,00 Especialização 330 200 0,1650 1,0000 16,50 Total 2000 1,0000 100,00 Não podemos comparar diretamente as colunas da frequência absoluta das duas Tabelas anteriores, pois os totais de empregados são diferentes nos dois casos. Todavia, Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 23 as colunas das percentagens são comparáveis, pois reduzimos as frequências a um mesmo total (no caso 100). Para variável quantitativa discreta, a distribuição de frequência pode ser calculada como na Tabela 4.3. Quando o número de categorias da variável é pequeno, é conveniente fazer desta forma, quando o número de categorias é muito grande, por exemplo, famílias com 14, 15, 16 filhos, as vezes não é conveniente, devido a tabela ficar extensa e acabar deixando de resumir os dados. Quando isto ocorre os dados podem ser agrupados, como é explicado na Tabela 4.4. Exemplo 4.3 Considere a distribuição da variável Z, número de filhos dos empregados casados da seção de orçamentos da Companhia MB, dada pela Tabela 2.4, em frequências e porcentagens. Tabela 4.3 Frequência e porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos Nº de filhos Zi Frequência Absoluta in Frequência Absoluta Acumulada Frequência Relativa if Frequência Relativa Acumaulada Porcentagem 100 if 0 4 4 0,20 0,20 20 1 5 9 0,25 0,45 25 2 7 16 0,35 0,80 35 3 3 19 0,15 0,95 15 5 1 20 0,05 1,00 5 Total 20 1,00 100 Agora a construção de tabelas de frequências para variáveis contínuas necessita de certo cuidado. Por exemplo, a construção da tabela de frequências para a variável salário, usando o mesmo procedimento acima, não resumirá as 36 observações num grupo menor, pois não existem observações iguais. A solução empregada é agrupar os dados por faixas de salário. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 24 Exemplo 4.4 A Tabela 4.3 a seguir dá a distribuição de frequências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salários. 4,2 4,3 4,5 4,9 6,1 6,5 7,0 7,0 7,9 7,9 8 8,5 9,5 9,7 10 10,3 10,5 11 11,4 11,7 11,8 11,8 12,4 12,5 12,8 13,2 14 14 15 15,6 17,5 18 18,5 19 19,5 23 Para montar as classes de salários, é necessário verificar o maior e menor valor dos dados. Neste caso, verificamos que são 23 e 4,2, respectivamente. Tabela 4.4 Frequência e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salários Classe de Salários Frequência Absoluta in Frequência Absoluta Acumulada Frequência Relativa if Frequência Relativa Acumulada Porcentagem 100 if 4,00 |-- 8,00 10 10 0,2778 0,2778 27,78 8,00 |-- 12,00 12 22 0,3333 0,6111 33,33 12,00 |-- 16,00 8 30 0,2222 0,8333 22,22 16,00 |-- 20,00 5 35 0,1389 0,9722 13,89 20,00 |-- 24,00 1 36 0,0278 1,0000 2,78 Total 36 1,0000 100,00 Procedendo-se desse modo, ao resumir os dados referentes a uma variável contínua, perde-se algumas informações. Por exemplo, não sabemos, considerando apenas a Tabela 4.3, quais são os oito salários da classe de 12 a 16, a não ser que investiguemos a tabela original. Sem perda de muita informação poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14. Voltaremos a este assunto na Unidade 5. A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um pequeno número de classes, perde-se Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 25 informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Estes dois extremos têm a ver, também, com o grau de suavidade da representação gráfica dos dados, a ser tratada a seguir, baseada nestas tabelas. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. Uma outra forma, que é comumente utilizada é a fórmula n , em que n representa o número total de observações (considerando também os dados repetidos). Por exemplo, em um conjunto de dados com 50 observações é razoável que o número de intervalos seja ao redor de ( 50 = 7,07 ) do valor 7. 4.2 Gráficos A representação gráfica da distribuição de uma variável tem vantagem de, rápida e concisamente, informar sobre a variabilidade. Existem vários gráficos que podem ser utilizados. Todavia, abordaremos os mais simples, devido o objetivo gráfico ser o resumo dos dados, permitindo a visualiação rápida e informativa dos dados. 4.2.1 Gráficos para variáveis qualitativas Existem vários tipos de gráficos para representar variáveis qualitativas. Várias são versões diferentes do mesmo princípio, logo nos limitaremos a apresentar dois deles neste material: gráficos de colunas e setores (―pizza‖). O gráfico debarras também será confeccionado em aula prática. Exemplo 4.3. Tomemos como ilustração a variável Y: grau de instrução, exemplificada nas Tabelas 4.1. O gráfico em barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser apresentada ( ii fn , ), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente umas às outras, horizontal (gráfico de barra) ou verticalmente (gráfico de coluna). Na Figura 4.1 temos o gráfico de coluna para a variável Y. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 26 0 2 4 6 8 10 12 14 16 18 20 Médio Superior Especialização Fr eq uê nc ia A bs ol ut a Escolaridade Figura 4.1 Frequência absoluta da escolaridade dos funcionários da seção de orçamento, da empresa MB Já o gráfico de composição em setores, sendo em forma de ―pizza‖ o mais conhecido, destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de uma maneira proporcional. A Figura 4.2 mostra esse tipo de gráfico para variável Y. Muitas vezes é usado um retângulo no lugar do círculo, para indicar o todo. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 27 Figura 4.2 Gráfico em setores para a variável Y: grau de instrução Diretrizes para cofecção dos gráficos no Excel 1°) Digite os dados referente a Tabela 4.1, coluna grau de instrução e porcentagem, selecione-os e entre e inserir gráficos de colunas, primeira opção. 2°) Selecione o gráfico que foi confeccionado e vá para design layout rápido layout 9 (pode ser escolhido outros, mas este deixa o gráfico bem informativo). Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 28 3°) Selecione o título, a legenda e delete-os. No título do eixo na horizontal e na vertical, coloque o nome dos eixos, grau de instrução e porcentagem, respectivamente. 4°) Selecione todo o gráfico e escolha o mesmo tipo da letra que constrará em seu relatório, neste caso, usamos times new roman. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 29 5°) Selecione o gráfico novamente e com o botão direito do mouse selecione a última opção, formatar área do gráfico, segunda opção, cor da borda, sem linha. 6°) Após a confecção e formatação do gráfico, o mesmo deve ser transferido para o relatório, que na maioria das vezes é realizado no word. Desta forma, insira duas linhas, pela opção inserir tabela. Na primeira deverá ser colado o gráfico (colar especial- metaarquivo avançado- para não sobrecarregar o arquivo). Na segunda coloque Figura e o número da mesma e faça sua descrição. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 30 Os outros tipos de gráficos devem ser confeccionados da mesma maneira. Apenas o de setores (pizza) é conveniente que se mantenha a legenda. 4.2.2 Gráficos para Variáveis Quantitativas As variáveis quantitativas admitem uma variedade de gráficos.As variáveis quantitativas são subdivididas em discreta e contínua. As variáveis quantitativas discretas pode ser representada pelos gráficos utilizados para as variáveis qualitativas, como ilustrado na Figura 4.3. Além destes, podemos considerar um gráfico chamado gráfico de dispersão unidimensional que é representado considerando o eixo Y como a Frequência do número de filhos e o eixo X como o número de filhos, dado pela Figura 4.4. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 31 Figura 4.3 Gráfico em colunas para a variável Z: número de filhos Figura 4.4 Gráfico de dispersão unidimensional para variável Z: número de filhos Os gráficos da variável quantitativa contínua, por ser representada em tabela de frequência por meio de intervalos, deverão ser confeccionados de forma diferente. Uma delas é por meio do gráficos de colunas (usando o ponto médio) e a outra é o histograma. Segue o exemplo 4.5. Exemplo 4.5. Queremos representar graficamente a distribuição da variável salário dos empregados da seção de orçamentos da Companhia MB. A Tabela 4.3 fornece a distribuição de frequências dessa variável . Para fazer uma representação similar às apresentadas anteriormente, devemos usar o artifício de aproximar a variável contínua por uma variável discreta, sem perder muita informação. Isto pode ser feito supondo-se que todos os salários em determinada classe são iguais ao ponto médio desta classe. Assim, os dez salários pertencentes à primeira classe (de quatro a oito salários) serão admitidos iguais a 6,00, os 12 salários da segunda classe (oito a doze salários) serão admitidos iguais a 10,00 e assim por diante. Então, podemos reescrever a Tabela 4.3 introduzindo os pontos médios das classes. Estes pontos estão na segunda coluna da Tabela 4.5. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 32 Tabela 4.5. Frequência e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salários Classe de Salários Ponto médio is Frequência in Porcentagem 100 if 4,00 |-- 8,00 6,00 10 27,78 8,00 |-- 12,00 10,00 12 33,33 12,00 |-- 16,00 14,00 8 22,22 16,00 |--20,00 18,00 5 13,89 20,00 |-- 24,00 22,00 1 2,78 Total ___ 36 100 Com a tabela assim construída podemos representar os pares ( is , in ) ou ( is , if ) por um gráfico em barras, setores ou dispersão unidimensional. Veja a Figura 4.5. Figura 4.5 Gráfico de coluna para a variável salário dos empregados da seção de orçamentos da Companhia MB. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 33 O artifício usado acima para representar uma variável contínua faz com que se perca muita das informações nela contidas. A outra alternativa, já mencionada, é o gráfico conhecido com histograma. 0 5 10 15 20 25 30 35 4,00 |-- 8,00 8,00 |-- 12,00 12,00 |-- 16,00 16,00 |--20,00 20,00 |-- 24,00 P or ce n ta ge m Faixa salarial Figura 4.6 Histograma para a variável salário dos empregados da seção de orçamentos da Companhia MB. Histograma Para construir um histograma manualmente, 1) é conveniente traçar o sistema de eixos cartesianos. 2) Se os intervalos de classe são iguais, traçam-se barras retangulares com bases iguais, correspondendo aos intervalos de classe, Estatística Prof. Dra. Sabrina L. CaetanoCentro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 34 3) as alturas determinadas pelas respectivas frequências (ou frequências relativas percentuais). Construção do histograma no Excel, Para criar um histograma, deverá organizar os dados em duas colunas, na folha de cálculo. Essas colunas deverão conter os seguintes dados: 1) Dados de entrada. Estes são os dados que pretende analisar utilizando a ferramenta Histograma. 2) Números dos blocos. Estes números representam os intervalos que pretende que a ferramenta Histograma utilize para medir os dados introduzidos na análise de dados. Quando utiliza a ferramenta Histograma, o Excel conta o número de pontos de dados em cada bloco de dados. Um ponto de dados estará incluído num determinado bloco se o número for maior do que a vinculação mais baixa e igual ou inferior à vinculação mais elevada do bloco de dados. Se omitir o intervalo de bloco, o Excel criará um conjunto de blocos distribuídos uniformemente entre os valores mínimo e máximo dos dados introduzidos. O resultado da análise do histograma é apresentado numa nova folha de cálculo e mostra uma tabela de histograma e um gráfico de colunas que reflecte os dados na tabela de histograma. Exemplo 4.6: Em uma disciplina de Estatística Aplicada do curso de Ciências contábeis, com 22 alunos, a prova bimestral apresentou os seguintes resultados: 1 2,34 2 3,67 3 7,89 4 4,67 5 3,89 6 8,9 7 9,5 8 4,6 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 35 9 2,6 10 4,8 11 5,9 12 7,9 13 4,6 14 2,4 15 5,8 16 4,8 17 7,8 18 1,3 19 3 20 4,6 21 7 22 0,6 A melhor forma gráfico de apresentar estes resultados, por se tratar de uma variável quantitativa contínua é a construição de um Histograma. O número de intervalos pode ser subjetivo, de acordo com o interesse do pesquisador. Desta forma, as notas foram divididas em 5 grupos (0 |-- 2; 2 |-- 4; 4 |-- 6; 6 |-- 8; 8 |-- 10). E utilizando o excel, foi obtido: Tabela 4.6 Intervalos e frequência das notas de alunos de Ciências contábeis na disciplina Estatística Aplicada Intervalos Frequência Absoluta Frequência Relativa 0 |-- 2 2 2/22= 0,09 2 |-- 4 6 6/22= 0,27 4 |-- 6 8 8/22= 0,36 6 |-- 8 4 4/22= 0,18 8 |-- 10 2 2/22= 0,09 Total 22 22/22= 1,00 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 36 Figura 4.6 Histograma das notas referentes a disciplina Estatística Aplicada no curso de Ciências contábeis. 2.2.3. Na prática: Construção de gráficos no Excel Passos: Para a maioria dos gráficos, como os de colunas e barras, você pode plotar em um gráfico os dados organizados em linhas ou colunas em uma planilha. Entretanto, alguns tipos de dados (como os de pizza e de bolhas) exigem uma organização específica dos dados. 1) Na planilha, organize os dados que você deseja plotar em um gráfico. Os dados podem ser organizados em linhas ou colunas — o Excel determina automaticamente a melhor maneira de plotá-los no gráfico. Alguns tipos de gráfico (como gráficos de pizza e de bolhas) exigem uma organização específica dos dados, conforme descrito na tabela a seguir. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 37 2) Selecione as células que contêm os dados que você deseja usar no gráfico. DICA: Se você selecionar apenas uma célula, o Excel plotará automaticamente todas as células que contêm dados adjacentes a essa célula em um gráfico. Se as células que você deseja plotar em um gráfico não estiverem em intervalo contíguo, será possível selecionar células não adjacentes ou intervalos, até que a seleção forme um retângulo. Você também pode ocultar as linhas ou as colunas que não deseja plotar no gráfico. 3) Na guia Inserir, no grupo Gráficos, siga um destes procedimentos: a. Clique no tipo de gráfico e, em seguida, clique no subtipo de gráfico que deseja usar. b. Para visualizar todos os tipos de gráficos disponíveis, clique em um tipo de gráfico, clique em Todos os Tipos de Gráficos para exibir a caixa de diálogo Inserir Gráfico, clique nas setas para rolar pelos tipos e subtipos de gráficos disponíveis e, em seguida, clique na opção que deseja usar. c. Uma Dica de tela que contém o nome do tipo do gráfico é exibida quando você posiciona o ponteiro do mouse sobre um tipo ou subtipo de gráfico. 4) Para realizar correções ou modificações em um gráfico já construído, o procedimento é clicar duas vezes dentro da área do gráfico (mudando o contorno) e em seguida clique uma vez em cima do que se deseja mudar(nomes, cores, fontes,etc), e o gráfico aceitará mudanças. Pressionando o botão direito do mouse, o Excel apresenta um menu orientado para mudanças do item selecionado. 5) Para outras informações, consultar a ajuda on line do Excel: http://office.microsoft.com/pt-br/excel-help/criar-um-grafico-HP001233728.aspx#BM2 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 38 4.3. Exercícios 1) Com os dados da tabela abaixo, preencha as colunas faltantes, faça um gráfico de barras e um gráfico de setores, usando o Excel. Tabela 1 Distribuição das Teses de Doutorado, segundo as Universidades nas quais foram defendidas, quer dentro ou fora do país. Universidades Frequência Absoluta in Frequência Absoluta Acumulada Frequência Relativa if Frequência Relativa Acumulada Porcentagem 100 if UNIFESP - EPM (SP) 63 USP(SP) 47 USP ( Rib.Preto) 29 Estrangeiras 969 UNICAMP (SP) 47 PUC(RS) 14 PUC(SP) 28 TOTAL Dados hipotéticos. 2) A tabela a seguir fornece a distribuição do número de funcionários, de acordo com o setor no qual trabalha. Tabela 2 Distribuição do número de funcionários, de acordo com o setor no qual trabalha na empresa TY. Universidades Frequência Absoluta in Frequência Absoluta Acumulada Frequência Relativa if Frequência Relativa Acumulada Porcentagem 100 if Vendas 18 RH 02 Compras 01 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 39 Logística 01 Produção 30 Qualidade 01 Pesquisa 17 TOTAL a) Preencher as colunas faltantes b) Representar graficamente os dados (gráfico de barras e de pizza). 3) A distribuição dos suicídios ocorridos no Brasil em 2009, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo; 198 por dificuldade financeira; 700 por doença mental; 189 por outro tipo de doença; 416 por desilusão amorosa e 217 por outras causa. a) Apresentar esta distribuição em uma tabela. b) Dar as colunas de frequências: absoluta, absoluta acumulada, relativa, relativa acumulada e percentual. c) Representar graficamente estes dados de dois modos diferentes. 4) Emum levantamento realizado em 2008 ocorreram 27306 casos de vítimas fatais em acidentes de trânsito, assim distribuídos: 11712 pedestres; 7116 passageiros e 8478 condutores. a) Faça uma tabela para apresentar esses dados. b) Apresente também as frequências: absoluta, absoluta acumulada, relativa, relativa acumulada e percentual. c) Representar graficamente estes dados de dois modos diferentes 5) Consultando as fichas de 50 funcionários de uma empresa obtivemos os seguintes tipos sangüíneos: Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 40 A B A O AB A O A B AB B O B AB O O B AB B O AB B O O B O O A AB O O A B O A A O B AB B B O O B A A O A B A a) Elaborar uma tabela para apresentar estes dados. b) Calcular as frequências: absoluta, absoluta acumulada, relativa, relativa acumulada e percentual. c) Representar estes dados em um gráfico de barras e um gráfico de setores. Obs: A frequência relativa é uma estimativa de probabilidade. Por exemplo, ao perguntarmos a probabilidade de um indivíduo aleatoriamente selecionado ter sangue tipo O, a resposta pode ser estimada pelos resultados obtidos no exercício anterior. 6) Os dados a seguir se referem ao número de caixas de peças fabricadas em 56 dias por uma Indústria. 59 63 81 58 71 72 69 54 51 68 62 74 85 83 81 54 57 60 51 71 73 82 67 81 59 72 74 72 80 50 57 69 61 60 51 60 81 77 53 67 55 72 55 65 71 75 83 50 76 56 62 66 59 56 67 80 Menor valor = 50 Maior valor = 85 Amplitude total = maior valor – menor valor = 85 - 50 = 35 Número de dados: n = 56 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 41 Número de intervalos de classes: 756 nk ( :significa aproximadamente) Amplitude de cada classe: 5 7 35 .int classesdeervdeNúmero totalAmplitude h Agora monte você a Distribuição de frequências: 7) Fazer um histograma para o número de caixas de peças fabricadas em 56 dias por uma Indústria, referente ao exercício 6. 8) Em uma fábrica existe a coleta diária de uma amostra de 25 sacos de ração para verificar o seu peso que é dado em kilos. Os dados destas medidas se encontram a seguir. 23,2 28,3 21 27 26 20 24,5 25,6 26,9 24,1 21,9 25 28,2 27,6 23,9 22,6 28,2 23,2 24,1 30 29 26,9 29,1 23,9 25,8 Monte uma tabela com apenas 5 categorias para resumir os dados acima, calculando a freqüência absoluta/ acumulada, a freqüência relativa/acumulada e a porcentagem. Indique qual o melhor gráfico para expressar esta variável e em seguida interprete os resultados. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 42 Unidade 5 – Análise Nesta unidade iremos aprender a analisar os dados de forma descritiva, nas seções 5.1 ( medidas de tendência central) e seção 5.2 ( medidas de dispersão ou variabilidade). Na seção 5.3 iremos aprender a parte básica das medidas de correlação e regressão. 5.1 Medidas de tendência Central Em qualquer análise e/ou interpretação, várias medidas descritivas representando as propriedades de tendência Central, variação e formato podem ser utilizadas para extrair e resumir as principais características do conjunto de dados. Como já foi visto se essas medidas descritivas resumidas forem calculadas através de uma amostra de dados, elas serão chamadas de estatísticas; caso sejam calculadas através de toda uma população de dados, elas serão chamadas de parâmetros. Como os estatísticos geralmente utilizam amostras em vez de utilizar populações inteiras, nossa principal ênfase neste texto estará na estatística, e não nos parâmetros. A maioria dos dados apresenta uma diferente tendência de se agrupar ou concentrar em torno de um ponto central. Assim sendo, para um conjunto de dados, em particular, geralmente se torna possível selecionar um valor típico ou médio para descrever todo o conjunto. Tal valor descritivo típico é uma medida de localização ou tendência central. As principais medidas de tendência central são a média aritmética, a mediana e a moda. 5.1.1 Média Aritmética A média aritmética (também chamada de média) é, em geral, o tipo de média ou medida de tendência central mais utilizada. É calculada somando-se todas as Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 43 observações em um conjunto de dados e dividindo-se o total pelo número de itens envolvidos. Notação algébrica: x Para uma amostra contendo um conjunto de n observações x1, x2,..., xn, a média aritmética (representada pelo símbolo x - chamado ―x barra‖) pode ser escrita como: x x n i i n 1 , que indica que os valores de x devem ser somados de 1 até n. Para simplificar, muitas vezes se escreve x , mas deve ficar claro quais os valores de x que devem ser somados. Exemplo 5.1: Os dados abaixo se referem ao peso de 12 bezerros antes e depois de um período de seca. Antes 195 145 205 159 244 166 250 236 192 224 238 222 Depois 146 155 178 146 208 147 202 215 184 208 206 220 Calcule o peso médio dos bezerros, antes e depois da seca e interprete os resultados. Resolução Antes da seca: 33,206 12 2222382241922362501662441592051451951 n x x n i i Depois da seca: 5833,184 12 2202062081842152021472081461781551461 n x x n i i O peso médio dos bezerros na antes da seca é de 206,33 Kg e depois da seca de 184,5833, assim podemos dizer que os bezerros emagreceram em média 21,7467 Kg. Dados agrupados em classes Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 44 Se os dados estão dispostos em uma tabela de distribuição de frequências, com k classes, o cálculo da média é feito de outra maneira, levando em conta as frequências de cada valor. Sejam x1, x 2,..., xk os valores dos pontos médios das classes e f1 , f2 , ...., fk as respectivas frequências. A média dos dados é dada por: n x x K i i 1 if , em que n = fi Exemplo 5.2 : A Tabela a seguir nos dá a frequência dos salários de 36 empregados da seção de orçamentos da MB por faixa de salários. Calcular o valor médio do salário dos empregados desta seção e interpretar o resultado. Classe de salário Frequência de pessoas (fi) Xi Xifi 4,00 |--- 8,00 10 6 60 8,00 |--- 12,00 12 10 120 12,00 |--- 16,00 8 14 112 16,00 |--- 20,00 5 18 90 20,00 |--- 24,00 1 22 22 Total n =fi = 36 Xi fi = 404 De acordo com a fórmula: 22,11 36 404 f 1 i n x x K i i Os empregados da seção de orçamento da MB ganham em média 11,22 salários. 5.1.2 Mediana Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística)45 A mediana é uma medida de tendência central que divide a amostra em dois conjuntos com igual número de dados. Para se encontrar a mediana é necessário ordenar os dados. Se a amostra é constituída por um número ímpar de dados a mediana é o valor que fica no centro dos dados ordenados. Exemplo 5.3 : A mediana dos valores 1, 2, 3, 5 e 9 é 3. Se a amostra é constituída por um número par de dados a mediana é a média aritmética dos valores que ficam na posição central dos dados ordenados. Exemplo 5.4: Dar a mediana do conjunto de dados representativo do peso, em gramas, de ratos machos da raça Wistar com 30 dias de idade: 50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74. Primeiro passo é a ordenação dos dados: 50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82 e 86. Como nesta amostra o número de dados é par (n=12), a mediana é a média aritmética dos dois valores que ocupam a posição central. Med = ( 64+66)/2 = 65. A mediana pode ser dada também por uma fórmula geral, considerando x1, x2,..., xn, n observações, devemos inicialmente ordenar os dados e depois podemos aplicar: ) 2 1 ( )( nxxmd , se n for ímpar 2 )( )1 2 () 2 ( nn xx xmd , se n for par 5.1.3 Moda A moda é o valor que ocorre com maior frequência. Por exemplo, dados os números 3, 4, 5, 7, 7, 7, 9 e 9, a moda é 7 porque é o valor que ocorre o maior número de vezes. Atenção: Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 46 Existem conjuntos que não apresentam moda porque nenhum valor se repete um maior número de vezes, e existem conjuntos de dados com duas ou mais modas. Conjuntos com duas modas são chamados de bimodais. A moda, diferentemente das outras medidas de tendência central, pode ser obtida mesmo que a variável seja qualitativa. Exemplo 5.5 : Em uma empresa temos 547 pessoas com o tipo de sangue O, 441 com o tipo A, 123 com o tipo B e o tipo de sangue AB ocorre 25 vezes. Neste caso a moda desta amostra é o sangue tipo O . 5.1.4 Exercícios 1) Os dados que seguem representam o número de anos que 17 funcionários trabalharam em uma empresa. Idade 1 4 0 1 1 7 3 2 0 0 1 4 0 5 2 1 3 a) Calcular a média de anos que os funcionários trabalharam na empresa e interpretar os resultados b) Calcular a mediana e interpretar. c) Dar a moda. d) Construa um gráfico para estes dados. 2) Em um setor de uma fábrica de calçados existem três funcionários, sendo que cada um tem seu ritmo de produção. Os dados apresentados a seguir são referentes à quantidade de par de sapatos produzidos por cada funcionário em 8 dias. Funcionário 1 5 6 9 9 7 9 4 3 Funcionário 2 8 8 9 8 6 8 6 7 Funcionário 3 3 5 3 5 6 6 7 5 Calcular a média, a mediana e a moda para cada funcionário. Em seguida interpretar os resultados. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 47 3) Uma empresa está priorizando a qualidade total de seus produtos, desta maneira ela tem um sistema de conferência de peças chamado Inspeção 100%, ou seja, todas as peças são vistoriadas para verificação de defeitos. Os dados apresentados a seguir são em relação à quantidade de peças defeituosas encontradas durante um período de 30 dias. 12 5 7 3 4 1 7 0 8 0 5 11 8 1 10 8 6 6 6 9 2 5 7 3 14 6 2 3 2 9 a) Calcular a média do número de peças defeituosas e interpretar os resultados b) Calcular a mediana e interpretar o seu significado. c) Dar a moda. 4) A Tabela a seguir fornece o número de latas de tomate produzidas por dia em uma indústria do ramo alimentício, no prazo de 100 dias. 30 11 7 17 18 25 30 19 24 24 37 19 12 18 24 17 27 17 29 23 19 40 24 25 32 38 26 18 14 18 14 47 23 27 27 19 14 25 19 32 22 18 19 21 30 25 19 19 20 15 a) Calcular a média do número de latas de tomate produzidas nestes 100 dias e interpretar os resultados b) Calcular a mediana e interpretar o seu significado. c) Dar a moda Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 48 5) A Tabela a seguir nos dá a quantidade de cana-de-açúcar em toneladas que 25 cortadores de cana produzem. Calcular o número médio de toneladas de cana produzidas por esta usina de cana-de-açúcar em relação aos 25 cortadores, e em seguida calcule também a mediana e a moda e interprete os resultados. 22,5 24 23,9 25 22,4 24 24,6 23,8 22,9 26,1 26,3 25,3 24,8 23,5 24,9 29,5 25 24,6 23,4 23,5 24,1 24,9 29,1 22,8 25 6) Nos dados do exercício anterior, eliminar os dados de valor 25 da amostra e repetir o exercício. 7) O número de exportações de polpa de frutas vem crescendo de forma significativa. Sabendo desta possibilidade uma empresa de polpa de laranja deseja exportar, desta forma calcule o número médio de polpas de laranja que poderão ser exportadas por mês, sabendo o número de polpas produzidas por mês em um ano anterior. 1503 1640 1250 1960 1825 1230 1436 1820 1630 1860 1690 1520 8) A Tabela a seguir nos fornece o número de funcionários de uma empresa de acordo com sua idade, que é dada em intervalos. Idade do funcionário Número 18 20 20 20 22 30 22 24 55 24 26 62 Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 49 26 28 75 28 30 86 Total 328 Dar a média aritmética da distribuição. 9) A Tabela abaixo mostra o peso em Kilos, de 80 peças de uma máquina da linha de produção de uma indústria. 278 182 247 227 277 194 196 276 244 192 118 219 255 201 204 209 219 228 209 209 171 213 233 226 209 200 200 363 209 200 179 167 192 277 317 146 217 292 217 255 212 233 250 243 150 209 174 184 199 250 479 175 194 221 233 184 217 150 167 265 242 180 255 170 209 161 196 165 234 179 248 184 291 185 242 276 243 229 242 250 a) Agrupar os dados em classes. b) Calcular o peso médio das peças da máquina. c) Dar a coluna de frequência percentual. d) Construir um histograma. 10) Pesquisar e obter um conjunto de dados quantitativos (n = 100) na área do curso de vocês e construir uma distribuição de frequências. Estatística Prof. Dra. Sabrina L. Caetano Centro Universitário da Fundação Educacional de Barretos – UNIFEB Produzido por Sabrina L. Caetano (Estatística) 50 5.2 Medidas de Variabilidade ou Dispersão O resumo de um conjunto de dados por única medida representativa de posição central esconde toda informação sobre a variabilidade do conjunto de observações. Exemplo 5.1. Considerando os dados referentes à quantidade de peças rebarbadas por dois funcionários de uma empresa no prazo de seis dias, temos: Funcionário 1 25 30 50 35 27 42 Funcionário 2 38 32 34 30 37 38 A identificação de cada uma destas duas situações por sua média (34,83 peças por dia nos dois casos), nada informa sobre suas diferentes variabilidades. Notamos então, a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de informações e que nos permita, por exemplo, comparar conjuntos
Compartilhar