Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Silvio Alves de Souza 2 ÍNDICE Introdução ................................................................................................................... 4 Software R .................................................................................................................. 5 Conceitos Básicos de Estatística ................................................................................ 6 População ................................................................................................................ 6 Amostra ................................................................................................................... 7 Arredondamento de números .................................................................................. 9 Proporção .............................................................................................................. 11 Porcentagem ......................................................................................................... 12 Fases do Método Estatístico ..................................................................................... 16 Definição do Problema .......................................................................................... 16 Planejamento ......................................................................................................... 16 Coleta dos Dados .................................................................................................. 17 Apuração dos Dados ............................................................................................. 18 Apresentação dos Dados....................................................................................... 18 Análise e Interpretação dos Dados ........................................................................ 19 Questionários ............................................................................................................ 20 Ordem das Questões ............................................................................................. 21 Tipo de Abordagem ............................................................................................... 21 Clareza nas Perguntas .......................................................................................... 21 Não Sugerir Respostas .......................................................................................... 22 A Necessidade do Pré-Teste ................................................................................. 22 A Prática de Pesquisas por Amostragem .............................................................. 22 Amostragem .............................................................................................................. 23 Amostragem Aleatória Simples .............................................................................. 24 Amostragem Estratificada ...................................................................................... 25 Amostragem Sistemática ....................................................................................... 28 Exercícios .............................................................................................................. 29 Distribuição de Freqüência ........................................................................................ 34 Dados Brutos ......................................................................................................... 34 Rol ......................................................................................................................... 34 Tabela de freqüência ............................................................................................. 35 Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes35 Distribuição de Freqüências de Dados Agrupados em Classes ......................... 39 Manual para Normalização de Publicações Técnico – cientificas .......................... 43 Exercícios .............................................................................................................. 44 Medidas de Tendência Central. ................................................................................ 49 Dados brutos ......................................................................................................... 49 Dados apresentados em tabela de distribuição de freqüência .............................. 53 Exercícios .............................................................................................................. 59 Separatrizes .............................................................................................................. 61 Separatrizes de dados brutos ou em tabela de distribuição simples ..................... 61 Separatrizes de dados agrupados em classes ...................................................... 65 Exercícios: ............................................................................................................. 66 Medidas de Variabilidade .......................................................................................... 69 3 Desvio padrão ........................................................................................................ 69 Coeficiente de variação: ........................................................................................ 71 Exercícios .............................................................................................................. 74 Representação Gráfica ............................................................................................. 79 Probabilidade ............................................................................................................ 88 Técnicas de contagem ........................................................................................... 88 Cálculo de Probabilidade ....................................................................................... 91 Exercícios: ........................................................................................................... 101 Distribuições de Probabilidade ................................................................................ 106 Variável Aleatória ................................................................................................. 106 Distribuições discretas de probabilidade.............................................................. 112 Distribuições contínuas de probabilidade ............................................................ 117 Teste de Hipótese Paramétrico ............................................................................... 129 Teste de uma afirmação sobre uma média populacional: σ conhecido ................. 133 Teste de uma afirmação sobre uma média populacional: σ desconhecido ........ 135 Teste de uma afirmação sobre variância ou desvio-padrão ................................ 137 Teste de hipótese para proporção ....................................................................... 141 Teste de hipótese não-paramétrico ......................................................................... 144 Teste de Correlação por postos ........................................................................... 145 Distribuição Amostral .............................................................................................. 150 Correlação ............................................................................................................... 172 Regressão Linear .................................................................................................... 177 Regressão Múltipla .................................................................................................. 183 Bibliografia ..............................................................................................................194 Anexo 1 ................................................................................................................... 195 Anexo 2 ................................................................................................................... 197 4 Introdução Esta apostila é uma tentativa de compor todo o conteúdo da disciplina Estatística 1 do CEFET – MG. Esta disciplina é ministrada no cursos de Administração. Seu conteúdo é de acordo com o plano de ensino do curso citado anteriormente. Na verdade é um material complementar para os alunos. Ele não os isenta da necessidade de consultar outras bibliografias. A disciplina de Estatística é abordada com o auxílio de vários softwares para tratamento de dados, entre eles o R e o SPSS. Os exemplos e exercícios foram montados com o objetivo de contextualizar o conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos para que o aluno possa perceber a utilização da Estatística em cada área do conhecimento. A construção do conhecimento foi elaborada de acordo com os passos de uma pesquisa, salvo casos em que o conteúdo requer outros elementos essenciais para seu entendimento. 5 Software R O software R é um software livre utilizado para análise de dados, cálculo e construção de gráficos. Sua construção foi feita utilizando vários colaboradores. Para sua utilização é necessário conhecimento de sua linguagem própria, ou seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas utilizando seus comandos e outras são necessárias a construção de algoritmos. O R tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. Os comandos necessários bem como a utilização do software serão apresentados no decorrer das aulas. A utilização deste software é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados. No anexo 2 encontra-se alguns comandos úteis. 6 Conceitos Básicos de Estatística Estatísticas Uma coleção de dados numéricos ou qualitativos. Estatística Ramo da ciência que se dedica a desenvolver metodologias para a coleta, classificação, apresentação, análise e interpretação de dados quantitativos e qualitativos e a utilização desses dados para a tomada de decisões. A Estatística pode ser dividida em três grandes áreas: � Estatística Descritiva � Probabilidade � Inferência Estatística Estatística Descritiva Utiliza técnicas com o objetivo de descrever, analisar e interpretar o conjunto de dados. É utilizada na etapa inicial da análise. Probabilidade Trabalha com a idéia de incerteza. Desenvolve e utiliza técnicas capazes de calcular as chances de que algum fenômeno aconteça. Inferência Estatística Desenvolve e utiliza técnicas capazes de fazer uma extrapolação dos resultados, estimação de quantidades desconhecidas e testar hipóteses a partir de uma amostra. Baseando-se na amostra podemos assim chegar a conclusões sobre a população. População Conjunto da totalidade dos indivíduos sobre o qual de faz uma inferência. Em linguagem mais formal, a população é o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Essas características da população são comumente chamadas de parâmetros, os quais são valores fixos e ordinariamente desconhecidos. Exemplo: Suponha que estamos interessados em realizar um estudo sobre a qualidade das peças produzidas por uma empresa em determinado dia. Neste caso existe uma observação para cada peça fabricada naquele dia. Podemos limitar a população a cada turno de trabalho da empresa, como por exemplo o 2º turno. 7 Observação: É importante ficar bem claro que uma população é estudada em termos das características a serem estudadas. Assim, por exemplo, o diâmetro de uma peça constituem uma população. Poderia haver uma população correspondente ao comprimento dessas mesmas peças. Amostra Um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz um juízo ou inferência sobre as características da população. Exemplo: Avaliação da qualidade das peças produzidas por uma determinada empresa. Seleciona-se, dentre as peças produzidas em determinado dia, uma porcentagem destas peças. Avalia-se as peças selecionadas. A partir da amostra estabelecemos o que é conveniente para a população, ou seja, fazemos uma inferência sobre a população. A figura a seguir nos dá uma noção de como podemos trabalhar com os dados: Natureza dos dados • Dados Nominais: Trata-se de dados qualitativos ou descritivos, ou seja, que descrevem uma qualidade ou uma descrição. Exemplos: solteiro ou casado, certo ou errado, peça boa ou peça defeituosa, etc. Podem ser transformados em dados numéricos, como por exemplo: 1 – solteiro e 2 – casado. • Dados ordinais: Trata-se de dados numéricos os quais podemos estabelecer desigualdades. Como exemplo considere 1- alumínio e 2 – diamante. Temos que 2>1 (significa que o diamante é mais resistente do que o alumínio). • Dados intervalares: Trata-se de dados numéricos os quais podemos estabelecer desigualdades e formar diferenças. Exemplo: Temperaturas. • Dados de razão: trata-se de dados numéricos que podemos estabelecer desigualdades, diferenças, formar multiplicação e divisão. Exemplos: peso, altura, dinheiro, volume, diâmetro, etc. 8 Objetivo do Estudo da Estatística A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna. Nos seus mais diversificados ramos de atuação, as pessoas estão freqüentemente expostas à Estatística, utilizando-a com maior ou menor intensidade. Isto se deve às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessitam. 9 Arredondamento de números 1) Arredondamento por falta Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito anterior. Número a arredondar Arredondamento para Número arredondado 12,489 Inteiros 12 20,733 Décimos 20,7 35,992 Centésimos 35,99 2) Arredondamento por excesso Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for maior ou igual a cinco seguido por dígitos maiores que zero, o dígito anterior será acrescido de uma unidade. Número a arredondar Arredondamento para Número arredondado 15,504 Inteiros 16 16,561 Décimos 16,6 17,578 Centésimos 17,58 3) Arredondamento centrais Quando o primeiro dígito, aquele situado mais à esquerda dos que serão eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito anterior, se for par, não se altera, e se for ímpar será aumentado uma unidade. Número a arredondar Arredondamento para Número arredondado 15,500 Inteiros 16 17,750 Décimos 17,8 17,705 Centésimos 17,70 10 4) Arredondamento de Soma Quando se trata de soma, deve-se arredondar primeiro o total, e posteriormente as parcelas. Há aqui dois casos a considerar: a) Se a soma das parcelas da série arredondada for superior ao total, deve-se retornar à série original, arredondando-se, por falta, tantas parcelas quantas forem as unidades excedentes. Serão escolhidas as parcelas anteriormente arredondadas por excesso e cujas frações desprezadas representem o menor erro relativo. Erro relativo Dados dois números diferentes de zero x e y com yx >>>> , o errorelativo entre eles será calculado pela expressão x yxER −−−− ==== O arredondamento do erro é feito de modo a poder identificar a ordem das parcelas. b) Se a soma das parcelas da série arredondada for inferior ao total, deve-se retornar à série original, arredondando-se, por excesso, tantas parcelas quantas forem as unidades em falta. Serão escolhidas as parcelas anteriormente arredondadas por falta e cujas frações desprezadas representem o menor erro relativo. 11 Proporção Um certo número de pessoas foi classificado em quatro categorias. Essas categorias são, naturalmente, mutuamente exclusivas e exaustivas. Em outras palavras: uma pessoa só poderá estar incluída em uma única categoria, e todas elas deverão estar classificadas. Em termos simbólicos, pode-se escrever: 1N = número de pessoas incluídas na categoria 1. 2N = número de pessoas incluídas na categoria 2. 3N = número de pessoas incluídas na categoria 3. 4N = número de pessoas incluídas na categoria 4. 4321 NNNNN +++= = número total de pessoas consideradas. Neste caso, a proporção de pessoas pertencentes à primeira categoria é determinada mediante o cálculo do seguinte quociente N N1 A proporção de pessoas pertencentes à segunda categoria é determinada mediante o cálculo do seguinte quociente N N2 Sucessivamente temos N N3 e N N4 o cálculo da proporção das pessoas pertencentes à terceira e quarta categoria. Observe que 1 N N N N N N N N N N 4321 ==+++ . Exemplo: A tabela a seguir apresenta o número de sócios praticantes e não- praticantes de futebol em um clube hipotético. Tabela 1: Número de sócios praticantes e não-praticantes de futebol em um clube hipotético Sócios Praticante (exclusivamente) de: Clube 1 Proporção Futebol de salão 580 0,100 Futebol de campo 430 0,074 Não-Praticantes 4810 0,826 Total 5820 1,000 Fonte: Referência bibliográfica 1 12 Exercício: A tabela a seguir apresenta o levantamento da quantidade de clientes que tiveram seus talões de cheques roubados. Tabela 2: Número de clientes que tiveram seus talões de cheques roubados Meses Clientes Janeiro 35 Fevereiro 25 Março 16 Total 76 Fonte: Dados professor Calcule a proporção de clientes roubados em cada mês. Porcentagem As porcentagens são obtidas a partir do cálculo das proporções, simplesmente multiplicando-se o quociente obtido por 100. Para representá-las usamos o símbolo %. Voltando ao exemplo anterior temos: Tabela 3: Número de sócios praticantes e não-praticantes de futebol em um clube hipotético Sócios Praticante (exclusivamente) de: Clube 1 Porcentagem (%) Futebol de salão 580 10 Futebol de campo 430 7,4 Não-Praticantes 4810 82,6 Total 5820 100 Fonte: Referência bibliográfica 1 13 Exercícios 1) Considere as situações a seguir e identifique a população e a amostra em cada caso. a. Para a análise de desempenho dos alunos da 8.ª série de uma determinada escola municipal foram escolhidas as notas de português de 35 alunos. b. Uma amostra de sangue foi retirada de um paciente com suspeita de alto colesterol. c. Uma maternidade entrevista 20 mães de recém nascidos dos 218 partos, no mês de janeiro, para avaliar a satisfação na prestação de serviço. d. A fim de avaliar a intenção de voto dos eleitores para deputado estadual, um candidato entrevista 2.120 eleitores em Minas Gerais. 2) Use os critérios de arredondamento para arredondar cada valor a seguir para décimos. a) 21,24 d) 0,75 g) 3,521 b) 1,088 e) 5,819 h) 9,275 c) 125,5555 f) 0,3333 i) 235,25 3) Aplique os critérios de arredondamento para completar o quadro abaixo: Número a arredondar Arredondamento para Número arredondado 25,458 Centésimo 123,99 Décimo 205,7056 Milésimo 17,561 Inteiro 4) Aplique os critérios de arredondamento para completar o quadro abaixo: Número a arredondar Arredondamento para Número arredondado 1,23 Décimo 5,488 Centésimo 0,126 Centésimo 35,4 Inteiro 13,99 Décimo 25,7056 Milésimo 7,561 Inteiro 690,1555 Centésimo 0,115588 Milésimo 14 5) Considere a tabela a seguir Tabela 4: Produção, em unidades, da fábrica X de determinada peça no segundo semestre de 2005. Mês Produção Julho 35.500 Agosto 34.750 Setembro 36.800 Outubro 35.150 Novembro 32.300 Dezembro 31.250 Calcule: (Use arredondamento para centésimos) a) a proporção de peças produzidas no mês de outubro. b) a proporção de peças produzidas até setembro. c) a porcentagem de peças produzidas em dezembro. 6) Uma escola ia contratar um grupo de 8 professores para dar um curso sobre computadores em 48 horas, pagando um total de R$ 9 216,00. No entanto, como medida de economia, ela resolveu contratar somente 6 professores e dar o curso em 36 horas. Quanto a escola economizará? 7) João comprou uma mercadoria em uma loja de utilidades. Quando foi pagar a conta, o vendedor informou-lhe que devido a uma promoção relâmpago, ele teria 8 % de desconto na compra à vista pagando, pelo produto, R$ 276,00. João optou por não pagar à vista. Quanto ele pagará pela mercadoria se compra-la a prazo? 8) Para as situações descritas a seguir, identifique a população e a amostra correspondente. Discuta a validade do processo de inferência estatística, ou seja, se as amostras foram coletadas corretamente, para cada um dos casos. Não esqueça de apontar o erro de cada caso. a) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. b) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. c) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 9) Para encher um reservatório em 15 dias, são necessárias 3 torneiras. Em quanto tempo 5 torneiras, idênticas às anteriores, encherão o mesmo reservatório? 10) Um navio dispõe de reservas suficientes para alimentar 14 homens durante 45 dias, mas recebe 4 sobreviventes de um naufrágio. Durante quantos dias durarão as reservas de alimento? 11) Calcule: a) 15 % de R$ 2 800,00 ? b) 42 % de R$ 18 300,00 ? 15 12) Resolva os problemas abaixo: a) Numa classe foram reprovados 15 % dos alunos, isto é, 9 alunos. Quantos alunos haviam nesta classe? b) Em uma cidade haviam 5600 eleitores do candidato A e 7800 eleitores do candidato B. 1) Qual a proporção dos eleitores do candidato A? 2) Qual a proporção dos eleitores do candidato B? 13) Em um colégio existem 1 200 alunos, dos quais 720 são meninos. Determine: a) Qual a proporção do número de meninos? b) Qual a proporção do número de meninas? 14) Num livro de 200 páginas, há 30 linhas em cada página. Se houvesse 25 linhas, quantas páginas teria o livro? 16 Fases do Método Estatístico Quando se pretende realizar um estudo estatístico completo existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Definição do Problema A primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado. O problema deve ser preciso, bem determinado e específico. Além de considerar detidamente o problema objeto do estudo, o analista deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos. Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema.Planejamento Consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo. Mais especialmente, na fase do planejamento a preocupação maior reside na escolha das perguntas. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento: a) Levantamento censitário, quando a contagem abranger todo o universo. b) Levantamento por amostragem, quando a contagem for parcial. Nesta fase temos outros elementos importantes que devem ser tratados. a) cronograma das atividades, através do qual são fixados os prazos para as varias fases; b) Os custos envolvidos; c) O exame das informações disponíveis; d) O delineamento da amostra; e) A forma como serão escolhidos os dados, etc. Obs: Os livros mais específicos sobre pesquisa de mercado poderão ser consultados. 17 Coleta dos Dados O terceiro passo é essencialmente operacional. A coleta de dados se refere à obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Espécies de dados: I) Dados Primários: quando são publicados ou comunicados pela própria pessoa ou organização que os haja recolhido. II) Dados Secundários: Quando são publicados ou comunicados por outra organização. Um conjunto de dados é, pois, primário ou secundário em relação a alguém. É mais seguro trabalhar com fontes primárias, pois: a) Uma fonte primária oferece, em geral, informações mais detalhadas do que uma secundária. b) É mais provável que as definições de termos e de unidades figurem somente nas fontes primárias. c) O uso da fonte secundária traz o risco adicional de erros de transcrição. d) Uma fonte primária poderá vir acompanhada de cópias dos impressos utilizados para coletar as informações, juntamente com o procedimento adotado na pesquisa, a metodologia seguida e o tipo de tamanho da amostra. Essas informações proporcionam ao usuário uma idéia do grau de garantia que os dados oferecem. A coleta de dados pode ser realizada de duas maneiras: direta ou indiretamente. Coleta Direta A coleta é direta quando é obtida diretamente da fonte. Ex.: Uma empresa pesquisa seus consumidores. Há três tipos de coleta direta: a) Coleta direta contínua: quando estes são obtidos ininterruptamente, automaticamente e na vigência de um determinado período. Ex.: Registros de nascimento, de casamento, de óbito, etc. 18 b) Coleta direta periódica: quando é realizada em períodos curtos, determinados, de tempo em tempo. Ex: Recenseamento demográfico. O censo industrial. c) Coleta direta ocasional: Quando os dados forem colhidos esporadicamente, atendendo a uma conjuntura qualquer ou a uma emergência. Ex.: Casos fatais em surto epidêmico. Coleta Indireta A coleta dos dados é indireta quando é inferida a partir dos elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão. É feita, portando, por deduções e conjunturas, podendo ser realizada: a) Por analogia: quando o conhecimento de um fenômeno é induzido a partir de outro que com ele guarda relações de casualidade. b) Por proporcionalização: Quando o conhecimento de um fato se induz das condições quantitativas de uma parte dele. c) Por indícios: quando são escolhidos fenômenos sintomáticos para discutir um aspecto geral da vida social. d) Por avaliação: quando através de informações fidedignas ou estimativas cadastrais, se presume o estado quantitativo de um fenômeno. Apuração dos Dados Consiste em resumir os dados, através de sua contagem e agrupamento. Ela pode ser manual, mecânica, eletromecânica ou eletrônica. Através da apuração tem-se a oportunidade de condensar os dados, de modo a obter um conjunto compacto de números, o qual possibilita distinguir melhor o comportamento do fenômeno na sua totalidade. Entretanto, a contrapartida da melhor apreciação dos dados em seu conjunto é a perda correspondentes de detalhes, uma vez que se trata de um processo de sintetização. Apresentação dos Dados Há duas formas de apresentação, que não se excluem mutuamente. a) Apresentação Tabular: É uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. b) Apresentação Gráfica: Constitui uma Apresentação Geométrica. Embora a apresentação tabular seja de extrema importância, no 19 sentido de facilitar a análise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como a conseguida através de um gráfico. Análise e Interpretação dos Dados É a última fase e a mais importante e também a mais delicada. O interesse maior, nesta etapa, reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema. A análise está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Obs: As fases do método Estatístico foram tiradas da referência bibliográfica 1. 20 Questionários Questionários são o meio mais comum de coleta de informações. Dois tipos de questões são usualmente empregados na redação de questionários: � Questões de múltipla escolha � Questões de resposta aberta As alternativas em uma questão de múltipla escolha devem ser claras, mutuamente excludentes e, quando pedirem opiniões, fornecer opções dos dois lados do assunto. Idealmente, as opções devem cobrir todas as respostas prováveis. Se, entretanto, muitas alternativas são apresentadas, elas podem não ser suficientemente claras e confundir o respondente no momento de sua decisão. A grande desvantagem de questões de múltipla escolha é que tendem a sugerir uma resposta, já que limita as respostas possíveis, impedindo o respondente de dizer exatamente o que pensa. Este tipo de limitação não ocorre nas questões de resposta aberta, em que o entrevistado usa suas próprias palavras para responder à pergunta. Uma pergunta deste tipo produz uma grande gama de respostas que devem ser classificadas em grupos homogêneos antes que se possa fazer uma análise estatística. Esta classificação é uma tarefa difícil quando o número de respostas a serem analisadas é muito grande. Por isso, questões de respostas abertas são mais freqüentemente empregadas em estudos pilotos ou nos estágios exploratórios, quando se procura determinar quais tipos de respostas aparecerão. Essas informações são então usadas na construção do questionário a ser utilizado na obtenção dos dados de um grupo maior. Às vezes é inevitável misturar os dois tipos de pergunta, quando, por exemplo, colocamos a opção “outros” e pedimos especificação. Se os dados forem analisados por computador, deve-se pensar na etapa da codificação ao redigir as perguntas. 21 Ordem das Questões Um questionário consistente em uma bateria de questões arranjadas em certa ordem. As primeiras questões são para estabelecer contato com o respondente e devem ser bem simples. Quando vários tópicos estão envolvidos, deve-se completar um tópico antes de passar a outro. A ordem das questões freqüentemente afeta as respostas dadas pelo respondente, já que as perguntas chamam a atenção do entrevistado para um conjunto de pensamentos e sentimentos, em cujo contexto as outras perguntas serão respondidas. Em pesquisa de mercado, por exemplo, questões que mencionam um produto específico tendem a viciar as perguntas que se seguem; conseqüentemente, estas questões identificando produtos ou firmas devem ser colocadas no final, sempreque possível. Tipo de Abordagem Muitas pessoas tendem a racionalizar ou exagerar suas respostas quando são questionadas diretamente sobre seus motivos, realizações ou outros assuntos que envolvam seu prestígio ou auto-estima. Para se evitar a introdução de tendenciosidade nessas respostas, usa-se freqüentemente uma abordagem indireta na elaboração de questões que envolvem prestígio. Por exemplo, ao invés de perguntas: “Você terminou o curso secundário?”, pode-se perguntar: “Em que ano você estava quando deixou de estudar?”. Na segunda pergunta tenta-se evitar constrangimento aos respondentes que não terminaram o curso secundário. Clareza nas Perguntas Uma pergunta deve ter aproximadamente o mesmo sentido para todos os entrevistados; caso contrário, os dados obtidos não terão grande utilidade. Termos com sentido dúbio devem ser evitados. As perguntas devem ser simples. Nem todos os entrevistados entenderão questões com enunciado complexo, originando, assim, resultados ruins. 22 Não Sugerir Respostas Na formulação das perguntas deve-se evitar um tipo de redação como esta: “Você concorda em que esta bebida, sendo a melhor, deva custar mais caro?” Esta pergunta sugere tão obviamente uma resposta que é praticamente inútil. Algumas vezes, entretanto, é difícil perceber que a redação de uma pergunta possa sugerir determinada resposta. A Necessidade do Pré-Teste Assim que um questionário tenha sido redigido, deve ser testado em um estudo piloto. Esta fase é fundamental para detectar dificuldades não observadas, como o lay out do questionário, ordem e redação das perguntas, necessidade de instruções mais claras para os entrevistadores, etc. Naturalmente, a correção dessas imprecisões melhorará a qualidade do levantamento. A Prática de Pesquisas por Amostragem O leitor deve convencer-se de que é fundamental conhecer as características específicas da área onde pretende participar de pesquisas por amostragem. O significado especial de algumas palavras, os melhores locais e horários para se fazer coleta de dados, o tipo de entrevistador são, entre outros, fatores importantes para o bom andamento do levantamento. Só lendo literatura na área específica é que se pode, entretanto, conhecer estes detalhes. 23 Amostragem Conceitos Fundamentais Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente dois problemas: � selecionar a característica que iremos pesquisar. � definir cuidadosamente a população de interesse e A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. Caracterizada a população-alvo, o próximo passo é escolher as características que iremos medir. Aqui o erro freqüente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos, portanto, fixar-nos apenas em perguntas que contribuam para a quantificação adequada da característica populacional de real interesse para o estudo. Para que possamos fazer inferências válidas sobre a população a partir de uma amostra, é preciso que esta seja representativa. Uma das formas de se conseguir representatividade é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório. Além disso, a aleatoriedade permite o cálculo de estimativas dos erros envolvidos no processo de inferência. Amostragem ou Censo? Quando definimos fazer um estudo censorial, todos os elementos da população são estudados. Porém existem algumas situações em que o censo não é aconselhável: a) Populações infinitas: Neste caso o levantamento de dados não teria final. (Exemplo: ) b) Testes destrutivos: Neste caso os elementos da população utilizados para estudo seriam destruídos. (Exemplo: teste de tração em uma peça, teste de peso suportado por uma cadeia) c) Tempo para execução do estudo: No caso em que o estudo deva ser realizado em um tempo mínimo, o tamanho da população poderia gastar tempo a mais do que o esperado. (Exempo: epidemias graves) d) População grande: Neste caso o custo seria um fator determinante, visto que a população pode ter um número grande de elementos. Em um processo de amostragem, as amostras podem ser extraídas de duas formas distintas: I) Sem reposição: quando cada elemento da população só pode ser selecionado apenas uma única vez; II) Com reposição: quando cada elemento da população pode ser selecionado mais de uma única vez. 24 Amostragem Aleatória Simples A amostragem é dita aleatória quando todos os elementos da população têm a mesma chance de serem estudados. Neste caso cada elemento da amostra é escolhida elemento a elemento. A população é numerada de 1 a N. Escolhem-se, em seguida, na tábua de números aleatórios, n números compreendidos entre 1 e N. Obs.: A tabela de números aleatórios foi retirada do Bruni[4]. Esse processo é equivalente a um sorteio no qual se colocam todos os números misturados dentro de uma urna. Os elementos correspondentes aos números escolhidos formarão a amostra. Exemplo: A tabela a seguir refere-se a renda, em salários mínimos, de 15 empregados fictícios. 1,05 2,07 1,96 2,13 1,51 1,14 1,84 1,77 2,39 1,59 1,29 1,69 2,46 1,77 2,30 Extrair, sem reposição, uma amostra aleatória de tamanho n = 5. Solução: Primeiramente deveremos numerar a população. Item 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 salário 1,05 2,07 1,96 2,13 1,51 1,14 1,84 1,77 2,39 1,59 1,29 1,69 2,46 1,77 2,30 Escolhe-se uma coluna na TNA. Procuramos os 5 primeiros números não superiores a 15, lendo os dois últimos algarismos ou os dois primeiros. Obtemos: 4.ª coluna – dois primeiros algarísmos Leitura na TNA (2 primeiros) 14 08 05 10 15 salário 1,77 1,77 1,51 1,59 2,30 25 Amostragem Estratificada Quando os elementos da população estão divididos em grupos não superpostos, é mais fácil e mais eficiente escolher, independentemente, uma amostra aleatória simples dentro de cada um destes grupos, os quais são chamados estratos. Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações tem estratos bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os estados brasileiros; ect. O mais comum é utilizar-se a Amostragem Estratificada Proporcional, que consiste em selecionar os elementos da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos. Em outras palavras, sejam: N o número de elementos da população L o número de estratos iN o número de elementos do estrato i n o tamanho da amostra a ser selecionada in tamanho de amostra no estrato i Note que N = N1 + N2 + ... + NL Calcula-se a fração de amostragem dada por: f = N n Obs: A fração de amostragem calcula o tamanho de amostra por unidade da população. O número de elementos a serem sorteados em cada estrato será: .fNn 11 = .fNn 22 = .fNn LL = M Obs.: Neste caso devemos ter n=+++ L21 nnn K Caso não aconteça devemos aumentar o valor de in para o qual a parte decimal de n⋅ N N i é máxima. (Este resultado foi retirado do livro estatística Aplicada a Economia, Administração e Contabilidade. Freund & Simon) Um exemplo o qual a soma das amostras de cada estrato não é igual a n é dada no exemplo 2. 26 Exemplo 1: Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: E e F. em uma análise do custo do material foram considerados 30 faturas, representadas abaixo pelo preço de 10m de eletroduto. Eletroduto (estrato) E Fatura 01 02 03 04 05 06 Preço (R$)710 710 715 715 755 760 Eletroduto (estrato) F Fatura Preço (R$) Fatura Preço (R$) Fatura Preço (R$) Fatura Preço (R$) 01 750 07 760 13 770 19 790 02 750 08 765 14 770 20 795 03 750 09 765 15 770 21 795 04 750 10 765 16 785 22 800 05 755 11 765 17 785 23 810 06 760 12 765 18 790 24 820 Extrair, sem reposição, uma amostra estratificada proporcional de tamanho n = 8. Solução: f = 30 8 = 0,27 De cada estrato serão sorteadas respectivamente nE e nF unidades: nE = (0,27) . 6 = 1,62 ≅ 2 nF = (0,27) . 24 = 6,48 ≅6 Para encontrar a amostra referente ao eletroduto E utilizamos TNA (8.ª coluna – primeiro algarismo) e para encontrar a amostra referente ao eletroduto F utilizamos TNA (4.ª coluna – últimos algarismos). Assim obtemos: Estrato E F Leitura na TNA 5 4 20 23 12 21 17 15 Fatura (R$) 755 715 795 810 765 795 785 770 Entre as vantagens da amostragem estratificada destacam-se: a) os dados são geralmente mais homogêneos dentro de cada estrato do que na população como um todo; 27 b) o custo da coleta e análise dos dados é freqüentemente menor nesse tipo de amostragem do que na aleatória simples, devido a conveniências administrativas; c) podem-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem selecionar outra amostra e, portanto, sem custo adicional. Exemplo 2: Suponha que uma população com 3k = estratos tenha os tamanhos 1820,62N 321 === NeN e que queiramos extrair uma amostra estratificada de tamanho 12. a) Aplique a fórmula de extração estratificada proporcional arredondando para inteiro; b) Revise os resultados da parte (a) fazendo com que a soma total das amostras seja 12. 28 Amostragem Sistemática Uma amostragem sistemática de tamanho n é constituída dos elementos de ordem K, K+r, K+2r, ... , onde K é um inteiro escolhido aleatoriamente entre 1 e n . E r é o inteiro mais próximo da fração n N r ≈ Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6, e r = 100/6 = 16,6 = 17. Pela TNA (1ª coluna – primeiro algarísmo) K = 3. Assim a amostra será composta pelos elementos de posição: 3, 20, 37, 54, 71, 88 Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor de r. Escolheremos intuitivamente um valor razoável para r. Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar, estando portando menos sujeita a erros, e proporciona mais informações com menor custo. Exemplo: Escolha a técnica adequada para extrair uma amostra de 50 compradores de uma loja. Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode determinar quais compradores serão incluídos na amostra, uma vez que não se conhece o tamanho N da população, até que todos os compradores tenham ido à loja. Assim, ele pode usar a amostragem sistemática (digamos 1 em cada 20 compradores) até obter a amostra do tamanho desejado. 29 Exercícios 1) Com relação a amostragem aleatória simples é CORRETO afirmar que: a) ( ) Utilizamos a tabela de números aleatórios para encontrar o valor do k. b) ( ) É utilizada quando conhecemos parte da população c) ( ) Pode ser utilizada quando não conhecemos a população d) ( ) É um método aleatório em que não há possibilidade do pesquisador interferir na escolha da amostra; e) ( ) Nenhuma das alternativas acima. 2) Com relação a amostragem sistemática é CORRETO afirmar que: a) ( ) Permite encontrar amostras de população cujo número total de elementos é desconhecido; b) ( ) A amostra é encontrada utilizando uma progressão geométrica cujo primeiro termo é o primeiro elemento da população ; c) ( ) A amostra é encontrada utilizando uma progressão aritmética cujo primeiro termo é o primeiro elemento da população ; d) ( ) A amostra é encontrada utilizando uma progressão aritmética cuja razão é encontrada na tabela de números aleatórios; e) ( ) Nenhuma das alternativas acima. 3) Com relação a amostragem estratificada é CORRETO afirmar que: a) ( ) Permite encontrar amostras de estratos que não possuem nenhuma característica em comum; b) ( ) Os estratos devem ser disjuntos; c) ( ) A amostra é sempre dividida em partes iguais para cada estrato; d) ( ) Utilizamos uma amostragem aleatória simples considerando todos os estratos juntos; e) ( ) Nenhuma das alternativas acima. 4) O gerente de um determinado banco com o intuito de fazer uma pesquisa junto a seus clientes utiliza o seguinte processo: Pega o primeiro cliente que compareceu à agência naquele dia e o entrevista. O segundo a ser entrevistado é o 6.º cliente. O 30 terceiro a ser entrevistado é o 11.º cliente e assim sucessivamente até que a agência feche. É CORRETO afirmar que: a) ( ) O gerente utilizou uma amostragem estratificada proporcional; b) ( ) O gerente utilizou uma amostragem aleatória simples; c) ( ) O gerente utilizou uma amostragem sistemática; d) ( ) O gerente não utilizou nenhum método de amostragem; e) ( ) Nenhuma das alternativas acima. 5) Considere o seguinte problema: Deve-se extrair uma amostra estratificada proporcional de tamanho 60 de uma população de tamanho 4.000, que consiste de três estratos de tamanhos N1=2.000, N2=1.200 e N3= 800. É CORRETO afirmar que: a) ( ) Do primeiro estrato deverá ser extraída 18 amostras; b) ( ) Do segundo estrato deverá ser extraída 30 amostras; c) ( ) Do terceiro estrato deverá ser extraída 12 amostras; d) ( ) Deverá extrair 20 amostras de cada estrato; e) ( ) Nenhuma das alternativas acima. 6) A única opção que traz dois métodos de amostragem em que é preciso conhecer todos os elementos da população é: a) ( ) Aleatória simples e por conglomerado; b) ( ) Por conglomerado e sistemática; c) ( ) Aleatória simples e sistemática; d) ( ) Estratificada e por conglomerado; e) ( ) Nenhuma das alternativas acima. 31 7) Os dados abaixo se referem a taxa de hemoglobina no sangue (em gramas/cm3) de 12 professores de uma determinada escola. Professor 1 2 3 4 5 6 7 8 9 10 11 12 Taxa de hemoglobina 11,1 12,2 15,2 11,3 14,4 12,7 13,5 15,8 11,7 16,3 14,1 12,5 Extrair uma amostra sistemática de 3 taxas de hemoglobina. (Usar 7.ª coluna da TNA, último algarismo). 8) Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria. 10.1 7.3 8.5 5 4.2 3.1 2.2 9 9.4 6.1 3.3 10.7 1.5 8.2 10 4.7 3.5 6.5 8.9 6.1 a) Extraia uma amostra de 6 elementos usando a amostra aleatória simples. (Usar 2.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 5 elementos usando a amostra sistemática. (Usar 2.ª coluna na TNA, último algarismo). 9) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metrô e trem, o número de diferentes meios de transporte utilizado foi o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3. a) Extraia uma amostra de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 10) A idade dos 20 ingressantes num certo ano no curso de pós-graduação em jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24,25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. a) Extraia uma amostra, com reposição, de 8 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra, sem reposição, de 8 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, último algrarismo); 11) Um novo medicamento para cicatrização está sendo testado e um experimento é feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. As 30 cobaias tiveram os seguintes tempos: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14. 32 a) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 12) Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente de pontos: Aluno 1 2 3 4 5 6 7 8 9 10 Português 35 35 34 32 31 30 26 26 24 23 Matemática 31 29 27 28 28 26 30 28 25 23 Aluno 11 12 13 14 15 16 17 18 19 20 Português 23 12 11 20 17 12 14 20 8 10 Matemática 21 32 31 20 21 25 20 13 23 20 a) Extraia uma amostra de 5 alunos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 5 alunos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 14) O Departamento de Ensino de uma Escola Particular, de um bairro de classe média, deseja realizar uma pesquisa para saber se seria conveniente criar o 2.º grau em seu quadro de turmas. Isso porque ela ministra apenas da 1.ª série à 8.ª série do ensino básico e fundamental. Para isso ela contrata uma firma de consultoria para realizar esta pesquisa. Suponhamos que você faça parte dessa firma e seja indicado(a) para formular um questionário a fim de coletar dados que irão ajudar na solução deste problema. Então você deverá criar um questionário com esse objetivo. Bom trabalho.!!! 15) Os dados a seguir referem-se ao consumo de energia elétrica, em mil MWh. Os dados são da CEMIG,FURNAS, ELETROBRÁS. Setor 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 Refinaria de petróleo 301 286 262 248 246 253 238 259 242 236 251 Química 3471 3465 3189 3089 2929 2770 2591 2747 2033 Residencial 7301 7118 7047 6965 6963 6785 6899 Extrair uma amostra estratificada proporcional de tamanho 9, sem repetição. Usar: Refinaria: 2ª coluna, Química: 4ª coluna e Residência: 7ª coluna. Ambos utilizar primeiros lgarísmos. 33 16) Os dados a seguir referem-se ao número de acidentes de tráfego durante 50 horas de pico em certa rodovia. 1 0 3 2 3 5 3 0 2 7 0 4 3 1 3 1 5 3 4 4 2 1 3 1 2 2 1 0 2 0 0 1 1 2 4 5 3 4 3 4 3 3 5 2 1 6 1 2 4 6 17) Os dados a seguir referem-se ao número de alarmes falsos (acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança. 3 6 2 4 5 8 2 5 6 3 4 7 4 6 5 5 5 4 3 7 4 4 6 3 9 5 7 4 4 6 18) Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados sobre taxas de octanagem de combustível para motor, de várias misturas de gasolina. 40 destes resultados são apresentados a seguir: 88,5 94,7 84,3 90,1 89 89,8 91,6 90,3 90 91,5 89,9 98,8 88,3 90,4 91,2 90,6 92,2 87,7 91,1 86,7 93,4 96,1 89,6 90,4 91,6 90,7 88,6 88,3 94,2 85,3 90,1 89,3 91,1 92,2 83,4 91 88,2 88,5 93,3 87,4 Extrair uma amostra sistemática de tamanho n = 6. Utilize a tabela de números aleatórios: 1ª coluna, primeiro algarismo. OBS.: A numeração deverá ser feita por linha. 34 Distribuição de Freqüência Dados Brutos Após a coleta de dados é comum encontrá-los desordenados, ou seja, fora de alguma ordem. Por essa razão, costuma-se chamá-los de dados brutos. Exemplo: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 43 45 49 47 52 45 51 46 44 48 51 50 52 44 48 50 49 50 46 46 49 49 51 50 49 Rol Quando tomamos os dados brutos e colocamos seus elementos em uma determinada ordem, crescente ou decrescente, obtemos um conjunto organizado denominado Rol. 43 44 44 45 45 46 46 46 47 48 48 49 49 49 49 49 50 50 50 50 51 51 51 52 52 35 Tabela de freqüência As tabelas de freqüências são representações nas quais os valores se apresentam em correspondência com suas repetições. Uma das vantagens da tabela de freqüência é proporcionar uma rápida visualização dos dados. Também é possível calcular medidas com um menor número de cálculos. A seguir apresentamos as tabelas de freqüências simples (não agrupadas em classes). Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes É uma tabela onde cada valor da variável aparece individualmente com sua respectiva freqüência, repetição. Esse tipo de apresentação é utilizado para representar uma variável discreta ou descontinua. Exemplo 1: A tabela abaixo representa a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 36 Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: Temperatura Freqüência fj 43 1 44 2 45 2 46 3 47 1 48 2 49 5 50 4 51 3 52 2 25 Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Tipos de freqüência � Frequência simples ( fj): é a freqüência de cada valor individual ou de cada classe; � Frequênca acumulada simples ( Fj): é a soma de todas as frequências simples anteriores; � Frequência relativa simples (frj): é o valor de cada freqüência simples dividido pela soma das freqüências; � Frequênca acumulada relativa (Frj): é a soma de todas as frequências relativas simples anteriores; Exemplo 2: Uma auditoria em 60 faturas de venda revelou os seguintes números de erros na fixação de preços: 0 0 2 1 4 1 0 1 3 2 2 0 1 1 1 4 0 3 1 5 1 1 0 2 0 0 1 1 4 3 0 1 0 2 1 4 3 1 0 0 5 1 2 0 3 0 2 1 1 3 1 4 3 0 2 0 1 1 0 1 37 Tabela 6: Número de erros na fixação de preços em faturas de vendas Número de erros fj Fj Frj (%) 0 17 17 28 1 21 38 35 2 8 46 13 3 7 53 12 4 5 58 8 5 2 60 3 60 99 Fonte: Estatística aplicada à gestão empresarial [4] Como a soma das porcentagens foi de 99% então temos que fazer uma correção para que a soma seja 100%. Utilizaremos o erro relativo considerando apenas os arredondamentos por falta. 01176,0 3333,28 283333,28 = − =RE 02499,0 3333,13 133333,13 = − =RE 04000,0 3333,8 83333,8 = − =RE 09999,0 3333,3 33333,3 = − =RE O menor erro é 0,01176. Assim arredondamos por excesso o valor 28,3333=29. 38 Tabela 7: Número de erros na fixação de preços em faturas de vendas Número de erros fj Fj frj (%) Frj 0 17 17 29* 29 1 21 38 35 64 2 8 46 13 77 3 7 53 12 89 4 5 58 8 97 5 2 60 3 100 60 100 Fonte: Estatística aplicada à gestão empresarial [4] 39 Distribuição de Freqüências de Dados Agrupados em Classes Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumiros dados originais em uma distribuição, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes. Para variáveis contínuas sempre usamos agrupar. Para variáveis discretas e número de valores representativos dessa variável muito grande também agrupamos. Elementos de uma Distribuição de Freqüências 1) Freqüência Simples Absoluta: fj É o número de observações correspondentes a essa classe ou a esse valor. A freqüência simples absoluta, ou simplesmente freqüência, é simbolizada por fj . 2) Amplitude Total: At É a diferença entre o maior e o menor valor observado da variável em estudo. 3) Número de Classes É cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice j) O número de classes pode ser calculado usando a fórmula de Sturges: k = 1 + 3,3 log10 N Onde k = número de classes N = número total de observações O arredondamento de k é feito para o inteiro imediatamente superior. 4) Limites de classes Os limites de classe são seus valores extremos. a) Limite Inferior: É o valor mínimo de uma classe. b) Limite Superior: É o valor máximo de uma classe. Este pode não pertencer à classe atual. 40 5) Amplitude do Intervalo de classe Amplitude do intervalo de classe ou simplesmente intervalo de classe é o comprimento da classe, sendo geralmente definida como a diferença entre seus limites superior e inferior. 6) Ponto médio de classe O ponto médio ou valor médio é o valor que representa os dados, para efeito de cálculos de certas medidas. Na distribuição de freqüências com valores agrupados em classes, considera-se que os resultados incluídos em cada classe distribuem-se uniformemente por seu intervalo. Exemplo 1: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 43 44 44 45 45 46 46 46 47 48 48 49 49 49 49 49 50 50 50 50 51 51 51 52 52 Amplitude total = 52 – 43 = 9 Número de classes: k = 1 + 3,3 x log 25 k = 1 + 3,3 x 1,3979 k = 5,61 k ≅ 6 Amplitude do intervalo de classe: Ac = At / k = 9 / 6 = 1,5 Obs: Devemos inicialmente testar se o limite superior da última classe é maior ou igual ao valor máximo. Para isto utilizamos a fórmula Limite superior da última classe = mínimo + k. Ac Caso o limite superior não seja maior ou igual ao valor máximo então devemos, como alternativa, fazer um arredondamento por excesso na amplitude de classe. Limite superior da última classe = 43 + 6. 1,5 = 52 41 Tabela 8: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Exemplo: Considere a tabela a seguir Tabela 9: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto temperatura fj Frequência acumulada simples Fj Frequência relativa Simples frj Frequência relativa Acumulada Frj 43,0 |--- 44,5 3 3 0,12 0,12 44,5 |--- 46,0 2 5 0,08 0,20 46,0 |--- 47,5 4 9 0,16 0,36 47,5 |--- 49,0 2 11 0,08 0,44 49,0 |--- 50,5 9 20 0,36 0,80 50,5 |---| 52,0 5 25 0,20 1,00 Total 25 1,00 Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Observação: A soma total da freqüência relativa simples deve ser igual a 1. Temperatura fj 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25 42 ROTEIRO PARA A ELABORAÇÃO DE UMA TABELA DE FREQÜÊNCIAS COM DADOS AGRUPADOS EM CLASSES Para a construção de uma tabela de freqüências, é conveniente adotar-se um roteiro que, embora baseado em critérios relativamente arbitrários, facilita e torna operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos seguintes passos: a) Lista de dados brutos que pode ou não ser transformada em rol; b) Encontrar a amplitude total do conjunto de valores observados: c) Calcular o número de classes (k) usando a fórmula de Sturges: d) Determinar a amplitude do intervalo de classe. Muitas vezes convém arredondar o número correspondente à amplitude do intervalo de classe a que se chegou para um número mais adequado, que facilite os cálculos. e) Determinar os limites das classes, escolhendo-se preferencialmente, números inteiros. f) Construir a tabela de freqüências. Menor valor do conjunto Maior valor do conjunto - At = 43 Manual para Normalização de Publicações Técnico – cientificas Tabelas de distribuição de freqüência 1) As tabelas devem ser dotadas de um título claro e conciso localizado acima delas. São numeradas seqüencialmente em todo o trabalho, com algarismos arábicos (1, 2, 3, ...), segundo normas do IBGE. 2) No cabeçalho de cada coluna indica-se o seu conteúdo. Os títulos das colunas podem ser datilografados verticalmente, se necessário, para economizar espaço. 3) Não se deve deixar nenhuma “casa” vazia no corpo da tabela, usando-se os símbolos, conforme convenção internacional: - quando, pela natureza do fenômeno, o dado não existir Z quando o dado for rigorosamente zero ... quando não se dispuser do cálculo 4) Na construção de tabelas usam-se os seguintes traços: a) traço duplo horizontal, limitando o quadro; b) traço simples vertical, separando a coluna indicadora das demais e estas entre si; no corpo da tabela pode ser eliminado desde que o número de colunas seja pequeno e não haja prejuízo na leitura dos dados; 5) a tabela não deve ser fechada lateralmente, tampouco se colocam traços horizontais separando os dados numéricos. 44 Exercícios Para os exercícios 1 a 5 construa uma tabela de distribuição de freqüência simples. 1) As cifras abaixo representam os ganhos de 15 vendedores: 425 440 610 518 324 482 624 390 468 457 509 561 482 480 520 2) Dão-se a seguir os pesos, em libras, de 20 candidatos a empregos no corpo de bombeiros de uma cidade: 225 182 194 210 205 172 181 198 164 176 180 193 178 193 208 186 183 170 186 188 3) Os seguintes números de unidades de um produto foram completados em determinados dia por 20 operários de uma fábrica de artigos de artesanato: 61 58 59 72 47 55 40 73 66 60 71 69 63 58 51 42 67 80 62 53 4) Uma auditoria em 60 faturas de venda revelou os seguintes números de erros na fixação de preços: 0 0 2 1 4 1 0 1 3 2 2 0 1 1 1 4 0 3 1 5 1 1 0 2 0 0 1 1 4 3 0 1 0 2 1 4 3 1 0 0 5 1 2 0 3 0 2 1 1 3 1 4 3 0 2 0 1 1 0 1 5) Dão-se, a seguir, os números de alarmes falsos(acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança: 3 6 2 4 5 8 2 5 6 3 4 7 4 6 5 5 5 4 3 7 4 4 6 3 9 5 7 4 4 6 45 As questões de 6 a 11 são referentes à tabela a seguir.. Tabela 10: Notas de alunos, em uma prova de 30 pontos, de uma determinada escola 6) O valor do limite superior da 4.ª classe é de: a) ( ) 17; b) ( ) 18; c) ( ) 19; d) ( ) 20; e) ( ) Nenhuma das alternativas acima. 7) O valor do limite inferior da 3.ª classe é de: a) ( ) 13; b) ( ) 14; c) ( ) 15; d) ( ) 16; e) ( ) Nenhuma das alternativasacima. 8) O valor da freqüência acumulada simples da 5.ª classe é de: a) ( ) 8; b) ( ) 10; c) ( ) 20; d) ( ) 26; e) ( ) Nenhuma das alternativas acima. Notas fj 11 I----- 6 I----- 2 I----- 2 I----- 10 I----- 6 21 I----- 4 Total 30 46 9) O valor da freqüência relativa acumulada 4.ª classe é de: a) ( ) 0,2000; b) ( ) 0,2667; c) ( ) 0,3333; d) ( ) 0,6667; e) ( ) Nenhuma das alternativas acima. 10) Porcentagem dos alunos que tiraram abaixo de 50% da nota da prova é de: a) ( ) 20%; b) ( ) 27%; c) ( ) 34%; d) ( ) 67%; e) ( ) Nenhuma das alternativas acima. 11) A nota em que 66% dos alunos estão acima dela é de: a) ( ) 15; b) ( ) 16; c) ( ) 17; d) ( ) 18; e) ( ) Nenhuma das alternativas acima. 47 As questões de 12 a 15 são referentes à tabela a seguir. Tabela 11: Idade de pacientes internados no hospital X, localidade Y, no ano Z. 12) O valor do limite superior da 4.ª classe é de: 13) O valor do limite inferior da 3.ª classe é de: 14) O valor da freqüência acumulada simples da 5.ª classe é de: 15) O valor da freqüência relativa simples da 4.ª classe é de: 16) Os dados se referem aos pesos dos alunos de uma determinada escola: 60.5 60 70 47.4 60 57 52 47 55 50 55 58 54 66 58.5 63 73 95 39 54.5 72.8 47 58 85.2 49.2 52 56 84 75 50 80.9 57.8 68.5 54.5 48 49 58 60 55 71 55 58 63.5 52.5 51.6 59 87 73 49 86 Após construir uma tabela de distribuição de freqüência agrupada em classes, a freqüência simples da terceira classe é de: 17) Os dados abaixo se referem aos pesos dos alunos de uma determinada escola: 60.5 60 70 47.4 60 57 52 47 55 50 55 58 54 66 58.5 63 73 95 44 54.5 72.8 47 58 85.2 49.2 52 56 84 75 50 80.9 57.8 68.5 54.5 48 49 58 60 55 71 55 58 63.5 52.5 51.6 59 87 73 49 86 Siga os passos para a construção de uma tabela de distribuição de freqüência com dados agrupados: a) Determine a amplitude total b) Determine a amplitude de classe Grupo etários (em anos) fj 20 |--- 1 |--- 3 |--- 5 |--- 6 |--- 4 70 |--- 1 Total 20 48 c) Construa a tabela usando 7 classes d) Inclua na tabela as freqüências relativas simples e) Inclua na tabela as freqüências acumuladas (abaixo de) simples f) Inclua na tabela as freqüências acumuladas (abaixo de) relativas 18) Com relação à tabela de distribuição de freqüência agrupada acima responda: a) Quantos alunos pesam até 69 kg? b) Quantos alunos pesam mais de 76 kg? c) Qual a porcentagem de alunos que pesam menos de 62 kg? 19) Uma importante característica de qualidade da água é a concentração de material sólido suspenso. Em seguida, são apresentadas 60 medidas de sólidos suspensos de um certo lago. Os dados são do livro Estatística Aplicada e Probabilidade para Engenheiros. 42,4 54,3 56,3 65,7 54 43,3 29,8 73,1 57,4 58,7 81,3 45,3 52,1 59,9 80,1 55,8 56,9 49,7 57 62,2 42,8 68,7 69,9 42,4 67,3 66,9 59,6 67,3 59 65,8 61,4 42,6 61,4 64 77,4 73,1 64,2 54,7 77,3 72,6 57,1 48,5 72,5 77,3 89,8 46,1 39,3 50,7 53,1 76,4 52 56,1 59,3 59,6 67,2 51,1 66,1 70,7 73,8 31,6 Com o objetivo de construir uma tabela de distribuição de frequência agrupada em classes calcule: a) Valor mínimo e máximo; b) Amplitude total; c) Número de classes; d) Amplitude de classes; e) Construa a tabela apresentando as frequência simples e relativa simples. Considere log 60 = 1,7782 49 Medidas de Tendência Central. As medidas de tendência central têm por objetivo localizar o centro dos dados. Estas medidas são: média, mediana e moda. Em muitos casos estas medidas são diferentes, mas elas também podem ser iguais. Nesta apostila adotamos, didaticamente, dois casos para o cálculo destas medidas: quando os dados são brutos ou estão em tabela de distribuição simples e quando os dados estão em tabela de distribuição agrupada em classes. Dados brutos 1) Média Aritmética Simples A média aritmética simples, amostral, de um conjunto de n observações },,,{ 21 nxxx L é definida por n x x n i i∑ = = 1 A média aritmética simples, populacional, de um conjunto de N observações },,,{ 21 Nxxx L é definida por N x N i i∑ = = 1µ Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos. 206 188 205 187 194 193 207 185 189 213 Qual a média aritmética? Solução: A média será 50 7,196 10 967.1 10 213189185207193194187205188206 1 = = +++++++++ = = ∑ = x x x n x x n i i 2) Mediana: Md Para evitar a possibilidade de sermos enganados por valores muito pequenos ou muito grandes, ocasionalmente descrevemos o “meio” ou “centro”de um conjunto de dados com outras medidas estatísticas que não a média. Uma dessas medidas, a MEDIANA de n valores, exige que os ordenemos, e se define como: O valor do elemento do meio se n é ímpar, ou a média aritmética dos dois valores do meio se n é par. Assim dizemos que a mediana é o valor do 2 1n ++++ elemento. 51 Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos. 206 188 205 187 194 193 207 185 189 213 Qual a mediana? Solução: Ordenando os elementos temos: 185 187 188 189 193 194 205 206 207 213 Como temos 10 elementos, número par, a mediana será a média aritmética dos dois elementos centrais. Logo a mediana é 5,193 2 194193 = + =Md . Exemplo 2: Em algumas áreas, as pessoas autuadas por certas infrações leves de tráfego podem freqüentar um curso de direção defensiva em lugar de pagar uma multa. Se 11 desses cursos foram freqüentados por 40 32 37 30 24 40 38 35 40 28 32 Cidadãos. Qual a mediana? Solução: Ordenando os elementos temos: 24 28 30 32 32 35 37 38 40 40 40 Como temos 11 elementos, número ímpar, a mediana será o valor do elemento central. A posição central é o 6º elemento, 6 2 111 = + =Posição . Logo a mediana será 35. 52 3) Moda: Mo É o valor que ocorre com maior freqüência e mais de uma vez. Exemplo: Vinte reuniões de um clube de dança tiveram as seguintes freqüências de seus membros 26 25 28 23 25 24 24 21 23 26 28 26 24 32 25 27 24 23 24 22 Qual a moda? Solução: A moda vale 24, pois ocorre 5 vezes. Observação: A moda é raramente utilizada em inferência estatística pelo fato de nem sempre existir (o que ocorre quando não há dois valores iguais) ou de, eventualmente, não ser única. Exemplo: Os dados a seguir referem-se a quantidade de pessoas que assistiram a 6 sessões de um filme no cinema: 121 133 121 133 114 141 Qual o número modal de pessoas que assistiram ao filme? Solução: Temos que os números 121 e 133 repetem, ambos, duas vezes. Portanto a moda não é única. Logo as modas são 121 e 133. 53 Dados apresentados em tabela de distribuição de freqüência Considere: xi o ponto médio da classe i , fi a freqüência da classe i,k a quantidade de classe. 1) Média aritmética A média aritmética é definida por: ∑ ∑ = = = k i i k i ii f fx x 1 1 . OBS.: � Observe que o tamanho da amostra é dado por ∑ = = k i ifn 1 . � Caso tenhamos uma tabela de distribuição agrupada em classes, o valor de xi será o ponto médio da classe. � O arredondamento será sempre uma casa decimal a mais que os dados. 54 Exemplo: A tabela abaixo representa o número de defeitos por peça. Tabela 12: Número de defeitos por peça Número de defeitos (xi) Freqüência fj 0 5 1 10 2 18 3 12 4 5 50 Fonte: Referência bibliográfica [1] Calcule número médio de defeitos. Solução: Preenchemos a tabela com os valores necessários Número de defeitos (xi) Freqüência fi Xifi 0 5 0 1 10 10 2 18 36 3 12 36 4 5 20 50 102 A média será 0,2 50 102 . 1 1 === ∑ ∑ = = k i i k i ii f fx x Exemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto. Tabela 13: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto temperatura fj 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25 55 Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Calcule a temperatura média. Solução: Preenchemos a tabela com os valores necessários A temperatura média será 37,48 25 25,209.1 . 1 1 === ∑ ∑ = = k i i k i ii f fx x 2) Mediana Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso dos dados estarem na forma bruta. Exemplo: A tabela abaixo representa o número de defeitos por peça. Tabela 14: Número de defeitos por peça Número de defeitos (xi) Freqüência fi 0 5 1 10 2 18 3 12 4 5 50 Fonte: Referência bibliográfica [1] Qual o número mediano de defeito? Solução: Como temos 50 elementos, o valor mediano deverá ser a média dos dois elementos centrais. Neste caso os dois elementos centrais são os elementos de posição 25º e 26º, 22 22 = + . Assim o número mediano de defeito é 2. temperatura fj xj xjfj 43,0 |--- 44,5 3 43,75 131,25 44,5 |--- 46,0 2 45,25 90,50 46,0 |--- 47,5 4 46,75 187,00 47,5 |--- 49,0 2 48,25 96,50 49,0 |--- 50,5 9 49,75 447,75 50,5 |---| 52,0 5 51,25 256,25 Total 25 1.209,25 56 Para uma distribuição de freqüência agrupada em classes, a mediana é tal que metade da área total dos retângulos do histograma da distribuição está à sua esquerda, e a outra metade está à sua direita. De modo geral podemos calcular a mediana por: h F f 2 n Lx~Md ⋅ − +== ∑ onde L: é o limite inferior da classe em que a mediana deve estar. F: é a freqüência da classe mediana h: o intervalo de classe n: é o número de elementos ou tamanho da amostra ∑ f : soma das frequência anteriores à classe da mediana Exemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto. Calcule a temperatura média. Tabela 15: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Qual o valor da temperatura mediana? Solução: Como temos 25 elementos, o valor mediano deverá estar no º5,12 2 25 = elemento. Assim 3 + 2 + 4 + 2 = 11 e 3 + 2 + 4 + 2 + 9 = 20. A mediana estará na 5.ª classe. Usando a fórmula temos: L = 49,0, F = 9, h = 1,5 e ∑ f = 11 . Logo temperatura fi 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25 57 ( ) 25,49 5,1 9 115,120,49 2 = ⋅ − += ⋅ − += ∑ Md Md h F fn LMd Portanto a mediana é 49,25. 3) Moda Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso dos dados brutos. Exemplo: A tabela abaixo representa o número de defeitos por peça. Tabela 16: Número de defeitos por peça Número de defeitos (xi) Freqüência fi 0 5 1 10 2 18 3 12 4 5 50 Fonte: Referência bibliográfica [1] Qual o número de defeito modal? Solução: 0 número de defeito que mais ocorre é 2, pois ocorre 18 vezes. Logo o número de defeito modal é Mo = 2. Quando temos uma tabela de distribuição de freqüência agrupada em classes, o cálculo da moda é feito utilizando a fórmula de Czuber. 1.º passo: Identificamos a classe modal ( aquela que possui maior frequência) 2.º passo: Aplica-se a fórmula hLMo ⋅ ∆+∆ ∆ += 21 1 58 onde L: É o limite inferior da classe modal. 1∆∆∆∆ : Diferença entre a freqüência da classe modal e a classe imediatamente anterior. 2∆∆∆∆ : Diferença entre a freqüência da classe modal e a classe imediatamente posterior. h: Amplitude da classe modal Exemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto. Tabela 17: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Calcule a temperatura modal Solução: 1.º passo: A classe modal é a 5.ª, pois ela possui a maior freqüência. 2.º passo: Temos 0,49=L , 7291 =−=∆ , 4592 =−=∆ e 5,1=h 95,49 5,1 47 70,49 = ⋅ + += Mo Mo Logo a temperatura modal é Mo = 49,95. Obs: Caso a moda seja a primeira ou a última classe a fórmula acima para a moda não se aplica. Neste caso podemos calcular o valor aproximado da moda utilizando a fórmula de Pearson: x2Md3Mo −= temperatura fi 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25 59 Exercícios I) Considere a tabela Tabela 18: Quantidade de óxido de enxofre (em toneladas) emitidas por uma indústria em 70 dias Quantidade de Óxido de enxofre f 6,2 |--- 9,4 4 9,4 |--- 12,6 8 12,6 |--- 15,8 9 15,8 |--- 19,0 14 19,0 |--- 22,2 14 22,2 |--- 25,4 11 25,4 |--- 28,6 8 28,6 |--- 31,8 2 70 Fonte: referência bibliográfica [2] Calcule: 1) Média aritmética 2) Mediana 3) Moda 4) Compare as medidas calculadas. II) Considere a tabela Tabela 19: Tempo de percurso, para o trabalho, de 100 empregados de um grande escritório localizado no centro da cidade Tempo f 11,4 |--- 25,65 20 25,65 |--- 39,90 36 39,90 |--- 54,15 29 54,15 |--- 68,40 5 68,40 |--- 82,65 1 82,65 |--- 96,90 4 96,90 |--- 111,15 3 111,15 |--- 125,40 2 100 Fonte: Calcule: 1) Média aritmética 2) Mediana 3) Moda 60 4) Compare as mediadas calculadas. 61 Separatrizes
Compartilhar