Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Estatística Básica Silvio Alves de Souza 2 ÍNDICE Conceitos Básicos de Estatística ................................................................................ 3 População ................................................................................................................ 6 Amostra ................................................................................................................... 7 Arredondamento de números .................................................................................. 7 Proporção .............................................................................................................. 12 Porcentagem ......................................................................................................... 14 Exercícios .............................................................................................................. 14 Fases do Método Estatístico ..................................................................................... 19 Definição do Problema .......................................................................................... 19 Planejamento ......................................................................................................... 19 Coleta dos Dados .................................................................................................. 20 Apuração dos Dados ............................................................................................. 22 Apresentação dos Dados....................................................................................... 22 Análise e Interpretação dos Dados ........................................................................ 23 Questionários ............................................................................................................ 24 Ordem das Questões ............................................................................................. 25 Tipo de Abordagem ............................................................................................... 25 Clareza nas Perguntas .......................................................................................... 25 Não Sugerir Respostas .......................................................................................... 26 A Necessidade do Pré-Teste ................................................................................. 26 A Prática de Pesquisas por Amostragem .............................................................. 26 Amostragem .............................................................................................................. 27 Amostragem Aleatória Simples .............................................................................. 27 Amostragem Estratificada ...................................................................................... 28 Amostragem por Conglomerado ............................................................................ 31 Amostragem Sistemática ....................................................................................... 32 Exercícios .............................................................................................................. 33 Distribuição de Freqüência ........................................................................................ 40 Dados Brutos ......................................................................................................... 40 Rol ......................................................................................................................... 40 Tabela de freqüência ............................................................................................. 41 Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes41 Distribuição de Freqüências de Dados Agrupados em Classes ......................... 42 Manual para Normalização de Publicações Técnico – cientificas .......................... 46 Exercícios .............................................................................................................. 47 Medidas de Tendência Central. ................................................................................. 53 Medidas de Variabilidade .......................................................................................... 64 Exercícios .............................................................................................................. 68 Representação Gráfica ............................................................................................. 75 Exercícios .............................................................................................................. 91 Probabilidade ............................................................................................................ 93 Exercício:................................................................................................................. 109 Distribuições de probabilidade ................................................................................ 116 Teste de Hipótese ................................................................................................... 140 Correlação ............................................................................................................... 154 Regressão Linear .................................................................................................... 162 Regressão Múltipla .................................................................................................. 164 3 Conceitos Básicos de Estatística Definição de Estatística: No plural (Estatísticas) indica qualquer coleção consistente de dados numéricos, reunidos com a finalidade de fornecer informações acerca de uma atividade qualquer. Assim, por exemplo, as estatísticas demográficas referem-se aos dados numéricos sobre nascimentos, falecimentos, matrimônios, desquites, etc. As estatísticas econômicas consistem em dados numéricos relacionados com emprego, produção, preços, vendas e com outras atividades ligadas aos vários setores da vida econômica. No singular, indica uma metodologia desenvolvida para a coleta, a classificação, a apresentação, a análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões. A grosso modo podemos dividir a estatística em três áreas: Estatística Descritiva Probabilidade Inferência Estatística Estatística Descritiva Pode ser definida como um conjunto de técnicas destinadas a descrever, analisar e interpretar dados, a fim de que possamos tirar conclusões a respeito de características de interesse. É, em geral, utilizada na etapa inicial da análise, quando tomados contatos com os dados pela primeira vez. Probabilidade 4 Aplicada a não poucos das ciências naturais, do comportamento e sociais, e constitui, presentemente, um importante instrumento para análise de qualquer situação (em ciência, administração ou na vida diária) que, de alguma forma, envolva um elemento de incerteza, ou chance. 5 Inferência Estatística É o estudo de técnicas que possibilitam a extrapolação dos resultados, estimação de quantidades desconhecidas e testar hipóteses a partir de um conjunto de dados denominado amostra. Podemos assim chegar a conclusões sobre a população. Natureza dos dados Dados Nominais: São dados categóricos (qualitativos ou descritivos). Exemplos: solteiro ou casado, sim ou não, gordo ou magro, etc. Podem ser transformados em dados numéricos, como por exemplo: 1 – sim e 2 – não. Dados ordinais: Sãodados numéricos os quais podemos estabelecer desigualdades, como por exemplo 1- madeira e 2 – diamante. Temos que 2>1. Em se tratando de dados ordinais , > não significa necessariamente “ maior do que”. Pode representar por exemplo “ mais feliz do que” , “ mais gostoso do que” , mais resistente do que, etc. Dados intervalares: São dados numéricos que podemos estabelecer desigualdades e formar diferenças. Exemplo: Temperaturas. Dados de razão: São dados numéricos que podemos estabelecer desigualdades, diferenças, formar multiplicação e divisão. Exemplos: peso, altura, dinheiro, volume, etc. População Amostra Estatística Descritiva Inferência 6 Objetivo do Estudo da Estatística A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna. Nos seus mais diversificados ramos de atuação, as pessoas estão freqüentemente expostas à Estatística, utilizando-a com maior ou menor intensidade. Isto se deve às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessitam. População Conjunto da totalidade dos indivíduos sobre o qual de faz uma inferência. Em linguagem mais formal, a população é o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Essas características da população são comumente chamadas de parâmetros, os quais são valores fixos e ordinariamente desconhecidos. Exemplo: Se se quiser realizar um estudo censitário das rendas das famílias, poderia existir uma observação para cada família no Brasil, podemos limitar a população ao estado de Minas Gerais. Observação: É importante ficar bem claro que uma população é estudada em termos de observações de características nos indivíduos, e não em termos de pessoas ou objetos em si. Assim, por exemplo, as alturas dos cidadãos de MG constituem uma população. Poderia haver uma população correspondente aos pesos desses mesmos cidadãos. 7 Amostra Um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz um juízo ou inferência sobre as características da população. Exemplo: Avaliação de um Programa de Ensino – Toma-se certo número de pares de turmas: a um conjunto de turmas ensina-se um assunto por um novo método, e ao outro conjunto, pelo método clássico. Aplica-se uma prova a ambos os grupos. As notas observadas nesses conjuntos de turmas consistem a nossa amostra. Se os resultados do novo método forem melhores, iremos aplica-lo a todas as turmas – isto é, à população. A partir da amostra estabelecemos o que é conveniente para a população, ou seja, fazemos uma inferência sobre a população. Arredondamento de números Arredondamento por falta Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito remanescente. Número a arredondar Arredondamento para Número arredondado 12,489 Inteiros 12 20,733 Décimos 20,7 35,992 Centésimos 35,99 Arredondamento por excesso Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for maior ou igual a cinco seguido por dígitos maiores que zero, o dígito remanescente será acrescido de uma unidade. 8 Número a arredondar Arredondamento para Número arredondado 15,504 Inteiros 16 16,561 Décimos 16,6 17,578 Centésimos 17,58 Arredondamento centrais Quando o dígito situado mais à esquerda dos que serão eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito remanescente, se for par, não se altera, e se for ímpar será aumentado uma unidade. Número a arredondar Arredondamento para Número arredondado 15,500 Inteiros 16 16,500 Inteiros 16 17,750 Décimos 17,8 17,705 Centésimos 17,70 Arredondamento de Soma Quando se trata de soma, deve-se arredondar primeiro o total, e posteriormente as parcelas. Há aqui dois casos a considerar: a) Se a soma das parcelas da série arredondada for superior ao total, deve-se retornar à série original, arredondando-se, por falta, tantas parcelas quantas forem as unidades excedentes. Serão escolhidas as parcelas anteriormente arredondadas por excesso e cujas frações desprezadas representem o menor erro relativo. 9 O erro relativo será definido como: dados dois números diferentes de zero x e y com yx , o erro relativo entre eles será calculado pela expressão x yx ER O arredondamento do erro é feito de modo a poder identificar a ordem das parcelas. Exemplo: O quadro abaixo apresenta um modelo de arredondamento, para inteiro, da soma total de uma série. Série original Erro relativo Série arredondada Série corrigida 5,51 0,082 6 6 7,50 0,062 8 8 14,63 0,025 15 15 20,10 20 20 24,73 0,011 25 24 * 27,52 0,017 28 27 * Total : 99,99 102 100 Observações: 1. (*) série corrigida 2. O arredondamento do erro foi milesimal para poder identificar as duas menores parcelas. Veja o cálculo dos erros relativos 0816670 6 5156 , , ER 0625000 8 5078 , , ER 0246670 15 631415 , , ER 0108000 25 732425 , , ER 10 0171430 28 522728 , , ER b) Se a soma das parcelas da série arredondada for inferior ao total, deve-se retornar à série original, arredondando-se, por excesso, tantas parcelas quantas forem as unidades em falta. Serão escolhidas as parcelas anteriormente arredondadas por falta e cujas frações desprezadas representem o menor erro relativo. 11 Exemplo: O quadro abaixo apresenta um modelo de arredondamento, para centésimo, da soma total de uma série. Série original Erro relativo Série arredondada Série corrigida 2,514 0,0016 2,51 2,51 12,502 0,0002 12,50 12,50 4,6355 4,64 4,64 11,1028 0,0002 11,10 11,10 35,733 0,0001 35,73 35,74 * 7,524 0,0005 7,52 7,52 Total : 74,0113 74,00 74,01 Observação: (*) série corrigida Exemplo: A tabela a seguir apresenta os resultados de uma pesquisa realizada com 162 alunos de uma escola pública: Idades (anos) Freqüência simples Porcentagem (calculadora) Porcentagem (décimos) Erro Porcentagem Corrigida Menos 17 1 0,61728 0,6 0,0279938 0,6 17 60 37,03704 37,0 0,0010001 37,0 18 72 44,44444 44,4 0,0009999 44,4 19 24 14,81481 14,8 0,0009997 * 14,9 Mais 19 5 3,08642 3,1 3,1 Total 162 99,99999 99,9 100 12 Tabela 1: Idade dos alunos do 3º ano do curso técnico integrado diurno do CEFET – OP no ano de 2008. Idades (anos) Freqüência simples Porcentagem Menos 17 1 0,6 17 60 37,0 18 72 44,4 19 24 14,9 Mais 19 5 3,1 Total 162 100 Fonte: Relatório de pesquisa CEFET - OP Proporção Um certo número de pessoas foi classificado em quatro categorias. Essas categorias são, naturalmente, mutuamente exclusivas e exaustivas. Em outras palavras: uma pessoa só poderá estar incluída em uma única categoria, e todas elas deverão estar classificadas. Em termos simbólicos, pode-se escrever: 1N = número de pessoas incluídas na categoria 1. 2N= número de pessoas incluídas na categoria 2. 3N = número de pessoas incluídas na categoria 3. 4N = número de pessoas incluídas na categoria 4. 4321 NNNNN = número total de pessoas consideradas. 13 Neste caso, a proporção de pessoas pertencentes à primeira categoria é determinada mediante o cálculo do seguinte quociente N N1 A proporção de pessoas pertencentes à segunda categoria é determinada mediante o cálculo do seguinte quociente N N2 Sucessivamente temos N N3 e N N4 o cálculo da proporção das pessoas pertencentes à terceira e quarta categoria. Observe que 1 N N N N N N N N N N 4321 . Exemplo: A tabela a seguir apresenta o número de sócios praticantes e não- praticantes de futebol em um clube hipotético. Tabela 2: número de sócios praticantes e não-praticantes de futebol em um clube hipotético Sócios Praticante (exclusivamente) de: Clube 1 Proporção Futebol de salão 580 0,100 Futebol de campo 430 0,074 Não-Praticantes 4810 0,826 Total 5820 1,000 14 Porcentagem As porcentagens são obtidas a partir do cálculo das proporções, simplesmente multiplicando-se o quociente obtido por 100. Para representá-las usamos o símbolo %. Voltando ao exemplo anterior temos: Tabela 3: número de sócios praticantes e não-praticantes de futebol em um clube hipotético Sócios Praticante (exclusivamente) de: Clube 1 Porcentagem (%) Futebol de salão 580 10 Futebol de campo 430 7,4 Não-Praticantes 4810 82,6 Total 5820 100 Exercícios 1) Considere as situações a seguir e identifique a população e a amostra em cada caso. a. Para a análise de desempenho dos alunos da 8.ª série de uma determinada escola municipal foram escolhidas as notas de português de 35 alunos. b. Uma amostra de sangue foi retirada de um paciente com suspeita de alto colesterol. c. Uma maternidade entrevista 20 mães de recém nascidos dos 218 partos, no mês de janeiro, para avaliar a satisfação na prestação de serviço. d. A fim de avaliar a intenção de voto dos eleitores para deputado estadual, um candidato entrevista 2.120 eleitores em Minas Gerais. 15 2) Use os critérios de arredondamento para arredondar cada valor a seguir para décimos. a) 21,24 d) 0,75 g) 3,521 b) 1,088 e) 5,819 h) 9,275 c) 125,5555 f) 0,3333 i) 235,25 3) Aplique os critérios de arredondamento para completar o quadro abaixo: Número a arredondar Arredondamento para Número arredondado 25,458 Centésimo 123,99 Décimo 205,7056 Milésimo 17,561 Inteiro 4) Aplique os critérios de arredondamento para completar o quadro abaixo: Número a arredondar Arredondamento para Número arredondado 1,23 Décimo 5,488 Centésimo 0,126 Centésimo 35,4 Inteiro 13,99 Décimo 25,7056 Milésimo 7,561 Inteiro 690,1555 Centésimo 0,115588 Milésimo 5) A tabela abaixo representa a produção, em unidades, da fábrica X de determinada peça no segundo semestre de 2005. Mês Produção 16 Julho 35.500 Agosto 34.750 Setembro 36.800 Outubro 35.150 Novembro 32.300 Dezembro 31.250 Calcule: (Use arredondamento para centésimos) a) a proporção de peças produzidas no mês de outubro. b) a proporção de peças produzidas até setembro. c) a porcentagem de peças produzidas em dezembro. 6) Uma escola ia contratar um grupo de 8 professores para dar um curso sobre computadores em 48 horas, pagando um total de R$ 9 216,00. No entanto, como medida de economia, ela resolveu contratar somente 6 professores e dar o curso em 36 horas. Quanto a escola economizará? 7) João comprou uma mercadoria em uma loja de utilidades. Quando foi pagar a conta, o vendedor informou-lhe que devido a uma promoção relâmpago, ele teria 8 % de desconto na compra à vista pagando, pelo produto, R$ 276,00. João optou por não pagar à vista. Quanto ele pagará pela mercadoria se compra-la a prazo? 8) Para as situações descritas a seguir, identifique a população e a amostra correspondente. Discuta a validade do processo de inferência estatística, ou seja, se as amostras foram coletadas corretamente, para cada um dos casos. Não esqueça de apontar o erro de cada caso. a) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. 17 b) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. c) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 9) Para encher um reservatório em 15 dias, são necessárias 3 torneiras. Em quanto tempo 5 torneiras, idênticas às anteriores, encherão o mesmo reservatório? 10) Um navio dispõe de reservas suficientes para alimentar 14 homens durante 45 dias, mas recebe 4 sobreviventes de um naufrágio. Durante quantos dias durarão as reservas de alimento? 11) Calcule: a) 15 % de R$ 2 800,00 ? b) 42 % de R$ 18 300,00 ? 12) Resolva os problemas abaixo: a) Numa classe foram reprovados 15 % dos alunos, isto é, 9 alunos. Quantos alunos haviam nesta classe? b) Em uma cidade haviam 5600 eleitores do candidato A e 7800 eleitores do candidato B. 1) Qual a proporção dos eleitores do candidato A? 2) Qual a proporção dos eleitores do candidato B? 13) Em um colégio existem 1 200 alunos, dos quais 720 são meninos. Determine: 18 a) Qual a proporção do número de meninos? b) Qual a proporção do número de meninas? 14) Num livro de 200 páginas, há 30 linhas em cada página. Se houvesse 25 linhas, quantas páginas teria o livro? 19 Fases do Método Estatístico Quando se pretende empreender um estudo estatístico completo existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Definição do Problema A primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado. O problema deve ser preciso, bem determinado e específico. Além de considerar detidamente o problema objeto do estudo, o analista deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos. Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema. Planejamento Consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo. Mais especialmente, na fase do planejamento a preocupação maior reside na escolha das perguntas. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento: a) Levantamento censitário, quando a contagem abranger todo o universo. b) Levantamento por amostragem, quando a contagem for parcial. Nesta fase temos outros elementos importantes que devem ser tratados. 20 a) cronograma das atividades, através do qual são fixados os prazos para as varias fases; b) Os custos envolvidos; c) O exame das informações disponíveis; d) O delineamento da amostra; e) A forma como serão escolhidos os dados, etc. Obs: Os livros mais específicos sobre pesquisa de mercado poderão ser consultados.Coleta dos Dados O terceiro passo é essencialmente operacional. A coleta de dados se refere à obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Espécies de dados: I) Dados Primários: quando são publicados ou comunicados pela própria pessoa ou organização que os haja recolhido. II) Dados Secundários: Quando são publicados ou comunicados por outra organização. Um conjunto de dados é, pois, primário ou secundário em relação a alguém. É mais seguro trabalhar com fontes primárias, pois: a) Uma fonte primária oferece, em geral, informações mais detalhadas do que uma secundária. b) É mais provável que as definições de termos e de unidades figurem somente nas fontes primárias. c) O uso da fonte secundária traz o risco adicional de erros de transcrição. 21 d) Uma fonte primária poderá vir acompanhada de cópias dos impressos utilizados para coletar as informações, juntamente com o procedimento adotado na pesquisa, a metodologia seguida e o tipo de tamanho da amostra. Essas informações proporcionam ao usuário uma idéia do grau de garantia que os dados oferecem. A coleta de dados pode ser realizada de duas maneiras: direta ou indiretamente. Coleta Direta A coleta é direta quando é obtida diretamente da fonte. Ex.: Uma empresa pesquisa seus consumidores. Há três tipos de coleta direta: a) Coleta direta contínua: quando estes são obtidos ininterruptamente, automaticamente e na vigência de um determinado período. Ex.: Registros de nascimento, de casamento, de óbito, etc. b) Coleta direta periódica: quando é realizada em períodos curtos, determinados, de tempo em tempo. Ex: Recenseamento demográfico. O censo industrial. c) Coleta direta ocasional: Quando os dados forem colhidos esporadicamente, atendendo a uma conjuntura qualquer ou a uma emergência. Ex.: Casos fatais em surto epidêmico. 22 Coleta Indireta A coleta dos dados é indireta quando é inferida a partir dos elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão. É feita, portando, por deduções e conjunturas, podendo ser realizada: a) Por analogia: quando o conhecimento de um fenômeno é induzido a partir de outro que com ele guarda relações de casualidade. b) Por proporcionalização: Quando o conhecimento de um fato se induz das condições quantitativas de uma parte dele. c) Por indícios: quando são escolhidos fenômenos sintomáticos para discutir um aspecto geral da vida social. d) Por avaliação: quando através de informações fidedignas ou estimativas cadastrais, se presume o estado quantitativo de um fenômeno. Apuração dos Dados Consiste em resumir os dados, através de sua contagem e agrupamento. Ela pode ser manual, mecânica, eletromecânica ou eletrônica. Através da apuração tem-se a oportunidade de condensar os dados, de modo a obter um conjunto compacto de números, o qual possibilita distinguir melhor o comportamento do fenômeno na sua totalidade. Entretanto, a contrapartida da melhor apreciação dos dados em seu conjunto é a perda correspondentes de detalhes, uma vez que se trata de um processo de sintetização. Apresentação dos Dados Há duas formas de apresentação, que não se excluem mutuamente. 23 a) Apresentação Tabular: É uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. b) Apresentação Gráfica: Constitui uma Apresentação Geométrica. Embora a apresentação tabular seja de extrema importância, no sentido de facilitar a análise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como a conseguida através de um gráfico. Análise e Interpretação dos Dados É a última fase e a mais importante e também a mais delicada. O interesse maior, nesta etapa, reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema. A análise está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. 24 Questionários Questionários são o meio mais comum de coleta de informações. Dois tipos de questões são usualmente empregados na redação de questionários: Questões de múltipla escolha Questões de resposta aberta As alternativas em uma questão de múltipla escolha devem ser claras, mutuamente excludentes e, quando pedirem opiniões, fornecer opções dos dois lados do assunto. Idealmente, as opções devem cobrir todas as respostas prováveis. Se, entretanto, muitas alternativas são apresentadas, elas podem não ser suficientemente claras e confundir o respondente no momento de sua decisão. A grande desvantagem de questões de múltipla escolha é que tendem a sugerir uma resposta, já que limita as respostas possíveis, impedindo o respondente de dizer exatamente o que pensa. Este tipo de limitação não ocorre nas questões de resposta aberta, em que o entrevistado usa suas próprias palavras para responder à pergunta. Uma pergunta deste tipo produz uma grande gama de respostas que devem ser classificadas em grupos homogêneos antes que se possa fazer uma análise estatística. Esta classificação é uma tarefa difícil quando o número de respostas a serem analisadas é muito grande. Por isso, questões de respostas abertas são mais freqüentemente empregadas em estudos pilotos ou nos estágios exploratórios, quando se procura determinar quais tipos de respostas aparecerão. Essas informações são então usadas na construção do questionário a ser utilizado na obtenção dos dados de um grupo maior. Às vezes é inevitável misturar os dois tipos de pergunta, quando, por exemplo, colocamos a opção “outros” e pedimos especificação. Se os dados forem analisados por computador, deve-se pensar na etapa da codificação ao redigir as perguntas. 25 Ordem das Questões Um questionário consistente em uma bateria de questões arranjadas em certa ordem. As primeiras questões são para estabelecer contato com o respondente e devem ser bem simples. Quando vários tópicos estão envolvidos, deve-se completar um tópico antes de passar a outro. A ordem das questões freqüentemente afeta as respostas dadas pelo respondente, já que as perguntas chamam a atenção do entrevistado para um conjunto de pensamentos e sentimentos, em cujo contexto as outras perguntas serão respondidas. Em pesquisa de mercado, por exemplo, questões que mencionam um produto específico tendem a viciar as perguntas que se seguem; conseqüentemente, estas questões identificando produtos ou firmas devem ser colocadas no final, sempre que possível. Tipo de Abordagem Muitas pessoas tendem a racionalizar ou exagerar suas respostas quando são questionadas diretamente sobre seus motivos, realizações ou outros assuntos que envolvam seu prestígio ou auto-estima. Para se evitar a introdução de tendenciosidade nessas respostas, usa-se freqüentemente uma abordagem indireta na elaboração de questões que envolvem prestígio. Por exemplo, ao invés de perguntas: “Você terminou o curso secundário?”, pode-se perguntar: “Em que ano você estava quando deixou de estudar?”. Na segunda pergunta tenta-se evitar constrangimento aos respondentes que não terminaram o curso secundário. Clareza nas Perguntas Uma pergunta deve ter aproximadamente o mesmo sentido para todos os entrevistados; caso contrário, os dados obtidosnão terão grande utilidade. Termos com sentido dúbio devem ser evitados. As perguntas devem ser simples. Nem todos os entrevistados entenderão questões com enunciado complexo, originando, assim, resultados ruins. 26 Não Sugerir Respostas Na formulação das perguntas deve-se evitar um tipo de redação como esta: “Você concorda em que esta bebida, sendo a melhor, deva custar mais caro?” Esta pergunta sugere tão obviamente uma resposta que é praticamente inútil. Algumas vezes, entretanto, é difícil perceber que a redação de uma pergunta possa sugerir determinada resposta. A Necessidade do Pré-Teste Assim que um questionário tenha sido redigido, deve ser testado em um estudo piloto. Esta fase é fundamental para detectar dificuldades não observadas, como o lay out do questionário, ordem e redação das perguntas, necessidade de instruções mais claras para os entrevistadores, etc. Naturalmente, a correção dessas imprecisões melhorará a qualidade do levantamento. A Prática de Pesquisas por Amostragem O leitor deve convencer-se de que é fundamental conhecer as características específicas da área onde pretende participar de pesquisas por amostragem. O significado especial de algumas palavras, os melhores locais e horários para se fazer coleta de dados, o tipo de entrevistador são, entre outros, fatores importantes para o bom andamento do levantamento. Só lendo literatura na área específica é que se pode, entretanto, conhecer estes detalhes. 27 Amostragem Conceitos Fundamentais Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente dois problemas: definir cuidadosamente a população de interesse e selecionar a característica que iremos pesquisar. A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. Caracterizada a população-alvo, o próximo passo é escolher as características que iremos medir. Aqui o erro freqüente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos, portanto, fixar-nos apenas em perguntas que contribuam para a quantificação adequada da característica populacional de real interesse para o estudo. Para que possamos fazer inferências válidas sobre a população a partir de uma amostra, é preciso que esta seja representativa. Uma das formas de se conseguir representatividade é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório. Além disso, a aleatoriedade permite o cálculo de estimativas dos erros envolvidos no processo de inferência. Amostragem Aleatória Simples Neste caso a amostra é escolhida elemento a elemento. A população é numerada de 1 a N. escolhem-se, em seguida, na tábua de números aleatórios, n números compreendidos entre 1 e N. esse processo é equivalente a um sorteio no qual se colocam todos os números misturados dentro de uma urna. Os elementos correspondentes aos números escolhidos formarão a amostra. 28 Exemplo: A tabela a seguir refere-se aos diâmetros de 30 eixos produzidos por uma industria automobilística (dados hipotéticos) 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 19 14 16 16 26 27 31 13 26 18 29 18 16 21 24 Extrair, sem reposição, uma amostra aleatória de tamanho n = 5. Solução: Primeiramente deveremos numerar a população. Eixo 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 Diâmetro 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 19 14 Eixo 18 19 20 21 22 23 24 25 26 27 28 29 30 Diâmetro 16 16 26 27 31 13 26 18 29 18 16 21 24 Escolhemos uma coluna na TNA. Procuramos os 5 primeiros números não superiores a 30, lendo os dos últimos algarismos ou os dois primeiros. Obtemos: 2.ª coluna Leitura na TNA (2 últimos) 18 15 22 24 03 Diâmetro 16 26 31 26 26 Amostragem Estratificada Quando os elementos da população estão divididos em grupos não superpostos, é mais fácil e mais eficiente escolher, independentemente, uma 29 amostra aleatória simples dentro de cada um destes grupos, os quais são chamados estratos. Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações tem estratos bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os estados brasileiros; ect. O mais comum é utilizar-se a Amostragem Estratificada Proporcional, que consiste em selecionar os elementos da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos. Em outras palavras, sejam: N o número de elementos da população L o número de estratos iN o número de elementos do estrato i n o tamanho da amostra a ser selecionada in tamanho de amostra no estrato i Note que N = N1 + N2 + ... + NL Calcula-se a fração de amostragem dada por: f = N n Obs: A fração de amostragem calcula o tamanho de amostra por unidade da população. O número de elementos a serem sorteados em cada estrato será: .fNn 11 .fNn 22 .fNn LL 30 Exemplo: Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: E e F. em uma análise do custo do material foram considerados 30 faturas, representadas abaixo pelo preço de 10m de eletroduto. Eletroduto (estrato) E Fatura 01 02 03 04 05 06 Preço (R$) 710 710 715 715 755 760 Eletroduto (estrato) F Fatura Preço (R$) Fatura Preço (R$) Fatura Preço (R$) Fatura Preço (R$) 01 750 07 760 13 770 19 790 02 750 08 765 14 770 20 795 03 750 09 765 15 770 21 795 04 750 10 765 16 785 22 800 05 755 11 765 17 785 23 810 06 760 12 765 18 790 24 820 Extrair, sem reposição, uma amostra estratificada proporcional de tamanho n = 8. Solução: f = 30 8 = 0,27 De cada estrato serão sorteadas respectivamente nE e nF unidades: nE = (0,27) . 6 = 1,62 2 31 nF = (0,27) . 24 = 6,48 6 Para encontrar a amostra referente ao eletroduto E utilizamos TNA (8.ª coluna – primeiro algarismo) e para encontrar a amostra referente ao eletroduto F utilizamos TNA (4.ª coluna – últimos algarismos). Assim obtemos: Estrato E F Leitura na TNA 03 01 20 03 18 17 24 12 Fatura (R$) 715 710 795 750 790 785 820 765 Entre as vantagens da amostragem estratificada destacam-se: a) os dados são geralmente mais homogêneos dentro de cada estrato do que na população como um todo; b) o custo da coleta e análise dos dados é freqüentemente menor nesse tipo de amostragem do que na aleatória simples, devido a conveniências administrativas; c) podem-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem selecionar outra amostra e, portanto, sem custo adicional. Amostragem por Conglomerado Uma amostra por conglomerado é uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, ou conglomerado de elementos. O primeiro passo para se usar este processo é especificar conglomerados apropriados. Os elementos em um conglomerado devem ter características similares. Como regra geral, o número de elementos em um conglomerado deve ser pequeno em relação ao tamanho da população, e o número de conglomerados, razoavelmente grande. Tanto no caso da amostragem estratificada, como no da amostragem por conglomerados, a população deve estar dividida em grupos. Na amostragem estratificada, entretanto,seleciona-se uma amostra aleatória simples dentro de cada grupo (estrato) enquanto que na amostragem por conglomerado selecionam-se 32 amostras aleatórias simples de grupos, e todos os itens dentro dos grupos (conglomerados) selecionados farão parte da amostra. A amostragem por conglomerado é recomendada quando: a) ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; b) o custo da obtenção de informações cresce com o aumento da distância entre os elementos; Exemplo: Supondo que se deseje estimar o rendimento médio familiar em um determinado bairro, como deve ser escolhida a amostra? Solução: A amostragem aleatória simples é inviável, pois pressupõe uma listagem de todas as famílias do bairro, o que é praticamente impossível de se obter. A alternativa da amostragem estratificada é também inviável, já que aqui também é necessária uma listagem dos elementos por estrato. A melhor escolha é a amostragem por conglomerado. O sistema de referência pode ser constituído por todos os quarteirões do bairro. Cada quarteirão é um conglomerado. Extrai-se uma amostra aleatória simples de quarteirões e neles pesquisa-se a renda familiar em todas as casas. Amostragem Sistemática Uma amostragem sistemática de tamanho n é constituída dos elementos de ordem K, K+r, K+2r, ... , onde K é um inteiro escolhido aleatoriamente entre 1 e n . E r é o inteiro mais próximo da fração n N r Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6, e r = 100/6 = 16,6 = 17. 33 Pela TNA (8ª coluna – primeiro algarísmo) K = 3. Assim a amostra será composta pelos elementos de posição: 3, 20, 37, 54, 71, 88 Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor de r. Escolheremos intuitivamente um valor razoável para r. Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar, estando portando menos sujeita a erros, e proporciona mais informações com menor custo. Exemplo: escolha a técnica adequada para extrair uma amostra de 50 compradores de uma loja. Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode determinar quais compradores serão incluídos na amostra, uma vez que não se conhece o tamanho N da população, até que todos os compradores tenham ido à loja. Assim, ele pode usar a amostragem sistemática (digamos 1 em cada 20 compradores) até obter a amostra do tamanho desejado. Exercícios 1) Com relação a amostragem aleatória é CORRETO afirmar que: a) ( ) Utilizamos a tabela de números aleatórios para encontrar o valor do k. b) ( ) É utilizada quando conhecemos parte da população c) ( ) Pode ser utilizada quando não conhecemos a população d) ( ) É um método aleatório em que não há possibilidade do pesquisador interferir na escolha da amostra; e) ( ) Nenhuma das alternativas acima. 2) Com relação a amostragem sistemática é CORRETO afirmar que: 34 a) ( ) Permite encontrar amostras de população cujo número total de elementos é desconhecido; b) ( ) A amostra é encontrada utilizando uma progressão geométrica cujo primeiro termo é o primeiro elemento da população ; c) ( ) A amostra é encontrada utilizando uma progressão aritmética cujo primeiro termo é o primeiro elemento da população ; d) ( ) A amostra é encontrada utilizando uma progressão aritmética cuja razão é encontrada na tabela de números aleatórios; e) ( ) Nenhuma das alternativas acima. 3) Com relação a amostragem estratificada é CORRETO afirmar que: a) ( ) Permite encontrar amostras de estratos que não possuem nenhuma característica em comum; b) ( ) Os estratos devem ser disjuntos; c) ( ) A amostra é sempre dividida em partes iguais para cada estrato; d) ( ) Utilizamos uma amostragem aleatória simples considerando todos os estratos juntos; e) ( ) Nenhuma das alternativas acima. 4) O gerente de um determinado banco com o intuito de fazer uma pesquisa junto a seus clientes utiliza o seguinte processo: Pega o primeiro cliente que compareceu à agência naquele dia e o entrevista. O segundo a ser entrevistado é o 6.º cliente. O terceiro a ser entrevistado é o 11.º cliente e assim sucessivamente até que a agência feche. É CORRETO afirmar que: a) ( ) O gerente utilizou uma amostragem estratificada proporcional; b) ( ) O gerente utilizou uma amostragem aleatória simples; c) ( ) O gerente utilizou uma amostragem sistemática; d) ( ) O gerente não utilizou nenhum método de amostragem; e) ( ) Nenhuma das alternativas acima. 35 5) Considere o seguinte problema: Deve-se extrair uma amostra estratificada proporcional de tamanho 60 de uma população de tamanho 4.000, que consiste de três estratos de tamanhos N1=2.000, N2=1.200 e N3= 800. É CORRETO afirmar que: a) ( ) Do primeiro estrato deverá ser extraída 18 amostras; b) ( ) Do segundo estrato deverá ser extraída 30 amostras; c) ( ) Do terceiro estrato deverá ser extraída 12 amostras; d) ( ) Deverá extrair 20 amostras de cada estrato; e) ( ) Nenhuma das alternativas acima. 6) A única opção que traz dois métodos de amostragem em que é preciso conhecer todos os elementos da população é: a) ( ) Aleatória simples e por conglomerado; b) ( ) Por conglomerado e sistemática; c) ( ) Aleatória simples e sistemática; d) ( ) Estratificada e por conglomerado; e) ( ) Nenhuma das alternativas acima. 7) Os dados abaixo se referem a taxa de hemoglobina no sangue (em gramas/cm3) de 12 professores de uma determinada escola. Professor 1 2 3 4 5 6 7 8 9 10 11 12 Taxa de hemoglobina 11,1 12,2 15,2 11,3 14,4 12,7 13,5 15,8 11,7 16,3 14,1 12,5 Extrair uma amostra sistemática de 3 taxas de hemoglobina. (Usar 7.ª coluna da TNA, último algarismo). 8) Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria. 10.1 7.3 8.5 5 4.2 3.1 2.2 9 9.4 6.1 36 3.3 10.7 1.5 8.2 10 4.7 3.5 6.5 8.9 6.1 a) Extraia uma amostra de 6 elementos usando a amostra aleatória simples. (Usar 2.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 5 elementos usando a amostra sistemática. (Usar 2.ª coluna na TNA, último algarismo). 37 9) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metrô e trem, o número de diferentes meios de transporte utilizado foi o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3. a) Extraia uma amostra de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 10) A idade dos 20 ingressantes num certo ano no curso de pós-graduação em jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. a) Extraia uma amostra de 8 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 8 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, último algrarismo); 11) Umnovo medicamento para cicatrização está sendo testado e um experimento é feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. As 30 cobaias tiveram os seguintes tempos: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14. a) Extraia uma amostra de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 38 12) Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente de pontos: Aluno 1 2 3 4 5 6 7 8 9 10 Português 35 35 34 32 31 30 26 26 24 23 Matemática 31 29 27 28 28 26 30 28 25 23 Aluno 11 12 13 14 15 16 17 18 19 20 Português 23 12 11 20 17 12 14 20 8 10 Matemática 21 32 31 20 21 25 20 13 23 20 a) Extraia uma amostra de 5 alunos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 5 alunos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 13) Em uma escola da rede municipal, estão matriculados 370 alunos no curso da manhã. Eles estão distribuídos na seguinte maneira: Salas 5.ª A 5.ª B 5.ª C 6.ª A 6.ª B 6.ª C 6.ª D 7.ª A 7.ª B 8.ª A 8.ª B 8.ª C Alunos 30 25 30 30 30 25 25 35 40 35 35 30 a) Extraia uma amostra de 74 alunos usando a amostra estratificada. (Usar 3.ª coluna na TNA, dois últimos algarismos) 14) O Departamento de Ensino de uma Escola Particular, de um bairro de classe média, deseja realizar uma pesquisa para saber se seria conveniente criar o 2.º grau em seu quadro de turmas. Isso porque ela ministra apenas da 1.ª série à 8.ª série do ensino básico e fundamental. Para isso ela contrata uma firma de consultoria para realizar esta pesquisa. 39 Suponhamos que você faça parte dessa firma e seja indicado(a) para formular um questionário a fim de coletar dados que irão ajudar na solução deste problema. Então você deverá criar um questionário com esse objetivo. Bom trabalho.!!! 40 Distribuição de Freqüência Dados Brutos Feita a coleta, os dados originais ainda não se encontram prontos para análise, por não estarem numericamente organizados. Por essa razão, costuma-se chamá-los de dados brutos. Exemplo: Na tabela 1, estão relacionadas as notas em estatística dos alunos do 7.º período de Matemática. Tabela 1: Notas em estatística dos alunos do 7.º período de Matemática 16 14 15 14 15 15 12 11 13 16 16 12 15 16 15 18 11 16 15 16 15 13 12 15 15 17 15 12 17 Rol O Rol é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Tabela 2:Notas em estatística dos alunos do 7.º período de Matemática 11 13 15 15 16 11 13 15 15 16 12 14 15 16 17 12 14 15 16 17 12 15 15 16 18 41 12 15 15 16 Tabela de freqüência As tabelas de freqüências são representações nas quais os valores se apresentam em correspondência com suas repetições, evitando –se assim que eles apareçam mais de uma vez na tabela, como ocorre com o rol. A tabela de freqüências proporciona uma apresentação esteticamente mais vantajosa dos dados, facilitando ainda a verificação do comportamento do fenômeno. É possível, por outro lado, com a utilização de uma tabela de freqüências, a obtenção de estatísticas (medidas) com menos cálculo, e, conseqüentemente, em menos tempo do que se esse trabalho fosse realizado a partir dos dados brutos. As tabelas de freqüências podem representar tanto valores individuais como valores agrupados em classes. Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes É uma tabela onde os valores da variável aparecem individualmente. Esse tipo de apresentação é utilizado para representar uma variável discreta ou descontinua. Exemplo: A tabela abaixo representa as notas em estatística dos alunos do 7.º período de Matemática da FAFIDIA. Tabela 3: Notas obtidas em uma avaliação de estatística dos alunos do 7.º período de Matemática da FAFIDIA Notas Freqüência fj 42 11 2 12 4 13 2 14 2 15 10 16 6 17 2 18 1 29 Distribuição de Freqüências de Dados Agrupados em Classes Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes. Para variáveis contínuas sempre usamos agrupar. Para variáveis discretas e número de valores representativos dessa variável muito grande também agrupamos. Elementos de uma Distribuição de Freqüências 1) Freqüência Simples Absoluta: fj É o número de observações correspondentes a essa classe ou a esse valor. A freqüência simples absoluta, ou simplesmente freqüência, é simbolizada por fj . 2) Amplitude Total: At 43 É a diferença entre o maior e o menor valor observado da variável em estudo. 3) Número de Classes É cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice j) O número de classes pode ser calculado usando a fórmula de Sturges: k = 1 + 3,3 log10 N Onde k = número de classes N = número total de observações O arredondamento de k é feito para o inteiro imediatamente superior. 4) Limites de classes Os limites de classe são seus valores extremos. a) Limite Inferior: É o valor mínimo de uma classe. b) Limite Superior: É o valor máximo de uma classe. Este pode não pertencer à classe atual. 5) Amplitude do Intervalo de classe Amplitude do intervalo de classe ou simplesmente intervalo de classe é o comprimento da classe, sendo geralmente definida como a diferença entre seus limites superior e inferior. Pode-se também tomar a diferença entre dois limites inferiores ou superiores. 44 6) Ponto médio de classe O ponto médio ou valor médio é o valor que a representa, para efeito de cálculos de certas medidas.Na distribuição de freqüências com valores agrupados em classes, considera-se que os resultados incluídos em cada classe distribuem-se uniformemente por seu intervalo. Exemplo 1: A tabela abaixo representa as notas obtidas por 29 alunos em uma avaliação de estatística Amplitude total = 18 – 11 = 7 Número de classes: k = 1 + 3,3 x log 29 k = 1 + 3,3 x 1,4624 k = 5,83 k 6 Amplitude do intervalo de classe: At / k = 7 / 6 =1,17 1,2 Tabela 4: Notas obtidas em uma avaliação de estatística dos alunos do 7.º período de Matemática da FAFIDIA Notas fj 11,0 12,2 6 12,2 13,4 2 13,4 14,6 2 14,6 15,8 10 15,8 17,0 6 17,0 18,2 3 Total 29 45 Exemplo 2: Tabela 5: Notas obtidas em uma avaliação de estatística dos alunos do 7.º períodode Matemática da FAFIDIA Notas Simples fj Acumulada simples Fj “abaixo de” Relativa Simples frj Relativa Acumulada Frj “abaixo de” 11,0 12,2 6 6 0,21 0,21 12,2 13,4 2 8 0,07 0,28 13,4 14,6 2 10 0,07 0,35 14,6 15,8 10 20 0,34 0,69 15,8 17,0 6 26 0,21 0,90 17,0 18,2 3 29 0,10 1,00 Total 29 ROTEIRO PARA A ELABORAÇÃO DE UMA TABELA DE FREQÜÊNCIAS COM DADOS AGRUPADOS EM CLASSES Para a construção de uma tabela de freqüências, é conveniente adotar-se um roteiro que, embora baseado em critérios relativamente arbitrários, facilita e torna operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos seguintes passos: a) Lista de dados brutos que pode ou não ser transformada em rol; b) Encontrar a amplitude total do conjunto de valores observados: Menor valor do conjunto Maior valor do conjunto - At = 46 c) Calcular o número de classes (k) usando a fórmula de Sturges: d) Determinar a amplitude do intervalo de classe. Muitas vezes convém arredondar o número correspondente à amplitude do intervalo de classe a que se chegou para um número mais adequado, que facilite os cálculos. e) Determinar os limites das classes, escolhendo-se preferencialmente, números inteiros. f) Construir a tabela de freqüências. Manual para Normalização de Publicações Técnico – cientificas Ed. UFMG Tabelas de distribuição de freqüência 1) As tabelas devem ser dotadas de um título claro e conciso localizado acima delas. São numeradas seqüencialmente em todo o trabalho, com algarismos arábicos (1, 2, 3, ...), segundo normas do IBGE. 2) No cabeçalho de cada coluna indica-se o seu conteúdo. Os títulos das colunas podem ser datilografados verticalmente, se necessário, para economizar espaço. 3) Não se deve deixar nenhuma “casa” vazia no corpo da tabela, usando-se os símbolos, conforme convenção internacional: - quando, pela natureza do fenômeno, o dado não existir Z quando o dado for rigorosamente zero ... quando não se dispuser do cálculo 4) Na construção de tabelas usam-se os seguintes traços: 47 a) traço duplo horizontal, limitando o quadro; b) traço simples vertical, separando a coluna indicadora das demais e estas entre si; no corpo da tabela pode ser eliminado desde que o número de colunas seja pequeno e não haja prejuízo na leitura dos dados; 5) a tabela não deve ser fechada lateralmente, tampouco se colocam traços horizontais separando os dados numéricos. Exercícios 1) As cifras abaixo representam os ganhos de 15 vendedores: 425 440 610 518 324 482 624 390 468 457 509 561 482 480 520 2) Dão-se a seguir os pesos, em libras, de 20 candidatos a empregos no corpo de bombeiros de uma cidade: 225 182 194 210 205 172 181 198 164 176 180 193 178 193 208 186 183 170 186 188 3) Os seguintes números de unidades de um produto foram completados em determinados dia por 20 operários de uma fábrica de artigos de artesanato: 61 58 59 72 47 55 40 73 66 60 71 69 63 58 51 42 67 80 62 53 4) Uma auditoria em 60 faturas de venda revelou os seguintes números de erros na fixação de preços: 0 0 2 1 4 1 0 1 3 2 48 2 0 1 1 1 4 0 3 1 5 1 1 0 2 0 0 1 1 4 3 0 1 0 2 1 4 3 1 0 0 5 1 2 0 3 0 2 1 1 3 1 4 3 0 2 0 1 1 0 1 5) Dão-se, a seguir, os números de alarmes falsos(acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança: 3 6 2 4 5 8 2 5 6 3 4 7 4 6 5 5 5 4 3 7 4 4 6 3 9 5 7 4 4 6 As questões de 6 a 11 são referentes à tabela a seguir. Ela se refere a notas de alunos, em uma prova de 30 pontos, de uma determinada escola. 49 6) O valor do limite superior da 4.ª classe é de: a) ( ) 17; b) ( ) 18; c) ( ) 19; d) ( ) 20; e) ( ) Nenhuma das alternativas acima. 7) O valor do limite inferior da 3.ª classe é de: a) ( ) 13; b) ( ) 14; c) ( ) 15; d) ( ) 16; e) ( ) Nenhuma das alternativas acima. 8) O valor da freqüência acumulada simples da 5.ª classe é de: a) ( ) 8; b) ( ) 10; c) ( ) 20; d) ( ) 26; Notas fj 11 6 2 2 10 6 21 4 Total 30 50 e) ( ) Nenhuma das alternativas acima. 9) O valor da freqüência relativa acumulada 4.ª classe é de: a) ( ) 0,2000; b) ( ) 0,2667; c) ( ) 0,3333; d) ( ) 0,6667; e) ( ) Nenhuma das alternativas acima. 10) Porcentagem dos alunos que tiraram abaixo de 50% da nota da prova é de: a) ( ) 20%; b) ( ) 27%; c) ( ) 34%; d) ( ) 67%; e) ( ) Nenhuma das alternativas acima. 11) A nota em que 66% dos alunos estão acima dela é de: a) ( ) 15; b) ( ) 16; c) ( ) 17; d) ( ) 18; e) ( ) Nenhuma das alternativas acima. As questões de 12 a 15 são referentes à tabela a seguir. Ela se refere a pacientes internados no hospital X, localidade Y, no ano Z. 51 12) O valor do limite superior da 4.ª classe é de: 13) O valor do limite inferior da 3.ª classe é de: 14) O valor da freqüência acumulada simples da 5.ª classe é de: 15) O valor da freqüência relativa simples da 4.ª classe é de: 16) Os dados se referem aos pesos dos alunos de uma determinada escola: 60.5 60 70 47.4 60 57 52 47 55 50 55 58 54 66 58.5 63 73 95 39 54.5 72.8 47 58 85.2 49.2 52 56 84 75 50 80.9 57.8 68.5 54.5 48 49 58 60 55 71 55 58 63.5 52.5 51.6 59 87 73 49 86 Após construir uma tabela de distribuição de freqüência agrupada em classes, a freqüência simples da terceira classe é de: 17) Os dados abaixo se referem aos pesos dos alunos de uma determinada escola: 60.5 60 70 47.4 60 57 52 47 55 50 55 58 54 66 58.5 63 73 95 44 54.5 Grupo etários (em anos) fj 20 1 3 5 6 4 70 1 Total 20 52 72.8 47 58 85.2 49.2 52 56 84 75 50 80.9 57.8 68.5 54.5 48 49 58 60 55 71 55 58 63.5 52.5 51.6 59 87 73 49 86 Siga os passos para a construção de uma tabela de distribuição de freqüência com dados agrupados: a) Determine a amplitude total b) Determine a amplitude de classe c) Construa a tabela usando 7 classes d) Inclua na tabela as freqüências relativas simples e) Inclua na tabela as freqüências acumuladas (abaixo de) simples f) Inclua na tabela as freqüências acumuladas (abaixo de) relativas 18) Com relação à tabela de distribuição de freqüência agrupada acima responda: a) Quantos alunos pesam até 69 kg? b) Quantos alunos pesam mais de 76 kg? c) Qual a porcentagem de alunos que pesam menos de 62 kg? 53 Medidas de Tendência Central. Medidas de Posição 1) Média Aritmética Simples Dados não agrupados A média aritmética simples, amostral, de um conjunto de n observações nxxx ,,, 21 é definida por n x x n i i 1 A média aritmética simples, populacional, de um conjunto de N observações Nx,,2x,1x é definida por N xN i i 1 Exemplo: Os dados a seguir representam as alturas de 5 alunos de uma determinada escola. 1,60 1,68 1,80 1,76 1,66 Qual a média aritmética? Solução: A média será 54 700,1 5 66,176,180,168,160,1 5 5 1 1 x x x x n x x i i n i i 55 Cálculo da Média de dados em tabela de distribuição de freqüência Considere: xi o ponto médio da classe i , fi a freqüência da classe i, k a quantidade de classe. A média aritmética é definida por: k i i k i ii f fx x 1 1 . OBS.: Caso tenhamos uma tabela de distribuição agrupada em classes, o valor de xi será o ponto médio da classe. O arredondamento será sempre uma casa decimal a mais que os dados. Exemplo: A tabela abaixo representa as notas em estatística dos alunos do 7.º período de Matemática da FAFIDIA. Calcule a nota média. Notas Freqüência fj ii f.x 11 2 22 12 4 48 13 2 26 14 2 28 56 15 10 150 16 6 96 17 2 34 18 1 18 29 422 Solução: A nota média será 6,14 29 422 . 1 1 k i i k i ii f fx x Exemplo: A tabela abaixo representa as notas obtidas por 500 alunos em um teste de geografia. Calcule a nota média. Solução: A nota média será 95,56 500 475.28 .. 6 1 6 1 1 1 i i i ii k i i k i ii f fx f fx x Notas fj xi xi.fi 10 25 44 17,5 770 25 40 70 32,5 2.275 40 55 92 47,5 4.370 55 70 147 62,5 9.187,5 70 85 115 77,5 8.912,5 85 100 32 92,5 2.960 Total 500 28.475 57 2) Mediana: Md Dados não agrupados Para evitar a possibilidade de sermos enganados por valores muito pequenos ou muito grandes, ocasionalmente descrevemos o “meio” ou “centro”de um conjunto de dados com outras medidas estatísticas que não a média. Uma dessas medidas, a MEDIANA de n valores, exige que os ordenemos, e se define como: O valor do elemento do meio se n é ímpar, ou a média aritmética dos dois valores do meio se n é par. Assim dizemos que a mediana é o valor do 2 1n elemento. Exemplo: Em um mês recente, o Departamento de Caça e Pesca de um estado reportou 53 31 67 53 36 violações em atividade de caça e pesca em cinco regiões. Qual a mediana? Solução: Ordenando os elementos temos: 31, 36, 53, 53, 67. Como temos 5 elementos, a mediana é o valor do elemento central, 3 2 15 . A mediana é o valor do 3.º elemento. Logo a mediana é Md = 53. Exemplo 2: Em algumas áreas, as pessoas autuadas por certas infrações leves de tráfego podem freqüentar um curso de direção defensiva em lugar de pagar uma multa. Se 12 desses cursos foram freqüentados por 58 40 32 37 30 24 40 38 35 40 28 32 37 Cidadãos. Qual a mediana? Solução: Ordenando os elementos temos: 24 28 30 32 32 35 37 37 38 40 40 40 Como temos 12 elementos, número par, a mediana será a média aritmética dos elementos centrais. A mediana será a média aritmética dos elementos 35 e 37. Logo a mediana será 36 2 3735 Md . Cálculo da Mediana de dados em tabela de distribuição de freqüência Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso anterior. Exemplo: A tabela abaixo representa as notas em estatística dos alunos do 7.º período de Matemática da FAFIDIA. Notas Freqüência fj 11 2 12 4 13 2 14 2 15 10 16 6 17 2 18 1 29 59 Qual a nota mediana? Solução: Como temos 29 elementos, o valor mediano deverá estar na posição 15 2 129 . Logo o elemento mediano é o 015 elemento. Assim somando as freqüências temos 1552242 . A mediana será 15. Portanto a nota mediana é 15. Para uma distribuição de freqüência agrupada em classes, a mediana é tal que metade da área total dos retângulos do histograma da distribuição está à sua esquerda, e a outra metade está à sua direita. De modo geral podemos calcular a mediana por: c f j Lx~Md onde L: é a fronteira inferior da classe em que a mediana deve estar. f: é a sua freqüência c: o intervalo de classe j: é o número de elementos que ainda faltam quando atingimos L. Exemplo: A tabela abaixo representa as notas obtidas por 500 alunos em um teste de geografia. Calcule a nota mediana. 60 Solução: Como temos 500 elementos, o valor mediano deverá estar no 0250 2 500 elemento. Assim 44 + 70 + 92 = 206 e 44 + 70 + 92 + 147 = 353 > 250. A mediana estará na 4.ª classe. Usando a fórmula temos: L = 55, f = 147, c = 15 e j = 250-206 = 44. Logo 5,59 15 147 44 55 Md Md Portanto a mediana é 59,5. 3) Moda: Mo Dados não agrupados É o valor que ocorre com maior freqüência e mais de uma vez. Exemplo: Vinte reuniões de um clube de dança tiveram as seguintes freqüências de seus membros 26 25 28 23 25 24 24 21 23 26 28 26 24 32 25 27 24 23 24 22 Notas fj 10 25 44 25 40 70 40 55 92 55 70 147 70 85 115 85 100 32 Total 500 61 Qual a moda? Solução: A moda vale 24, pois ocorre 5 vezes. Observação: A moda é raramente utilizada em inferência estatística pelo fato de nem sempre existir (o que ocorre quando não há dois valores iguais) ou de, eventualmente, não ser única. Exemplo: Os dados a seguir referem-se a quantidade de pessoas que assistiram a 6 sessões de um filme no cinema: 121 133 121 133 114 141 Qual o número modal de pessoas que assistiram ao filme? Solução: Temos que os números 121 e 133 repetem, ambos, duas vezes. Portanto a moda não é única. Logo as modas são 121 e 133. Cálculo da Moda de dados em tabela de distribuição de freqüência Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso anterior. Exemplo: A tabela abaixo representa as notas em estatística dos alunos do 7.º período de Matemática da FAFIDIA. Notas Freqüência fj 11 2 12 4 13 2 62 14 2 15 10 16 6 17 2 18 1 29 Qual a nota modal? Solução: A nota que ocorre com maior freqüência é a nota 15, pois ocorre 10 vezes. Logo a nota modal é Mo = 15. Quando temos uma tabela de distribuição de freqüência agrupada em classes, o cálculo da moda é feito utilizando a fórmula de Czuber. 1.º passo: Identificamos a classe modal ( aquela que possui maior frequência) 2.º passo: Aplica-se a fórmula hLMo 21 1 onde L: É o limite inferior da classe modal. 1 : Diferença entre a freqüência da classe modal e a classe imediatamente anterior. 2 : Diferença entre a freqüência da classe modal e a classe imediatamenteposterior. h: Amplitude da classe modal Exemplo: A tabela abaixo representa as notas obtidas por 500 alunos em um teste de geografia. Calcule a nota modal. 63 Solução: 1.º passo: A classe modal é a 4.ª, pois ela possui a maior freqüência. 2.º passo: Temos L = 55, 55921471 , 321151472 e h = 15 5,64 15 3255 55 55 Mo Mo Logo a nota modal é Mo = 64,5. Notas fj 10 25 44 25 40 70 40 55 92 55 70 147 70 85 115 85 100 32 Total 500 64 Medidas de Variabilidade São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. Considere os dois conjuntos da dados a seguir: Conjunto 1 20 20 20 20 20 20 20 Conjunto 2 30 15 15 20 20 20 20 Ambos os conjuntos têm média 20, no entanto a variabilidade dos elementos do conjunto 2 é maior. Desvio padrão Símbolo: S Dados não agrupados Amostral Populacional n x x n S n i in i i 2 1 1 2 1 1 n x x n n i in i i 2 1 1 21 Cálculo do desvio padrão de dados em tabela de distribuição de freqüência 65 Sejam : xi o ponto médio da classe i , fi a freqüência da classe i, k a quantidade de classe. 66 Amostral Populacional n fx fx n S i k i ik i ii 2 1 1 2 . . 1 1 n fx fx n i k i ik i ii 2 1 1 2 . . 1 A variância de um conjunto de dados é denotada por s2 O desvio padrão aumenta quando a dispersão dos dados aumenta. Exemplo: A tabela abaixo representa as notas obtidas por 500 alunos em um teste de geografia. Calcule o desvio-padrão. Temos que Notas fj xi xi.f xi 2. f 10 25 44 17,5 770 13.475 25 40 70 32,5 2.275 73.937,5 40 55 92 47,5 4.370 207.575 55 70 147 62,5 9.187,5 574.218,8 70 85 115 77,5 8.912,5 690.718,8 85 100 32 92,5 2.960 273.800 Total 500 28.475 1.833.725 67 2,19 183868,368 75,723.183 499 1 25,651.621.1725.833.1 499 1 500 475.28 725.833.1 1500 1 2 s s s s s Logo o desvio-padrão é de 19,2. 68 Exercícios 1) A tabela abaixo se refere ao peso, em kg, de 50 alunos de uma determinada escola. Peso = xi fi 45 8 55 22 65 8 75 6 85 5 95 1 Total 50 a) Calcule a média dos dados agrupados b) Calcule a variância. 2) A média aritmética é a razão entre: a) ( ) O número de valores e o somatório; b) ( ) O somatório dos valores e o número; c) ( ) Os valores extremos; d) ( ) Os dois valores centrais. 3) Numa distribuição de valores todos iguais, o desvio-padrão é: a) ( ) negativo; b) ( ) positivo; c) ( ) a unidade; d) ( ) zero. 4) A média de um conjunto de valores iguais a uma constante é: 69 a) ( ) zero; b) ( ) o valor da constante; c) ( ) a unidade; d) ( ) a quantidade de valores que temos 5) O desvio-padrão de um conjunto de dados é 4. A variância será: a) ( ) 3; b) ( ) 4; c) ( ) 16; d) ( ) 81. 6) Uma empresa possui dois serventes recebendo salários de R$ 250,00 cada um, quatro escriturários recebendo R$ 600,00 cada um, um chefe de escritório com salário de R$ 1.000,00 e três técnicos. A média de salários da empresa é de R$ 1.050,00. Quanto cada técnico recebe? 7) A média do conjunto de valores 46,1 57,5 21,6 16,8 4,2 é igual a? 8) O desvio-padrão do conjunto de valores 46 57 21 16 4 É igual a? 9) Os 20 dados abaixo se referem aos índices pluviométricos em determinado Estado: 144 152 159 160 160 151 157 146 154 145 141 150 142 146 142 141 141 150 143 158 70 Determine: a) O índice médio. b) O índice mediano. 10) Os dados abaixo se referem a pesos (em gramas) de 50 ratos usados em um estudo de deficiência de vitaminas. 136 125 135 137 126 129 124 118 120 126 119 92 115 115 127 95 100 113 95 113 146 103 101 118 121 129 110 126 106 148 137 87 126 119 125 132 108 118 119 117 120 110 82 105 102 104 133 104 132 146 a) Construa uma tabela de distribuição de freqüência agrupada em classes. b) Qual o peso modal? c) Qual o desvio-padrão? d) Um rato é considerado magro se seu peso é menor que sx 2 e gordo se seu peso é maior que sx 2 . Quais os pesos máximo e mínimo para que um rato seja considerado magro ou gordo? e) Baseado na letra e, um rato cujo peso é de 135 gramas é considerado magro ou gordo? Justifique sua resposta. 11) Dê um exemplo numérico, com no máximo 4 amostras, em que a média e a mediana sejam iguais e o desvio-padrão seja nulo. 12) Dê um exemplo numérico, com no máximo 4 amostras, em que a média é menor que a mediana. 13) Um artigo de jornal fez menção a determinada pesquisa citando que o conjunto amostral acusa x = 5, x2 = 7 e s = 0,5. Por erro esqueceram de citar o tamanho da amostra utilizado. Considerando as informações anteriores o que podemos dizer sobre os possíveis tamanho da amostra? 71 14) Uma lista de números acusa x =202, x2 = 3.452 e n = 15. Qual o desvio- padrão? 15) Em quatro paradas no box, o mecânico dos pneus dianteiros trocou o pneu dianteiro direito dos carros de corrida em 10,8 12,0 10,5 10,7 segundos. Calcule: a) o tempo médio de troca de pneus b) o desvio-padrão. 16) A tabela a seguir apresenta o tempo que 80 estudantes dedicam a atividade de lazer durante uma semana escolar típica Calcule: a) o tempo médio b) o tempo mediano c) Qual a porcentagem dos alunos que dedicam mais de 25 horas de lazer ? 17) Uma lista de números acusa x =40 e x2 = 156. Quantos valores figuram na lista, se seu desvio-padrão é 2,0? Horas fj 10 15 9 15 20 28 20 25 27 25 30 12 30 35 4 Total 80 72 18) Um inspetor de controle de qualidade examinou 15 engradados de telhas de cerâmica, contendo cada um 144 telhas. Os números de telhas trincadas nessas caixas foram 2 5 3 4 2 0 1 5 7 3 0 2 2 4 3 Calcule: a) o número médio de telhas trincadas e b) o desvio-padrão. 73 19) A tabela de distribuição a seguir apresenta o número de peças defeituosas em uma produção de determinado produto N.º de defeitos N.º de peças 0 5 1 10 2 18 3 12
Compartilhar