Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof. Ivonaldo Pacheco Santana 1 Instituto Federal de Educação, Ciência e Tecnologia de Sergipe Diretoria de Ensino Gerência de Ensino Superior Coordenadoria do Curso de Licenciatura em Matemática ESTATÍSTICA 1.0. INTRODUÇÃO É comum observarmos em jornais e revistas publicações de pesquisas estatísticas sejam através de tabelas ou de gráficos. A palavra estatística significa “análise de dados”. Os dados consistem em informações provenientes de observações, contagens, medidas ou respostas. Historicamente, o crescimento e o desenvolvimento da estatística moderna estiveram relacionados a três fenômenos isolados: a) Necessidade do governo de coletar dados sobre seu povo Na antiguidade as civilizações egípcia, grega e romana praticavam registros do nº de habitantes, nascimentos e mortes visando recolhimento de impostos e recenseamento militar; na idade média, as instituições religiosas também mantinham registros de nascimentos, mortes e casamentos. No século XVI surgem as primeiras análises sistemáticas, as primeiras tabelas e os números relativos; b) O desenvolvimento da teoria da probabilidade A estatística deixa de ser uma simples tabulação de dados numéricos para se tornar o estudo de como se chegar a uma conclusão sobre uma população, partindo da observação de partes dessa população através do uso da probabilidade. Esse caráter científico ocorreu já no século XVIII. c) O advento da informática Com o desenvolvimento da informática muitas das funções gráficas e métodos de cálculos estatísticos foram incorporados em planilhas eletrônicas como o Microsoft Excel. Através do uso da informática, a estatística tem sido fundamental, por exemplo, na avaliação de controles de poluição na análise de problemas de tráfego, no estudo de efeito de vários remédios, na análise do comportamento competitivo dos governos, etc. 1.1.DEFINIÇÃO Estatística é a ciência que compreende um conjunto de técnicas e métodos de pesquisa destinados à coleta, organização, descrição, análise e interpretação de dados a fim de tomar decisões. Esses conjuntos de dados são chamados de populações e amostras. 1.2. FASES DO MÉTODO ESTATÍSTICO a) Definição do problema - saber exatamente aquilo que se pretende pesquisar. b) Planejamento – como levantar informações? que dados deverão ser obtidos? Quais os custos envolvidos? Qual o cronograma de atividades? c) Coleta de dados – registro sistemático de dados, com um objetivo determinado, pode ser desenvolvida de forma direta (obtida diretamente da fonte) ou indireta (por deduções a partir de elementos da coleta direta, por analogia, indícios). Os dados aqui coletados podem ser: - Primários (quando são publicados pela própria pessoa ou organização que os haja colhido, por exemplo, o censo demográfico do IBGE). Prof. Ivonaldo Pacheco Santana 2 - Secundários (quando são publicados por outra organização, por exemplo, um jornal ou revista publica estatísticas referentes ao censo demográfico extraídas da pesquisa do IBGE) d) Crítica dos dados – os dados obtidos devem ser criticados, eliminando-se assim incoerências e má interpretação às perguntas dirigidas ao informante. e) Apuração dos dados – resumo dos dados através de sua contagem e agrupamento, também chamada tabulação, pode ser manual ou eletrônica. f) Apresentação dos dados – Há duas formas: através de tabelas que obedecem regras práticas fixadas pelo Conselho Nacional de Estatística ou gráficos, que permitem de forma geométrica uma visão rápida e clara do fenômeno. g) Análise e Interpretação dos dados – está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade é descrever o fenômeno (estatística descritiva) a interpretação dos dados fundamentada na teoria das probabilidades pertence ao campo da (estatística inferencial). 1.3. POPULAÇÃO E AMOSTRA População é o conjunto de todos os resultados, respostas, medidas ou contagens que possam fornecer dados ao fenômeno em estudo; Amostra é um subconjunto de uma população. Se uma população for muito grande, a exemplo de todos os eleitores de uma cidade, o pesquisador poderá ter um trabalho astronômico para estudá-la. Fatores como tempo, custo e acessibilidade faz o estatístico recorrer a uma amostra, que, basicamente constitui uma redução da população a dimensões menores. A amostra deve manter as características essenciais de toda população. Exemplo. Num levantamento recente feito com apenas 50 alunos do curso Tecnólogo em Meio Ambiente do IFS- Campus Aracaju perguntou-se: Você acessa a internet como fonte de estudo pelo menos uma vez por semana? 42 alunos responderam que “sim”. Identifique a população e a amostra e descreva o conjunto de dados. Solução. A população consiste nas respostas de todos os alunos matriculados no curso Tecnólogo em Meio Ambiente e a amostra consiste nas respostas dos 50 alunos do levantamento. A amostra é um subconjunto das respostas de todos os alunos do curso. O conjunto de dados consiste em 42 respostas ‘sim’ e 8 respostas ‘não’. Exemplo. Considere a afirmação: O Departamento de Energia dos EUA conduz levantamentos semanais em 800 postos de gasolina para determinar o preço médio por galão da gasolina comum. Em 14 de maio de 2001, o preço médio era de US$ 1,713 por galão. a) Identifique a população b) Identifique a amostra c) Em que consiste o conjunto de dados? Exemplo. Identifique a amostra e a população. Determine, também, se é provável também que a amostra seja representativa da população. a) Um repórter da Veja se coloca em uma esquina e pergunta a 10 adultos se acham que o atual presidente está fazendo um bom trabalho. Exemplo. Em uma pesquisa sobre os 50 sabores de sorvete produzidos por uma sorveteria, para verificar a qualidade dos sabores vendidos, foram testados 10 sabores. Nessa pesquisa, que porcentagem da população representa a amostra pesquisada? Prof. Ivonaldo Pacheco Santana 3 1.4. ESTATÍSTICA DESCRITIVA E INFERÊNCIA ESTATÍSTICA Estatística descritiva é a parte da estatística que se preocupa somente com a coleta, descrição, apresentação e análise sem tirar conclusões mais genéricas. Inferência estatística ou estatística indutiva é a parte da estatística que, baseando-se em resultados obtidos de uma amostra, procura inferir ou tirar conclusões a respeito do comportamento da população, dando a precisão dos resultados e com que probabilidade se pode confiar neles. n = tamanho da amostra; N = tamanho da população; __ X média da amostra; = média da população; S2 = variância da amostra; 2 variância da população; S = desvio padrão da amostra; = desvio padrão da população; P = proporção estimada na amostra; p = proporção estimada na população. 1.4.1. DEFINIÇÕES: Parâmetro é uma descrição numérica de uma característica da população; Exemplo. Em um estudo de todos os 2223 passageiros a bordo do Titanic, verificou-se que 706 sobreviveram quando ele afundou. O dado 706 é um parâmetro, obtido de toda população do navio. Estatística ou Estimador estatístico é uma descrição numérica de uma característica da amostra; Exemplo. Um recente levantamento numa amostra salarialde 50 técnicos recém egressos do IFS revelou que o salário médio inicial no primeiro emprego é de R$ 1200,00. Esse salário médio é uma estatística. Exemplo. Com base em uma amostra de 877 executivos pesquisados, achou-se que 45% deles não contratariam alguém que cometesse um erro tipográfico em uma solicitação de emprego. Esse número de 45% é uma estatística. Estimação é o processo que usa resultados extraídos da amostra para produzir inferências sobre a população da qual foi extraída. 1.5. VARIÁVEL É, convencionalmente, o conjunto de resultados possíveis de um fenômeno. Classifica-se em: contínua discreta Quantitiva ordinal alno aQualitativ VARIÁVEL min Prof. Ivonaldo Pacheco Santana 4 Variável Qualitativa – quando seus dados (valores) são expressos por atributos ou qualidades. Subdivide-se em: Qualitativa Nominal – ocorre quando os números são utilizados para nomear e/ou categorizar dados sobre as unidades observacionais. Os dados nominais não gozam das propriedades dos números com que lidamos na aritmética usual. Por exemplo, se registramos o estado civil como 1, 2, 3 ou 4 , não podemos escrever que 3 > 1 ou 2 < 4. Outros exemplos: a) marca de veículos, ou seja: VW, Fiat, GM, Toyota. b) sexo dos integrantes de uma amostra, ou seja: masculino, feminino. c) cor dos olhos, ou seja: castanhos, azuis , verdes. Qualitativa Ordinal – ocorre quando os números são utilizados para, além de identificar e/ou categorizar, ordenar as unidades observacionais segundo um processo de comparação em relação a determinada variável. Por exemplo, em economia, costuma-se determinar o nível sócio econômico observando qual ganha mais. Se uma pessoa ganha mais que outra, recebe um número maior numa escala de 1 a 4, por exemplo. Com estes números podemos escrever que 4 > 3. Por outro lado, não podemos escrever 4 – 3 = 2 – 1, por exemplo, porque a diferença de nível entre as classes 4 e 3 é na verdade muito maior do que entre as classes 2 e 1. Quando só pudermos estabelecer desigualdades, referimo-nos aos dados como dados ordinais. Outros exemplos: a) grau de escolaridade, ou seja: ensino fundamental, ensino médio, superior, pós-graduado. b) grau de satisfação por determinado serviço prestado: péssimo, ruim, bom, ótimo. Variável Quantitativa – quando seus dados são de caráter numérico e subdivide-se em: Quantitativa Discreta – variável que pode assumir um número finito de valores num intervalo finito, ou um número infinito enumerável de valores, seus valores são expressos geralmente através de números inteiros não-negativos, resulta normalmente de contagens. Por exemplo: a) número de peças produzidas por uma máquina, ou seja: 0, 1, 2, ..., n. b) número de estudantes de uma família, ou seja: 0, 1, 2, ..., n. c) número de acidentes em um cruzamento, ou seja: 0, 1, 2, ... , n. Quantitativa Contínua – variável que pode assumir, teoricamente, quaisquer valores num certo intervalo finito ( número infinito não-enumerável de valores ); resulta normalmente de uma mensuração e a escala numérica de seus possíveis valores corresponde ao conjunto dos números reais. Por exemplo: a) peso de um conjunto de crianças, ou seja: 10,5; 12,4; ...; 14,5. b) índice de inflação, ou seja: 0,98; 1,22; ...; 2,33 c) diâmetro externo de uma peça produzida por uma máquina. Exemplo. Ao se cadastrar em um site de comércio eletrônico, o usuário deve preencher um questionário com estas oito perguntas: a) Você tem computador em casa? b) Quantas vezes por semana você acessa a internet? c) Numa escala de zero a 10, qual seu índice de confiança na segurança do comércio eletrônico? d) Quantos cartões de crédito você possui? e) A residência em que você vive é própria ou alugada? f) Qual é o provedor que você utiliza para acessar a internet? g) Qual é o tempo médio de acesso à internet? h) Já comprou algum produto via internet? Cada uma das questões anteriores define uma variável. Classifique-as como qualitativas nominais, qualitativas ordinais, quantitativas discretas ou quantitativas contínuas. Prof. Ivonaldo Pacheco Santana 5 1.6. TÉCNICAS DE AMOSTRAGEM Para coletar dados não tendenciosos, é importante que a amostra seja representativa da população. Vejamos algumas técnicas de amostragem apropriadas para termos uma boa inferência sobre a população. Amostragem Casual ou Aleatória Simples É aquela na qual toda amostra possível de mesmo tamanho tem a mesma chance de ser selecionada, ou seja, os elementos são escolhidos por sorteio. Para obter esta amostra podemos utilizar um meio mecânico (“tabela de números aleatórios”) ou eletrônico. Exemplo. Suponha uma população de 300 alunos matriculados no curso de Saneamento Ambiental do IFS. Obtenha uma amostra de 10% desses alunos para pesquisa dos níveis de colesterol, usando amostragem casual. Solução: Amostragem Proporcional Estratificada Quando a população se divide em estratos (subdivisões), convém que o sorteio dos elementos da amostra leve em consideração tais estratos, daí obtemos os elementos da amostra proporcional ao número de elementos desses estratos. Exemplo. Obter uma amostra proporcional estratificada, de 10%, dos 170 alunos, matriculados no curso de Saneamento Ambiental do IFS sabendo-se que estão distribuídos em quatro turmas e de ambos os sexos, conforme a tabela. Apresente a tabela com os quantitativos da amostra: TURMA SEXO 1º PERÍODO 2º PERÍODO 3º PERÍODO 4º PERÍODO MASCULINO 29 23 21 19 FEMININO 21 20 19 18 TOTAL 50 43 40 37 Solução: Exemplo. Em uma escola existem 500 alunos matriculados no nível superior sendo 128 do curso Tecnólogo em Meio Ambiente, 182 em Licenciatura em Matemática, 98 em Engenharia de Produção e 92 em Licenciatura em Química. Obtenha uma amostra de 20% dos alunos preenchendo o quadro abaixo CURSO POPULAÇÃO CÁLCULO AMOSTRA Tec. Meio Ambiente Lic. em Matemática Eng. de Produção Lic. em Química TOTAL 500 Exemplo. Uma população encontra-se dividida em 5 estratos, com tamanhos respectivamente, n1= 40, n2 = 55, n3 = 34, n4 = 60 e n5 = 41. Sabendo-se que, ao ser realizada uma amostragem proporcional estratificada, o número total da amostra foi 46 elementos, determine o tamanho de cada estrato. Prof. Ivonaldo Pacheco Santana 6 Amostragem Sistemática Quando os elementos da amostra já se acham ordenados, não há necessidade de criar o sistema de referência. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, etc. Nestes casos, a seleção dos elementos que contribuirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Seja N o tamanho da população e n o tamanho da amostra, então, calcula-se o intervalo de amostragem I = N/n ou o inteiro mais próximo de I. sorteia-se, através de um dispositivo aleatório qualquer, um número “x” entre 1 e I, formando-se a amostra dos elementos correspondentes aos números: x; x + I; x + 2I; ... ; x + (n-1)I. Observa-se que a sequência dos elementos sorteados forma uma progressão aritmética de razão r = I. Uma das vantagens da amostra sistemática é a sua facilidade de uso. Entretanto, no caso de ocorrer regularmente um padrão nos dados, esse tipo de amostragem deve ser evitado. Exemplo. Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra formadapor 50 casas para uma pesquisa de opinião. Podemos, neste caso, usar o seguinte procedimento: Dividimos 900/50 = 18, escolhemos por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18.Assim, suponhamos que o nº sorteado fosse 4, a amostra seria: 4ª casa, 22ª casa,40ª casa, 58ª casa, 76ª casa, etc. Exemplo. Um hotel tem um fichário com o registro de 5250 clientes e pretende amostrar 250 fichas. Obtenha, por meio da amostragem sistemática, os números dos registros das 5 primeiras fichas e o número da última ficha. Sabe-se que a primeira ficha sorteada foi a de número 17 (x = 17) 1. 7. TABELA ESTATÍSTICA É uma das formas de apresentação dos dados assumidos por uma ou mais variáveis, deve ter uma forma objetiva e clara de se demonstrar o comportamento da variável em análise. É estruturada através de traços horizontais que separam o título, o cabeçalho e o rodapé. Uma tabela compõe-se de: Título – conjunto de informações localizadas no topo da tabela que respondem às perguntas: O quê? Quando? Onde? Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas; Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas; Corpo – conjunto de linhas e colunas onde registramos dados numéricos e informações; Rodapé – local onde se registra a fonte dos dados e observações da tabela. Exemplo. Arrecadação de Tributos da União – 1994 (em bilhões de R$) ____________________________________________________ Período IR COFINS IPI IMPORTAÇÃO ____________________________________________________ Trim. 1 5,91 2,64 3,13 0,62 Trim. 2 6,60 2,81 3,14 0,77 Trim. 3 5,40 3,76 3,21 0,83 Trim. 4 6,24 4,26 3,76 0,80 ____________________________________________________ Prof. Ivonaldo Pacheco Santana 7 Fonte: IPEA/DIPES De acordo com a Resolução 886 da Fundação IBGE, nas casas ou células devemos colocar: um traço horizontal () quando o valor é zero, não só quanto à natureza das coisas, como quanto ao resultado do inquérito; três pontos (...) quando não temos os dados; um ponto de interrogação (?) quando temos dúvida quanto à exatidão de determinado valor; zero (0) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os valores são impressos em números decimais, precisamos acrescentar à parte decimal um número correspondente de zeros (0,0; 0,00; 0,000; ...). Exemplo. Os dados que seguem mostram o quanto se paga do vestibular à conclusão do curso em instituições particulares do RJ e SP. O curso de economia da FGV-RJ com duração de 4 anos tem um custo total estimado em R$ 52.000,00. O curso de arquitetura na escola de Belas Artes-SP com duração de 5 anos estima-se em R$ 59.000,00. O curso de administração na FGV-SP com duração de 4 anos estima-se em R$ 82.000,00. O curso de medicina na Santa Casa-SP com duração de 6 anos estima-se em R$ 149.000,00. Construa uma tabela estatística que contemple os dados acima e identifique como fonte a revista veja em abril/2004. 1. 8. SÉRIES ESTATÍSTICAS Toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. Séries Históricas ou Cronológicas Os dados são observados segundo a época de ocorrência. Preço do Acém no varejo São Paulo (1989 – 1994) Anos Preço médio (US$) 1989 2,24 1990 2,73 1991 2,12 1992 1,89 1993 2,04 1994 2,62 Fonte: APA Prof. Ivonaldo Pacheco Santana 8 Séries Geográficas ou Espaciais Os dados são observados segundo a localização de ocorrência. Duração média dos estudos Superiores 1994 Países Nº de anos Itália 7,5 Alemanha 7,0 França 7,0 Holanda 5,9 Inglaterra menos de 4 Fonte: Revista Veja Séries Categóricas ou Específicas São constituídas por dados obtidos nas diferentes categorias de uma mesma variável Rebanhos Brasileiros 1992 Espécies Quantidade (1000 cabeças) Bovinos 154.440,8 Suínos 34.532,2 Ovinos 19.995,6 Caprinos 12.159,6 Fonte: IBGE Séries Conjugadas Conjugando duas séries em uma única tabela obtemos uma tabela de dupla entrada. Ficam assim criadas duas ordens de classificação: uma horizontal e uma vertical. A série conjugada abaixo se classifica como específica – temporal Produção Brasileira de Aço Bruto 1991 – 1993 Processos Quantidade (1000 t) 1991 1992 1993 Oxigênio Básico 17.934 18.849 19.698 Forno Elétrico 4274 4637 5065 EOF 409 448 444 Fonte: Instituto Brasileiro de Siderurgia 2.0. DISTRIBUIÇÕES DE FREQUÊNCIA Uma vez coletados, os dados brutos ainda não se encontram prontos para análise, por não estarem numericamente organizados. Para determinada variável em estudo, verificamos o número de vezes com que ocorre cada um de seus valores, esse número chama-se frequência absoluta, normalmente indicada por fi. Definimos a frequência relativa como a razão entre cada valor absoluto assumido pela variável e o nº total de dados: n f f ir A organização de uma tabela de frequência pode se dá das seguintes formas: Prof. Ivonaldo Pacheco Santana 9 2.1. Distribuição de Frequência - Variável Discreta Devemos optar por uma variável discreta na representação de uma série de valores quando o número de elementos distintos da série for pequeno. Exemplo. Considere o conjunto de temperaturas (em °C) registradas durante vinte dias num determinado local: 23 24 25 20 20 18 25 23 20 19 19 23 25 20 20 25 24 19 19 25 A tabela de frequência correspondente é: Temperatura (°C) (xi) if ir f ir f (%) 18 1 0,05 5 19 4 0,2 20 20 5 0,25 25 23 3 0,15 15 24 2 0,1 10 25 5 0,25 25 Total 20 1,00 100 EXERCÍCIOS 01. A tabela seguinte refere-se aos resultados de uma pesquisa, realizada com 400 adolescentes, a respeito de seu lazer preferido: Lazer Frequência absoluta Frequência relativa Porcentagem (%) Instrumento Musical a 0,06 b Internet 92 c d Esporte e f 9% Sair à noite 180 g h Outros i j 1 Total 400 1,00 100% Quais são os valores de a,b,c,d,e,f,g,h,i,j,l? 02. Uma indústria embala peças em caixas com 100 unidades. O controle de qualidade selecionou 48 caixas na linha de produção a anotou em cada caixa o número de peças defeituosas. Obteve os seguintes dados: 2 0 0 4 3 0 0 1 0 0 1 1 2 1 1 1 1 1 1 0 0 0 3 0 0 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Elabore uma distribuição de frequência - variável discreta. Prof. Ivonaldo Pacheco Santana 1003. Na tabela seguinte, estão representados os resultados de um levantamento realizado com 180 pessoas, na praça de alimentação de um shopping center, sobre seus gastos em uma refeição. Gastos (R$) Nº de pessoas 5 10 63 10 15 x + 54 15 20 2x 20 25 x/2 a) Qual é o valor de x? b) Que porcentagem do total de entrevistados gasta de R$ 20,00 a R$ 25,00 por refeição? c) Que porcentagem do total de entrevistados gasta menos de R$ 15,00 por refeição? 2.2. Distribuição de Frequência - Variável Contínua Devemos optar por uma variável contínua na representação de uma série de valores quando o número de elementos distintos da série for grande. Isto ocorre quando os valores assumidos pela variável pertencem a um determinado intervalo real, com pouca coincidência de valores. Neste caso, os dados serão agrupados em classes ou intervalos, que podem ser do tipo aberto, semiaberto ou fechado. Convencionaremos que cada intervalo construído será do tipo semiaberto (fechado à esquerda e aberto à direita): a ├ b significa [a, b[ = { x R│a x < b } Exemplo. Considere a série de valores das emissões de óxido de enxofre (em t) emitidas por uma indústria em 30 dias: 5 14 6 9 20 9 8 9 15 11 25 13 5 14 15 15 18 15 16 19 16 10 16 7 21 20 23 25 24 12 Para construção da Distribuição de Frequência - Variável Contínua introduziremos os seguintes conceitos: a) Rol – consiste em descrever os valores da variável em ordem crescente: 5 5 6 7 8 9 9 9 10 11 12 13 14 14 15 15 15 15 16 16 16 18 19 20 20 21 23 24 25 25 b) Amplitude Total (A.T.) – diferença entre o maior e o menor valor da amostra, ou seja: A.T. = mínmáx XX . Temos: A.T. = 25 – 5 = 20t c) Nº de classes (k) – embora não exista um critério rígido, podendo o pesquisador adotar o número de intervalos ou classes de sua preferência, os critérios mais usuais são: - Critério da raiz: k = n - Critério de Sturgers: k = 1 + 3,3.log n , onde n representa o total de elementos da amostra; Adotando o critério de Sturgers, vem: k = 1 + 3,3.log n = 1+3,3.log30 = 5,8 6 classes. Prof. Ivonaldo Pacheco Santana 11 d) Amplitude do intervalo de classe (h) – devemos adotar intervalos de mesma amplitude h, tal que h k AT . Para os valores acima, temos: ...33,3 6 20 h , adotaremos 4h . A tabela de frequência correspondente é: i Emissões de Oxido de SO2 if nº de dias iX 1 5 ├ 9 5 7 2 9 ├ 13 6 11 3 13 ├ 17 10 15 4 17 ├ 21 4 19 5 21 ├ 25 3 23 6 25 ├ 29 2 27 Total 30 A coluna iX indica o ponto médio da classe, cuja intenção é obter um valor representativo de classe. É obtido através da média aritmética entre os extremos do intervalo, ou seja, 2 ba X i . Dessa forma, 71 X significa que as 5 (cinco) emissões do intervalo 5 ├ 9 podem ser consideradas como 7t. 2.3. Tipos de frequências Obtidas a partir da frequência absoluta convém destacar as frequências relativa, acumulada e acumulada relativa, cujo objetivo é ampliar as formas de interpretação da distribuição: Frequência Relativa ( ir f ) – representa a razão entre a frequência absoluta da classe e a frequência total, pode ser expressa no modo percentual como ir f (%); %100. n f f iri Frequência Acumulada ( iF ) – representa a soma ou acumulo da frequência absoluta desde a 1ª classe até uma classe de ordem i , ki ; k i ii fF 1 Frequência Acumulada Relativa )( ir F - representa a razão entre frequência acumulada da classe a frequência total %100. n F F iri Aplicando esses conceitos à tabela das emissões de óxido de enxofre emitidos por uma indústria em 30 dias, obtemos: i Emissões de Oxido de SO2 if nº de dias iX ir f ir f (%) iF %)( ir F 1 5 ├ 9 5 7 0,1666 16,67 5 5,00 2 9 ├ 13 6 11 0,2 20 11 36,66 3 13 ├ 17 10 15 0,3333 33,33 21 70,00 4 17 ├ 21 4 19 0,1333 13,33 25 83,33 5 21 ├ 25 3 23 0,1 10 28 93,33 6 25 ├ 29 2 27 0,0666 6,67 30 100,00 Total 30 --- 1,00 100 --- --- Prof. Ivonaldo Pacheco Santana 12 Convém agora que façamos a interpretação das frequências obtidas. Suponha a linha )4( i da tabela: Das 30 emissões de óxido de enxofre emitidas por essa indústria em 30 dias, verificou-se que 4 delas estão no intervalo de 17 ├ 21 toneladas representando 15% do total das emissões. Também é possível afirmar que 25 das emissões ou 83,33% foram inferiores a 21 toneladas. EXERCÍCIOS 04. A tabela a seguir mostra as quantidades (em toneladas) de óxidos de enxofre emitidas por uma indústria em 80 dias: TONELADAS DE ÓXIDO FREQUÊNCIA 5,0 → 9,0 3 9,0 → 13,0 10 13,0 → 17,0 14 17,0 → 21,0 25 21,0 → 25,0 17 25,0 → 29,0 9 29,0 → 32,0 2 Responda: a) Em quantos dias foram emitidos óxidos de enxofre com valores maiores ou iguais 21t e menores que 25t ? b) Que porcentagem de dias representa uma emissão desse óxido abaixo de 25t ? c) Até que classe de emissão desse óxido estão incluídos 50% dos dias? d) Que porcentagem de dias representa uma emissão igual ou superior à 13t ? 05. Foram testadas 30 lâmpadas. Os tempos de duração em horas foram: 300 600 750 1100 400 900 405 320 770 800 520 950 1050 390 670 450 430 530 480 800 280 700 312 800 1000 900 290 350 485 315. Construa uma tabela de distribuição de frequências. Use o critério de Stugers para determinação do nº de classes e adote classes de amplitudes constantes. 06. Vinte e cinco jovens de até 15 anos foram selecionados para participar de um programa desenvolvido pela Secretaria e Esportes de uma cidade cujo objetivo consiste na formação de futuros jogadores de vôlei. As alturas dos jovens (em metro) são dadas a seguir: 1,82 1,77 1,79 1,74 1,73 1,81 1,82 1,69 1,71 1,78 1,78 1,88 1,72 1,65 1,75 1,78 1,73 1,82 1,84 1,74 1,76 1,79 1,83 1,76 1,70 a) A partir da menor altura encontrada, agrupe os dados em classes pelo critério da raiz e faça a tabela de freqüência correspondente. b) Em visita ao centro de treinamento, um técnico estrangeiro sugeriu que pelo menos 48% dos jovens deveriam ter estatura superior ou igual a 1,80 m. Quantos jovens nessas condições devem ser incorporados ao atual grupo, de acordo com tal sugestão? Use os dados agrupados no item a. Prof.Ivonaldo Pacheco Santana 13 2.4. Representações Gráficas Outra forma de apresentação da organização, resumo e descrição de um conjunto de dados ocorre através dos gráficos estatísticos. Esses devem contribuir com conclusões sobre a evolução do fenômeno em estudo ou sobre como se relacionam os valores da série, devem ser autoexplicativos e de fácil compreensão. Estudaremos o gráfico de barras (verticais ou horizontais), o gráfico de linha, o gráfico de setores, o pictograma, o histograma, o polígono de frequência e o polígono de frequência acumulada. 2.4.1. Gráficos para variável qualitativa Os gráficos de barras (horizontais ou verticais), os gráficos de setores (ou de pizza) e o gráfico de linhas (poligonal) são os mais utilizados na representação de variáveis categorizadas, dessa forma, as frequências de observações são mostradas cada nível ou categoria da variável. Gráfico de barras Os gráficos de barras verticais apresentam os dados por meio de colunas (retângulos) dispostos em posição vertical. A altura de cada retângulo é proporcional a frequência (absoluta ou relativa) dos valores observados. Exemplo. O gráfico abaixo mostra a distribuição da população mundial separada por continente. O continente americano apresenta-se divido em América do Norte e América Latina/Caribe. Observando esse gráfico é possível afirmar que: a) Em 2015 a população mundial era de 7349,4 milhões de habitantes, ou seja, aproximadamente 7 bilhões e 349 milhões de habitantes; b) A população no continente americano superava a população da Europa, mas não superava a população da África; c) A razão entre as populações dos dois continentes mais populosos era aproximadamente 3,7; d) A população da América do Norte em 2015 representava 4,86% da população mundial. Prof. Ivonaldo Pacheco Santana 14 Os gráficos de barras horizontais apresentam os dados por meio de barras (retângulos) dispostos em posição horizontal. O comprimento de cada barra é proporcional a frequência (absoluta ou relativa) dos valores observados. Exemplo. Observando esse gráfico é possível afirmar que: a) A menor taxa de mortalidade infantil em 2013 ocorreu na Região Sul; b) A taxa de mortalidade infantil da região Nordeste superou, aproximadamente, 10,5% da taxa da região Sudeste; É possível a utilização de barras múltiplas com intuito comparativo das frequências entre duas ou mais categorias Exemplo. Observando esse gráfico é possível afirmar que: a) Em 2009, 48,1% da população da região sudeste, com idade igual ou superior a 10 anos era usuária de internet; b) Em 2005, os percentuais de usuários de internet, com idade igual ou superior a 10 anos, nas regiões Norte e Nordeste eram praticamente iguais; Prof. Ivonaldo Pacheco Santana 15 Gráfico de linhas (poligonal) É um tipo de gráfico muito utilizado para representar o comportamento de um conjunto de valores ao longo de um período. Consiste na obtenção de pontos de forma semelhante aos pontos do plano cartesiano, ligados por segmentos de retas. Exemplo. Exemplo. Analise o gráfico abaixo e classifique as afirmações em verdadeiras (V) ou falsas (F). a) O percentual de jovens de até 14 anos vem caindo desde 1940. b) A máxima diferença entre os percentuais de jovens de até 14 anos e adultos com 60 anos ou mais foi registrada no Censo de 1960. c) Se a população brasileira em 2010 era de aproximadamente 190 milhões, então mais de 40 milhões de habitantes tinham até 14 anos. d) Se o Censo de 2000 indicava uma população de 14450000 idosos no Brasil, então a população brasileira ultrapassava a barreira dos 175 milhões de pessoas. Prof. Ivonaldo Pacheco Santana 16 Expectativas dos Dicentes do CEFET-SE. JULHO 2004 2 44 28 8 6 Ótima Boa Ruim Péssima Ñ Respondeu Fonte: 3º MB Gráfico de setores Obtido através da divisão do círculo em setores circulares proporcionais às frequências absolutas ou relativas da variável, é utilizado para comparar cada valor ou categoria com o total, através da regra de três: total ---------- 360° ----------- 100% parte ----------- x° ------------ y % Exemplo. Considere a pesquisa realizada com 88 alunos dos cursos médio, técnico e tecnólogo do CEFET/SE perguntados sobre suas expectativas em relação a qualidade dessa instituição de ensino em 2004: Expectativa N° de alunos if (%) ir f Ótima 2 2 Boa 44 50 Ruim 28 32 Péssima 8 9 Não respondeu 6 7 Total 88 100 Cada valor de frequência aferida aos atributos da variável “Expectativa” fica representada por um setor circular. O ângulo de cada setor é: Ótima Boa Ruim Péssima Não respondeu 88 ----- 360º 88 ----- 360º 88 ----- 360º 88°----- 360° 88° ----- 360° 2 ----- 1x ° 44 ----- 2x º 28 ----- 3x º 8 ------ 4x 6 ---- 5x º 81x 2x = 180º 5,1143x 334x 5,245x Expectativa dos alunos do CEFET sobre a qualidade dessa instituição/ Julho de 2004 Boa Ruim Péssima Ótima Não respondeu Fonte: Pesquisa realizada pelas alunas do CEFET-SE - Elza Guimarães, Marcela Couto, Mary Exemplo. De acordo com o gráfico abaixo, determine: Prof. Ivonaldo Pacheco Santana 17 a) As medidas aproximadas dos ângulos dos setores correspondentes a Minas e Paraná b) O número de baianos que viviam no Estado de São Paulo em 2000 Exemplo. Numa escola, os alunos devem optar por um, e somente um, dos três idiomas: inglês, espanhol ou françês. A distribuição da escolha de 180 alunos está indicada pelo gráfico a seguir. Sabendo que o ângulo do setor representado pelos alunos que escolheram inglês mede 252º e que apenas 18 alunos optaram por estudar francês, determine: a) a medida do ângulo correspondente a francês. b) o número de alunos que optaram por espanhol e a medida do ângulo correspondente. Gráficos Pictóricos Consiste num gráfico animado por figuras relacionadas ao assunto em destaque, também utilizado para quantificar informações. Possuem forte apelo visual, chamando atenção e curiosidade do leitor, por isso, muito utilizado nos meios de comunicação. Exemplos. Prof. Ivonaldo Pacheco Santana 18 2.4.2. Gráficos para variável quantitativa O histograma, o polígono de frequência e o polígono de frequência acumulada são os gráficos mais adequados a representação das distribuições da variável quantitativa onde as frequências de observações são relacionadas a cada valor ou conjunto de valores de uma variável. Histograma Gráfico usado para representar valores assumidos por uma variável quantitativa quando estes estão agrupados em classes. Semelhante ao gráfico de barras, porém com retângulos justapostos; o comprimento da basede cada retângulo coincide com a amplitude da classe e a altura corresponde a frequência da classe representada. Dessa forma, a área do histograma fica proporcional à soma das frequências da distribuição. Polígono de Frequência Gráfico de linha poligonal obtido pela ligação dos pares ordenados ii fx , onde ix representa o ponto médio da classe e if a respectiva frequência absoluta. Para visualização do polígono admitimos uma classe anterior à primeira e outra posterior à última, ambas de frequência nula. È possível traçá-lo conjuntamente ao histograma. Exemplo. Considere a distribuição da amostra das medidas das alturas (dadas em cm) de 100 Indivíduos: Classes fi fri Fi Fri xi 151 |- 156 4 0,04 4 0,04 153,5 156 |- 161 4 0,04 8 0,08 158,5 161 |- 166 11 0,11 19 0,19 163,5 166 |- 171 33 0,33 52 0,52 168,5 171 |- 176 17 0,17 69 0,69 173,5 176 |- 181 17 0,17 86 0,86 178,5 181 |- 186 9 0,09 95 0,95 183,5 186 |- 191 5 0,05 100 1,00 188,5 Total 100 1,00 - - - Histograma e Polígono de Frequência Simples 0 5 10 15 20 25 30 35 Classes fi 151 156 161 166 171 176 181 186 191 Prof. Ivonaldo Pacheco Santana 19 Polígono de Frequência Acumulada ou Ogiva de Galton É um gráfico de linha poligonal obtido pela ligação dos pares ordenados ii Fb , onde ib e iF representam respectivamente o limite superior e a frequência acumulada da classe i . O gráfico começa no limite inferior da 1ª classe (frequência acumulada zero) e termina no limite superior da última classe (frequência acumulada igual ao tamanho da amostra). Exemplo. Construa o histograma, o polígono de frequência e o polígono de frequência acumulada da seguinte distribuição: i Emissões de SO if nº de dias iX 1 5 ├ 9 5 7 2 9 ├ 13 6 11 3 13 ├ 17 10 15 4 17 ├ 21 4 19 5 21 ├ 25 3 23 6 25 ├ 29 2 27 Total 30 Polígono de Frequência Acumulado 0 10 20 30 40 50 60 70 80 90 100 Classes Fi 151 156 161 166 171 176 181 186 191 Prof. Ivonaldo Pacheco Santana 20 EXERCÍCIOS 7. Uma pesquisa feita com 336 adolescentes de um condomínio, sendo 50% de cada sexo, revela alguns problemas de saúde. A soma dos dados percentuais ultrapassa 100%, pois cada adolescente entrevistado pôde apresentar mais de um problema. a) Quantos jovens são hipertensos? b) Quantos jovens têm problemas cardíacos na família? c) Com esses dados seria possível construir um gráfico de setores? 8. O gráfico seguinte mostra a evolução mensal da balança comercial brasileira de abril de 2014 a abril de 2015. a balança comercial é a diferença (nesta ordem) entre as exportações e as importações de um país, em um determinado período a) Em que meses as importações brasileiras superaram as exportações? b) Se, em abril de 2015, as exportações totalizaram 15,156 bilhões de dólares, determine o total das importações nesse mês. c) Em qual data do período considerado a diferença entre as exportações e importações (nessa ordem) foi máxima? 9. (UF-PE) O consumo anual de café em estabelecimentos comerciais no Brasil, de 1999 a 2002, está ilustrado no gráfico abaixo. Admitindo esses dados, analise as alternativas a seguir, justificando: a) O consumo cresceu linearmente de 2000 a 2002. b) Entre 2000 e 2002 o crescimento percentual foi superior a 6%. c) O crescimento percentual em 2001 foi igual ao crescimento % em 2002 (crescimento relativo ao ano anterior). d) Em 2001 o crescimento percentual (em relação a 2000) foi inferior a 4%. e) A média anual de consumo foi superior a 13 milhões de sacas. Prof. Ivonaldo Pacheco Santana 21 10. Analisando o gráfico de barras abaixo, classifique em V ou F cada sentença seguinte, justificando: a) Se esse conjunto de dados fosse representado em um gráfico de setores, o ângulo correspondente a região sul seria menor que 90°. b) O nº de emissoras da região Sudeste supera a soma do nº do nº de emissoras das regiões Nordeste, Centro-Oeste e Norte. c) Supondo que Goiás concentre 60% das emissoras de sua re gião, o percentual de emissoras do país representado por este estado é menor que 5%. 11. Observe o gráfico a seguir: Responda: a) A partir de que ano é possível afirmar que a participação masculina tornou-se decrescente e a feminina crescente? b) Em um grupo de 500000 trabalhadores, no ano de 2001, qual era a diferença entre o n° de homens e de mulheres? c) Em que anos a diferença entre a participação masculina e a feminina não excedeu 20 pontos percentuais? d) Em que anos ela ultrapassou 23 pontos percentuais? 12. O gráfico abaixo mostra queda nas operações com cheques e o avanço nas operações com cartões de crédito. Os valores referem-se às quantidades de transações efetuadas (em milhões). Assinale V ou F nas afirmativas seguintes, justificando as falsas: a) As transações efetuadas com cartões aumentaram a cada ano no período considerado. b) De 1993 a 2002 registrou-se queda de aproximadamente 45% nas transações efetuadas com cheques. c) O crescimento percentual das transações com cartões aumentou 560% no período de 1993 a 2002. Prof. Ivonaldo Pacheco Santana 22 13. Uma pesquisa realizada com 800 pessoas às vésperas de um feriado prolongado tinha como pergunta principal: ‘ O que você pretende fazer nesses quatro dias?’ Os resultados são dados na tabela seguinte: Intenção Número de pessoas Descansar em casa 240 Viajar 360Passear na própria cidade 160 Trabalhar 40 Faça um gráfico de setores para representar esses resultados. 14. Em uma cidade, o mercado de leite é disputado por quatro marcas: X,Y,Z e W. Os resultados de uma sondagem a propósito da marca preferida, realizada com 400 consumidores, estão parcialmente apresentados na tabela e no gráfico seguinte Determine: a) a diferença entre o número de consumidores que preferem Z a W; b) a diferença entre os ângulos correspondentes a X e Y. 15. (Unesp-SP). O gráfico, publicado pela revista Veja de 28/7/99, mostra como são divididos os 188 bilhões de reais do orçamento da União entre os setores de saúde, educação, previdência e outros. Se os 46 bilhões de reais gastos com a previdência fossem totalmente repassados aos demais setores, de modo que 50% fossem destinados à saúde, 40% à educação e os 10% aos outros, determine o aumento que o setor de saúde teria: a) em reais; b) em porcentagem, em relação à sua dotação inicial, aproximadamente. Marca de preferência Freqüência absoluta X 230 Y 120 Z ∆ W ∆ Prof. Ivonaldo Pacheco Santana 23 16. Considerando o gráfico, responda às perguntas a seguir. a) Qual a medida aproximada do ângulo do setor que representa cada região? b) Que número representa as empresas de software instaladas no Sudeste? c) Qual a participação percentual de Santa Catarina e São Paulo na região em que cada Estado de situa? 17. No pictograma abaixo está representada a queda na área desmatada anualmente em uma floresta de certo país, devido à maior fiscalização dos órgãos governamentais, no período de 2012 a 2016. Cada árvore do gráfico representa 25 mil hectares de floresta desmatada. Sabendo que 1 hectare equivale a 10000 m2 , determine a área, em Km2, correspondente à superfície de floresta desmatada em 2013 e em 2015. 18. O histograma seguinte mostra as temperaturas máximas diárias registradas em 80 dias durante um verão na cidade do RJ. a) Em quantos dias a temperatura máxima manteve-se abaixo dos 38°C? b) Em quantos dias a temperatura máxima variou de 36°C a 42°C? c) O dono de uma barraca de praia disse que o carioca costuma tomar 1 litro de cerveja na praia por dia quando a temperatura está abaixo de 32°C e que, para cada 2°C de aumento da temperatura, esse consumo sobe 10% (em relação ao consumo anterior). Se um carioca foi à praia nesses 80 dias, quantos litros de cerveja consumiu ao todo, de acordo com essa previsão? Prof. Ivonaldo Pacheco Santana 24 3.0. Curva de Frequência – Curva Polida O contorno do polígono de freqüência (linha poligonal) pode tender a uma curva, denominada curva de freqüência. Para isto empregamos o método do polimento. Assim, enquanto o polígono de freqüência nos mostra a imagem real do fenômeno estudado, a curva de freqüência nos mostra a imagem tendencional. Esse procedimento não nos dará certeza absoluta de que a curva obtida – curva polida – seja tal qual a curva resultante para um grande número de dados ou classes de intervalos, no entanto, ela se assemelha mais à curva de freqüência do que ao contorno do polígono de freqüência. A curva polida corresponde a eliminação dos vértices da linha poligonal através da fórmula: 4 2 11 iiic fff f i Onde: ic f é a frequência calculada da classe considerada; if é a frequência absoluta da classe considerada; 1if é a frequência absoluta da classe anterior a classe considerada; 1if é a frequência absoluta da classe posterior a classe considerada; Exemplo. Esboce a curva polida da seguinte distribuição: i Emissões de SO if nº de dias ic f 1 5 ├ 9 5 4 2 9 ├ 13 6 6,8 3 13 ├ 17 10 7,5 4 17 ├ 21 4 5,3 5 21 ├ 25 3 3 6 25 ├ 29 2 1,8 Total 30 ---- Prof. Ivonaldo Pacheco Santana 25 3.1. Formas das curvas de freqüência Curvas em forma de sino As curvas em firma de sino caracterizam-se pelo fato de apresentarem um valor máximo na região central. Fenômenos pesquisados como peso de adultos, inteligência medida em testes mentais oferecem distribuições em forma de sino. Essas curvas podem ser simétricas ou assimétricas. Curva simétrica Esta curva caracteriza-se por apresentar o valor máximo no ponto central e os pontos eqüidistantes desse ponto terem a mesma frequência. Curvas assimétricas Na prática, não se encontram distribuições perfeitamente simétricas. As distribuições obtidas de medidas reais são mais ou menos assimétricas, em relação á freqüência máxima. Assim, as curvas correspondentes a tais distribuições apresentam a cauda de um lado da ordenada máxima mais longa que a do outro. Se a cauda mais longa fica a direita é chamada assimétrica positiva, se a cauda se alonga à esquerda, chama-se assimétrica negativa. Assimétrica Positiva Assimétrica Negativa Prof. Ivonaldo Pacheco Santana 26 GABARITO 1. %17;17,0;68%;45;45,0 ;09,0;36%;23;23,0%;6;24 ljihg fedcba 2. Número de peças defeituosas por caixa xi Número de caixas fi 0 28 1 12 2 5 3 2 4 1 Total 48 3. a) x = 18% b) 5% c) 75% 4. a) 17 dias b) 86,25% c) até a 4ª classe ( 17 21) estão incluídos 40 dias d) 83,75% 5. Tempo (h) fi fri (%) Fi 280 417 10 33,33 10 417 554 6 20 16 554 691 2 6,66 18 691 828 6 20 24 828 965 3 10 27 965 1102 3 10 30 30 100 6. a) Distribuição: b) No mínimo 10 jovens Altura (em metros) f i f r f r (%) 1,65 1,70 2 0,08 8 1,70 1,75 7 0,28 28 1,75 1,80 9 0,36 36 1,80 1,85 60 0,24 24 1,85 1,90 1 0,04 4 7. a) 117 jovens; b) 54 jovens; c) tabagismo, taxa de colesterol alta, diabetes, alimentação incorreta, estresse e histórico familiar. d) não, pois cada adolescente pôde apresentar mais de um problema. 8. a) Set 2014, Out 2014, Nov 2014, Jan 2015, e Fev 2015. b) 14,666 bilhões de dólares. c) Jun 2014 9. a) V; cresceu 0,4 milhões por ano b) V; foi de 6,06% c) F; de 2000 a 2001: 3,03% e de 2001 a 2002: 2,94% d) V; 3,03% e) V; foi de 13,375 milhões de sacas. 10.a) F; 95º b) V; (Sudeste)1064 > (Nordeste + Centro-Oeste + Norte)1056 c) V; 4,72% 11. a) 1992 b) H: 58,5% de 500000 = 292500 e M: 41,5% de 500000 = 207500 Dif. =85000 c) < 20%: 1997 a 2002 > 23%: 1990 a 1993 12. a) V b) V c) F, aumentou 460% 14. a) z – w = 30 consumidores b) X – Y = 99º 15. a) 23 bilhões; b) 121% 16. a) Sudeste (153º), Sul (114°), Nordeste (65°), Centro-Oeste (26°), Norte (2°) b) 2300 c) São Paulo: 56,8%; Santa Catarina: 42,7% 17. 2013: 2500 km2 ; 2015: 625 km2 18. a) 62 dias; b) 48 dias; c) 103,65 litros
Compartilhar