Baixe o app para aproveitar ainda mais
Prévia do material em texto
Obra de propriedade exclusiva do CENED, com Direitos Autorais registrados no Cartório Marcelo Ribas – 1° Reg. Tits. e Docs. Brasília/DF, Registro n° 762.125 CENTRO DE EDUCAÇÃO PROFISSIONAL Unidade de Aperfeiçoamento e Qualificação Av. Transversal Quadra 21 Conjunto “M” Lote 23 Edifício CENED Paranoá - DF CEP: 71.572-113 Formação continuada do profissional Aperfeiçoamento e atualização em diversas áreas Cursos de aperfeiçoamento para o público I N T R O D U Ç Ã O À E S T A T Í S T I C A Carga horária: 180 horas Elaboração: Equipe Técnica do CENED Brasília, Distrito Federal. CENED – Centro de Educação Profissional DISTRITO FEDERAL Fones: (61) 3369-6366 / 3408-1576 / 9605-9723 www.ceneddf.com.br E-mail: secretaria@ceneddf.com.br http://www.ceneddf.com.br/ CENED – Centro de Educação Profissional CENTRO DE EDUCAÇÃO PROFISSIONAL Unidade de Aperfeiçoamento e Qualificação Av. Transversal Quadra 21 Conjunto “M” Lote 23 Edifício CENED Paranoá - DF CEP: 71.572-113 INFORMAÇÕES DO CURSO Curso: INTRODUÇÃO À ESTATÍSTICA Quantitativo de seções: 4 Carga horária: 180 horas TUTORIA DO CENED Para esclarecer dúvidas, trocar idéias, apresentar sugestões, o cursista do CENED poderá recorrer à tutoria, pelos seguintes meios: Telefones: (61) 3369-6366 / 3408-1576 / 9605-9723 E-mail: tutoria@ceneddf.com.br Fax: (61) 3369-5192 Pessoalmente: Avenida Transversal Quadra 21 Conj. “M” Lote 23 Edifício CENED Paranoá–DF CEP: 71.572-113 www.ceneddf.com.br E-mail: tutoria@ceneddf.com.br E-mail: secretaria@ceneddf.com.br E-mail: informacoes@ceneddf.com.br O CENED TEM A SATISFAÇÃO DE ESTAR COM VOCÊ NESTE CURSO! Introdução à Estatística 2 mailto:tutoria@ceneddf.com.br http://www.ceneddf.com.br/ CENED – Centro de Educação Profissional Objetivos 5 Introdução 6 SEÇÃO 1 A Organização e o Resumo de Dados 1.1. Os Tipos de Dados 7 1.2. Apresentação de Dados 8 1.3. Séries Estatísticas 13 1.4. Dados Absolutos e Dados Relativos 16 1.5. Gráficos 19 Verificação da Aprendizagem 1 26 SEÇÃO 2 A Distribuição de Freqüência 2.1. Elementos de uma Distribuição de Freqüência 32 2.2. Distribuição de Freqüência sem Intervalos de Classe 36 2.3. Representando Graficamente uma Distribuição de Freqüência 37 2.4. Alguns Estudos de Caso 39 Verificação da Aprendizagem 2 45 SEÇÃO 3 A Descrição dos Dados por Médias 3.1. A Média Aritmética 51 3.2. A Moda 58 3.3. A Mediana 61 3.4. Alguns Estudos de Caso 67 Verificação da Aprendizagem 3 70 SEÇÃO 4 A Descrição da Variabilidade 4.1. A Dispersão dos Dados 74 4.2. Amplitude Total 74 4.3 Variância e Desvio Padrão 77 4.4. Coeficiente de Variação de Pearson 84 Verificação da Aprendizagem 4 85 Introdução à Estatística 3 CENED – Centro de Educação Profissional SEÇÃO 5 A Distribuição Normal 5.1. Propriedades da Curva Normal 87 Verificação da Aprendizagem 5 91 SEÇÃO 6 População e Amostra 6.1. População 93 6.2. Amostra 93 6.3. Amostragem 93 Verificação da Aprendizagem 6 97 APÊNDICE A - Tabela de Números Aleatórios 99 APÊNDICE B – O Arredondamento de Números Reais 100 APÊNDICE C – Proporções de Área sob a Curva Normal Padronizada 101 Respostas das Verificações da aprendizagem 103 Referências Bibliográficas e Eletrônicas 104 DOCUMENTO DE PROPRIEDADE DO CENED TODOS OS DIREITOS RESERVADOS Nos termos da legislação sobre direitos autorais, é proibida a reprodução total ou parcial deste documento, por qualquer forma ou meio – eletrônico ou mecânico, inclusive por processos xerográficos de fotocópia e de gravação – sem a permissão expressa e por escrito do CENED. Introdução à Estatística 4 CENED – Centro de Educação Profissional OBJETIVOS Desenvolver os inúmeros sistemas utilizados para observação, coleta e análise dos dados, que se referem a um fenômeno, possibilita uma série de aplicações em todas as áreas do conhecimento humano. Identificar os procedimentos e os métodos colocados à disposição pela Estatística que permeiam as relações quantitativas ou qualitativas necessárias para o exercício de qualquer atividade que necessite de uma base e interpretações corretas sobre conjuntos de informações. Apresentar algumas construções pertinentes à Estatística Descritiva de modo comentado e por alguns estudos de caso, para afastar a apreensão causada, na maioria dos estudantes, por alguns aparatos instrumentais que se referem a cálculos complicados. Destacar o caráter pedagógico que envolve a apresentação de conceitos básicos em Estatística e que constitui preocupação constante na apresentação das definições e construções aqui realizadas. Introdução à Estatística 5 CENED – Centro de Educação Profissional INTRODUÇÃO Com origem nas práticas sociais relativas a trocas, a compras e vendas, da contagem e da necessidade do estabelecimento de mecanismos que forneçam informações sobre uma população, os métodos estatísticos destacam-se como especialidades da Matemática Aplicada. O Dicionário Eletrônico Houaiss atribui a Schmeitzel (1679-1747) a introdução do uso do termo em alemão Statistik, com origem na palavra status (estado), do latim científico, adicionada à terminação -isticum. No entanto, a prática de coletar, organizar e interpretar dados remonta à Antiguidade, quando o registro de nascimento e morte de indivíduos ou o controle das riquezas faziam-se necessários para fins de coleta de impostos e das outras atribuições dos estadistas. Depois de seu reconhecimento como ciência, a Estatística ampliou consideravelmente as aplicações, estendendo-se a todos os ramos de pesquisa. Ao responder a questão “O que é Estatística?”, Witte (2005, p.2) analisa os papéis desempenhados pela Estatística Descritiva, pela Estatística Inferencial e suas sobreposições. Deposita na Estatística Descritiva o fazer mais antigo, que se ocupa da organização e do resumo de dados oriundos de observações e levantamentos realizados, por meio de tabelas, gráficos e médias. A seguir, fixa a estatística inferencial “como um produto do século XX, e que fornece uma variedade de ferramentas que permitem tirar conclusões gerais que extrapolam as observações existentes”. O autor alerta para a sobreposição desses dois métodos, pois “dependendo de sua perspectiva, um determinado conjunto de observações pode exemplificar tanto a estatística descritiva quanto a inferencial” (WITTE, 2005, p.3). Para cumprir o objetivo de fornecer o entendimento de um fenômeno a partir de dados observados, os números devem ser considerados inseridos em um contexto que possibilite a compreensão. Assim, uma escala temporal de comparação ou os métodos utilizados para produção de dados fornecem os contextos necessários para a criação de dispositivos apropriados à análise de situações diversas. Nessas inter-relações, o planejamento de amostras ou experimentos a serem realizados e a avaliação dos estudos obtidos constroem métodos formais utilizados para obter conclusões. A confiança atribuída às conclusões obtidas pela aplicação de inferências estatísticas advém da utilização da linguagem probabilística. Nesse caso, a aplicação de conceitos da Teoria da Probabilidade agrega à análise dos dados a certeza na aleatoriedade dos métodos utilizados para a obtenção desses dados. A escolha do acaso para a seleção dos sujeitos de um experimento permite, sempre, questionar quanto à freqüência da ocorrência de uma mesma resposta caso um método seja utilizado inúmeras vezes. Visando possibilitar o entendimento de um fenômeno e a tomada de decisões, os métodos estatísticos permitem estabelecer o seguinte fluxo entre os dados e as conseqüentes informações obtidas pormeio deles: COLETA ⇒ ORGANIZAÇÃO ⇒ ANÁLISE ⇒ INTERPRETAÇÃO. A construção das seções a seguir pretende permitir o entendimento desse percurso, desde a obtenção até a interpretação dos dados relativos a um experimento estatístico. Introdução à Estatística 6 CENED – Centro de Educação Profissional SEÇAO 1 A ORGANIZAÇÃO E O RESUMO DE DADOS 1.1. OS TIPOS DE DADOS Um conjunto de observações realizadas em uma pesquisa ou experimento relacionados ao estudo de um fenômeno propicia o estabelecimento de dados que permitirão a realização de uma análise estatística. São diversas as formas em que podem ser apresentados os dados relativos a um fenômeno observado. Esses dados são classificados em grupos segundo suas características e, para denominá-los, são determinadas variáveis como representantes dos dados no domínio em que ocorrem. Uma variável determina o conjunto de resultados possíveis de um fenômeno ou experimento. Assim, conforme o conjunto, numérico ou não, de variação de uma variável que representa os dados de um experimento, essa variável pode pertencer a uma das seguintes categorias: VARIÁVEIS QUANTITATIVAS QUALITATIVAS Discretas Contínuas Ordinais Nominais As definições de cada uma dessas categorias são dadas a seguir: 1.1.1. Variáveis Quantitativas. Provenientes de contagem, medidas ou resultado de alguma quantificação, os dados, que são enumerados, podem ser representados por variáveis subdivididas em duas classes: variáveis quantitativas discretas ou variáveis quantitativas contínuas. As variáveis discretas resultam de experimentos para os quais a contagem determina a utilização de dados do Conjunto dos Números Inteiros, enumerável. Por exemplo, o número de alunos de uma classe, as idades (em anos) de uma população, o número de visitantes mensais a um museu, etc. As variáveis contínuas refletem as medidas obtidas em um intervalo contínuo, resultados de medidas, como, por exemplo, os salários dos empregados de uma empresa, os pesos ou alturas de alunos de uma escola etc. 1.1.2. Variáveis Qualitativas. Também denominados de categóricas, as variáveis qualitativas dividem-se em duas classes: as variáveis qualitativas nominais e as variáveis qualitativas ordinais. As variáveis qualitativas nominais são constituídas pelas categorias de dados que não permitem uma mensuração por revelarem atributos ou qualidades como, por exemplo, o sexo, a cor dos olhos, os nomes dos bairros de uma cidade etc. As variáveis qualitativas ordinais representam uma classificação em ordem numérica, como por exemplo, uma distribuição dos dados em anos ou a posição seqüencial numérica dos elementos de um conjunto determinando uma ordenação. Introdução à Estatística 7 CENED – Centro de Educação Profissional 1.1.3. Exemplos. 1.1.3.1. Para os conjuntos de dados resultantes de observações individuais descritas em cada um dos itens a seguir, quais se referem a variáveis quantitativas (discretas ou contínuas) ou qualitativas (nominais ou ordinais)? OBSERVAÇÕES VARIÁVEL (a) População de uma cidade. Quantitativa discreta. O número de habitantes de uma cidade é dado em números inteiros. (b) Idade de uma população em anos. Quantitativa discreta. A idade de uma população em anos é dada em números inteiros. (c) Esporte praticado por uma população. Qualitativa nominal. Os esportes praticados por uma população são listados pelo nome de cada modalidade. (d) Tempo para assar bolos. Quantitativa contínua. A medida do tempo utilizado para assar um bolo não utiliza números inteiros. (e) Velocidade de um automóvel. Quantitativa contínua. A medida da velocidade utiliza números reais, por exemplo: 72,4 km/h. (f) Partido político de Deputados Federais. Qualitativa nominal. Os partidos políticos são listados nominalmente. (g) Ordem de chegada dos participantes de uma maratona. Qualitativa ordinal. A ordem de chegada dos participantes de uma maratona é dada por: 1º lugar, 2º lugar etc. 1.2. APRESENTAÇÃO DE DADOS. Para determinar as principais características de um conjunto de dados, basta construir formas de agrupamento que tornem mais fácil o seu manuseio, visualização e compreensão. Quando é realizado um experimento para explicar um certo fenômeno, os dados resultantes aparecem, em geral, desordenados, pois não receberam qualquer tratamento. Nesta forma são denominados Dados Brutos e têm pouca utilidade, pois não permitem a aplicação de ferramentas estatísticas que determinem informações importantes sobre o conjunto de dados disponíveis. Como exemplo de um grupamento de dados brutos, podem ser tomadas as idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X, agosto de 2007: Introdução à Estatística 8 CENED – Centro de Educação Profissional 21 17 19 23 18 17 19 32 23 23 18 35 23 22 18 19 34 26 21 21 19 26 27 31 29 22 23 22 18 17 25 27 45 28 18 20 19 27 30 18 Os dados discriminados, acima, são dados brutos por não terem sido submetidos a qualquer forma de tratamento. No entanto, basta tomar as quarenta observações em ordem crescente ou decrescente para que seja possível perceber uma série de informações antes indisponíveis. Quando apresenta os dados ordenados, a tabela é denominada rol. Assim, tomadas em ordem crescente, as idades dos alunos do curso de Administração da Faculdade X são as seguintes: 17 18 18 19 21 22 23 26 28 32 17 18 19 19 21 23 23 27 29 34 17 18 19 20 22 23 25 27 30 35 18 18 19 21 22 23 26 27 31 45 Nesta nova disposição dos dados, é possível perceber facilmente que a menor idade é de 17 anos e a maior é de 45 anos. Neste caso, a diferença entre as idades, denominada amplitude total do conjunto de observações, é obtida pelo cálculo da diferença entre o maior dado e o menor dado: 45 – 17 = 28 anos. Mesmo nesta nova configuração de apresentação dos dados, aparecem dificuldades na delimitação da faixa etária e contagem de quantos alunos têm uma certa idade. Para aperfeiçoar as informações originárias desse conjunto de dados, eles podem ser agrupados em classes ou intervalos, observadas as seguintes determinações: - todos os dados devem constar em algum dos intervalos; - um dado não pode pertencer a dois intervalos distintos; - o extremo superior de um intervalo coincide com o extremo inferior do intervalo seguinte; - o número de intervalos deve ser maior do que cinco e inferior a vinte e cinco. Para a determinação do número eficaz “k” de intervalos que representarão convenientemente um conjunto de “n” observações, basta utilizar a expressão: nk log32,31+= , no qual o logaritmo é calculado com base 10. Introdução à Estatística 9 CENED – Centro de Educação Profissional Esta relação é obtida pela aplicação do logaritmo base 10 à igualdade 12 −= kn , que determina as k possíveis divisões de um intervalo ao meio. Assim: No exemplo das alturas, o cálculo para o número de classes fornece: Logo, é suficiente tomar 7 classes para determinar uma boa distribuição dos dados. Para precisar o comprimento ou amplitude, de cada um dos intervalos, basta dividir a amplitude total 28 das alturas do experimento pelo número calculado para as classes. Assim: h = 28 : 7 = 4 Com esta escolha, somando 4 a cada limite inferior, as classes serão as seguintes: A LIMITE INFERIOR LIMITE SUPERIOR 1ª 17 21 exclusive 2ª 21 25 exclusive 3ª 25 29 exclusive 4ª 29 33 exclusive 5ª 33 37 exclusive 6ª 37 41 exclusive 7ª 41 45 Neste caso, o sétimo intervalo incluirá o dado 45, ficando, portanto, fechado em seus dois extremos: a cota inferior e a cota superior. Em algumas situações, é necessário reajustar o comprimento dos intervalos para obter resultados que melhor se adaptem à combinação a ser descrita. Por exemplo, se estrategicamente for determinado que o comprimento dos intervalos, que descreverão as idades dos alunos, deve ser 5, a descriçãodada acima conduzirá à seguinte divisão de intervalos: nknknkkn log32,31 301,0 log1 2log log12log)1(log +=⇒+=⇒=−⇒−= 31,660,1.32,3140log32,31 =+=+=k Introdução à Estatística 10 CENED – Centro de Educação Profissional B LIMITE INFERIOR LIMITE SUPERIOR 1ª 17 22 exclusive 2ª 22 27 exclusive 3ª 27 32 exclusive 4ª 37 42 exclusive 5ª 42 47 Ou, devido à necessidade de um melhor ajuste dos intervalos, podem ser tomados os limites de 15 a 45, de modo a obter cinco classes que dependem de uma combinação mais compatível com a utilização da base dez. Embora tenha início em 2 unidades a menos do que a menor idade do conjunto de observações, esta escolha permitirá um maior equilíbrio entre os dados: C LIMITE INFERIOR LIMITE SUPERIOR 1ª 15 20 exclusive 2ª 20 25 exclusive 3ª 25 30 exclusive 4ª 35 40 exclusive 5ª 40 45 Para descrever o experimento das idades dos alunos em cada uma das divisões dadas acima, anota-se pelo símbolo ├ , que identifica a inclusão da cota inferior do intervalo e a exclusão da cota superior, que passa a participar da classe seguinte. Assim, obter-se-á para os casos A, B e C: Faixa etária Nº de alunos Faixa etária Nº de alunos Faixa etária Nº de alunos 17 ├ 21 15 17 ├ 22 18 15 ├ 20 14 21 ├ 25 11 22 ├ 27 11 20 ├ 25 12 25 ├ 29 7 27 ├ 32 7 25 ├ 30 8 29 ├ 33 4 32 ├ 37 3 30 ├ 35 4 33 ├ 37 2 37 ├ 42 0 35 ├ 40 1 37 ├ 41 0 42 ├ 47 1 40 ├ 45 1 41 ├ 45 1 TOTAL 40 TOTAL 40 TOTAL 40 Tabela 1.1. Distribuição das freqüências das idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X, em agosto de 2007, casos A, B e C. Fonte: dados hipotéticos. B C A Introdução à Estatística 11 CENED – Centro de Educação Profissional Em qualquer uma das três situações analisadas acima, a soma das freqüências deve ser igual a quarenta, que representa o número total de observações no experimento das idades. É visível a melhor distribuição de freqüências obtida no caso C da Tabela 1.2.1, uma vez que nenhuma das classes tem ocorrência zero e a diferença entre o máximo (14) e o mínimo (1) do número de ocorrências é menor do que em A e B. 1.2.1. Tabelas Para sintetizar as informações obtidas no experimento, os valores correspondentes a cada uma das classes podem ser apresentados em uma tabela constituída por um quadro que resume um conjunto de observações. Uma tabela é composta pelos seguintes elementos: NOME DESCRIÇÃO Corpo É o espaço da tabela constituído por linhas e colunas que contêm os dados do experimento Cabeçalho É a linha situada acima do corpo da tabela e que especifica o conteúdo de cada uma das colunas. Coluna Indicadora É a primeira coluna, com especificação do conteúdo de cada uma das linhas da tabela. Linhas São as retas imaginárias horizontais contendo os dados correspondentes a cada uma das colunas. Casa ou célula É o espaço destinado a uma única informação, como correspondente ao entrecruzamento de uma coluna e uma linha. Título É o total das informações necessárias para informar ao quê, onde e quando correspondem os dados tabelados. Aparece no topo da tabela. Numeração Utiliza-se uma numeração para identificar a tabela em futuras referências. Fonte, notas de rodapé Correspondem a informações complementares sobre o assunto tratado, bem como da origem dos dados. Aparece no rodapé da tabela, em fonte menor do que a usada para o corpo dela. No caso de dados que são utilizados somente para exemplificar uma situação descrita, utiliza-se: dados hipotéticos ou fonte fictícia. Introdução à Estatística 12 CENED – Centro de Educação Profissional Tabela 1.2. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 O detalhamento do exemplo das idades, determina a seguinte tabela, na qual cada uma das colunas, linhas ou células pode ser nominada, no Brasil, conforme determinações do Instituto Brasileiro de Geografia e Estatística: Faixa etária Nº de alunos 15 ├ 20 14 20 ├ 25 12 25 ├ 30 8 30 ├ 35 4 35 ├ 40 1 40 ├ 45 1 TOTAL 40 Assim, existem normas para a disposição dos dados nas tabelas que se destinam a apresentar estatísticas. Como um exemplo, para apresentar um valor nulo, é utilizado um travessão, três pontos quando os valores são desconhecidos, um sinal de interrogação quando existem dúvidas quanto ao valor exato e zero quando o valor é insignificante em relação aos demais dados. 1.3. SÉRIES ESTATÍSTICAS. A tabela 1.2. fornece uma razoável melhoria na qualidade de informação obtida na análise das idades dos alunos. No entanto, existem outras quantidades que podem ser relacionadas às classes e vir a fornecer um melhor entendimento do experimento realizado. Uma tabela que exponha uma distribuição de um conjunto de dados estatísticos é denominada série estatística. Uma série estatística pode apresentar uma distribuição de dados em função da época, do local ou das categorias envolvidas no experimento e será, assim, classificada como histórica, geográfica ou categórica. 1.3.1. SÉRIES HISTÓRICAS (ou cronológicas, ou temporais). Quando o período de ocorrência dos dados é informado segundo intervalos de tempo, a série histórica recebe a denominação de Série Histórica. Título Numeração Cabeçalho Coluna indicadora Linhas Célula Fonte: dados hipotéticos. Rodapé Introdução à Estatística 13 CENED – Centro de Educação Profissional 1.3.1.1. Exemplo. O preço do petróleo, no Brasil, em alguns dias do mês de novembro de 2000, pode ser visualizado como a seguinte série histórica: Tabela 1.3 EVOLUÇÃO DO PREÇO DO BARRIL DE PETRÓLEO – Novembro 2000 DIA PREÇO MÉDIO (US$) 1º 30,51 14 33,17 29 32,68 FONTE: IBGE 1.3.2. SÉRIES GEOGRÁFICAS (ou espaciais, ou territoriais, ou de localização). Sendo especificadas segundo locais ou regiões de acontecimento em um período de tempo fixo, as séries recebem a denominação de Série Geográfica. 1.3.2.1. Exemplo. Num levantamento para empreendimentos turísticos são apontados os locais mais procurados pelos brasileiros. Assim, a série é dada por: Distribuição dos Estados brasileiros que as pessoas gostariam de conhecer – 1999 ESTADOS BRASILEIROS Nº PESSOAS Rio Grande do Sul 80 Minas Gerais 170 Rio de Janeiro 380 São Paulo 320 Bahia 190 Paraná 60 FONTE: fictícia 1.3.3. SÉRIES CATEGÓRICAS (ou específicas). Na medida em que os dados são classificados segundo especificações ou categorias próprias, a série estatística é denominada Série Categórica. Desse modo, as séries qualitativas podem ser avaliadas em situações que preservem as características dos dados, de acordo com seu universo. 1.3.3.1. Exemplo. O número de alunos matriculados no 1º ano do Ensino Médio em certa escola, segundo o gênero, determinará quantas alunas e quantos alunos efetivaram a matrícula em 2006, na Escola X: Introdução à Estatística 14 CENED – Centro de Educação Profissional GÊNERO Nº DE ALUNOS Feminino 1241 Masculino 1135 1.3.4. SÉRIES CONJUGADAS. Em um grande número de apresentações dos resultados de um experimento, é necessário exibir mais de uma variável na mesma tabela. Neste caso, é realizada uma conjugação de mais de uma série. Ficam, então, estabelecidas classificações em duas ordens, uma designada pelas linhas da tabela (classificação horizontal) e a outra pelas colunas da tabela (classificação vertical). Como exemplo, é apresentado, por meio de uma tabela conjugada, um estudo de algumas comparações entre área, população, PIB, exportações e importações dos países participantes do Mercosul com o total mundial. Indicadores Macroeconômicos do Mercosul, 2004. Indicador Mercosul Total Mundial Unidade Área 11.863 133.378 mil km2 População 226 6.300 milhões PIB 776,5 40.887 US$ bilhões Exportação* 106 7.274 US$ bilhões Importação * 67 7.557 US$ bilhões* dados de 2003 Fonte: Mercosul (2004); BNDES (2004); (http://www.desenvolvimento.gov.br/sitio/secex/secex/) Neste caso, a série conjugada é denominada série geográfica-categórica, pois relaciona os locais com as categorias que determinam informações sobre a performance dos países que formam o Mercosul frente ao total de outros países. Em outras situações, é necessário estabelecer séries geográfica-históricas, por relacionar os locais (países) com os períodos que determinam temporalmente os acontecimentos. Podem-se também construir séries categórica-históricas ou qualquer outra combinação útil para melhor descrever as informações disponíveis sobre algum fenômeno estudado. MATRÍCULA NO 1º ANO DO ENSINO MÉDIO – Escola X 2006 Fonte: fictícia Introdução à Estatística 15 CENED – Centro de Educação Profissional 1.3.4. DISTRIBUIÇÃO DE FREQÜÊNCIAS. Este tipo de tabela será analisada com muitos detalhes na Seção 2, mas já foi apresentada na Tabela 1.2. sobre as idades de um grupo de estudantes. 1.4. DADOS ABSOLUTOS E DADOS RELATIVOS. 1.4.1. Como resultado da coleta direta de dados resultantes de um experimento, os dados absolutos resultam de contagens ou medidas que não foram previamente tratadas. Embora deixem transparecer fielmente o resultado de um experimento, os dados absolutos, em geral, não permitem a apresentação conclusiva procurada. Assim, são construídos os dados relativos, como uma comparação entre as partes e o todo do universo determinado pelo experimento em estudo. 1.4.2. As razões (divisões ou quocientes) estabelecidas entre os dados absolutos obtidos em um experimento e o total de dados são denominadas dados relativos. Na realidade, os dados relativos permitem realizar comparações entre os dados e são representados por formas porcentuais, por coeficientes ou taxas. 1.4.2.1. Porcentagem. Retomando as informações obtidas na Tabela 1.2., as quantidades de alunos por faixa etária podem ser comparadas com 40, o número total de alunos participantes do experimento das idades. FAIXA ETÁRIA Nº ALUNOS CÁLCULO DA PORCENTAGEM Idade de 15 a 20, exclusive 14 Idade de 20 a 25, exclusive 12 Idade de 25 a 30, exclusive 8 Idade de 30 a 35, exclusive 4 Idade de 35 a 40, exclusive 1 Idade de 40 a 45, exclusive 1 Os cálculos acima realizados podem, então, ser dispostos em uma tabela que considerará somente as informações referentes às porcentagens, como dados relativos, pois comparam cada uma das quantidades de alunos com o total 40. %35 40 1400 40 10014 == × %30 40 1200 40 10012 == × %20 40 800 40 1008 == × %10 40 400 40 1004 == × %5,2 40 100 40 1001 == × %5,2 40 100 40 1001 == × Introdução à Estatística 16 CENED – Centro de Educação Profissional Tabela 1.4. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007. Faixas etárias Nº de alunos Alunos (%) 15 ├ 20 14 35,0 20 ├ 25 12 30,0 25 ├ 30 8 20,0 30 ├ 35 4 10,0 35 ├ 40 1 2,5 40 ├ 45 1 2,5 TOTAL 40 100,0 A utilização dos dados percentuais é muito útil para determinar, comparativamente, a quantidade de alunos em cada faixa etária. 1.4.2.2. Coeficientes. Os coeficientes são as razões obtidas entre o número de ocorrências em dada classe e o total de observações. Ao invés de tomar 100% como representante do todo, toma-se 1 como base de comparação, de modo que a Tabela 1.3. apresentará os seguintes dados relativos: Faixas etárias Nº de alunos Alunos (coeficientes) 15 ├ 20 14 0,350 20 ├ 25 12 0,300 25 ├ 30 8 0,200 30 ├ 35 4 0,100 35 ├ 40 1 0,025 40 ├ 45 1 0,025 TOTAL 40 1,000 Para obter os coeficientes acima descritos, basta realizar os seguintes cálculos: Tabela 1.3. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 Fonte: Fictícia. Fonte: Fictícia. Introdução à Estatística 17 CENED – Centro de Educação Profissional FAIXA ETÁRIA Nº ALUNOS CÁLCULO DA PORCENTAGEM Idade de 15 a 20, exclusive 14 Idade de 20 a 25, exclusive 12 Idade de 25 a 30, exclusive 8 Idade de 30 a 35, exclusive 4 Idade de 35 a 40, exclusive 1 Idade de 40 a 45, exclusive 1 Alguns coeficientes são usualmente determinados pela sua denominação, como por exemplo: Há outros coeficientes comuns nas análises de diversos dados econômicos ou sociais. Cada um desses coeficientes tem valores entre 0 e 1. 1.4.2.2. Índices. Quando as grandezas que estão sendo comparadas não se referem à mesma unidade de medida, as razões obtidas nessa comparação são denominadas índices. Alguns exemplos usuais de índices são: 350,0 40 14 = 300,0 40 12 = 200,0 40 8 = 100,0 40 4 = 025,0 40 1 = 025,0 40 1 = população da total snascimento de número natalidade de eCoeficient osmatriculad alunos de número sdesistente alunos denúmero escolar evasão de eCoeficient = = população produçãodatotalvalor Capitaperodução x = = = Pr 100 acronológic idade mental idadelIntelectua Quociente região da superfície região da populaçãoaDemográfic Densidade Introdução à Estatística 18 CENED – Centro de Educação Profissional Tabela 1.5. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 GRÁFICO EM BARRAS GRÁFICO EM BARRAS 1.5. GRÁFICOS Como uma importante forma visual de apresentação de dados, um gráfico estatístico tem como objetivo permitir uma rápida percepção do fenômeno em estudo. Para tanto, os gráficos devem ser apresentados de modo simples, com clareza e ser determinados por uma extrema veracidade. Os gráficos mais utilizados para apresentação de dados são os diagramas, que são classificados como: Gráficos em Colunas ou em Barras, Gráficos em Colunas ou em Barras Múltiplas, Gráficos em Linha ou Curva ou Gráficos em Setores. 1.5.1. Gráficos em Colunas ou em Barras A apresentação dos dados por meio de gráficos em colunas ou em barras prevê a apresentação de cada uma das classes envolvidas nas informações obtidas no experimento e são feitas pela utilização de retângulos dispostos em colunas ou na posição horizontal. No caso da disposição em colunas, as bases dos retângulos correspondem ao comprimento das classes determinadas no experimento e as alturas dos retângulos são proporcionais aos dados. Na disposição em barras, as disposições das bases dos retângulos ficam invertidas, como mostra o seguinte exemplo, que corresponde ao experimento das idades mostrado na Tabela 1.2.: Classes Faixas etárias Nº de alunos 1ª 15 ├ 20 14 2ª 20 ├ 25 12 3ª 25 ├ 30 8 4ª 30 ├ 35 4 5ª 35 ├ 40 1 6ª 40 ├ 45 1 TOTAL 40 GRÁFICO EM COLUNAS Gráfico 1.1. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007. 0 2 4 6 8 10 12 14 16 1ª 2ª 3ª 4ª 5ª 6ª Classes Nº d e al un os 0 5 10 15 1ª 2ª 3ª 4ª 5ª 6ª Classes Nº de alunos Fonte fictícia Fonte fictícia Introdução à Estatística 19 CENED – Centro de Educação Profissional Tabela 1.6. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007. GRÁFICO EM COLUNAS GRÁFICO EM BARRAS Existe uma exigência quanto ao comprimento dos espaços entre colunas ou barras: não deve ser menor do que a metade da largura dos retângulos nem maior do que dois terços dessa largura. Uma simples visualização gráfica demonstra a densa concentração das idades inferiores a 30 anos. 1.5.2. Gráficos em Colunas ou em Barras Múltiplas Para representar simultaneamente dois ou mais fenômenos com a finalidade de compará-los, são dispostas colunas ou barras que determinam uma proporcionalidade entre os dados estatísticos e as áreas dos retângulos que formam as colunas e as barras que os representam. Classes Faixa etária Nº de alunos Alunos (%)1ª 15 ├ 20 14 35,0 2ª 20 ├ 25 12 30,0 3ª 25 ├ 30 8 20,0 4ª 30 ├ 35 4 10,0 5ª 35 ├ 40 1 2,5 6ª 40 ├ 45 1 2,5 TOTAL 40 1,0 0 5 10 15 20 25 30 35 40 1ª 2ª 3ª 4ª 5ª 6ª Faixa Etária Al un os Nº de alunos % Fonte: Fictícia. 0 10 20 30 40 1ª 2ª 3ª 4ª 5ª 6ª Faixas Etárias Alunos % Nº de alunos Gráfico 1.2. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 Fonte: Fictícia. Introdução à Estatística 20 CENED – Centro de Educação Profissional Gráfico 1.3. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007. É interessante observar que, neste exemplo, as colunas ou barras que se referem às porcentagens preservam entre si a proporcionalidade existente entre os dados. Este fato não poderia deixar de ocorrer, pois, conceitualmente, as porcentagens preservam uma proporção com os dados que as originam. No entanto, nem sempre é assim. Quando são comparadas situações excludentes ou que não possuem uma relação entre si, essas variações, em geral, têm comportamentos independentes. 1.5.3. Gráficos em Linha ou Curva Para representar os dados obtidos em um experimento por meio de um sistema de coordenadas cartesianas, que se caracteriza por ter os eixos coordenados formando ângulo de 90º e interceptando-se na origem dos eixos, basta tomar as classes como abscissas (representadas no eixo das abscissas ou eixo x) e os dados como ordenadas (representados no eixo das ordenadas ou eixo y). No exemplo das idades, pode ser tomada a seguinte representação: Os dados referentes a cada faixa etária são plotados por pontos que, interligados, formam uma poligonal. Esta poligonal recebe a denominação de gráfico em linha ou gráfico em curva. É interessante observar, mais uma vez, a densa concentração das idades inferiores a 30 anos, que ocorre na representação das primeiras faixas etárias. 1.5.4. Gráficos em Setores Pela divisão de um círculo em setores, é possível construir visualmente a participação de um dado no todo do universo considerado no experimento. O total é representado pela área do círculo, dividido em tantos setores quanto forem as partes, com áreas proporcionais aos dados representados nesses setores. A proporcionalidade é construída a partir de uma regra de três que considera os 360º do círculo como o todo. Não é recomendado construir uma representação gráfica em setores para experimentos com mais de sete classes. 0 2 4 6 8 10 12 14 16 1ª 2ª 3ª 4ª 5ª 6ª Classes Nº d e al un os Fonte: Fictícia Introdução à Estatística 21 CENED – Centro de Educação Profissional Tabela 1.7. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 No exemplo das idades, a partir da tabela anteriormente analisada e agora renomeada como Tabela 1.4., é possível construir um gráfico em setores que considera os percentuais abaixo calculados. Classes Faixa etária Nº de alunos 1ª 15 ├ 20 14 2ª 20 ├ 25 12 3ª 25 ├ 30 8 4ª 30 ├ 35 4 5ª 35 ├ 40 1 6ª 40 ├ 45 1 TOTAL 40 As proporções dos dados de cada faixa etária em relação ao total 40 tomado comparativamente a 360º são dadas por: O sexto setor repete a proporção do quinto setor. É interessante observar que: 126º + 108º + 72º + 36º + 9º + 9º = 360º Fonte: Fictícia º126 40 º36014 14 º36040 11 1 =⇒ × =⇒ − − xx x º108 40 º36012 12 º36040 11 1 =⇒ × =⇒ − − xx x º72 40 º3608 8 º36040 11 1 =⇒ × =⇒ − − xx x º36 40 º3604 4 º36040 44 4 =⇒ × =⇒ − − xx x º9 40 º3601 1 º36040 55 5 =⇒ × =⇒ − − xx x Introdução à Estatística 22 CENED – Centro de Educação Profissional Assim, o gráfico em setores associados a cada um desses ângulos é: Se os dados forem fornecidos em formas percentuais, basta multiplicá-los por 3,6 para obter o ângulo interno de cada um dos setores. A representação gráfica será a seguinte: 1.5.5. Histograma Para melhor representar dados quantitativos referentes a variáveis contínuas, é interessante apresentá-los em um gráfico que demonstre a proximidade dos agrupamentos. Assim, o gráfico mais comum para variáveis contínuas é o histograma. Gráfico 1.4 Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 Fonte: Fictícia. Fonte: Fictícia. Gráfico 1.5. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007. Faixas Etárias 14 12 8 4 1 1 15 ├ 20 20 ├ 25 25 ├ 30 30 ├ 35 35 ├ 40 40 ├ 45 Faixas Etárias 34% 30% 20% 10% 3% 3% 15 ├ 20 20 ├ 25 25 ├ 30 30 ├ 35 35 ├ 40 40 ├ 45 Introdução à Estatística 23 CENED – Centro de Educação Profissional Gráfico 1.6. Idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X. Agosto de 2007 0 2 4 6 8 10 12 14 16 15 ├ 20 20 ├ 25 25 ├ 30 30 ├ 35 35 ├ 40 40 ├ 45 Faixas Etárias Nº d e Al un os Também apresentado em colunas, o histograma caracteriza-se por não apresentar intervalos entre essas colunas, de modo a evidenciar a continuidade dos dados. Na Seção 2 os histogramas serão estudados com maior profundidade. No exemplo das idades, pode ser construído o seguinte histograma: 1.5.6. Considerações sobre a utilização de gráficos. A construção de gráficos para melhor descrever dados estatísticos exige a escolha de algumas estratégias que possibilitem a melhor organização e apresentação dos dados. Em primeiro lugar, é necessário examinar as características de cada variável e as relações com o universo analisado. Depois, realizar alguns resumos dos dados e simular gráficos correspondentes. É preciso lembrar que os gráficos constituem apenas um recurso pictórico com vistas a auxiliar o entendimento de um fenômeno em análise. Os gráficos em barras ou colunas apresentam uma visualização rápida e uma conseqüente comparação entre as categorias determinadas no experimento, enquanto um gráfico em setores permite visualizar a parte de cada categoria no todo. A construção de um gráfico em setores exige a inclusão de todas as categorias que contribuem para formar o total. Assim, para comparar apenas alguns segmentos de certo universo, é interessante utilizar um gráfico em barras ou colunas, que apresenta uma maior flexibilidade por não precisar refletir as informações relativas a todos os segmentos envolvidos, além de não exigir uma ordem na representação. Em geral, as categorias são representadas em ordem alfabética, ordenadas temporalmente, por ordem de importância ou pela preferência do analista de dados. O gráfico em linhas é considerado um dos mais importantes para apresentar dados observados ao longo do tempo, em intervalos igualmente espaçados, ou não. Essas seqüências são denominadas séries históricas ou séries temporais. Fonte: Fictícia. Introdução à Estatística 24 CENED – Centro de Educação Profissional Em geral, os pontos correspondentes aos dados são unidos por segmentos de reta de modo a formar um linha poligonal, embora não exista uma correspondência de observações intermediárias. Um gráfico em barras ou colunas que apresente as categorias ordenadas de modo decrescente é denominado diagrama de Pareto. Neste caso, o objetivo é tornar evidentes as observações numericamente superiores. Apresentados como um conjunto de retângulos com as bases dividindo um eixo horizontal de acordo com o comprimento das classes, as colunas de um histograma devem ter a mesma largura e cobrir toda a extensão dos valores que caracterizam a variável, sem espaço entre elas, a não ser que exista alguma classe com atribuição do valor nulo (ou vazia). Na apresentação de um gráfico em colunas ou barras, é conveniente construir aaltura do eixo vertical com o mesmo comprimento do eixo horizontal. Lembrar que esse tipo de gráfico é utilizado para representar dados qualitativos ou dados quantitativos discretos e que são semelhantes a histogramas, exceto pelo fato de não representarem a continuidade dos intervalos. Isto ocorre pela existência de lacunas entre os retângulos. Para representar uma distribuição de freqüência sem intervalos de classe, é usual tomar um diagrama em que os valores assumidos pela variável são representados por segmentos de reta verticais, com alturas proporcionais às respectivas freqüências. Também é importante não esquecer de fornecer os rótulos para os eixos e um título para o gráfico. Introdução à Estatística 25 CENED – Centro de Educação Profissional VERIFICAÇÃO DA APRENDIZAGEM 1 1. Analise o gráfico a seguir, escolhendo a opção que reflita uma falha na representação dos dados: (a) as linhas auxiliares horizontais não auxiliam a observação dos dados. (b) a altura do eixo vertical é muito grande em relação ao comprimento do eixo horizontal. (c) o gráfico mais indicado para dados quantitativos discretos não é o histograma. (d) o gráfico mais indicado, no caso, é o de barras. (e) o gráfico mais indicado, no caso, é o de setores. 2. Certa concessionária de automóveis registra o número de dias que 50 proprietários de automóveis zero quilômetros, vendidos em janeiro de 2007, levam para realizar a primeira revisão do carro. Os dados observados são apresentados na tabela a seguir: 107 204 62 54 135 110 88 94 51 67 65 124 45 91 54 115 121 56 12 54 56 112 68 64 103 120 81 65 72 87 78 92 56 72 66 72 68 58 101 82 93 65 72 81 59 181 63 102 86 90 Neste caso, qual é a afirmativa verdadeira? (a) A unidade utilizada para representar os dados é a quilometragem do automóvel. (b) A apresentação, dada acima, informa os dados brutos, de modo que não facilita a descrição de padrões interessantes para análise do experimento. (c) As freqüências apresentadas são relativas, de modo a facilitar a descrição de padrões interessantes para análise do experimento. (d) O menor prazo observado para a realização da primeira revisão foi de 51 dias. (e) Os dados apresentados são qualitativos e não podem ser descritos em classes numéricas contínuas. Idades dos participantes de um concurso fotográfico, Cidade X, 2007. 0 5 10 15 20 25 12 14 16 18 20 22 24 Idades N º d e pa rt ic ip an te s Fonte: fictícia Introdução à Estatística 26 CENED – Centro de Educação Profissional 3. Um diagrama de Pareto: (a) é um gráfico em barras ou colunas que apresenta as categorias ordenadas de modo decrescente. (b) é um gráfico em barras ou colunas que apresenta as categorias ordenadas de modo crescente. (c) tem como o objetivo esconder as observações numericamente superiores. (d) é um gráfico em setores, que permite uma melhor comparação entre as partes e o todo do fenômeno observado. (e) é apresentado como um conjunto de retângulos adjacentes, de modo a representar convenientemente uma variável contínua. 4. A distribuição do número de inscritos no vestibular para os três cursos oferecidos por uma faculdade, no primeiro semestre de 2004, foi plotado em um gráfico de setores, conforme apresentado abaixo. Qual das seguintes informações pode ser inferida por uma análise visual do que está graficamente representado? (a) A soma das porcentagens representadas no gráfico não reflete o total do número de candidatos inscritos para o vestibular dos dois cursos. (b) O gráfico não responde às questões: O quê? Onde? Quando? (c) Os dados seriam melhor representados por um histograma. (d) É maior o número de candidatos inscritos para os vestibulares de Letras e Pedagogia do que para o curso de Administração. (e) É maior o número de candidatos inscritos para o vestibular de Administração do que para os cursos de Letras e Pedagogia. Candidatos inscritos no vestibular, Faculdade X, Primeiro Semestre de 2004 51% 29% 20% Administração Letras Pedagogia Fonte: dados fictícios Introdução à Estatística 27 CENED – Centro de Educação Profissional 5. A tabela dada abaixo apresenta duas distribuições para os graduados na Faculdade X, em 2004, por área de estudo. Assim, uma das colunas informa as freqüências de graduados do sexo masculino e, a outra, do sexo feminino. GRADUADOS EM 2004 POR ÁREA DE ESTUDO E SEXO, FACULDADE X. ÁREA DE ESTUDO MASCULINO FEMININO Administração 37 28 Letras 9 24 Pedagogia 4 18 Total 50 70 Os dados plotados na tabela permitem inferir que: (a) foram vinte e quatro os graduados em Letras, em 2004, na Faculdade X. (b) os dados apresentados na tabelas são relativos. (c) mais da metade dos graduados da Faculdade X, em 2004, são do curso de Administração. (d) 70% dos graduados pela Faculdade X, em 2004, são do sexo feminino. (e) o curso de Letras apresenta o menor número de formandos da Faculdade X, em 2004. 6. No endereço http://www.ibge.com.br/cidadesat/default.php podem-se obter informações disponibilizadas pelo Instituto Brasileiro de Geografia e Estatística – IBGE - sobre os municípios brasileiros, obtidas em 01.04.2007. Para o DF, com área de 5.802 km2 e população informada de 2.455.903 habitantes, é possível concluir que: (a) existem 2.455 habitantes por km2. (b) a densidade demográfica é de menos de 424 habitantes por km2. (c) a densidade demográfica é de 0,2%. (d) a densidade demográfica é de 2.455 mil habitantes. (e) existem 2 famílias por km2. Fonte: dados fictícios Introdução à Estatística 28 http://www.ibge.com.br/cidadesat/default.php CENED – Centro de Educação Profissional 7. A representação política na cidade de Águas Lindas de Goiás, em 2004, foi escolhida por voto direto de 48.039 eleitores. Para comparar os votos válidos com os votos inválidos, os dados foram plotados no gráfico a seguir. Pode-se afirmar que: (a) o gráfico foi construído em linhas. (b) 40% dos votos foram considerados válidos. (c) o gráfico em barras constitui uma boa escolha para plotar dados quantitativos discretos. (d) foram tomadas três classes para analisar os votos: a dos votos válidos, a dos votos inválidos e a do número total de votos. (e) é impossível comparar os votos válidos com os votos inválidos. 8. Dentre as tabelas dadas abaixo, determine a que melhor representa o seguinte gráfico de colunas múltiplas: ELEIÇÃO PARA REPRESENTAÇÃO POLÍTICA, ÁGUAS LINDAS DE GOIÁS - GO, 2004 (Em 1.000 votos) 0 10 20 30 40 50 Votos válidos Votos inválidos PLANTAÇÃO E PRODUÇÃO DE BANANA, LUZIÂNIA - GO, 2003 E 2005 0 50 100 150 200 250 2003 2005 Quantidade Produzida (em toneladas) Área Plantada (em hectares) Fonte: IBGE Fonte: IBGE Eleitores (em 1.000) Introdução à Estatística 29 CENED – Centro de Educação Profissional (a) ANO Quantidade Produzida (em toneladas) Área Plantada (em hectares) 2003 120 15 2005 200 25 (b) ANO Quantidade Produzida (em toneladas) Área Plantada (em hectares) 2003 180 15 2005 200 25 (c) ANO Quantidade Produzida (em toneladas) Área Plantada (em hectares) 2003 200 25 2005 200 15 (d) ANO Quantidade Produzida (em toneladas) Área Plantada (em hectares) 2003 200 15 2005 120 25 (e) ANO Quantidade Produzida (em toneladas) Área Plantada (em hectares) 2003 120 25 2005 200 15 9. Pelo gráfico abaixo, qual é a quantidade de pessoas sem água encanada na África, se, no total, foram contabilizadas 1,1 bilhão de pessoas? (a) 28 milhões de pessoas. (b) 280 milhões de pessoas. (c) 308 milhões de pessoas. (d) 616 milhões de pessoas. (e) 1,1 bilhão de pessoas. Fonte: OMS População sem água encanada (em bilhões) 28% 2% 63% 7% África Europa Ásia América Latina e Caribe Introdução à Estatística 30CENED – Centro de Educação Profissional 10. Dada a tabela abaixo, classifique cada uma das variáveis consideradas: Nome Sexo Idade (em anos) Função Salário Preferência para Férias Anjos, Gabriel dos M 23 Auxiliar R$ 900,00 9º Bitencourt, Mateus M 34 Diretor R$ 3.500,00 1º Goya, Maria F 35 Professora R$ 2.400,00 8º Martins, Ana F 24 Secretária R$ 1.300,00 3º Santos, Carolina F 43 Professora R$ 2.400,00 4º Silva, Felipe M 31 Assistente R$ 1.700,00 2º Vieira, Moacir M 25 Professor R$ 2.400,00 5º Sain, Dora F 30 Professora R$ 2.400,00 6º Dario, Gabriela F 26 Professora R$ 2.400,00 7º (a) Nome Variável quantitativa nominal Sexo Variável quantitativa nominal Idade Variável quantitativa discreta Função Variável quantitativa nominal Salário Variável quantitativa contínua Férias Variável qualitativa ordinal (b) Nome Variável qualitativa discreta Sexo Variável qualitativa discreta Idade Variável quantitativa nominal Função Variável qualitativa discreta Salário Variável quantitativa contínua Férias Variável qualitativa ordinal (c) Nome Variável qualitativa nominal Sexo Variável qualitativa nominal Idade Variável quantitativa discreta Função Variável qualitativa nominal Salário Variável quantitativa discreta Férias Variável qualitativa ordinal (d) Nome Variável qualitativa nominal Sexo Variável qualitativa nominal Idade Variável quantitativa discreta Função Variável qualitativa nominal Salário Variável quantitativa contínua Férias Variável qualitativa ordinal (e) Nome Variável qualitativa nominal Sexo Variável qualitativa nominal Idade Variável quantitativa contínua Função Variável qualitativa nominal Salário Variável quantitativa contínua Férias Variável qualitativa ordinal Introdução à Estatística 31 CENED – Centro de Educação Profissional SEÇÃO 2 A DISTRIBUIÇÃO DE FREQÜÊNCIA 2.1. ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA. Os dados estatísticos resultantes de um experimento, cujas variáveis são quantitativas, são ordenados e contados em suas repetições, com a finalidade de dotá-los de uma estrutura condizente com os objetivos do experimento. Denomina-se freqüência ao número relacionado às vezes em que a variável aparece em determinada classe. A tabela que representa essa configuração dos dados é chamada distribuição de freqüência. Quando a variável é contínua, costuma-se agrupar os dados em intervalos. 2.1.1. Classe Os intervalos estabelecidos para variação da variável são denominados classes de freqüência ou classes. Para denominar uma determinada classe, é utilizada a notação i, com i = 1, 2, ..., n, sendo n o número total de classes. Na Tabela 1.2., que se refere ao exemplo das idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X, em agosto de 2007, foram construídas seis classes. Neste caso, n = 6 e i varia de 1 a 6. 2.1.2. Limites de uma Classe Os pontos extremos de uma classe recebem o nome de limites de classe, sendo il o limite inferior da classe e iL o limite superior da classe. Essas nomenclaturas são lidas como l índice i e L índice i. Ainda analisando a Tabela 1.2., os limite da 1ª classe são: limite inferior 15 e limite superior 20. Para a segunda classe, o limite inferior é 20 e limite superior 25, e assim por diante. Conforme foi salientado anteriormente, o limite superior de uma classe fica excluído dessa classe e integra a classe seguinte, como limite inferior. 2.1.3. Amplitude de uma Classe O comprimento da classe i, ou seja, a diferença ii lL − é denominado amplitude do intervalo da classe i e é anotada por hi, como diferença entre o limite superior e o limite inferior da classe. Assim: iii lLh −= No exemplo das idades, o comprimento da 1ª classe é dado por: h1 = L1 – l1 = 20 – 15 = 5 anos, valor que se repete nas outras cinco classes. Introdução à Estatística 32 CENED – Centro de Educação Profissional 2.1.4. Amplitude Total da Distribuição A diferença entre o limite superior da última classe (denominado Lmáx) e o limite inferior da primeira classe (denominado lmin) é chamada de amplitude total da distribuição e anotada por AT. Desse modo: AT = Lmáx - lmin No exemplo das idades, a amplitude total da distribuição é: AT = 45 – 15 = 30 anos. O experimento contemplou uma variação de 30 anos entre a menor e a maior idade dos alunos participantes. É interessante observar que existe uma relação entre a amplitude total da distribuição, o número de classes e a amplitude de cada intervalo de classe. 2.1.5. Ponto Médio de uma classe O ponto obtido pelo cálculo da média aritmética entre o extremo inferior da classe i é chamado ponto médio dessa classe e é anotado por xi. Portanto: No exemplo das idades, o ponto médio da primeira classe é: 2.1.6. Freqüência Simples (ou Absoluta) A freqüência de um valor ou da classe i, numa distribuição, é dada pelo número de observações relativas a esse valor ou classe e é anotada por fi , que é descrita por f índice i. No exemplo das idades, f1 = 14; f2 = 12; f3 = 8; f4 = 4; f5 = 1; f6 = 1. Observa-se que representa a soma de todas as freqüências e o total das observações realizadas no experimento. 2.1.7. Freqüência Relativa O resultado da razão entre a freqüência simples da classe i e a freqüência total é denominado freqüência relativa da classe i. No exemplo das idades, conforme apresentado na Tabela 1.7., a freqüência relativa da primeira classe é: 2 ii i Llx += anosx 5,17 2 2015 1 = + = ∑ = = 6 1 40 i if ⇒= ∑ if ffr 11 %.3535,040 14 11 oufrfr =⇒= Introdução à Estatística 33 CENED – Centro de Educação Profissional Do mesmo modo, podem ser calculadas as freqüências relativas das outras classes: A adição de todas as freqüências relativas fornece o total de 1 ou 100%. 2.1.8. Freqüência Acumulada A freqüência acumulada Fi da classe i é a soma das freqüências das classes k com ik ≤ , isto é, No exemplo das idades, é fácil calcular que: Sempre será obtido o valor total de observações envolvidas no experimento, no cálculo da última freqüência acumulada. Observando os dados, pode-se inferir, entre outras informações, que existem 26 alunos que têm idades inferiores a vinte e cinco anos e 39 alunos não completaram quarenta anos. ∑ = =++++= i k kiii fFouffffF 1 321 ... 40139 39138 38434 34826 261214 14 6543216 543215 43214 3213 212 11 =+=+++++= =+=++++= =+=+++= =+=++= =+=+= == ffffffF fffffF ffffF fffF ffF fF %3030,0 40 12 22 2 2 oufrfrf ffr i =⇒=⇒= ∑ %2020,0 40 8 33 3 3 oufrfrf f fr i =⇒=⇒= ∑ %1010,0 40 4 44 4 4 oufrfrf ffr i =⇒=⇒= ∑ %5,2025,0 40 1 55 5 5 oufrfrf f fr i =⇒=⇒= ∑ %5,2025,0 40 1 66 6 6 oufrfrf f fr i =⇒=⇒= ∑ Introdução à Estatística 34 CENED – Centro de Educação Profissional 2.1.9. Freqüência Acumulada Relativa. A freqüência acumulada Fi da classe i, ao ser dividida pelo número total de elementos observados no experimento, dá origem à freqüência acumulada relativa Fri da classe i. O experimento das idades fornecerá: Os valores obtidos nos cálculos das freqüências acumuladas relativas formam uma seqüência crescente e o último valor deve ser, sempre, igual a 1, por resultar da comparação do número total de observações consigo mesmo. Como um apanhado final dos conceitos desenvolvidos nesta seção, pode-se construir o seguinte quadro-resumo: SÍMBOLO NOME DESCRIÇÃO xi Ponto médio da i-ésima classe. É a média dos extremos da classe i. n Número de observações. É a quantidade total de observações. fi Freqüência da i-ésima classe. Total de observações da classe i. fri Freqüência relativa da classe. Obtida pela divisão de ni por n. Fi Freqüência acumulada até a i-ésima classe. Indica a quantidade de observações inferioresao limite superior da classe. Fri Freqüência acumulada relativa. Obtida pela divisão de Fi por n. É comum, por parte de quem estuda estes conteúdos pela primeira vez, enganar-se quanto ao papel da freqüência simples, da freqüência acumulada e de suas relativas. Portanto, é interessante ater-se um pouco a esses conceitos, pois serão largamente utilizados no cálculo das medidas de posição tratadas na Seção 3. Estendendo-se esses conceitos ao estudo das idades dos alunos, pode-se construir o quadro completo das freqüências do caso C da Tabela 1.1, apresentadas agora na Tabela 2.1.: .1 40 4098,0 40 39 95,0 40 3885,0 40 34 65,0 40 2635,0 40 14 6 6 5 5 4 4 3 3 2 2 1 1 ====== ====== ====== ∑∑ ∑∑ ∑∑ ii ii ii f F Fr f F Fr f FFr f F Fr f FFr f FFr Introdução à Estatística 35 CENED – Centro de Educação Profissional Classes xi fi fri Fi Fri 15 ├ 20 17,5 14 0,35 14 0,35 20 ├ 25 22,5 12 0,30 26 0,65 25 ├ 30 27,5 8 0,20 34 0,85 30 ├ 35 32,5 4 0,10 38 0,95 35 ├ 40 37,5 1 0,03 39 0,975 40 ├ 45 42,5 1 0,03 40 1 TOTAL 40 1 2.2. Distribuição de Freqüência sem Intervalos de Classe. Quando os dados de um experimento são qualitativos ou definidos por uma variável discreta, não é necessário referenciar-se a intervalos para denominar as classes de variação dos valores analisados. Neste caso, a distribuição é denominada distribuição sem intervalos de classe. Pode ser tomado como exemplo as classificações de doze filmes apresentados na cidade X durante um mês: 14 anos 18 anos 12 anos 14 anos 18 anos 14 anos 18 anos livre livre 18 anos 18 anos 12 anos Assim, para n = 12, a distribuição de freqüências pode ser estabelecida por: i Classificação (xi) fi fri Fi Fri 1 12 anos 2 0,17 2 0,17 2 14 anos 3 0,25 5 0,41 3 18 anos 5 0,41 10 0,83 4 livre 2 0,17 12 1,00 12 1 Tabela 2.1. Distribuição das freqüências das idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X, em agosto de 2007, caso C. Fonte: dados hipotéticos. Tabela 2.2. Distribuição das freqüências das classificações de filmes exibidos na cidade X, em agosto de 2007. Fonte: dados hipotéticos. Introdução à Estatística 36 CENED – Centro de Educação Profissional 2.3. Representando graficamente uma Distribuição de Freqüência. Muito importantes para informar padrões de dados ou para caracterizá-los visualmente, as formas de representação gráfica de uma distribuição de freqüência recebem as denominações de histograma, polígono de freqüência, polígono de freqüência acumulada ou curva de freqüência. Cada uma dessas representações é determinada por eixos coordenados cartesianos ortogonais, com a variável independente representada no eixo horizontal (das abscissas). O crescimento da variável contínua é representado da esquerda para a direita, no eixo horizontal, e de baixo para cima, no eixo vertical. 2.3.1. O histograma. Utilizado para visualizar dados quantitativos contínuos, um histograma é apresentado por barras adjacentes. Assim, a não existência de espaço entre as colunas vizinhas acentua a idéia de continuidade de dados quantitativos que representam variáveis quantitativas contínuas. Por outro lado, a apresentação das classes com a mesma largura determina que a diferenciação visual entre as características de cada classe realize-se pela comparação entre as alturas das colunas. A distribuição das idades analisada anteriormente será representada pelo seguinte histograma: É conveniente verificar, como foi analisado nas argumentações antecedentes, que, por meio de uma simples visualização gráfica, pode ser visualizada a densa concentração das idades inferiores a 30 anos na distribuição de freqüência. O polígono de frequência, obtido a partir desse polígono. Gráfico 2.1. Distribuição das freqüências das idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X, em agosto de 2007, caso C. 0 4 8 12 16 15 ├ 20 20 ├ 25 25 ├ 30 30 ├ 35 35 ├ 40 40 ├ 45 Fonte: dados hipotéticos. Introdução à Estatística 37 CENED – Centro de Educação Profissional 2.3.2. O polígono de freqüência. Como uma variação do modo de representação dos dados em um histograma, o polígono de freqüência, no entanto, pode ser construído diretamente de uma distribuição de freqüência. Para construí-lo, basta tomar os pontos do histograma correspondentes ao ponto médio xi de cada uma das classes e tomar o gráfico de linha por eles determinados. No exemplo das idades, os pares ordenados considerados serão (17,5; 14), (22,5; 12), (27,5; 8), (32,5; 4), (37,5; 1) e (42,5; 1), conforme os valores discriminados na Tabela 2.1. Uma transição pode ser construída entre a obtenção do histograma e do gráfico de linha: Um polígono de freqüência pode apresentar os seguintes formatos típicos: SIMÉTRICA (ou NORMAL) FORMA DE U ASSIMÉTRICA POSITIVA ASSIMÉTRICA NEGATIVA 0 5 10 15 15 ├ 20 20 ├ 25 25 ├ 30 30 ├ 35 35 ├ 40 40 ├ 45 0 5 10 15 15 ├ 20 20 ├ 25 25 ├ 30 30 ├ 35 35 ├ 40 40 ├ 45 Gráfico 2.2. Distribuição das freqüências das idades dos alunos da turma do 1º semestre do curso de Administração da Faculdade X, em agosto de 2007, caso C. Fonte: dados hipotéticos. Introdução à Estatística 38 CENED – Centro de Educação Profissional BIMODAL MULTIMODAL CURVA EM JOTA CURVA EM JOTA INVERTIDO 2.4. ALGUNS ESTUDOS DE CASO Com a intenção de construir uma análise abrangente dos conteúdos desenvolvidas nesta seção, os exemplos a seguir retomam vários conceitos a partir de uma situação simples para, finalmente, obter um gráfico que melhor descreva os dados analisados. 2.4.1 - Para a seguinte amostra da renda anual (em milhares de reais) das famílias de dada região geográfica, em agosto de 2007, obter cada um dos itens abaixo: 10 7 8 5 4 3 2 9 9 6 3 15 0 13 14 4 3 6 6 8 10 1 12 13 14 2 15 5 4 10 2 11 3 8 10 1 13 14 15 16 8 9 5 3 2 3 3 4 4 4 5 6 7 8 9 1 12 13 14 16 2.4.1.1. Agrupar os elementos em 6 classes, de amplitude 3. Introdução à Estatística 39 CENED – Centro de Educação Profissional Em primeiro lugar, é necessário ordenar os dados brutos fornecidos, de modo a obter um rol: 0 2 3 4 5 7 9 10 13 14 1 2 3 4 6 8 9 10 13 15 1 3 3 4 6 8 9 11 13 15 1 3 4 5 6 8 9 12 14 15 2 3 4 5 6 8 10 12 14 16 2 3 4 5 7 8 10 13 14 16 A segunda etapa consiste em agrupar os dados para determinar a freqüência de cada um deles e obter o total das observações: RENDA (Em R$ 1.000,00) fi 0 1 1 3 2 7 3 6 4 4 5 4 6 4 7 2 8 5 9 4 10 4 11 1 12 2 13 4 14 4 15 3 16 2 TOTAL 60 Finalmente, ao agrupar os dados em 6 classes, cada uma com amplitude 3, obtém-se: RENDA (Em R$ 1.000,00) fi 0├ 3 11 3├ 6 14 6 ├ 9 11 9 ├ 12 9 12 ├ 15 10 15 ├ 18 5 TOTAL 60 Introdução à Estatística 40 CENED – Centro de Educação Profissional 2.4.1.2. Construir um polígono de freqüências. O polígono de freqüências, obtido para a distribuição de freqüências de 2.4.1.1. é o seguinte: 2.4.1.3. Verificar se a distribuição é simétrica. A distribuição não é simétrica, pois o polígono de freqüências obtido determina uma curva assimétrica positiva. 2.4.2. - O diretor de uma IES particular deseja investigar a distribuição das idades dos alunos que prestaram o vestibular e conseguiram aprovação, independente do curso escolhido. A equipe responsável pelo estudo coletou os dados e montou a seguinte tabela: Tabela 2.3. Distribuição das Idades dos Alunos Aprovados no Vestibular IES X - 2002 Idade dos Alunos No de alunos - fi xi Fi - Freq.Acumulada fri (%) Fri (%) 15 | 120 | 180 | 960 | 1020 | 1140 | 1188 | 1200 TOTAL - - - FONTE: Fictícia. 0 2 4 6 8 10 12 14 16 0├ 3 3├ 6 6 ├ 9 9 ├ 12 12 ├ 15 15 ├ 18Re nd a (E m R $ 1. 00 0, 00 ) Gráfico 2.3. Distribuição das freqüências renda anual (em milhares de reais) das famílias da região geográfica X, em agosto de 2007. Introdução à Estatística 41 CENED – Centro de Educação Profissional Sabendo que a amplitude total é igual a 42, completar as classes e obter: (a) os pontos médios das classes, as freqüências simples, relativas e as relativas acumuladas. (b) a porcentagem de alunos aprovados no vestibular com idades entre o limite inferior da 3ª classe inclusive e o limite superior da penúltima classe exclusive. (c) o histograma da distribuição. (d) o polígono das freqüências acumuladas. Solução: Sabendo-se que a amplitude total é 42, pode-se determinar a amplitude de cada classe, bastando, para isso, dividir 42 pelo número de classes. Portanto, 42 : 7 = 6 e as classes envolvidas na distribuição de freqüências são: 15 | 21; 21 | 27; 27 | 33; 33 | 39; 39 | 45, 45 | 51 e 51 | 57. (a) Por outro lado, para obter os pontos médios de cada classe, basta tomar: Para calcular as freqüências absolutas, é necessário construir as subtrações entre as freqüências acumuladas de cada duas classes subseqüentes: f1 = 120; f2 = 180 -120 = 60; f3 = 960 -180 = 780; f4 = 1020 - 960 = 60; f5 = 1140 – 1020 = 120; f6 = 1188 - 1140 =48; f7 = 1200 – 1188 = 12. As freqüências relativas simples são calculadas pela proporção da freqüência de cada classe em relação ao total das 1200 observações: As freqüências relativas acumuladas são obtidas a partir das freqüências acumuladas fornecidas acima, na tabela incompleta: F1 = 120; F2 = 180; F3 = 960; F4 = 1020; F5 = 1140; F6 = 1188; F7 = 1200. 54 2 5751;48 2 5145;42 2 4539 ;36 2 3933;30 2 3327;24 2 2721;18 2 2115 765 4321 = + == + == + = = + == + == + == + = xxx xxxx .01,0 1200 1200;04,0 1200 1188;10,0 1200 1140 ;05,0 1200 1020;65,0 1200 960;05,0 1200 180;10,0 1200 120 765 4321 ====== ======== frfrfr frfrfrfr Introdução à Estatística 42 CENED – Centro de Educação Profissional Portanto: A obtenção desses dados permite completar a tabela, conforme solicitado no enunciado do exemplo: Tabela 2.3 Distribuição das Idades dos Alunos Aprovados no Vestibular - IES X - 2002 Idade dos Alunos No de alunos ( fi) xi Fi - Freq.Acumulada fri (%) Fri (%) 15 | 21 120 18 120 10 10 21 | 27 60 24 180 5 15 27 | 33 780 30 960 65 80 33 | 39 60 36 1020 5 85 39 | 45 120 42 1140 10 95 45 | 51 48 48 1188 4 99 51 | 57 12 54 1200 1 100 TOTAL 1200 - - 100 - FONTE: Fictícia (b) A porcentagem de alunos aprovados no vestibular com idades entre o limite inferior da 3ª classe inclusive e o limite superior da penúltima classe exclusive? Para calcular a porcentagem solicitada, basta construir uma adição entre as freqüências relativas da 3ª até a 6ª classe (penúltima classe): P(27≤x<51) = 65% + 5% + 10% + 4% = 84% (c) Qual é o histograma da distribuição? Gráfico 2.4. Distribuição das Idades dos Alunos Aprovados no Vestibular IES X - 2002 .00,1 1200 1200;99,0 1200 1188;95,0 1200 1140 ;85,0 1200 1020;80,0 1200 960;15,0 1200 180;10,0 1200 120 765 4321 ====== ======== FrFrFr FrFrFrFr 0 100 200 300 400 500 600 700 800 900 15 |- 21 21 |- 27 27 |- 33 33 |- 39 39 |- 45 45 |- 51 Nº d e al un os Introdução à Estatística 43 CENED – Centro de Educação Profissional (d) Qual é o polígono das freqüências acumuladas? Gráfico 2.5. Distribuição das Idades dos Alunos Aprovados no Vestibular IES X - 2002 0 200 400 600 800 1000 1200 1400 15 |- 21 21 |- 27 27 |- 33 33 |- 39 39 |- 45 45 |- 51 Nº d e al un os Introdução à Estatística 44 CENED – Centro de Educação Profissional VERIFICAÇÃO DA APRENDIZAGEM 2 1. Analise o gráfico a seguir, escolhendo a opção que reflita as medidas centrais da distribuição de freqüência que ele representa: (a) a distribuição de freqüência é assimétrica. (b) o gráfico apresentado é um histograma. (c) a distribuição de freqüência é simétrica. (d) a amplitude da distribuição é 18. (e) a amplitude de cada classe é 2. 2. A partir do seguinte histograma, construído para certo experimento, foram construídas as seguintes afirmativas: 10 5 0 10 20 30 40 50 60 70 80 Idades dos participantes de um concurso fotográfico, Cidade X, 2007. 0 5 10 15 20 25 12 14 16 18 20 22 24 ' Fonte: fictícia Introdução à Estatística 45 CENED – Centro de Educação Profissional I - o intervalo de classe que tem a maior freqüência é o compreendido entre 45 e 50. II - a amplitude da observação é de 65 unidades. III - a freqüência do intervalo de classe 10├ 15 é igual a 5. Julgue os itens: (a) as três afirmativas estão corretas. (b) apenas as afirmativas I e II estão corretas. (c) apenas as afirmativas II e III estão corretas. (d) apenas as afirmativas I e III estão corretas. (e) apenas a afirmativa I está correta. 3. Foram medidas as alturas de todas as crianças participantes de um grupo de escoteiros e os resultados, plotados na seguinte tabela de freqüências: Classes (em cm) Freqüência 100 ├ 120 8 120 ├ 140 12 140 ├ 160 16 160 ├ 180 4 Neste caso, pode-se afirmar que: I - foram observadas as alturas de 30 crianças. II - se fosse preenchida uma coluna com as freqüências simples relativas de cada classe, obter-se-ia os números 0,2; 0,3; 0,4 e 0,1. III - a freqüência acumulada da última classe é igual a 1. Julgue os itens: (a) apenas as afirmativas I e II estão corretas. (b) apenas as afirmativas II e III estão corretas. (c) apenas as afirmativas I e III estão corretas. (d) apenas a afirmativa II está correta. (e) apenas a afirmativa III está correta. Introdução à Estatística 46 CENED – Centro de Educação Profissional 4. A observação das estaturas, em cm, de 20 alunos de uma classe da Educação Infantil da Escola XX, em agosto de 2007, forneceu os seguintes dados, já ordenados: 106 106 110 110 110 112 112 115 115 116 116 116 116 118 118 118 118 120 120 121 A tabela que melhor descreve a distribuição de freqüências do experimento é: (a) CLASSES i ESTATURAS (em cm) fi 1 105├ 110 5 2 110├ 115 4 3 115├ 120 10 4 120├ 125 1 (b) CLASSES i ESTATURAS (em cm) fi 1 105 5 2 110 4 3 115 10 4 120 1 (c) CLASSES i ESTATURAS (em cm) fi 1 110 2 2 115 5 3 120 10 4 125 3 Fonte: dados hipotéticos. Tabela 4.1. Distribuição das freqüências das alturas dos alunos da Educação Infantil da Escola XX, em agosto de 2007. Tabela 4.2. Distribuição das freqüências das alturas dos alunos da Educação Infantil da Escola XX, em agosto de 2007. Tabela 4.3. Distribuição das freqüências das alturas dos alunos da Educação Infantil da Escola XX, em agosto de 2007. Fonte: dados hipotéticos. Fonte: dados hipotéticos. Introdução à Estatística 47 CENED – Centro de Educação Profissional (d) CLASSES i ESTATURAS (em cm) fi 1 105├ 110 12,5% 2 110├ 115 10,0% 3 115├ 120 25,0% 4 120├ 125 2,5% (e) CLASSES i ESTATURAS (em cm) fi 1 105├ 110 2 2 110├ 115 5 3 115├ 120 10 4 120├ 125 3 5. Os pesos dos jogadores de um clube de futebol variam de 70 a 100 quilos. Qual é a amplitude de cada classe, se forem tomadas 5 classes para apresentar essa distribuição de freqüência? (a) 5. (b) 6. (c) 10. (d) 30. (e) 70. 6. A interseçãodas classes de uma distribuição de freqüência deve ser vazia para que: (a) os limites superiores e inferiores das classes não sejam excluídos. (b) o limite inferior seja, sempre, menor do que o limite superior da classe. (c) os dados não sejam excluídos das classes. (d) um dado não seja computado duas vezes. (e) a variabilidade do conjunto seja discreta. Tabela 4.4. Distribuição das freqüências das alturas dos alunos da Educação Infantil da Escola XX, em agosto de 2007. Tabela 4.5. Distribuição das freqüências das alturas dos alunos da Educação Infantil da Escola XX, em agosto de 2007. Tabela 4.4. Distribuição das freqüências das alturas dos alunos da Educação Infantil da Escola XX, em agosto de 2007. Fonte: dados hipotéticos. Fonte: dados hipotéticos. Introdução à Estatística 48 CENED – Centro de Educação Profissional 7. Julgue as seguintes afirmativas e assinale a alternativa correta: I. Um polígono de freqüência representa uma variável discreta. II. Um histograma representa uma variável discreta. III. Tanto o histograma quanto o polígono de freqüência representam uma variável contínua. (a) Apenas as afirmativas I e II são verdadeiras. (b) Apenas a afirmativa I é verdadeira. (c) Apenas a afirmativa III é verdadeira. (d) Todas as afirmativas são falsas. (e) Todas as afirmativas são verdadeiras. 8. Um teste de inteligência, aplicado aos formandos do Ensino Fundamental da Escola XX, em dezembro de 2006, apresentou os seguintes resultados: CLASSES PONTOS NO TESTE Nº DE ALUNOS 1 90├ 100 22 2 100├ 110 58 3 110├ 120 110 4 120├ 130 25 5 130├ 140 5 Qual é a freqüência relativa da 3ª classe? (a) 0,05. (b) 0,11. (c) 0,22 (d) 0,50. (e) 1,00. Distribuição das freqüências dos pontos obtidos pelos alunos da Educação Fundamental da Escola XX, em dezembro de 2006. Fonte: dados hipotéticos. Introdução à Estatística 49 CENED – Centro de Educação Profissional 9. Em qual dos tipos de gráfico citados abaixo são utilizadas as freqüências acumuladas de uma distribuição de freqüência? (a) Polígono de freqüência acumulada. (b) Curva de freqüência. (c) Histograma de freqüência acumulada. (d) Curva assimétrica acumulada. (e) Gráfico em colunas acumuladas. 10. (FISCAL MG/96) A distribuição a seguir indica o número de acidentes ocorridos com 40 motoristas de uma empresa de ônibus: Nº de acidentes 0 1 2 3 4 5 6 Nº de motoristas 13 7 10 4 3 2 1 Logo, o número de motoristas que sofreram pelo menos 4 acidentes é de: (a) 3. (b) 6. (c) 10. (d) 27. (e) 30. Introdução à Estatística 50 CENED – Centro de Educação Profissional SEÇAO 3 A DESCRIÇÃO DOS DADOS POR MÉDIAS 3.1. A MÉDIA ARITMÉTICA. Como medida informal para localizar o centro de uma distribuição, a média aritmética é a média mais importante e útil dentre as três que serão aqui analisadas. Também constitui o cálculo mais comum e plenamente utilizado, por fornecer o ponto de equilíbrio de qualquer distribuição. Em Estatística é usual diferenciar-se a média de uma população da média de uma amostra, porém, como este estudo tem caráter introdutório, todas as fórmulas desenvolvidas são aplicáveis a uma população. A média aritmética de um conjunto de n observações x1, x2, x3, ..., xn é anotada por x e é dada pelo quociente: Lido como: x barrado é o somatório da variável x dividido pelo número de observações A média aritmética simples também é apresentada de um modo mais compacto pela utilização da letra, do alfabeto grego, sigma maiúscula: Sendo: Para dados não-agrupados, o cálculo da média é realizado como uma média aritmética simples, cuja fórmula foi dada acima, enquanto que, para dados agrupados, é tomada a média aritmética ponderada, em que os pesos são tomados como sendo as freqüências de cada classe e o ponto xi como o ponto médio de cada classe. Devido às diferenças no tratamento de cada uma dessas situações, elas serão examinadas separadamente. 3.1.1. A média para dados não-agrupados Para obter a média de dados não-agrupados, calcula-se a média aritmética simples como foi definida acima. É importante observar que, muitas vezes, o resultado obtido como média dos dados referentes a uma observação não coincide com nenhum dos valores observados. Isto pode ser entendido pelo papel de representatividade da média, embora sua existência não seja concreta. n xxxxx n++++= ...321 ∑∑∑ = === n i ii i x n xoux n xou n x x 1 11 populaçãodavaloresdenúmeroon iávelpelaassumidosvaloresosx aritméticamédiaax i var Introdução à Estatística 51 CENED – Centro de Educação Profissional Como exemplo, para calcular a média do abastecimento mensal de combustível do próprio carro, um consumidor anotou a diferença de quilometragem a cada abastecimento de 50 litros: 640 692 697 654 632 685 690 662 Neste caso, a média das oito observações será: Portanto, embora o valor 669 km não tenha sido observado no experimento dos abastecimentos, representa o conjunto por constituir-se no valor médio de todas as oito medidas realizadas. 3.1.2. A média para dados agrupados Os dados podem ser agrupados de duas maneiras: sem intervalos de classe ou pela utilização de intervalos de classe. 3.1.2.1. Dados agrupados sem intervalos de classe No caso de uma distribuição de freqüências em que o número de observações determina um indicador para a intensidade de ocorrência de cada valor da variável, a freqüência dos dados observados determina o fator de ponderação de cada um desses dados. Assim, a média calculada é a média aritmética ponderada: Se for utilizada a letra, do alfabeto grego, sigma maiúscula, obter-se-á: Sendo: kmx x x 669 8 5352 8 662690685632654697692640 = = +++++++ = n fxfxfxfx x ou ffff fxfxfxfx x kk k kk ++++ = ++++ ++++ = ... ... ... 332211 321 332211 i k i iii i ii fx n xoufx n xou f fx x ∑∑∑ ∑ = === 1 11 populaçãodavaloresdenúmeroon iáveldavalorcadadefrequênciaaf iávelpelaassumidosvaloresosx aritméticamédiaax i i var var Introdução à Estatística 52 CENED – Centro de Educação Profissional Para construir um exemplo, considere um estudo realizado em agosto de 2007 por um síndico, do bloco X com 36 apartamentos, que deseja saber o número médio de moradores por apartamento do prédio. Depois de realizado o levantamento em todas as unidades, o síndico obteve a seguinte tabela: Nº DE MORADORES fi 1 6 2 7 3 9 4 10 5 3 6 1 36 O cálculo do número médio de moradores por apartamento é dado por: Portanto, o síndico pode afirmar que o bloco X tem a média de 3 moradores por apartamento. É costume realizar os cálculos da média pela utilização das posições dos dados na própria tabela. Assim, em vez da fórmula acima disposta, calcular-se-ia o produto dos pesos pelos valores em uma nova coluna - xifi - e as somas como resultado das adições dos elementos dispostos em cada posição da coluna. Tabela 3.1. Distribuição das freqüências do número de moradores do bloco X, em agosto de 2007. Fonte: dados hipotéticos. 3 36 108 1310976 1635104937261 ... ... 321 332211 = = +++++ ×+×+×+×+×+× = ++++ ++++ = x x x ffff fxfxfxfx x k kk Introdução à Estatística 53 CENED – Centro de Educação Profissional Como uma simplificação, a Tabela 3.1. é complementada de modo que a última linha da nova tabela indica o numerador da fórmula acima, o número 108: Nº DE MORADORES fi xifi 1 6 6 2 7 14 3 9 27 4 10 40 5 3 15 6 1 6 TOTAL 36 108 A média é obtida, neste caso, pela divisão dos totais obtidos na última linha da Tabela 3.2., ou seja: Vale observar que, neste caso, se o número obtido para a média não for um número inteiro, a interpretação desse resultado deve considerar a tendência dos dados, uma vez que não é possível considerar décimos ou centésimos de
Compartilhar