Prévia do material em texto
1 Apostila Probabilidade e Estatística Para Engenharia e Arquitetura Professor: Ms Cledinaldo Castro Araújo 2019.1 - Versão 7 2 “A normalidade é tão somente uma questão de estatística.” Autor: Aldous Huxley 3 Sumário 1. Conceitos Básicos ............................................................................................................ 08 1.1 Divisão da Estatística ............................................................................................................... 08 1.2 Conceitos Fundamentais da Estatística .................................................................................... 08 1.3 Fases do Método Estatístico .................................................................................................... 10 2. Estudo dos Dados Estatísticos ................................................................................................. 11 2.1 Séries Estatísticas ...................................................................................................................... 11 2.2 Apresentação Tabular e Gráfica ................................................................................................ 12 2.2.1 Apresentação Tabular ......................................................................................................... 12 2.2.2 Apresentação Gráfica ............................................................................................................ 14 3. Distribuições de Frequências ................................................................................................... 21 3.1 Distribuições de Frequências para Dados Discretos ................................................................... 22 3.2 Distribuições de Frequências para Dados Contínuos ................................................................. 23 4. Medidas de Posição ................................................................................................................ 26 4.1 Pequenos Conjuntos de Dados .................................................................................................. 26 4.2 Grandes Conjuntos de Dados: Discretos .................................................................................... 29 4.3 Grandes Conjuntos de Dados: Contínuos .................................................................................. 30 4.4 Medidas Separatrizes ............................................................................................................. 33 4.4.1 O Box Plot ............................................................................................................................. 39 4.5 Interpolação Linear .................................................................................................................. 41 4.6 Outras Medidas de Posição ...................................................................................................... 43 5. Medidas de Dispersão ............................................................................................................. 46 5.1 Pequenos Conjuntos de Dados ................................................................................................ 46 4 5.2 Grandes Conjuntos de Dados: Discretos .................................................................................. 51 5.3 Grandes Conjuntos de Dados: Contínuos ................................................................................. 53 6. Medidas de Assimetria e Curtose ...................................................................................... 56 6.1 Medidas de Assimetria ...................................................................................................... 56 6.2 Medidas de Curtose ......................................................................................................... 57 7. Probabilidade .................................................................................................................. 59 7.1 Conceitos Iniciais ..................................................................................................................... 59 7.2 Operações com Eventos Aleatórios .......................................................................................... 60 7.3 Medida de Probabilidade ......................................................................................................... 63 7.4 Teorema da Soma .................................................................................................................... 64 7.5 Eventos Dependentes .............................................................................................................. 65 7.5.1 Probabilidade Condicional ..................................................................................................... 66 7.5.2 Teorema do Produto ou Regra do Produto ............................................................................ 66 7.6 Eventos Independentes ............................................................................................................ 67 7.6.1 Teorema do Produto ou Regra do Produto ......................................................................... 68 7.7 Regra de Bayes ...................................................................................................................... 69 8. Variáveis Aleatórias Unidimensionais ...................................................................................... 73 8.1 Classificação das Variáveis Aleatórias ...................................................................................... 73 8.1.1 Variáveis Aleatórias Discretas ............................................................................................... 73 8.1.2 Variáveis Aleatórias Contínuas.............................................................................................. 76 8.2 Propriedades da Esperança e Variância ................................................................................ 77 9 Distribuições de Probabilidade Discreta - Introdução ............................................................ 79 9.1 Distribuição Binomial ........................................................................................................... 79 5 9.2 Distribuição de Poisson ........................................................................................................ 82 9.3 Distribuição de Poisson como Aproximação da Binomial ...................................................... 84 9.4 Distribuição Hipergeométrica ............................................................................................... 81 9.5 Distribuição Binomial como Aproximação da Hipergeométrica ............................................ 87 10 Distribuição Normal (Gaussiana) .......................................................................................... 88 10.1 Combinação Linear de Normais Independentes ................................................................. 98 11 Amostragem ........................................................................................................................ 100 11.1 Conceitos Fundamentais em Amostragem ........................................................................... 100 11.2 Tipos de Amostragem ..........................................................................................................103 11.2.1 Amostragem Aleatória Simples (AAS) .................................................................................. 103 11.2.2 Amostragem Aleatória Estratificada (AAE) ........................................................................... 104 11.2.3 Amostragem Sistemática (AS) .............................................................................................. 105 11.2.4 Amostragem por Conglomerados ........................................................................................ 106 11.3 Uso do Excel na Amostragem ................................................................................................. 107 12 Distribuições Amostrais ........................................................................................................ 108 12.1 Distribuição Amostral da Média ............................................................................................. 108 12.2 Teorema do Limite Central ..................................................................................................... 108 12.3 Distribuição Amostral da Proporção ...................................................................................... 110 13 Estimação ........................................................................................................................... 113 13.1 Conceitos Iniciais .................................................................................................................. 113 13.1.1 Estimação ............................................................................................................................ 113 13.1.2 Estimados e Estimativa ........................................................................................................ 114 13.1.3 Propriedade dos Estimadores .............................................................................................. 115 6 13.2 Estimativa Pontual ................................................................................................................. 115 13.3 Estimativa Intervalar ou Intervalo de Confiança para uma Amostra ....................................... 116 13.3.1 Intervalo de Confiança para - Caso 1: Conhecido ....................................................... 116 13.3.2 Intervalo de Confiança para - Caso 2: Desconhecido ................................................. 118 13.3.3 Intervalo de Confiança para a Proporção Populacional (P) ................................................... 122 13.3.4 Amostragem para População Finita .................................................................................... 124 13.4 Estimativa Intervalar ou Intervalo de Confiança para duas Amostras ...................................... 127 13.4.1 Intervalo de Confiança para Diferença de Médias (1-2) - Caso 1: 1 e 2 Conhecidos ..... 127 13.4.2 Intervalo de Confiança para Diferença de Médias (1-2) - Caso 1: 1 e 2 Desconhecidos e Supostamente Diferentes .......................................................................................................... 128 13.4.3 Intervalo de Confiança para Diferença de Médias (1-2) - Caso 1: 1 e 2 Desconhecidos e Supostamente Iguais .................................................................................................................... 129 13.4.4 Intervalo de Confiança para Diferença de Proporção (P1-P2) .............................................. 130 14 Análise de Correlação e Regressão ........................................................................................... 132 14.1 Gráfico de Dispersão ............................................................................................................. 132 14.2 Coeficiente de Correlação de Pearson (Rxy) ......................................................................... 132 14.3 Regressão Linear Simples ...................................................................................................... 135 14.3.1 Reta Estimada ..................................................................................................................... 135 14.3.2 Análise de Variância (ANOVA) ............................................................................................ 138 14.3.3 Coeficiente de Determinação (R2) ........................................................................................ 140 14.3.4 Modelos não Lineares por Anamorfose ............................................................................... 144 14.4 Regressão linear Simples com Excel ..................................................................................... 146 15 Critério de Arredondamento ............................................................................................... 148 15.1 Método Tradicional ................................................................................................................ 149 15.2 Método ABNT ......................................................................................................................... 149 7 15.3 Método do Truncamento ....................................................................................................... 150 16. Exercícios Propostos ................................................................................................................ 152 BIBLIOGRAFIA APENDICES ANEXOS 8 Capítulo 1 Conceitos Básicos em Estatística 1. Conceitos Básicos em Estatística O cidadão comum acredita que a estatística se resume apenas a apresentar tabelas de números em colunas esportivas e ou econômicas de jornais e revistas, ilustradas com gráficos, pilhas de moedas, etc. quando muito, associam a estatística à previsão de resultados eleitorais. Mas estatístico de hoje não se limita a compilar tabelas de dados e os ilustrar graficamente. Pois a partir de 1925, com os trabalhos de Fisher, a estatística iniciou-se como método científico, então, o trabalho do estatístico passou a ser o de ajudara planejar experimentos, interpretar e analisar os dados experimentais e apresentar os resultados de maneira a facilitar a tomada de decisões razoáveis. Deste modo, podemos então definir estatística como sendo a ciência que se preocupa com a coleta, organização, apresentação, análise e interpretação de dados. Didaticamente podemos dividir a estatística em duas partes: a estatística descritiva e a inferência estatística. A estatística descritiva se refere à maneira de apresentar um conjunto de dados em tabelas e gráficos, e ao modo de resumir as informações contidas nestes dados a algumas medidas. Já a inferência estatística baseia-se na teoria das probabilidades para estabelecer conclusões sobre todo um grupo (chamado população), quando se observou apenas uma parte (amostra) desta população. É necessário ter em mente que a estatística é uma ferramenta para o pesquisador, nas respostas dos “por quês" de seus problemas. E que para ela ser bem usada é necessário conhecer os seus fundamentos e princípios, e acima de tudo que o pesquisador desenvolva um espírito crítico e jamais deixe de pensar. Pois "em ciência é fácil mentir usando a estatística, o difícil é falar a verdade sem usar a estatística". 1.1 Divisão da Estatística ESTATÍSTICA DESCRITIVA é a parte da Estatística que trabalha com a organização e a apresentação dos dados. ESTATÍSTICA INDUTIVA OU INFERÊNCIA ESTATÍSTICA é a parte da Estatística que trabalha com análise e interpretação dos dados, com o objetivo de obter e generalizar conclusões para a população a partir deuma amostra. 1.2 Conceitos Fundamentais ESTATÍSTICA é a ciência que estuda as técnicas necessárias para coletar, organizar, apresentar, analisar e interpretar os dados, a fim de extrair informações a respeito de uma população. POPULAÇÃO é o conjunto de todos os elementos (pessoas ou objetos) que interessam ao estudo de um fenômeno coletivo segundo alguma característica. AMOSTRA é qualquer subconjunto não vazio de uma população. PARÂMETRO é uma característica numérica estabelecida para toda uma população. ESTIMATIVA é uma característica numérica estabelecida para uma amostra. Exemplo: Fenômeno coletivo: eleição para governador do Estado de Ceará. População: conjunto de todos os eleitores do estado. Parâmetro: proporção de votos de um candidato X. Amostra: grupo de 10 eleitores selecionados em todo o estado. Estimativa proporção de votos do candidato X, obtida na amostra. Dentre os modelos estatísticos podemos destacar os seguintes: CENSO é um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população. 9 Principais propriedades do Censo: Confiabilidade 100%; Custo elevado; Lento; Nem sempre é viável. AMOSTRAGEM é o processo de obter as amostras, com a finalidade de fazer generalizações sobre a população sem precisar examinar cada um de seus elementos. Principais propriedades da Amostragem: Confiabilidade menor que 100%; Mais barata que o Censo; Mais rápida que o Censo; É sempre viável; VARIÁVEL é uma característica dos elementos de uma população ou de uma amostra, que pode assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo. Classificação das Variáveis: Variável Qualitativa: tipo de variável que não pode ser medida numericamente. Exemplos: cor dos cabelos, marca de refrigerantes, cor dos olhos, etc. As variáveis qualitativas se classificam em dois tipos: - Variável Qualitativa Ordinal: quando seus elementos têm relação de ordem. Exemplos: colocação – primeiro lugar, segundo lugar, etc. conceito – ótimo, bom, regular, péssimo. - Variável Qualitativa Nominal: quando seus elementos são identificados por um nome. Exemplos: cor dos olhos, marcas de carro, etc. Variável Quantitativa: tipo de variável que pode ser medida numericamente. Exemplos: peso, altura, número de faltas, número de gols, etc. As variáveis quantitativas se classificam em dois tipos: - Variável Quantitativa Discreta: tipo de variável que só pode assumir valores pertencentes a um conjunto enumerável. Normalmente seus valores estão associados a característica de contagem. Exemplos: número de carros vendidos, número de filhos, etc. - Variável Quantitativa Contínua: tipo de variável que pode assumir qualquer valor num intervalo de valores. Normalmente seus valores estão associados a característica de medidas. Exemplos: altura das pessoas, peso dos recém-nascidos, etc. Em resumo: Variável { Qualitativa { Nominal Ordinal Quantitativa { Discreta Contínua Observação: a variável idade, apesar de ser representada, geralmente, por números inteiros, é uma variável contínua, pois está relacionada com o tempo, que é uma variável contínua. 10 DADO ESTATÍSTICO é toda informação devidamente coletada e registrada. Todo dado se refere a uma variável. Quanto à coleta, temos: Direta – aquela feita no local da ocorrência onde o pesquisador faz uma visita ou envia um instrumento de consulta para que seja obtida a informação. A coleta direta é também a que é feita pelos equipamentos de uma estação meteorológica. Os dados resultantes da coleta direta são chamados de dados primários; Indireta – quando os dados são obtidos por consulta a documentos existentes, como relatórios, anuários, teses. São dados que já passaram por um tratamento estatístico e por esse motivo são chamados de dados secundários. Exemplo: Dado: as receitas cresceram 5%; Informação: Resultado ruim, a meta era crescer 20% 1.3 Fases do Método Estatístico Toda pesquisa tem por objetivo gerar conhecimento sobre algo. Com a pesquisa estatística acontece o mesmo, porém com a peculiaridade do conhecimento pretendido ser obtido através da análise de dados. O processo de organização da pesquisa estatística é chamado de Fases do Método Estatístico. Figura 1 – Fases do Método Estatístico As fases principais são: Definição do problema, planejamento, coleta dos dados, apresentação dos dados, análise e interpretação dos dados. I. Definição do problema: Definir exatamente o que se pretende estudar. Consiste em delimitar a pesquisar e levantar bibliografias; II. Planejamento: consiste em determinar o procedimento necessário para resolver o problema. Como levantar as informações? Quantos dados deverão ser obtidos? Que métodos serão utilizados? Qual o cronograma? Qual o recurso disponível? Etc. III. Coleta dos dados: Esta fase refere-se à obtenção, reunião e registro sistemático dos dados de acordo com o objetivo determinado. Tipos de dados (primários e secundários). IV. Apresentação dos dados: Apresentação dos dados obtidos. Esta apresentação pode ser através de dados e tabelas. V. Análise e interpretação dos resultados: esta fase está relacionada essencialmente ao cálculo de mediadas estatísticas, cuja finalidade é descrever o fenômeno. Esta fase está focada em compreender de forma crítica o fenômeno em estudo Importante: Dado ≠ Informação, dado é o registro da variável enquanto informação é o significado do dado. 11 Capítulo 2 Estudo dos Dados Estatísticos 2. Estudos dos Dados Estatísticos Coletados os dados, não é conveniente apresentá-los para análise sob a forma a que se chegou pela simples apuração. Na maioria das vezes, o conjunto de valores é extenso e desorganizado, e seu exame requer maior atenção. Uma fase importante da análise destes dados é condensação em formatos mais simples e objetivos. Essa condensação pode ser realizada através do emprego de tabelas e gráficos. Para entender como se constrói uma tabela ou gráfico faz-se necessário analisar as séries estatísticas. 2.1 Séries Estatísticas Uma série estatística é a representação de uma coleção de dados originados de um conjunto de dados, em uma tabela ou gráfico. CARACTERÍSTICAS DE UMA SÉRIE ESTATÍSTICA: Fenômeno: é o fato que foi investigado e cujos valores numéricos estão sendo apresentados na tabela ou gráfico. Local: É o espaço geográfico onde o fenômeno ocorreu. Época: Tempo em que o fenômeno foi analisado. TIPOS DE SÉRIES ESTATÍSTICAS Série Temporal, histórica ou cronológica: a variável é o tempo, permanecendo fixo o local e o fenômeno investigado. - Exemplo: Nascidos vivos registrados segundo o ano de registro - Exemplo: Faturamento líquido da Indústria Química Brasileira, em bilhões US$, (2002 – 2006). Série Específica ou categórica: a ocorrência do fenômeno é variável, permanecendo fixos o local e o tempo. - Exemplo: Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993. (Causas determinantes: Acidente, suicídio, ignorada e outras). - Exemplo: Faturamento líquido da Indústria Química Brasileira (em bilhões US$), por produtos químicos, no ano de 2006. Série Geográfica, espaciais, territoriais ou de localização: A variável é o local, permanecendo fixos o tempo e o fenômeno. - Exemplo: Suicídios ocorridos no Brasil em 2005, por regiões. - Exemplo: Faturamento líquido da Indústria Química Brasileira, em US$, por regiões do Brasil, no ano de 2006. 12 Mista ou Conjugada: É a junção dasséries temporal-específica, temporal-geográfica, específico- geográfica e temporal-específico-geográfica em uma única tabela. - Exemplo: Nascidos vivos registrados segundo o ano de registro e o sexo; - Exemplo: Faturamento líquido da Indústria Química Brasileira (em bilhões US$), por produtos químicos, nos anos de 2005 e 2006; 2.2 Apresentação Tabular e Gráfica Neste modulo serão analisadas as principais estruturas para apresentação de dados estatísticos, as tabelas e gráficos. Estas estruturas são amplamente utilizadas para apresentação de resultados de uma pesquisa, trataremos aqui dos principais tipos, elementos e aplicações. 2.2.1 Apresentação Tabular TABELA ESTATÍSTICA: É uma representação matricial, isto é, em linhas e colunas, das séries Estatísticas. A finalidade da tabela é poder apresentar os dados de modo organizado, simples e de fácil percepção. Dessa forma, a tabela deve ser construída de modo a fornecer o máximo de esclarecimento. ELEMENTOS FUNDAMENTAIS DE UMA TABELA ESTATÍSTICA: As Tabelas não possuem linhas verticais externas traçadas e as verticais internas são facultativas, enquanto os quadros podem apresentar laterais fechadas. Título Título: Deve responder os seguintes questionamentos: O quê? Ou Quem? Quando? Onde? Fonte: Indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração. Notas: São informações suplementares destinadas a conceituar ou esclarecer o conteúdo das tabelas ou indicar a metodologia adotada no levantamento ou na elaboração dos dados. Chamadas: É o esclarecimento de dados específicos. Usar algarismos (* ou 1, 2, 3,...). Zona Designativa: Está colocado logo abaixo do título e compreendem o chamado cabeçalho, nessa zona são colocadas as informações referentes ao conteúdo de cada coluna. Zona Indicativa: Situa–se ao lado esquerdo, nessa zona são colocadas as informações referentes ao conteúdo de cada linha. Zona Enumerativa: São as expressões numéricas do fato estudado, compondo – se de colunas, linhas e células ou casas. Zona Designativa ou cabeçalho Zona Enumerativa Zona Indicativa Rodapé Fonte Notas Chamadas 13 SINAIS CONVENCIONAIS Todos os campos da tabela estatística devem ser preenchidos, desta forma adotam-se sinais: 0; 0,0 ou 0,00: O dado é nulo ou muito pequeno para a unidade adotada. Resultado de arredondamento; __: O dado não existe; ... : O dado existe, porém sua apresentação não está disponível; ?: Quando ha dúvida sobre a veracidade do dado. TIPOS DE TABELAS ESTATÍSTICAS Tabelas Simples ou Unidimensional: Apresentam dados ou informações relativas a uma única Variável. Tabela de Dupla Entrada, Cruzada (bidimensional) ou de Contingência: Apresentam dados ou informações de mais de uma Variável. Exemplo: Faturamento líquido da Indústria Química Brasileira (em bilhões US$), por produtos químicos, no ano de 2006. Produtos Químicos Faturamento (US$ bilhões) Farmacêutico 9,2 Adubos e fertilizantes 5,3 Sabões e Detergentes 2,5 Tintas 1,9 Outros1 2 Total 20,9 Fonte: ABIQUIM – Associação Brasileira de Indústria Química 1 Produtos químicos com pouca aceitação Exemplo: Estabelecimentos de saúde públicos e particulares, por espécie, Brasil, 1985. Estabelecimento População (milhões) Públicos Particulares Hospital 1.002 5.132 Pronto - socorro 150 156 Policlínicas* 1.531 6.136 Outros 14.393 472 Total 17.076 11.896 Fonte: IBGE (1988) (*) Incluem postos de saúde, centros de saúde e unidades mistas. BANCO DE DADOS: É um local onde ficam organizados conjuntos de dados de forma bem estruturada e lógica a respeito de algo. O objetivo do banco de dados é apenas de repositório de dados permitindo acesso rápido, e não de apresentar resultados de forma simplificada. Exemplo, na secretaria de uma faculdade tem-se uma determinada quantidade de alunos cadastrados, cada qual com sua pasta de documentos e informações, imagine precisar de alguma informação a respeito de um destes alunos, para evitar ter que ir até um arquivo e pegar a pasta para ter acesso a esta informação, existe um programa interno para cadastro de todos os alunos e assim através do banco de dados onde se tem cadastrados todos os alunos pode-se verificar qualquer informação cadastrada tudo organizado de tal forma que facilite essa busca. 14 Segue abaixo um banco de dados referente a 10 funcionários da empresa de Consultoria Empresarial “X”, Fortaleza, Ceará, dezembro 2007. Quadro 1 – Banco de Dados Nº. Estado Civil Sexo Grau de instrução Salário (S.M*) Idade 1 Solteiro Feminino Ensino Médio 6 20 2 Solteiro Feminino Ensino Médio 7 23 3 Solteiro Masculino Superior 11 25 4 Solteiro Masculino Ensino Fundamental 4 26 5 Casado Feminino Superior 13 26 6 Solteiro Feminino Ensino Fundamental 8 27 7 Casado Feminino Ensino Fundamental 7 28 8 Casado Feminino Ensino Médio 15 29 9 Casado Masculino Ensino Médio 9 30 10 Casado Feminino Ensino Médio 11 30 Fonte: Recursos Humanos da Consultoria X (*) S.M: Salários Mínimos 2.2.2 Apresentação Gráfica. O gráfico constitui um recurso importante para apresentação de dados estatísticos, pois consegue resumir as informações através de recursos visuais, sua aplicação é quase sempre preferível a tabela estatística. No entanto, quando o agrupamento dos dados é complexo, melhor utilizar a tabela, pois um importante atributo de um bom gráfico é ser simples, auto-explicativo. A percepção visual é muito eficiente, mas é preciso atenção em alguns pontos, vejamos as situações indicadas abaixo: De acordo com os gráficos, os tratamentos T1 e T2 apresentam desempenhos bem distintos nas duas situações. Na situação A os tratamentos apresentam desempenhos muito próximos, já no B os desempenho de T1 é bem superior ao de T2 (mais que o dobro). Questionamento: Seria possível que os dois gráficos (A e B) se refiram a mesma situação? Sendo sim a resposta, então um dos gráficos está errado. É o que está de fato ocorrendo, os dois gráficos correspondem a mesma situação, a diferença está no ponto de corte dos dados, no caso A o ponto de corte é 0 (zero) enquanto no B é 45,4. Este erro pode ser intencional ou não, o que importa é revela resultados bem distorcidos, como a eficiência dos gráficos é visual, sua valia ficou comprometida. Por isso atenção para o campo de variação dos dados. Segue abaixo os principais tipos de Gráficos: GRÁFICOS: São representações visuais dos dados investigados que transmitem a informação de forma direta. Os gráficos devem ser simples, auto-explicativo. 15 ELEMENTOS ESSENCIAIS DOS GRÁFICOS: Título e fonte, em alguns casos, a legenda. TIPOS DE GRÁFICOS: Setor ou Pizza, torta (Pie Chart): São usados para representar valores absolutos ou percentuais de variáveis qualitativas. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as frequências de cada classe correspondem ao ângulo que se deseja representar em relação a frequência total que representa o total de 360°. Sugere-se ser empregado quando há no máximo sete informações; Exemplo: Fonte: Dados fictícios Barra Vertical e horizontal: Para representar séries específicas ou mistas de variáveis qualitativas. Exemplo: Faturamento líquido da IndústriaQuímica Brasileira (em bilhões US$), por produtos químicos, no ano de 2005. Fonte: ABIQUIM – Associação Brasileira da Indústria Química Exemplo: Fonte: site do IBGE 16 Colunas Sobrepostas: É um tipo utilizado estratificando as categorias (gráfico comparativo). Exemplo: População Urbana do Brasil por Região de 1940 a 1980 (x 1000) Por linha: É um gráfico utilizado para mostrar a evolução ou tendências dos dados ao longo do tempo. Exemplo: Por ponto: Para representar variáveis quantitativas; Exemplo: Fonte: Colégio “X” 17 Histograma: O histograma é a representação gráfica de dados contínuos agrupados em distribuições de frequências com intervalos. Corresponde a um gráfico de colunas juntas. Exemplo: Fonte: Dados Fictícios Polígono de Frequência: é uma linha poligonal que une os pontos médios dos intervalos, seu objetivo é modelar a forma da distribuição, enquanto o gráfico de linha objetiva mostrar o comportamento de uma variável ao longo do tempo. Exemplo: Fonte: Dados Fictícios Gráfico polar ou Radar: É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a série que apresenta uma determinada periodicidade. Pode também ser empregado para avaliar o atendimento de várias categorias a seus respectivos padrões. Passos para Construção: I. Traça-se uma circunferência de raio arbitrário (preferencialmente, a um raio de comprimento proporcional a média dos valores da série); II. Constrói-se uma semi-reta (de preferência horizontal) partindo do ponto 0 (pólo) e com uma escala (eixo polar); III. Divide-se a circunferência em tantos arcos forem às unidades temporais; IV. Traçam-se semi-retas a partir do ponto 0 (pólo) passando pelos pontos de divisão; V. Marca-se os valores correspondentes da variável, iniciando pela semi-reta horizontal (eixo polar); VI. Ligam-se os pontos encontrados com segmentos de reta; VII. Para fechar o polígono obtido, emprega-se uma linha interrompida. 2 14 23 8 3 0 5 10 15 20 25 4,0 |---- 6,0 6,0 |---- 8,0 8,0 |---- 10,0 10,0 |---- 12,0 12,0 |----|14,0 Concentração de Cádmio (mg/kg), Rio Bonito, 2010 18 Precipitação Pluviométrica do Município de Santa Maria - RS - 1999. Meses Precipitação (mm) Janeiro 174,8 Fevereiro 36,9 Março 83,9 Abril 462,7 Maio 418,1 Junho 418,4 Julho 538,7 Agosto 323,8 Setembro 39,7 Outubro 66,1 Novembro 83,3 Dezembro 201,2 Fonte: Base Aérea de Santa Maria Cartograma: É a representação de um fenômeno com auxílio de um mapa geográfico em estudo. Este recurso é muito utilizado para densidade demográfica, criminalidade, etc. Exemplo: Organograma: Representa distribuição de funções de uma empresa, através de retângulos, que representa o nível hierárquico. Exemplo: 0,0 100,0 200,0 300,0 400,0 500,0 600,0 Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro 19 Fluxograma: É um esquema para descrever a ordem de um programa de computador, de uma ordem de uma linha de montagem em uma empresa Exemplo: Pictogramas: Usam-se desenhos à variável em questão. A desvantagem do pictograma é que apenas mostra uma visão geral do fenômeno, e não os detalhes minuciosos. A vantagem é despertar atenção do público leigo, por isso, largamente utilizados pela mídia. 20 Colunas e Barras Múltiplas: Gráfico adequado para representar séries mistas. Exemplo: Destino do Lixo por Grau de Instrução do Mantenedor da Família, Fortaleza, 2010. Fonte: Dados Fictícios Estereograma: Qualquer um dos tipos anteriores desenhado em três dimensões. Exemplo: Produção de Soja do Município X – 1991 a 1005 Fonte: Dados Fictícios 3 14 19 13 11 Ensino Fundamental Ensino Médio Superior Não Sim 21 Capítulo 3 Distribuição de Frequências 3. Distribuição de Frequências Muitas vezes, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos, que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de organizar esses dados em uma tabela onde os valores observados se apresentam associados individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas frequências. Esta tabela recebe o nome de Distribuição de Frequências. Outra forma de conceituar a distribuição de frequências é: a série estatística que organiza os resultados numéricos de uma variável quantitativa com suas respectivas frequências. Temos então que a distribuição de frequências é um tipo particular de série estatística, e é representada graficamente por um gráfico de colunas chamado Histograma. Quais as informações podem ser obtidas com a distribuição de frequências? Vejamos os exemplos: Efetuando-se 50 medições do ponto de fusão de uma substância, foram anotados os resultados, que seguem abaixo: Distribuição de Frequências Histograma Ponto de fusão (°C) Nº de medições 49,50 |---- 50,00 5 50,00 |---- 50,50 7 50,50 |---- 51,00 28 51,00 |---- 51,50 8 51,50 |----|52,00 2 TOTAL 50 Pela leitura da tabela, o pesquisador pode observar que faixas de temperaturas apresentam maior frequência, que faixas apresentam menores frequências. Pela análise do histograma, o pesquisador também pode analisar a forma da distribuição. Dependendo do tipo da variável contínua, a distribuição pode agrupar dados discretos ou contínuos, que também caracterizará o histograma, de forma que: para dados discretos, o histograma terá colunas separadas, já para dados contínuos o histograma terá colunas juntas. Adotaremos as seguintes nomenclaturas para os tipos de frequências: FREQUÊNCIA ABSOLUTA SIMPES – fi: corresponde a frequência ou contagem efetiva de cada valor da variável no conjunto de dados; FREQUÊNCIA RELATIVA SIMPLES – fi%: corresponde à frequência absoluta em termos percentuais ou relativos. Algumas bibliografias trazem as notações fr (decimal) e fr% (percentual); 5 7 28 8 2 49,50 |---- 50,00 50,00 |---- 50,50 50,50 |---- 51,00 51,00 |---- 51,50 51,50 |----|52,00 22 𝑓𝑖% = 𝑓𝑖 𝑛 𝑥100 FREQUÊNCIA ACUMULADA CRESCENTE - faci: Para um valor considerado, corresponde ao acumulado das frequências de todos os valores anteriores ao valor considerado até ele, seria o “teto”. Algumas bibliografias trazem a notação Fi FREQUÊNCIA ACUMULADA DESCRESCENTE - fadi: Para um valor considerado, corresponde ao acumulado das frequências de todos os valores posteriores ao valor considerado a partir dele, seria o “piso”. 3.1 Distribuição de Frequências para Dados Discretos Sendo a variável em estudo quantitativa discreta, a distribuição de frequências pode ser construída apenas listando as categorias de valores em ordem, atribuir às respectivas frequências. Vejamos um exemplo: Os dados abaixo correspondem ao número de apartamentos vendidos pela construtora GM Branco nos últimos vinte meses. Dados brutos: 0 0 1 4 5 3 2 4 1 4 2 2 4 5 2 1 1 1 5 3 Variável: Nº de apartamentosvendidos – quantitativa discreta Passos para elaboração da Distribuição: Listam-se as categorias de valores diferentes que ocorreram no conjunto: 0, 1, 2, 3, 4, 5; Indicam-se as respectivas frequências absolutas ou quantas vezes cada valor aparece no conjunto; Indicam-se as demais frequências (relativas e acumuladas). Nº de apartamentos vendidos fi fi% faci fadi 0 2 10% 2 20 1 5 25% 7 18 2 4 20% 11 13 3 2 10% 13 9 4 4 20% 17 7 5 3 15% 20 3 Total 20 100% - - O Gráfico correspondente apresenta colunas separadas: faci =7: é soma de 2 +5 (fis de 0 e 1) fadi =18: é soma de 5+4+2+4+3. (fis de 1,2,3,4 e5) Importante: As frequências acumuladas faci e fadi apresentadas na forma absoluta mas também podem ser expressas em termos relativos, o cálculo é semelhante ao da frequência fi% fi =5: existem 5 valores iguais a 1 no conjunto fi% =25%: é (5/20)*100 23 3.2 Distribuição de Frequências para Dados Contínuos Uma variável continua, de forma geral, pode apresenta uma grande variedade de categoria de valores. Imagine listar todas as categorias de valores de uma amostra das alturas de 100 (cem) pessoas. Mesmo utilizando apenas uma casa decimal, existe uma tendência de haverem muitos valores distintos para serem listados individualmente. Normalmente, utilizam-se intervalos de dados e não os dados individuais, de forma que a minúcia de pequenas diferenças seja alocada dentro dos intervalos. Alguns tipos de intervalos podem empregados na construção deste tipo de série estatística. Vejamos: : semi-abertos à direita : semi-abertos à esquerda : fechados : abertos Além da definição do tipo de intervalo, existem outras definições a serem tomadas: O nº de intervalos (K) e O tamanho dos intervalos (h). O pesquisador tem autonomia para tomar estas decisões, utilizando-se do seu conhecimento empírico sobre a variável estudada. Porém, existem alguns critérios para a definição do número de classes, vejamos: Roteiro para elaboração da distribuição de frequências: i. Amplitude total (At): maior distância entre os valores do conjunto At = Ximáx. – Xi mín. (diferença entre o maior e menor valor do conjunto) ii. Número de Classes (k): número de intervalos utilizados Regra da raiz quadrada: 𝐾 = { 5, 𝑠𝑒 𝑛 ≤ 25 √𝑛, 𝑠𝑒 𝑛 > 25 Regra de Sturges: 𝐾 = 1 + 3,3. log 𝑛 2 5 4 2 4 3 1 2 3 4 5 6 24 Nos dois casos deve-se arredondar para o inteiro mais próximo. A regra da raiz quadrada é normalmente mais utilizada, mas independente da regra, o bom senso deve ser considerado, não é interessante utilizar muitas classes. iii. Amplitude de classe (h): o comprimento ou largura de cada intervalo ℎ = 𝐴𝑡 𝑘 Caso seja necessário arredondar, o arredondamento deve ser realizado sempre para “mais”. Cada classe apresentará dois limites: inferior – Linf (esquerda) e superior – Lsup (direita), sendo que Lsup = Linf +h Vejamos um exemplo: Para estudo da melhoria do conforto de automóveis, uma montadora realizou uma pesquisa quantitativa com 40 pessoas. Uma das variáveis estudada foi a altura (m) das pessoas. Os dados seguem abaixo: Dados brutos 1,40 1,45 1,56 1,78 1,87 1,76 1,89 2,00 1,75 1,65 1,50 1,40 1,58 1,70 1,45 1,67 1,56 1,78 1,47 1,85 1,56 1,59 2,00 1,79 1,87 1,90 1,89 1,67 1,56 1,45 1,78 1,68 1,67 1,58 1,56 1,89 1,90 1,67 1,75 1,56 Passos: i. Amplitude total: At =2,00 – 1,40 = 0,60 m (“maior menos o menor”) ii. Número de classes: como n= 40 (n>25), temos: 𝑘 = √40 = 6,32 ≅ 6,0 (“inteiro mais próximo”) iii. Amplitude de Classe: h = 0,60 / 6 =0,10 m; Neste caso serão 6 classes de comprimento 0,10 m. Tomando como limite inferior da 1ª classe o menor conjunto, temos: Linf =1,40 m Lsup= Linf+h=1,40+0,10 = 1,50 m 1ª Classe: 1,40 I--- 1,50, siga com o processo até completar o total de classes. Segue abaixo resultado: Altura (m) fi fi% faci fadi 1,40 I---1,50 6 15% 6 40 1,50 I---1,60 10 25% 16 34 1,60 I---1,70 6 15% 22 24 1,70 I---1,80 8 20% 30 18 1,80 I---1,90 6 15% 36 10 1,90 I---I2,00 4 10% 40 4 Total 40 100% - - Histograma: Assim como no caso discreto, também podemos traçar o histograma. 25 Polígono de Frequência. Para histogramas de dados contínuos, podemos traçar o Polígono de Frequências, que corresponde a uma poligonal que une os pontos médios de cada classe. Apesar de haver semelhança com o gráfico de linha, o polígono de frequências tem por objetivo apresentar a forma da distribuição dos dados. Observando-se o polígono de frequências para um grande conjunto de dados, o perfil do polígono de frequências tende à de curva Gauss. Esta será estudada mais adiante nos modelos probabilísticos contínuos. Além do polígono de frequências, existem outras poligonais, chamadas Ogivas de Galton. Estas correspondem ao polígono de frequências, porém utilizam as frequências acumuladas. Pode-se dizer que o Polígono de frequências é o “embrião” da curva de Gauss. A medida que o n tende ao infinito (𝑛 → ∞) o polígono de frequência suaviza como na figura abaixo: 6 10 6 8 6 4 1,40 I---1,50 1,50 I---1,60 1,60 I---1,70 1,70 I---1,80 1,80 I---1,90 1,90 I---I2,00 6 10 6 8 6 4 1,40 I---1,50 1,50 I---1,60 1,60 I---1,70 1,70 I---1,80 1,80 I---1,90 1,90 I--- I2,00 26 Capítulo 4 Medidas de Posição 4. Medidas de Posição Para a maioria das pessoas, estatística significa descrever números da forma mais entendível possível, como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado atual, o índice de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de eleitores que votarão em um determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma determinada loja de conveniência de um determinado Shopping Center, dentre outros. Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados sobre algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é apenas descrever estatisticamente essas informações. A descrição estatística dos dados verifica a localização central e a variabilidade destes dados através de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para dados não agrupados. 4.1 Pequenos Conjuntos de Dados As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas. As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam: a própria mediana através dos decis, dos quartis e dos percentis. MÉDIA ARITMÉTICA: É o ponto de equilíbrio do conjunto de dados, de forma simples é definido como sendo o quociente da soma de todos os valores de um conjunto de dados pelo total de valores deste conjunto. Média amostral Média populacional n x X n i i 1 N x N i i 1 , Onde xi: Valores da variável n: Número de valores da amostraN: Número de valores da população MODA (Mo ou xˆ ): Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante. Na Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece no conjunto de dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois nem Importante: Adotaremos como definições de Pequenos Conjuntos de Dados e Grandes Conjuntos de Dados: Pequenos conjuntos de dados: conjunto de dados cuja análise não requer uma organização prévia. Grandes conjuntos de dados: conjunto de dados cuja análise requer uma organização prévia. Algumas literaturas consideram a partir de 30 unidades, 27 sempre ela representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que ocorre(m) com maior frequência, podendo ser único, se existir, como pode também não existir. Nesse caso, é mais correto chamá-la de medida de posição. Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda. Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com dados em nível nominal de mensuração. Exemplo: Um estudo sobre os tipos de falhas em estruturas metálicas indicou: 30 casos de corrosão, 50 casos de deformação e 20 assimetria. Embora não possamos tomar a média numérica dessas características, podemos afirmar que a moda é deformação, que é o tipo de falha com maior frequência. Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama-se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal. MEDIANA (Md ou x~ ): A mediana é uma medida de tendência central que ocupa a posição central dos dados observados, quando estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança na sua realização se a quantidade de dados é par ou ímpar. Desta forma, definiremos a mediana para n par e n ímpar. I. n ímpar: neste caso a série apresenta um único elemento central, a mediana é este valor. 𝑀𝑑 = 𝑋 ( 𝑛+1 2 ) II. n par: neste caso a série apresenta dois elementos centrais, a mediana é dada pela média destes valores. 𝑀𝑑 = 𝑋 ( 𝑛 2 ) + 𝑋 ( 𝑛 2 +1) 2 Exemplo: Determinar a mediana das notas nos seguintes casos: a) Notas de alunos de uma determinada disciplina: 8, 7, 3, 4, 8 n = 5 (ímpar) Rol: 3, 4, 7, 8, 8 X3 Com n ímpar, a mediana é igual ao elemento central, Md = 7 Com uso da fórmula: 𝑀𝑑 = 𝑋 ( 𝑛+1 2 ) = 𝑋 ( 5+1 2 ) = 𝑋3 ⇒ 𝑀𝑑 = 7 b) Notas de alunos de uma determinada disciplina: 8, 7, 3, 4, 8, 9 n = 6 (par) Rol: 3, 4, 7, 8, 8, 9 X3 X4 Com n par, a mediana é igual à média dos centrais, assim 𝑀𝑑 = 7+8 2 ⇒ 𝑀𝑑 = 7,5 28 Com uso da fórmula: 𝑀𝑑 = 𝑋 ( 𝑛 2 ) + 𝑋 ( 𝑛 2 +1) 2 = 𝑋 ( 6 2 ) + 𝑋 ( 6 2 +1) 2 = 𝑋3 + 𝑋4 2 = 7 + 8 2 ⇒ 𝑀𝑑 = 7,5 Depois de verificado as três medidas de tendência central que são utilizadas com maior frequência, dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma é encontrada com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não utiliza todos eles, e sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da realidade dos dados apresentados. Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada de decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo estatístico. PROPRIEDADES DAS MEDIDAS DE POSIÇÃO: As medidas de posição apresentam propriedades importantes. Destacaremos aqui as principais propriedades da média, moda e mediana. Sejam xi cada valor do conjunto e c uma constante não nula, temos que: Propriedades da Média Aritmética I. A média de um grupo de dados sempre será única, independente da sua localização; II. A média é influenciada por valores extremos III. A soma algébrica dos desvios tomados em relação à média é sempre nula (ponto de equilíbrio): ∑ (𝑥𝑖 − 𝑥) = ∑ 𝑥𝑖 − ∑ 𝑥 𝑛 𝑖=1 = ∑ 𝑥𝑖 − 𝑛𝑥 ⇒ 𝑑𝑖𝑣𝑖𝑑𝑖𝑛𝑑𝑜 𝑜𝑠 𝑚𝑒𝑛𝑏𝑟𝑜𝑠 𝑛 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 ⇒ ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 − 𝑛𝑥 𝑛 = 0 IV. A soma algébrica das distâncias quadráticas de cada valor em relação à média é mínima: Seja W a soma dos desvios quadráticos em torno de a, W= ∑ (𝑥𝑖 − 𝑎) 2𝑛 𝑖=1 . O mínimo de W é dado pela derivada de W igual a zero. 𝑑𝑤 𝑑𝑎 ∑(𝑥𝑖 − 𝑎) 2 𝑛 𝑖=1 = 0 ⇒ ∑2(𝑥𝑖 − 𝑎) = 0 𝑛 𝑖=1 ⇒ 2 ∑(𝑥𝑖 − 𝑎) = 0 ⇒ ∑(𝑥𝑖 − 𝑎) = 0 𝑛 𝑖=1 𝑛 𝑖=1 ⇒ ∑𝑥𝑖 −∑𝑎 𝑛 𝑖=1 𝑛 𝑖=1 = 0 ⇒ ∑𝑥𝑖 − 𝑛𝑎 = 0 𝑛 𝑖=1 ⇒ 𝑎 = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 ⇒ 𝑎 = 𝑥 O mínimo de W ocorre para a igual a média. V. O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n” valores da variável; 𝑥 = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 ⇒ ∑ 𝑥𝑖 𝑛 𝑖=1 = 𝑛. 𝑥 VI. Somando-se ou subtraindo-se uma constante c (valor invariável) a todos os valores de uma variável, a média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga, se multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente. 29 𝑥𝑖 ± 𝑐 ⇒ 𝑋 = ∑ (𝑥𝑖±𝑐) 𝑛 𝑖=1 𝑛 ⇒ 𝑋 ± 𝑐 𝑥𝑖. 𝑐 ⇒ 𝑋 = ∑ (𝑥𝑖.𝑐) 𝑛 𝑖=1 𝑛 ⇒ 𝑋. 𝑐 𝑥𝑖 𝑐 ⇒ 𝑋 = ∑ ( 𝑥𝑖 𝑐 )𝑛𝑖=1 𝑛 ⇒ 𝑋 𝑐 Propriedades da Moda I. A moda nem sempre é única e nem sempre existe (amodal, bimodal e multimodal); II. A moda é a única medida de posição que pode ser definida para dados qualitativos; III. A moda não é influenciada por valores extremos; IV. Pode estar afastada do centro dos dados; V. Não utiliza todos os dados da amostra; VI. Difícil de incluir em funções matemáticas. Propriedades da Mediana I. A mediana sempre existe e é única; II. A mediana não é influenciada por valores extremos; III. Não utiliza todos os dados da amostra; IV. Difícil de incluir em funções matemáticas. 4.2 Grandes conjuntos de dados: Discretos Referem-se a conjuntos de dados em que sua análise requer o agrupamento em tabelas de frequências. Tem- se como referencia 30 valores. Os conceitos e propriedades já apresentados anteriormente continuam válidos. MÉDIA ARITMÉTICA: É o ponto de equilíbrio do conjunto de dados, simplificadamente é definida como sendo o quociente da soma de todos os valores de um conjunto de dados pelo total de valores deste conjunto. A diferença na fórmula corresponde à inclusão da frequência absoluta simples, assim: 𝑋 = ∑ 𝑥𝑖. 𝑓𝑖 𝑛 𝑖=1 𝑛 xi: Valores da variável n: Número de valores da amostra fi: Frequência absoluta simples MODA (Mo ou xˆ ): Continua sendo o valor mais frequente do conjunto, este valor pode agora ser visualizado pela maior, ou maiores frequências na distribuição de frequências. MEDIANA (Md ou x~ ): continua sendo o valor que o divide o conjunto ordenado em duas partes de igual frequência. A organização em rol também pode ser vizualizado através da distribuição de fraequências. A identificação do valor centralainda depende da quantidade de valores do conjunto ser par ou impar. Vejamos um exemplo: Os dados abaixo correspondem ao número de apartamentos vendidos pela construtora GM Branco nos últimos vinte meses. 30 Nº de apartamentos vendidos fi (meses) 0 2 1 5 2 4 3 2 4 4 5 3 Total 20 Calcular Média, Moda e Mediana. Média: 𝑋 = ∑ 𝑥𝑖.𝑓𝑖 𝑛 𝑖=1 𝑛 : Somatório de cada valor vezes sua respectiva frequência dividido pelo número de valores, assim: 𝑋 = ∑ 𝑥𝑖. 𝑓𝑖 𝑛 𝑖=1 𝑛 = 0.2 + 1.5 + 2.4 + 3.2 + 4.4 + 5.3 20 = 50 20 ⟹ 𝑋 = 2,5 𝑎𝑝𝑎𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑣𝑒𝑛𝑑𝑖𝑑𝑜𝑠 Observação: embora a leitura de 2,5 apartamentos vendidos por mês não pareça coerente, o valor deve ser utilizado assim mesmo. Uma leitura alternativa seria: 25 apartamentos vendidos a cada 10 meses. Moda: basta identificar na tabela o valor de maior frequência, este será a moda, vejamos: Maior frequência 5: Mo = 1 apartamento vendido Mediana: 𝑀𝑑 = 𝑥 ( 𝑛 2 )+ 𝑥 ( 𝑛 2 +1) 2 . Como n é par, devemos buscar os dois elementos centrais, que são os de posição 𝑛 2 e 𝑛 2 + 1, assim: 𝑛 2 = 10º 𝑒 𝑛 2 + 1 = 11º Podemos notar pela distribuição de frequências que os valores procurados são 2 e 2. Verificando pelo rol: 0 0 1 1 1 1 1 2 2 2 2 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 Logo: 𝑀𝑑 = 𝑥10+𝑥11 2 = 2 + 2 2 ⇒ 𝑀𝑑 = 2 𝑎𝑝𝑎𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑣𝑒𝑛𝑑𝑖𝑑𝑜𝑠 4.3 Grandes conjuntos de dados: Contínuos Análogo aos dados discretos, considerando a análise de variáveis contínuas. Os conceitos e propriedades já apresentados anteriormente continuam válidos, porém, as medidas são calculadas por princípios de interpolação. MÉDIA ARITMÉTICA: É o ponto de equilíbrio do conjunto de dados, simplificadamente é definida como sendo o quociente da soma de todos os valores de um conjunto de dados pelo total de valores deste Maior fi =5: corresponde ao valor 1 31 conjunto. Porém, no caso dos intervalos de dados, parte-se da suposição que a distribuição dos dados é uniforme dentro dos intervalos, assim a fórmula sofre a seguinte alteração: 𝑋 = ∑ 𝑥𝑖𝑚. 𝑓𝑖 𝑘 𝑖=1 𝑛 , 𝑜𝑛𝑑𝑒 𝑥𝑖𝑚 = 𝑙𝑖𝑛𝑓 + 𝑙𝑠𝑢𝑝 2 Xim :ponto médio da classe i n :número de valores da amostra fi :frequência absoluta simples MODA (Mo ou xˆ ): Continua sendo o valor mais frequente do conjunto, porém nesta fase o valor é calculado por interpolação, segue fórmula de Czuber: 𝑀𝑜 = 𝑙𝑖 + ( ∆1 ∆1 + ∆2 ) ∗ ℎ Primeiro passo: Identificar a classe MODAL, esta classe será a classe de maior frequência. Em seguida, identificar os seguintes elementos: li: limite inferior da classe modal (o limite da esquerda) ∆1: diferença entre a frequência absoluta da classe modal (a maior) e a da classe imediatamente anterior; ∆2: diferença entre a frequência absoluta da classe modal (a maior) e a da classe imediatamente posterior; h: amplitude de classe, em geral este valor é fixo, mas caso a distribuição apresente tamanhos variados, será a amplitude da classe modal. MEDIANA (Md ou x~ ): continua sendo o valor que o divide o conjunto ordenado em duas partes de igual frequências. Porém nesta fase o valor é calculado por interpolação, segue fórmula: 𝑀𝑑 = 𝑙𝑖 + ( 𝑛 2 − 𝑓𝑎𝑐 ↑ 𝑓𝑀𝑑 ) ∗ ℎ Primeiro passo: Identificar a classe MEDIANA, esta classe será a classe que contém o elemento mediano, que dado por: I. n impar: a classe mediana será a classe que contém o elemento de ordem ( 𝑛+1 2 ) 𝑜 II. n par: a classe mediana será a classe que contém o elemento de ordem ( 𝑛 2 ) 𝑜 Em seguida, identificar os seguintes elementos: li: Limite inferior da classe mediana (o limite da esquerda) fac↑: Frequência acumulada crescente da classe anterior à classe mediana; fmd: Frequência absoluta simples da classe mediana; h: amplitude de classe, em geral este valor é fixo, mas caso a distribuição apresente tamanhos variados, será a amplitude da classe mediana. Importante: 1. Sendo a classe modal a primeira, adota-se como classe anterior uma classe de frequência nula. Analogamente, se a classe modal for a última, adota-se como classe posterior uma classe de frequência nula; 2. Caso existam duas ou mais classes modais, o processo deve ser repetido para estas classes. 32 Vejamos um exemplo: Uma amostra de 80 corpos de prova de concreto forneceu a seguinte distribuição de resistências de ruptura: Resistência (psi*) Nº de medições 50 |---- 60 2 60 |---- 70 15 70 |---- 80 50 80 |---- 90 10 90 |----|100 3 TOTAL 80 (*) Psi (pound force per square inch) ou libra força por polegada quadrada Calcular média, moda e mediana para distribuição acima: Média: é necessário calcular o ponto médio para cada classe e aplicar na fórmula abaixo, assim: Resistência (psi*) Nº de medições Xim 50 |---- 60 2 55 60 |---- 70 15 65 70 |---- 80 50 75 80 |---- 90 10 85 90 |----|100 3 95 TOTAL 80 - 𝑋 = ∑ 𝑥𝑖𝑚. 𝑓𝑖 𝑘 𝑖=1 𝑛 = 55.2 + 65.15 + 75.50 + 85.10 + 95.3 80 ⇒ 𝑋 = 74,6 𝑝𝑠𝑖 Moda: o primeiro passo é identificar a classe moda, esta será a classe de maior frequência, a partir dela indicam-se as demais informações: Resistência (psi*) Nº de medições 50 |---- 60 2 60 |---- 70 15 70 |---- 80 50 80 |---- 90 10 90 |----|100 3 TOTAL 80 Da classe modal identificamos: li: 70 (limite da esquerda) ∆1: 50 – 15 = 35 ∆2: 50 – 10 = 40 h: 80 – 70 = 10 (diferença entre os limites do intervalo) Aplicando na fórmula, temos: Classe Modal: maior frequência (Linf +Lsup)/2 33 𝑀𝑜 = 𝑙𝑖 + ( ∆1 ∆1 + ∆2 ) ∗ ℎ = 70 + ( 35 35 + 40 ) ∗ 10 ⇒ 𝑀𝑜 = 74,7 𝑝𝑠𝑖 Mediana: o primeiro passo é identificar a classe mediana esta será a classe que contém o elemento mediano, a partir dela indicam-se as demais informações: Vejamos: Resistência (psi*) Nº de medições faci 50 |---- 60 2 2 60 |---- 70 15 17 70 |---- 80 50 67 80 |---- 90 10 77 90 |----|100 3 80 TOTAL 80 - Como o experimento examinou 80 corpos de prova, ou seja, n=80 (par), O elemento mediano será dado: 2 n = 2 80 = 40º (classe que contém o 40º valor). A referida classe é 70 |---- 80. Observe que até a primeira classe acumula 2, até a segunda acumula 17 e até a terceira acumula 67, ou seja, a classe 70 |---- 80 contém do 17º ao 67º valor, consequentemente o 40º. Da classe mediana, identificamos: li =70 (limite da esquerda) fac↑ =17 (frequência acumulada crescente da classe anterior à classe mediana); fmd = 50 (frequência absoluta simples da classe mediana); h = 80 -70 = 10 Aplicando na fórmula, temos: 𝑀𝑑 = 𝑙𝑖 + ( 𝑛 2 − 𝑓𝑎𝑐 ↑ 𝑓𝑀𝑑 ) ∗ ℎ = 70 + ( 80 2 − 17 50 ) ∗ 10 ⇒ 𝑀𝑑 = 74,6 𝑝𝑠𝑖 4.4 Medidas Separatrizes As medidas de Posição e dispersão proporcionam uma análise quanto ao comportamento da tendência e variabilidade de conjunto de dados. Além destas existe outra categoria de medidas, são as medidas separatrizes. Estas medidas proporcionam outra forma de análise da dispersão e assimetria da distribuição. O critério utilizado por estas medidas é o de separar (por isso separatrizes) o conjunto de dados em intervalos com frequências iguais. A conceituação da medida é definida de acordo com a frequência considerada para os intervalos. Uma destas medidas já está entre as medidasde posição, trata-se da mediana. Veja conceito: Mediana: Valor que divide o conjunto ordenado em duas partes de igual frequência. Ou seja, o conjunto está divido em dois intervalos de frequência 50%. Classe Mediana: contém o 40º valor fac↑ = 17 (anterior) e fmd =50 (mediana) 34 As medidas separatrizes proporcionam uma alternativa quando a média não for a medida adequada, calma! A moda é uma alternativa, porém não analítica, por exemplo: a moda de notas de uma classe é 5,0. Quantos alunos tiraram 5,0? Outro cenário para aplicação: quando um grupo de valores com baixa frequência apresentarem alta magnitude. Exemplo: A maioria dos açudes de uma região é pequena, existindo alguns poucos de médio porte e apenas um de grande porte. No caso da mediana, já foi visto anteriormente que: Não agrupados ou Isolados: n par: Md = X ( n 2 )+ X ( n 2 +1) 2 n ímpar: Md = X ( n+1 2 ) Agrupados em intervalos: Md = li + ( n 2 −fac↑ fMd ) ∗ h Graficamente, temos: Exemplo: Determine a mediana para o conjunto de dados: 1, 3, 3, 2, 4, 2, 3. Ordenando o conjunto, temos: Rol: 1, 2, 2, 3, 3, 3, 4. X4 Como n = 7 (ímpar),Md = X ( n+1 2 ) = X ( 7+1 2 ) = X4(4º valor) ⇒ Md = 3 u. v. As medidas separatrizes são: Quartil, Decil e Percentil. Seus valores são obtidos de forma análoga ao da mediana. Assim como na mediana, será mantida a divisão dos casos em: I. Não agrupados em intervalos ou classes; II. Agrupados em intervalos ou classes. Vejamos: Quartil (Qj): O conjunto ordenado é divido em quatro partes. Os quartis são: Q1: valor que determina o limite superior para os 25% primeiros valores; Professor Cledinaldo Castro Araújo 35 Q2: valor que determina o limite superior para os 50% primeiros valores. Este valor corresponde à mediana; Q3: valor que determina o limite superior para os 75% primeiros valores; Graficamente: I. Não agrupados em intervalos ou classes; A partir dos dados ordenados o quartil de posição j será dado genericamente por: Q𝑗 = Xj∗(n+1) 4 Observação: algumas literaturas usam como posição apenas 𝑗∗𝑛 4 O quartil procurado é valor do conjunto de posição 𝐣∗(𝐧+𝟏) 𝟒 . Este pode ser inteiro ou não, caso não seja inteiro, o valor do quartil será obtido a partir da interpolação: Q𝑗 = X𝑖 + α(X𝑖+1 − X𝑖) Onde: X𝑖 e X𝑖+1 são os valores que delimitam o quartil procurado (posição antes e depois) α: parte fracionária entre as posições que delimitam o quartil; Exemplo: 𝑗∗(𝑛+1) 4 = 2,75 ⇒ ∝= 0,75 Observação: o recurso da interpolação linear será abordado no próximo tópico. Uma opção mais simples é tomar a média aritmética entre os valores que estão nas posições que delimitam a posição (posições inteiras antes e depois). Q𝑗 = X𝑖 + X𝑖+1 2 Exemplo: considere um conjunto de dez valores, o primeiro quartil (n=10 e j=1) é obtido da seguinte forma: Dados: 5 8 7 7 9 8 10 7 8 6 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 Rol: 5 6 7 7 7 8 8 8 9 10 𝑄1 = 𝑋1.(10+1) 4 = 𝑋2,75 2,75º é uma posição entre o 2º e o 3º valor, logo Q1 será dado por: Professor Cledinaldo Castro Araújo 36 Q𝑗 = X𝑖 + α(X𝑖+1 − X𝑖) Q1 = X2 + 0,75 ∗ (X3 − X2) = 6 + 0,75 ∗ (7 − 6) ⇒ Q1 = 6,75 𝑢𝑣 Este critério será utilizado para o cálculo das demais medidas separatrizes do caso não agrupado em intervalos. II. Agrupados em intervalos ou classes. Assim como na mediana, para dados agrupados em intervalos, o quartil é calculado a partir de uma interpolação dada por: 𝑄𝑗 = 𝑙𝑖 + ( 𝑗∗𝑛 4 − 𝑓𝑎𝑐 ↑ 𝑓𝑄𝑗 ) ∗ ℎ Onde: 𝑙𝑖: Limite inferior da classe que contém o quartil 𝑄𝑗; 𝑓𝑎𝑐 ↑: Frequência acumulada crescente da classe anterior à classe que contém o quartil 𝑄𝑗; 𝑓𝑄𝑗: Frequência absoluta simples da classe que contém o quartil 𝑄𝑗; ℎ: Amplitude da classe que contém o quartil 𝑄𝑗; Exemplo: Determinar Q1 e Q3 para os seguintes dados: Altura (m) fi fi% faci fadi 1,40 I---1,50 6 15% 6 40 1,50 I---1,60 10 25% 16 34 1,60 I---1,70 6 15% 22 24 1,70 I---1,80 8 20% 30 18 1,80 I---1,90 6 15% 36 10 1,90 I---I2,00 4 10% 40 4 Total 40 100% - - Primeiro quartil: Q1 Identificação da classe que contém Q1 (j=1): j∗n 4 = 1∗40 4 = 10 (10º valor) ⇒ 2ª classe; 𝑙𝑖 = 1,50 𝑚; 𝑓𝑎𝑐 ↑= 6; 𝑓𝑄𝑗 = 10; ℎ = 0,10 𝑚; 𝑄1 = 1,50 + ( 10 − 6 10 ) ∗ 0,10 ⇒ 𝑄1 = 1,54 𝑚 Primeiro quartil: Q3 Identificação da classe que contém Q3 (j=3): j∗n 4 = 3∗40 4 = 30 (30º valor) ⇒ 4ª classe; 𝑙𝑖 = 1,70 𝑚; 𝑓𝑎𝑐 ↑= 22; 𝑓𝑄𝑗 = 8; ℎ = 0,10 𝑚; 2ª Classe 4ª Classe Professor Cledinaldo Castro Araújo 37 𝑄1 = 1,70 + ( 30 − 22 8 ) ∗ 0,10 ⇒ 𝑄3 = 1,80 𝑚 Decil (Dj): O conjunto ordenado é divido em dez partes. Os decis são: D1: valor que determina o limite superior para os 10% primeiros valores; D2: valor que determina o limite superior para os 20% primeiros valores; Segue-se de forma sucessiva até D9. O valor D5 corresponde à mediana. Graficamente: I. Não agrupados em intervalos ou classes; Analogamente, a partir dos dados ordenados o decil de posição j será dado genericamente por: D𝑗 = Xj∗(n+1) 10 O decil procurado é valor do conjunto de posição 𝐣∗(𝐧+𝟏) 𝟏𝟎 . Este pode ser inteiro ou não, caso não seja inteiro, o valor do decil será obtido a partir da interpolação: D𝑗 = X𝑖 + α(X𝑖+1 − X𝑖). Onde: X𝑖 e X𝑖+1 são os valores que delimitam o quartil procurado (posição antes e depois) α: parte fracionária entre as posições que delimitam o quartil; Exemplo: 𝑗∗(𝑛+1) 10 = 3,3 ⇒ ∝= 0,3 II. Agrupados em intervalos ou classes. Analogamente, para dados agrupados em intervalos, o decil é calculado a partir de uma interpolação dada por: 𝐷𝑗 = 𝑙𝑖 + ( 𝑗∗𝑛 10 − 𝑓𝑎𝑐 ↑ 𝑓𝐷𝑗 ) ∗ ℎ Onde: 𝑙𝑖: Limite inferior da classe que contém o decil 𝐷𝑗; 𝑓𝑎𝑐 ↑: Frequência acumulada crescente da classe anterior à classe que contém o decil 𝐷𝑗; 𝑓𝐷𝑗: Frequência absoluta simples da classe que contém o decil 𝐷𝑗; Professor Cledinaldo Castro Araújo 38 ℎ: Amplitude da classe que contém o decil 𝐷𝑗; Percentil ou Centil (Pj): O conjunto ordenado é divido em cem partes. Os percentis são: P1: valor que determina o limite superior para os 10% primeiros valores; P2: valor que determina o limite superior para os 20% primeiros valores; Segue-se de forma sucessiva até P99. O valor P50 corresponde à mediana. Graficamente: I. Não agrupados em intervalos ou classes; Analogamente, a partir dos dados ordenados o percentil de posição j será dado genericamente por: P𝑗 = Xj∗(n+1) 100 O percentil procurado é valor do conjunto de posição 𝐣∗(𝐧+𝟏) 𝟏𝟎𝟎 . Este pode ser inteiro ou não, caso não seja inteiro, o valor do percentil será obtido a partir da interpolação: P𝑗 = X𝑖 + α(X𝑖+1 − X𝑖). Onde: X𝑖 e X𝑖+1 são os valores que delimitam o quartil procurado (posição antes e depois) α: parte fracionária entre as posições que delimitam o quartil; Exemplo: 𝑗∗(𝑛+1) 100 = 2,75 ⇒ ∝= 0,75 II. Agrupados em intervalos ou classes. Analogamente, para dados agrupados em intervalos, o percentil é calculado a partir de uma interpolação dada por: 𝑃𝑗 = 𝑙𝑖 + ( 𝑗∗𝑛 100 − 𝑓𝑎𝑐 ↑ 𝑓𝑃𝑗 ) ∗ ℎOnde: 𝑙𝑖: Limite inferior da classe que contém o percentil 𝑃𝑗; 𝑓𝑎𝑐 ↑: Frequência acumulada crescente da classe anterior à classe que contém o percentil 𝑃𝑗; 𝑓𝑃𝑗: Frequência absoluta simples da classe que contém o percentil 𝑃𝑗; ℎ: Amplitude da classe que contém o percentil 𝑃𝑗; Professor Cledinaldo Castro Araújo 39 A partir da análise das medidas separatrizes pode-se definir uma categoria de gráficos amplamente utilizados em métodos quantitativos, os Box Plots. Este gráfico apresenta grande aplicação na análise de processos de gestão. 4.4.1 O Box Plot O Box Plot ou diagrama de caixa é um recurso gráfico utilizado para analisar a variação de dados quantitativos. Este gráfico proporciona uma análise similar ao histograma, porém com a informação dos quartis e da identificação de valores discrepantes ou ouliers. Estrutura do Box Plot: Identificação dos elementos: 𝑄1; 𝑄2(𝑚𝑒𝑑𝑖𝑎𝑛𝑎) 𝑒 𝑄3 Limite inferior: 𝑚𝑎𝑥{mín(𝑑𝑎𝑑𝑜𝑠) ; 𝑄1 − 1,5(𝑄3 −𝑄1)} Limite superior: 𝑚𝑖𝑛{máx(𝑑𝑎𝑑𝑜𝑠) ; 𝑄3 + 1,5(𝑄3 − 𝑄1)} Outliers: são todos os pontos abaixo ou acima dos limites inferior ou superior respectivamente. Trata-se de valores atípicos cuja ocorrência é considerada anômala ao comportamento dos dados. A identificação é de suma importância uma vez que pode distorcer as análises ou pode chamar a atenção para uma característica dos dados ainda não estudada. Exemplo: Suponha que uma pessoa tenha conseguido viver até 150 anos, certamente trata-se de um outlier, porém abre o seguinte precedente: como ela conseguiu? No entanto, a maioria dos casos apenas indicam anomalias (“raridades”) ou erros de medição. Whisker ou fio de bigode: segmentos que ligam a caixa aos limites. Indicam a variabilidade dos dados. Uma aplicação interessante é a comparação entre vários grupos através do Box Plot. Exemplo: Os dados abaixo são as medidas da altura de 20 hastes de um processo de usinagem. Determine o Box Plot. Para facilitar a construção os dados já estão ordenados. Professor Cledinaldo Castro Araújo 40 860,41 903,88 915,38 934,52 936,78 941,83 950,38 993,45 1.011,26 1.014,53 1.020,70 1.036,92 1.039,19 1.066,12 1.086,98 1.097,79 1.098,04 1.120,19 1.144,94 1.214,08 Determinação dos Quartis: 𝑄𝑗 = 𝑋𝑗∗(𝑛+1) 4 com interpolação linear. 𝑄1 = 𝑋1∗(20+1) 4 = 𝑋5,25 = 𝑋5 + 0,25 ∗ (𝑋6 − 𝑋5) = 936 + 0,25 ∗ (941,83 − 936,76) ⇒ 𝑄1 = 938,04 𝑚𝑚 𝑄2 = 𝑋2∗(20+1) 4 = 𝑋10,5 = 𝑋10 + 0,5 ∗ (𝑋11 − 𝑋10) = 1.014,53 + 0,5 ∗ (1.014,53 − 1.020,70) ⇒ 𝑄2 = 1.017,62 𝑚𝑚 𝑄3 = 𝑋3∗(20+1) 4 = 𝑋15,75 = 𝑋15 + 0,75 ∗ (𝑋15 − 𝑋16) = 1.086,98 + 0,75 ∗ (1.086,98 − 1.097,79) ⇒ 𝑄3 = 1.095,09 𝑚𝑚 Determinação dos limites: Limite inferior: 𝑄1 − 1,5(𝑄3 − 𝑄1) = 938,04 − 1,5 ∗ (1.095,09 − 938,04) = 702,47 𝑚𝑚 Menor valor do conjunto: 860,41 mm 𝐿𝑖𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑚á𝑥{860,41; 702,47} = 860,41 𝑚𝑚 Limite Superior: 𝑄3 + 1,5(𝑄3 −𝑄1) = 1.095,09 − 1,5 ∗ (1.095,09 − 938,04) = 1.330,67 𝑚𝑚 Maior valor do conjunto: 1.214,08 mm 𝐿𝑖𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 𝑚í𝑛{1.214,08; 1.330,67} = 1.214,08 𝑚𝑚 Construção do Box Plot: Uma sugestão de interpretação: O conjunto é aproximadamente simétrico, 50% dos valores se distribuem de forma homogênea na caixa, ou seja, a mediana encontra-se aproximadamente no centro da caixa. O Whisker superior é levemente mais alongado que o inferior o que indica uma “leve” assimetria superior. O conjunto não apresenta outliers. Observação: o ponto marcado no centro do retângulo (caixa) é a média. Professor Cledinaldo Castro Araújo 41 4.5 Interpolação Linear O cálculo das medidas de posição e medidas separatrizes para distribuições de frequências em intervalos de classes utiliza o critério da interpolação linear. Com efeito, podemos concluir que estas medidas apresentam valores aproximados. No caso das medidas separatrizes, busca-se um valor tal que se conheça a frequência acumulada até ele, por exemplo: Qual valor da distribuição é o teto para 75% dos valores? Este valor é o 3º quartil (Q3). Apresentaremos aqui a interpolação como recurso que possibilita este cálculo e para a obtenção da frequência acumulada até um valor especificado, algumas literaturas se referem a este caso com interpolação da ogiva de Galton. Este problema é muito comum em concursos, em especial os federais. Em engenharia, na interpolação de indicadores de desempenho quando há atribuição de escores. A estruturação geral consiste em inserir um valor entre dois outros. Neste caso é ignorada a linearidade ou não da função entre os pontos considerados. O objetivo é Interpolar um ponto (𝑥, 𝑦) entre dois pontos dados (𝑥1, 𝑦1) e (𝑥2, 𝑦2) conhecendo-se uma das coordenadas do ponto (𝑥 𝑜𝑢 𝑦). Assim: 𝑦 − 𝑦1 𝑥 − 𝑥1 = 𝑦2 − 𝑦1 𝑥2 − 𝑥1 Dependendo de qual coordenado do ponto a inserir seja conhecida, a expressão pode assumir as seguintes formas: X conhecido: 𝑦 = 𝑦1 + (𝑦2−𝑦1)(𝑥−𝑥1) 𝑥2−𝑥1 Y conhecido: 𝑥 = 𝑥1 + (𝑥2−𝑥1)(𝑦−𝑦1) 𝑦2−𝑦1 Este recurso é utilizado em algumas fórmulas já estudadas. Vamos considerar mais uma vez os seguintes dados: Altura (m) fi fi% faci fadi 1,40 I---1,50 6 15% 6 40 1,50 I---1,60 10 25% 16 34 1,60 I---1,70 6 15% 22 24 1,70 I---1,80 8 20% 30 18 1,80 I---1,90 6 15% 36 10 1,90 I---I2,00 4 10% 40 4 Total 40 100% - - a) Determinar o valor que acumula 75% dos valores b) Determinar a frequência relativa acumulada crescente até o valor 1,75 m. Resolução: a) O valor procurado acumula até ele 25%, ou seja, 25% de 40. A frequência procurada é 10. Este valor corresponde ao quartil Q1. Pela fórmula, este valor é Q1= 1,54 m. Agora utilizaremos a interpolação linear para obter o mesmo valor. Vejamos o histograma da distribuição: (𝑥2, 𝑦2) (𝑥1, 𝑦1) (𝑥, 𝑦) Professor Cledinaldo Castro Araújo 42 A frequência 10 abrange 6 da 1ª classe e 4 da 2ª classe. De acordo com o histograma, temos que: 10 4 = 1,60 − 1,50 𝑥 − 1,50 ⇒ (𝑥 − 1,50) ∗ 10 = 4 ∗ (1,60 − 1,50) ⇒ 𝑥 = 1,54 𝑚 b) A frequência relativa acumulada crescente até 1,75 m é dada pela soma das frequências das classes anteriores e mais a frequência de 1,70 a 1,75, ou seja: 𝑓𝑖% = (6 + 10 + 6 + 𝑓) 40 ∗ 100, 𝑜𝑛𝑑𝑒 𝑓 é 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 1,70 𝑒 1,75 𝑚 Analogamente: 8 𝑓 = 1,80 − 1,70 1,75 − 1,70 ⇒ 𝑓 ∗ (1,80 − 1,70) = 8 ∗ (1,75 − 1,70) ⇒ 𝑓 = 4, 𝑙𝑜𝑔𝑜: 6 10 6 8 6 4 1,40 I---1,50 1,50 I---1,60 1,60 I---1,70 1,70 I---1,80 1,80 I---1,90 1,90 I---I2,00 } Frequências } Alturas } Frequências } Alturas Professor Cledinaldo Castro Araújo 43 𝑓𝑖% = (6 + 10 + 6 + 4) 40 ∗ 100 ⇒ 𝑓𝑖% = 65% 4.6 Outras Medidas de Posição De acordo com as situações analisadas anteriormente, a média aritmética é amplamente utilizadas. Porém, ela não é adequada para todos os tipos de dados, não pode ser empregada, por exemplo, para média de crescimento ou proporções de velocidades, ou ainda quando os dados são medidas que apresentam crescimento onde uma medida subsequente depende uma medida prévia, por exemplo, crescimento de populações. As situações descritas acima são aplicações de outras medidas de posição, respectivamente a média harmônica e a média geométrica. Além destas, também abordaremos neste capítulo a média ponderada. Média Harmônica: A média aritmética é adequada para caso em que as grandezas relacionadas são diretamente proporcionais, por exemplo: peças vendidas por semana, acidentes por dia, etc. A média