Prévia do material em texto
linha INTRODUÇÃO A ESTATÍSTICA Para alunos com dificuldade 3 Edição | 2017 1 MATERIAL DIDÁTICO EDITORAÇÃO ELETRÔNICA E ARTE FINAL DA CAPA Diego Oliveira .nmber.890m.com Vitória da Conquista – Bahia – Brasil – 2017 – 2 Sumário 1 A ESTATÍSTICA 5 2 PESQUISA E A COLETA DE DADOS 5 3 O PROCESSO DE AMOSTRAGEM 7 3.1 AMOSTRAGEM CASUAL OU ALEATÓRIA . . . . . . . . . . . . . . . . . 7 3.2 AMOSTRAGEM PROPORCIONAL ESTRATIFICADA . . . . . . . . . . . 8 3.3 AMOSTRAGEM SISTEMÁTICA . . . . . . . . . . . . . . . . . . . . . . . . 8 4 DADOS ABSOLUTOS E DADOS RELATIVOS 12 4.1 PERCENTAGENS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.2 ÍNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.3 COEFICIENTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.4 TAXAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 5 APRESENTAÇÃO DOS DADOS 14 5.1 TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 5.1.1 TABELA PRIMITIVA . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5.1.2 SÉRIE ESTATÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.1.3 DISTRIBUIÇÃO DE FREQUÊNCIAS . . . . . . . . . . . . . . . . . 19 5.2 GRÁFICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2.1 DIAGRAMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2.2 GÁFICO EM SETORES . . . . . . . . . . . . . . . . . . . . . . . . 26 5.2.3 GRÁFICO POLAR . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.2.4 CARTOGRAMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.2.5 PICTOGRAMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 6 FREQUÊNCIA 32 6.1 FREQUÊNCIA SIMPLES OU ABSOLUTA . . . . . . . . . . . . . . . . . . 32 6.2 FREQUÊNCIA RELATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 6.3 FREQUÊNCIA ABSOLUTA ACUMULADA . . . . . . . . . . . . . . . . . . 33 6.4 FREQUÊNCIA RELATIVA ACUMULADA . . . . . . . . . . . . . . . . . . 34 7 HISTOGRAMA 38 8 MEDIDAS DE TENDÊNCIA CENTRAL 40 8.1 MÉDIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 8.1.1 MÉDIA ARITMÉTICA SIMPLES . . . . . . . . . . . . . . . . . . . 40 8.1.2 MÉDIA ARITMÉTICA PONDERADA . . . . . . . . . . . . . . . . . 41 8.1.3 MÉDIA GEOMÉTRICA SIMPLES . . . . . . . . . . . . . . . . . . . 42 8.1.4 MÉDIA GEOMÉTRICA PONDERADA . . . . . . . . . . . . . . . . 43 8.1.5 MÉDIA HARMÔNICA SIMPLES . . . . . . . . . . . . . . . . . . . 44 8.1.6 MÉDIA HARMÔNICA PONDERADA . . . . . . . . . . . . . . . . . 44 8.2 MEDIANA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 8.2.1 MEDIANA A PARTIR DE UM ROL . . . . . . . . . . . . . . . . . . 45 8.2.2 MEDIANA NUMA TABELA DE DISTRIBUIÇÃO DE FREQUÊN- CIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 8.3 MODA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 8.3.1 MODA A PARTIR DE UM ROL . . . . . . . . . . . . . . . . . . . . 47 8.3.2 MODA A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 8.3.3 MODA A PARTIR DE UMA DISTRIBUIÇÃO COM INTERVALO DE CLASSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 8.4 CURVAS DE FREQUÊNCIA E MEDIDAS DE TENDÊNCIA CENTRAL . 49 9 SEPARATRIZES 50 9.1 QUARTIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 9.2 QUARTIS EM DADOS NÃO AGRUPADOS . . . . . . . . . . . . . . . . . 51 10MEDIDAS DE DISPERSÃO 52 10.1DESVIO MÉDIO SIMPLES . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 10.1.1DMS A PARTIR DE DADOS BRUTOS OU ROL . . . . . . . . . . 52 10.1.2DMS A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA . . 53 10.1.3DMS A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE . . . . . . . . . . . . . . . . . . . . 54 10.2VARIÂNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 10.2.1VARIANÇA A PARTIR DE DADOS BRUTOS OU ROL . . . . . . 55 10.2.2VARIANÇA A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊN- CIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 10.2.3VARIANÇA A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊN- CIAS COM INTERVALO DE CLASSE . . . . . . . . . . . . . . . . 55 10.3DESVIO PADRÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 10.4COEFICIENTE DE VARIAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . 56 10.5VARIÂNCIA RELATICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 11INTRODUÇÃO À PROBABILIDADE 58 11.1ALGUMAS DEFINIÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 12REGRA BÁSICA DA PROBABILIDADE 60 12.1CAMPO DE VARIAÇÃO DAS PROBABILIDADES . . . . . . . . . . . . . 61 12.2PROBABILIDADE DO ESPAÇO AMOSTRAL . . . . . . . . . . . . . . . . 61 12.3ADIÇÃO DE PROBABILIDADES . . . . . . . . . . . . . . . . . . . . . . . 61 13PROBABILIDADE DE UM EVENTO COMPLEMENTAR 63 14INDEPENDÊNCIA ESTATÍSTICA 64 15PROBABILIDADE CONDICIONAL 67 15.1TEOREMA DO PRODUTO . . . . . . . . . . . . . . . . . . . . . . . . . . 68 15.2TEOREMA DE BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 16DISTRIBUIÇÃO DE PROBABILIDADE 73 16.1DISTRIBUIÇÃO BINOMIAL . . . . . . . . . . . . . . . . . . . . . . . . . . 75 16.2DISTRIBUIÇÃO DE POISSON . . . . . . . . . . . . . . . . . . . . . . . . 78 16.3APROXIMAÇÃO DA DISTRIBUIÇÃO BINOMIAL POR POISSON . . . . 81 16.4DISTRIBUIÇÃO NORMAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 16.5CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL . . . . . . . . . . . . 83 16.6ANALISANDO A DISTRIBUIÇÃO CONFORME A MÃL’DIA E O DESVIO PADRÃO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 16.7DISTRIBUIÇÃO NORMAL PADRONIZADA . . . . . . . . . . . . . . . . . 84 17REFERÊNCIA 86 4 UNIDADE 1 - A PESQUISA ESTATÍSTICA 1 A ESTATÍSTICA A Estatística é uma parte da Matemática Aplicada que fornece méto- dos para a coleta, organização, descrição, análise e interpretação de dados bem como a utilização dos mesmos na tomada de decisões. Se divide em descritiva e inferencial. A estatística descritiva envolve a organização, resumo e representação dos dados. As ferramentas utilizadas para isso são as bem conhecidas tabelas de frequência; gráficos; cálculo de medidas de tendência central como mé- dia, mediana e moda; e cálculo de medidas de variação como variância e desvio padrão. Já na estatística inferencial estamos sempre interessados em utilizar as informações de uma amostra para chegar a conclusões sobre um grupo maior, ao qual não temos acesso. Uma ferramenta muito utilizada na estatís- tica inferencial é a probabilidade. 2 PESQUISA E A COLETA DE DADOS Uma pesquisa estatística, assim como toda pesquisa científica, busca a resposta para uma determinada pergunta, como por exemplo: qual o perfil dos compradores de imóveis na cidade A? Ou mesmo, qual a margem de lucro das imobiliárias na cidade B nos três últimos meses? Uma vez definida a pegunta que motiva a pesquisa o próximo passo é a coleta dos dados que após analise irão nos dar a resposta ao problema. No processo de coleta de dados três conceitos se destacam: população, amostra e variáveis. População: ou população estatística ou mesmo universo estatístico é o nome dado ao conjunto composto de entes portadores de, pelo menos, uma característica comum. Se estivéssemos realmente tentando responder a pergunta qual o perfil dos compradores de imóveis na cidade A, então a nossa população seria todos os compradores de imóveis da cidade A. Você deve lembrar-se que embora a população numa pesquisa estatística normalmente seja composta de seres humanos é perfeitamente possível que a população seja composta por máquinas, animais, peças, ferramentas e etc. Algumasvezes por falta de tempo, dinheiro ou material torna-se impos- sível realizar o estudo estatístico com toda a população. Se o nosso objetivo fosse determinar a altura média dos habitantes da cidade de São Paulo, por 5 exemplo, na prática jamais conseguiríamos medir todos os habitantes. Em casos como esse (em que é inviável trabalhar com toda a população) ao invés de realizar a pesquisa com toda a população, poderíamos selecionar apenas uma parte dela (normalmente a maior possível) e então, apenas so- bre essa parte, realizarmos o estudo. Essa fração da população é chamada de amostra. Nos livros mais formais a amostra é definida mais ou menos assim: Amostra: é qualquer subconjunto finito de uma população exceto a própria população. Finalmente, os dados obtidos do estudo estatístico (ou os dados que po- dem ser obtidos no estudo) são chamados de variável estatística. Existem dois tipos de variáveis estatísticas qualitativa e quantitativa. Qualitativa: quando seus valores são expressos por atributos tal como: sexo (masculino / feminino), cor de pele (branca / preta / parda), etc. Quantitativa: quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola, etc.). As variáveis quantitativas podem ainda ser classificadas em: Continua: quando a variável puder assumir, teorica- mente, qualquer valor num certo intervalo. Como, por ex- emplo, tempo que um atleta leva para correr 200 metros, "peso" de um indivíduo, etc. Discreta: quando a variável puder assumir apenas valores pertencentes a um conjunto enumerável. Como, por exemplo, gols em um jogo de futebol, idade em anos e etc. Embora essa distinção entre variáveis seja importante nas pesquisas es- tatísticas, nas aplicações do cotidiano é muito tênue a fronteira entre o dis- creto e o contínuo. A altura das pessoas, por exemplo, é contínua, mas como é medida por uma aproximação em centímetros, torna-se discreta. 6 UNIDADE 2 - AMOSTRAGEM 3 O PROCESSO DE AMOSTRAGEM Como já dito anteriormente, as vezes, quando queremos realizar um es- tudo estatístico, não é possível analisar toda a população envolvida com o fato que pretendemos investigar. Quando isso ocorre somos obrigados a uti- lizar apenas uma parte da população, isto é, uma amostra. Embora formalmente uma amostra seja definida apenas como um "pedaço" da população na prática temos de tomar cuidado para que esse "pedaço" seja um representativo do todo. Por exemplo, se quiséssemos determinar a escolaridade média de um brasileiro e tomássemos como amostra 100 mil estudantes universitários nossa pesquisa apontaria que todos os brasileiros possuem a educação básica (ensino fundamental e médio) completa, o que obviamente é uma grande mentira. Mas, se tomássemos como amostra 100 mil brasileiros escolhidos aleatoriamente em cada estado do país o resultado seria mais realista, pois entre esses habitantes certamente haveriam analfa- betos, indivíduos com apenas a educação infantil, doutores, etc., exatamente como ocorre na prática com a população (indivíduos com diferentes tipos de escolaridade). Uma amostra representativa significa que esta possui as mesmas carac- terísticas básicas da população no que diz respeito aos fenômenos que desejamos investigar. Existem algumas técnicas para garantir que os indivíduos coletados para a composição de uma amostra garantam a representatividade da mesma. Essas técnicas são chamadas de amostragem. 3.1 AMOSTRAGEM CASUAL OU ALEATÓRIA Esse tipo de amostragem é equivalente a um sorteio lotérico. Na prática, a amostragem casual ou aleatória simples pode ser realizada numerando- se a população de 1 a n, onde n é o número de elementos da população, e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa sequencia, os quais corresponderão aos elementos perten- centes à amostra. Exemplo: Uma pesquisa do censo na qual o número de pessoas entrevis- tadas foi numerada de 01 à 80 e em seguida fora sorteado 40 números para representar as classes econômicas de uma população de certa região. 7 3.2 AMOSTRAGEM PROPORCIONAL ESTRATIFICADA Muitas vezes a população em estudo divide-se em grupos que apresen- tam, um em relação ao outro, um comportamento heterogêneo. Esses gru- pos são chamados de extratos, assim a amostragem estratificada consiste em realizar uma amostragem aleatória dentro de cada extrato separada- mente. Exemplo: Suponha no exemplo anterior que das 80 pessoas, 35 sejam solteiros, 22 casados e 23 divorciados queremos obter uma amostra estratifi- cada de 15% da população. Nesse caso a amostra deve manter essa mesma proporção de solteiros, divorciados e casados. Veja a tabela: CONDIÇÕES CIVIS POPULAÇÃO 15% AMOSTRA Solteiros 35 (35 × 15)/100 = 5,25 5 Casados 22 (22 × 15)/100 = 3,30 3 Divorciados 23 (23 × 15)/100 = 3,45 4 Total 80 (80 × 15)/100 = 12 12 Portanto, dos 80 entrevistado devemos escolher aleatoriamente 5 soltei- ros, 3 casados e 4 divorciados. 3.3 AMOSTRAGEM SISTEMÁTICA Nesse caso os elementos da população já estão ordenados, não precisando construir sistema de referencia, como exemplos de prontuários médicos de um hospital, os prédios de uma rua, as linhas de produção etc. sendo um sistema imposto pelo pesquisador. Exemplo: Suponha no exemplo anterior que das 80 pessoas queremos obter uma amostra de 20 pessoas. Nesse caso podemos escolher os 20 primeiros por ordem alfabética ou por idade levando em conta os anos e meses. Exemplos Resolvidos: 1. Em uma escola existem 250 alunos, sendo 35 na 1◦ serie, 32 na 2◦, 30 na 3◦, 28 na 4◦, 35 na 5◦, 32 na 6◦, 31 na 7◦ e 27 na 8◦ totalizando 250 alunos. Se quisermos uma amostra estratificada de 40 alunos quantos alunos de cada série deverão ser sorteados? 8 Resolução: Total 8◦ 7◦ 6◦ 5◦ 4◦ 3◦ 2◦ 1◦ SÉRIES 250 27 31 32 35 28 30 32 35 POPULAÇÃO − 27 × 40 250 = 4,32 31 × 40 250 = 4,96 32 × 40 250 = 5,12 35 × 40 250 = 5,6 28 × 40 250 = 4,48 30 × 40 250 = 4,8 32 × 40 250 = 5,12 35 × 40 250 = 5,6 CALCULO PROPORCIONAL 40 4 5 5 6 4 5 5 6 AMOSTRA Assim, deve ser sorteado 6 alunos da primeira série, 5 da segunda, 5 da terceira, 4 alunos da quarta série e assim por diante. 2. Uma escola de 1◦ grau abriga 124 alunos. Obtenha uma amostra representativa correspondendo a 15% da população. Resolução: Usando regra de três simples descobrimos que 15% de 124 é exatamente 18,6. 124 = 100% 15% ⇒ = 18,6 Como o menor inteiro mais próximo, e maior que 18.6 é 19 então deve- mos tomar uma amostra composta de 19 pessoas escolhidas aleatoriamente. Para essa escolha podemos usar uma tabela de números aleatórios. 3. O diretor de uma escola, na qual estão matriculados 280 meninos e 320 meninas, desejoso de conhecer as condições de vida extra-escolar de seus alunos e não dispondo de tempo para entrevistar todas as famílias, resolveu fazer um levantamento, por amostragem, em 10% dessa clientela. Obtenha, para esse diretor, os elementos componentes da amostra. Resolução: 9 Ao todo temos 600 alunos e queremos uma amostra de 10%. Assim, bas- taria nos obter 10% do número de meninos e 10% do número de meninas que obteríamos 10% do total. Veja: 280 = 100% 10% ⇒ = 28 (número de meninos a compor a amostra) 320 = 100% 10% ⇒ = 32 (número de meninas a compor a amostra) Ou seja, do grupo de 280 meninos devem ser escolhidos aleatoriamente 28 alunos e 32 alunas. Atente para fato de que 60 (32+28) é 10% do total de alunos (280+320). Como havia sido afirmado. 4. Uma cidade X apresenta o seguinte quadro relativo ás suas escolas de 1◦ grau: ESCOLAS N ◦ DE ESTUDANTES : MASCULINO FEMININO A 80 95 B 102 120 C 110 92 D 134 228 E 150 130 F 300 290 Total 876955 Obtenha uma amostra proporcional estratificada de 120 estudantes. Resolução: O total de indivíduos da população é de 1834 (879 + 955). Sendo assim uma amostra de 120 indivíduos representa cerca de 6,54% da população. 1834 120 = 100% ⇒ ≈ 6,54% Assim, basta retirar de cada grupo essa percentagem. Do grupo de 80 meninos (representado por 80) da turma A deverão ser retirados: 80 = 80 6,54 100 ≈ 5 alunos. e para os demais grupos: 10 102 = 102 · 6,54 100 ≈ 7 alunos. 110 = 110 · 6,54 100 ≈ 7 alunos. 134 = 134 · 6,54 100 ≈ 8 alunos. 150 = 150 · 6,54 100 ≈ 10 alunos. 300 = 300 · 6,54 100 ≈ 20 alunos. 95 = 95 · 6,54 100 ≈ 6 alunos. 120 = 120 · 6,54 100 ≈ 8 alunos. 92 = 92 · 6,54 100 ≈ 6 alunos. 228 = 228 · 6,54 100 ≈ 15 alunos. 130 = 130 · 6,54 100 ≈ 9 alunos. 290 = 290 · 6,54 100 ≈ 19 alunos. De posse desses valores o diretor deve fazer a escolha dos alunos de forma aleatória. 5. Uma população encontra-se dividida em três estratos, com taman- hos, respectivamente, n1 = 40, n2 = 100 e n3 = 60. Sabendo que, ao ser realizada uma amostragem estratificada proporcional, nove elementos da amostra foram retirados do 3◦ estrato, determine o número total de elemen- tos da amostra. Resolução: A população total é a soma dos três estratos (n1, n2, n3), isto é: 200. Sabemos que do terceiro extrato (n3) foram utilizados apenas 9 elementos, então com base nesses dados temos a seguinte proporção: 200 60 = Amostr 9 que implica numa amostra igual a: Amostr = 200 · 9 60 = 30 Ou seja, a amostra é de 30 indivíduos. 11 UNIDADE 3 - DADOS 4 DADOS ABSOLUTOS E DADOS RELATIVOS Dados absolutos são dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a contagem ou medida. Já os dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entre dados absolutos e têm por finalidade realçar ou facilitar as comparações entre quantidades. Esses dados relativos, em geral, são representados por meio de percentagens, índices, coeficientes e taxas. 4.1 PERCENTAGENS Em estatística, os cálculos com percentagem (ou porcentagem) são bas- tante utilizados. Por isso, vamos relembrar o significado de porcentagem e algumas situações que a envolvem. Considere as frases: A loja Preço Bom cobra 6% de juros sobre o valor de eletrodomés- ticos em compras a prazo. Houve uma queda de 12% na produção das toneladas de grãos A primeira frase significa que a cada R$ 100,00 pagos por um mercado- ria, haverá um acréscimo de R$ 6,00. A segunda frase significa que a cada 100 toneladas de grãos, 12 toneladas deixaram de ser produzidas. Matematicamente, podemos representar 6% por 6 100 = 0,06 e 12% por 12 100 = 0,12. É uma grande valia quando o intuito é destacar a participação da parte no todo. 12 Exemplo Resolvido: 1. Dada a tabela a seguir expresse o seu número de alunos em percent- agem. MATRICULAS NAS ESCOLAS DA CIDADE A - 1995 CATEGORIAS NÚMERO DE ALUNOS 1◦ grau 19.286 2◦ grau 1.681 3◦ grau 234 Total 21.201 Dados fictícios Resolução: Para determinar as percentagens podemos recorrer a regra de três: 1◦ grau → 19.286 × 100 21.201 = 90,96 ' 91,0% 2◦ grau → 1.681 × 100 21.201 = 7,92 ' 7,9% 3◦ grau → 234 × 100 21.201 = 1,10 ' 1,1% CATEGORIAS NÚMERO DE ALUNOS % 1◦ grau 19.286 91,0 2◦ grau 1.681 7,9 3◦ grau 234 1,1 Total 21.201 100,0 Dados fictícios Assim, temos que de cada 100 alunos da cidade A, 91 estão matriculados no 1◦ grau, oito (aproximadamente) no 2◦ grau e um (também aproximada- mente) no 3◦ grau. 4.2 ÍNDICES São razões entre duas grandezas, tais que uma não inclui a outra, multi- plicado por uma centena. Exemplos: Índice cefálico = diâmetro transversal do crânio diâmetro longitudinal do crânio × 100 Quociente intelectual = idade mental idade cronológica × 100 Densidade demográfica = população superfície × 100 13 4.3 COEFICIENTES São razões entre o número de ocorrências e o número total (número de ocorrências e número de não-ocorrência). Exemplos: coeficiente de natalidade = número de nascimentos população Coeficiente de evasão escolar = número de alunos evadidos número inicial de matrículas Coeficiente de mortalidade = número de obitos população Coeficiente de aproveitamento escolar = número de alunos aprovados número final de matriculados Coeficiente de mortalidade = número de alunos recuperados número de alunos em recuperação 4.4 TAXAS São os coeficientes multiplicados por uma potência de 10 (10, 100, 1.000, etc.) para tornar o resultado mais inteligível. Exemplos: Taxa de mortalidade = coeficiente de mortalidade × 1.000; Taxa de natalidade = coeficiente de natalidade × 1.000; Taxa de evasão escolar = coeficiente de evasão escolar × 100. 5 APRESENTAÇÃO DOS DADOS A representação de dados em Estatística tem como objetivo sintetizar os valores que uma ou mais variáveis podem assumir e facilitar a percepção de sua variação. Há basicamente duas formas de representação: a tabela e os gráficos. 5.1 TABELAS Existem três tipos de tabelas estatística que se diferenciam pela forma que organizam os dados. Essas tabelas são: a tabela primitiva, a série estatística e a distibuição de frequência. 14 5.1.1 TABELA PRIMITIVA A tabela primitiva é o tipo mais simples de apresentação dos dados. Con- siste simplesmente num quadro com os dados reunidos anotados em qual- quer ordem. Suponha, por exemplo, termos feito uma coleta de dados relativos as es- taturas de quarenta alunos, que compõem uma amostra dos alunos de um colégio A, resultando a seguinte tabela de valores. ESTATURA DE 40 ALUNOS DO COLÉGIO A 166 160 161 150 162 160 165 167 164 160 162 161 168 163 156 173 160 155 164 168 155 152 163 160 155 155 169 151 170 164 154 161 156 172 153 157 156 158 158 161 Note que a tabela primitiva é bastante simples e constitui-se basicamente de título e corpo. Nos casos em que a tabela é construída com dados de terceiros é necessário também citar a fonte abaixo da tabela. Outra carac- terística é que os elementos nela apresentados não dispõem de nenhuma or- ganização numérica, isto é, do maior para o menor ou vice-versa o que gera certa dificuldade em averiguar em torno de que valor tendem a se concen- trar as estaturas ou mesmo qual a menor ou a maior estatura. Para resolver esse problema costuma-se organizar a tabela primitiva a partir de uma certa ordenação (crescente ou decrescente). ESTATURA DE 40 ALUNOS DO COLÉGIO A 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Essa nova tabela organizada é chamada de ROL. E com ela podemos saber, com relativa facilidade, qual a menor estatura (150 cm) e qual a maior (173 cm); que a amplitude de variação foi de 173 - 150 = 23 cm; e, ainda, a ordem que um valor particular da variável ocupa no conjunto. Com um exame mais acurado, vemos que há uma concentração da estatura em algum valor entre 160 cm e 165 cm e, mais ainda, que há poucos valores abaixo de 155 cm e acima de 170 cm. O rol é uma sequencia ordenada dos dados brutos, na qual organiza-se na forma crescente ou decrescente. Exemplo Resolvido: 1. Um atleta ao saltar de um trampolim em uma competição obteve dos dez jurados as seguintes notas 8, 7, 8, 9, 6, 7, 6, 7, 5, 9. Estabeleça o rol 15 desses dados. Resolução: Dados Brutos: 8, 7, 8, 9, 6, 7, 6, 7, 5, 9. Rol: 9, 9, 8, 8, 7, 7, 7, 6, 6, 5. 5.1.2 SÉRIE ESTATÍSTICA Outra forma de apresentar dados é organizando-os em função do tempo, do espaço ou da espécie. Quando essa organização ocorre por meio desses fatores a tabela recebe o nomede série estatística. PRODUÇÃO DE CAFÉ BRASIL - 1991-1995 ANOS PRODUÇÃO (1000 t) 1991 1992 1993 1994 1995 2535 2666 2122 3750 2007 FONTE: IBGE Note que uma série se constitui de bem mais elementos que uma tabela primitiva. Aqui ao invés de termos apenas: Corpo: conjunto de linhas e colunas que contém informações sobra a variável em estudo; Título: conjunto de informações, as mais completas possíveis, respondendo às perguntas: O quê? Quando? Onde?, localizado no topo da tabela. Fonte: mostra de onde foram recolhidos os dados para reorga- nizar a tabela. Aparece sempre no rodapé dela. No caso da séries também há: Cabeçalho: parte superior da tabela que especifica o conteúdo das colunas; Colunas Indicadoras: parte da tabela que específica o con- teúdo das linhas; 16 Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com colunas; Casa ou Célula: espaço destinado a um só número; PRODUÇÃO DE CAFÉ BRASIL - 1991-1995 ANOS PRODUÇÃO (1000 t) 1991 1992 1993 1994 1995 2535 2666 2122 3750 2007 FONTE: IBGE Título Colunas indicadoras Corpo Fonte Cabeçalho Existe, também outros elementos na série que são as notas e as chamadas colocadas de preferência também no rodapé. De acordo com a Resolução 886 da Fundação IBGE, nas casas ou células devemos colocar: Um traço horizontal (–): quando o valor é zero; Três pontos ( ... ): quando não temos dados; Um ponto de interrogação ( ? ): quando temos duvida quanto à exatidão de determinado valor; Zero ( 0 ): quando o valor é muito pequeno para ser expresso pela unidade utilizada. Costuma-se ainda classificar as séries em: temporal, quando os dados são organizados por datas ou períodos, geográfica, quando os dados são organizados por uma região, ou específica, quando os dados são organiza- dos por uma especifidade. 17 SÉRIES HISTÓRICAS, CRONOLÓGICAS OU TEMPORAIS Descrevem os valores da variável, em determinada época (ano, mês, dia, etc.). PRODUÇÃO DE CAFÉ BRASIL - 1991-1995 ANOS PRODUÇÃO (1000 t) 1991 1992 1993 1994 1995 2535 2666 2122 3750 2007 FONTE: IBGE SÉRIES GEOGRÁFICAS, ESPACIAIS, TERRITORIAIS OU DE LOCAL- IZAÇÃO Descrevem os valores da variável em função de uma região (país, estado, cidade, etc.). DURAÇÃO MÉDIA DOS ESTUDOS SUPERIORES 1994 PAÍSES NÚMERO DE ANOS Itália 7,5 Alemanha 7,0 França 7,0 Holanda 5,9 Inglaterra Menos de 4 FONTE: IBGE SÉRIES ESPECÍFICAS OU CATEGÓRICAS Descrevem os valores das variáveis, em determinado tempo e local, dis- criminados segundo especificações ou categorias. 18 REBANHOS BRASILEIROS 1992 ESPÉCIES QUANTIDADES (1.000 cabeças) Bovinos 154.440,8 Bubalinos 1.423,3 Equinos 549,5 Asinios 47,1 Muares 208,5 Suínos 34.532,2 Ovinos 19.9555,9 Caprinos 12.159,6 Coelhos 6,1 FONTE: IBGE SÉRIES CONJUGADAS OU TABELAS DE DUPLA ENTRADA É a representação da variação de valores por mais de uma variável, isto é, uma conjugação de duas ou mais séries. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). PRESENÇA DE PRODUTOS LIGHT E DIET EM MERCADOS EM 1997 E 2002 PRODUTOS 1997 2002 Chocolate menos de 1% 2% Leite menos de 1% 2% Sorvete menos de 1% 3% Pão menos de 1% 5% Refrigerante 1% 10% Iogurte menos de 1% 15% Margarina menos de 1% 15% Requeijão menos de 1% 15% FONTE: Associação Brasileira da Industria de Alimentos Dietética e para Fins Especiais. A conjugação, no exemplo anterior, é formado por série específica e outra temporal, que dá origem à série específica-temporal. Há a possibilidade de representação de séries compostas de três ou mais entradas. 5.1.3 DISTRIBUIÇÃO DE FREQUÊNCIAS A ultima forma de tabela é a distribuição de frequência. Distribuição de frequência é o modo o qual dispomos a quantidade dos valores de um rol de acordo com os números de vezes que cada valor aparece. Por exemplo, uma distribuição de frequência da estatura dos alunos da colégio A, mostrado anteriormente, é a tabela a seguir. 19 ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA 150 1 151 1 152 1 153 1 154 1 155 4 156 3 157 1 158 2 160 5 161 4 162 2 163 2 164 3 165 1 166 1 167 1 168 2 169 1 170 1 172 1 173 1 Total 40 Entretanto, observe que essa forma de distribuição é um tanto inconve- niente uma vez que exige o uso de uma tabela muito grande. Nesse caso, devido a própria natureza contínua da variável, seria mais conveniente o uso de uma distribuição de frequência agrupada em intervalos. Assim, se um dos intervalos for, por exemplo, 154 ` 158, em vez de dizermos que a estatura de 1 alunos é de 154 cm; de 4 alunos, 155 cm; de 3 alunos, 156 cm; e de 1 aluno, 157 cm, diremos que 9 alunos têm estatura entre 154, inclusive, e 158 cm. A tabela anterior disposta em intervalos é chamada de distribuição de frequência com intervalos de classe. ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA 150 ` 154 4 154 ` 158 9 158 ` 162 11 162 ` 166 8 166 ` 170 5 170 ` 174 3 Total 40 Agora temos uma distribuição de frequência mais sucinta. Embora ten- hamos perdido algumas informações. 20 CLASSE São os intervalos de variação da variável, os quais são representadas por , sendo = 1,2,3, ..., k., onde k é o número total de classe de distribuição. Na tabela anterior de estaturas temos 6 classes. ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA 1 150 ` 154 4 2 154 ` 158 9 3 158 ` 162 11 4 162 ` 166 8 5 166 ` 170 5 6 170 ` 174 3 Total 40 1◦ classe: 150 ` 154 2◦ classe: 154 ` 158 3◦ classe: 158 ` 162 4◦ classe: 162 ` 166 5◦ classe: 166 ` 170 6◦ classe: 170 ` 174 LIMITES DE CLASSE São os extremos de cada classe, sendo o menor número o limite inferior da classe () e o maior número, o limite superior da classe (L). ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA L 1 150 ` 154 4 150 154 2 154 ` 158 9 154 158 3 158 ` 162 11 158 162 4 162 ` 166 8 162 166 5 166 ` 170 5 166 170 6 170 ` 174 3 170 174 Total 40 AMPLITUDE DE UM INTERVALO DE CLASSE É a diferença entre o limite superior e inferior de uma classe. É indicado por h. h = L − 21 ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA h 1 150 ` 154 4 h1 = 4 2 154 ` 158 9 h2 = 4 3 158 ` 162 11 h3 = 4 4 162 ` 166 8 h4 = 4 5 166 ` 170 5 h5 = 4 6 170 ` 174 3 h6 = 4 Total 40 Na tabela acima determinamos a amplitude de classe para cada intervalo (4◦ coluna). Note que neste caso todas as amplitudes possuem o mesmo valor, entretanto isso não chega a ser uma regra. AMPLITUDE TOTAL DA DISTRIBUIÇÃO É a diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo). É indicado por AT . ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA 1 150 ` 154 4 2 154 ` 158 9 3 158 ` 162 11 4 162 ` 166 8 5 166 ` 170 5 6 170 ` 174 3 Total 40 AT = 174 − 150 = 24 É evidente que, se as classes possuem o mesmo intervalo, verificamos a relação: AT h = k AMPLITUDE AMOSTRAL É a diferença entre o valor máximo e o valor mínimo da amostra. Assim, temos: AA = m − mn No Rol a seguir o menor valor da amostra é 150 e o maior 173. 22 ESTATURA DE 40 ALUNOS DO COLÉGIO A 150 154 155 157 160 161 162 164 166 169 151 155 156 158 160 161 162 164 167 170 152 155 156 158 160 161 163 164 168 172 153 155 156 160 160 161 163 165 168 173 Sendo assim AA = 173 − 150 = 23 PONTO MÉDIO É, como o próprio nome indica, o ponto que divide o intervalo de classe em partes iguais. Determina-se através de: . = + L 2 ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) FREQUÊNCIA 1 150 ` 154 4 (150 + 154)/2 = 152 2 154 ` 158 9 (154 + 158)/2 = 156 3 158 ` 162 11 (158 + 162)/2 = 160 4 162 ` 166 8 (162 + 166)/2 = 164 5 166 ` 170 5 (166 + 170)/2 = 168 6 170 ` 174 3 (170 + 174)/2 = 172 Total 40 5.2 GRÁFICOS A segunda forma de apresentar dados estatísticos é através de gráficos. Estes são capazes de produzir no investigador, ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo. Sendo por isso mais utilizado que as séries. Nos próximos itens verificaremos os principais tipos de gráficos. 5.2.1 DIAGRAMAS São gráficos geométricos de, no máximo, duas dimensões, para sua con- strução, em geral, fazemos uso do sistema cartesiano. Esse tipo de gráfico pode ser representado como gráfico em linha ou em curva e gráfico em colunas ou em barras. GRÁFICO EM LINHA OU EM CURVA O gráfico em linha ou em curva é um tipo de gráfico cartesiano que utiliza uma linha poligonal para representar os dados estatísticos. É muito 23 usado na identificação de tendência de aumento ou diminuição dos valores numéricos de uma dada informação. Exemplo: Seja a tabela de dados abaixo: PRODUÇÃO BRASILEIRA DE ÓLEO DE DENDÊ 1987-92 ANOS QUANTIDADE (1.000 T) 1987 39,3 1988 39,1 1989 53,9 1990 65,1 1991 69,1 1992 59,5 FONTE: Agropalma. Para a representação gráfica dessa série usamos como base o plano carte- siano. Os anos serão as abcissas (eixo dos ) e as quantidades serão as ordenadas (eixo dos y), assim, as coordenadas serão (, y) que pode ser rep- resentado em um sistema cartesiano. Realizando esse procedimento com os dados da tabela acima e ligando os pontos dois a dois, teremos: PRODUÇÃO BRASILEIRA DE ÓLEO DE DENDÊ 1987-92 1987 1988 1989 1990 1991 1992 39,3 39,1 53,9 65,1 69,1 59,5 GRÁFICO EM COLUNAS OU EM BARRAS Esse tipo de gráfico é representado por meio de retângulos dispostos verti- calmente (em colunas) ou horizontalmente (em barras). Quando em colunas, os retângulos têm a mesma base e as alturas proporcionais aos respectivos 24 dados. Quando em barras, os retângulos têm a mesma altura e os compri- mentos são proporcionais aos respectivos dados. Assim, garante dessa forma a proporcionalidade entre as áreas dos retângulos e os dados estatísticos. Exemplo de Gráfico em Colunas: Dado a tabela abaixo: PRODUÇÃO BRASILEIRA DE CARVÃO MINERAL 1987-92 ANOS QUANTIDADE PRODUZIDAS (1.000 T) 1989 18.196 1990 11.168 1991 10.468 1992 9.24 FONTE: Ministério da Agricultura. A representação gráfica dos dados em colunas será: PRODUÇÃO BRASILEIRA DE CARVÃO MINERAL 1987-92 1989 1990 1991 1992 18.196 11.168 10.468 9.24 FONTE: Ministério da Agricultura. e em barras: PRODUÇÃO BRASILEIRA DE CARVÃO MINERAL 1987-92 1989 1990 1991 1992 18.196 11.168 10.468 9.24 FONTE: Ministério da Agricultura. 25 GRÁFICO EM COLUNAS OU EM BARRAS MÚLTIPLAS Este tipo de gráfico é geralmente empregado quando queremos represen- tar, simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação entre eles. Exemplo: Dado a tabela abaixo: BALANÇA COMERCIAL BRASIL – 1989 - 93 ESPECIFICAÇÕES EXPORTAÇÃO IMPORTAÇÃO VALOR (US$ 1.000.000) 1989 1990 1991 1992 1993 18.263 20.661 21.041 20.554 25.711 34.383 31.414 31.620 35.793 38.783 FONTE: Ministério da Fazenda. A representação gráfica será: BALANÇA COMERCIAL BRASIL – 1989 - 93 0 10.000 20.000 30.000 40.000 1989 1990 1991 1992 1993 Exportação Importação FONTE: Ministério da Fazenda 5.2.2 GÁFICO EM SETORES O gráfico em setores é construído utilizando-se de um círculo. Seu em- prego é adequado sempre que desejamos comparar parte dos dados com o total deles. O total dos dados é representado por um círculo dividido em tan- tos setores quantas são as partes correspondentes aos dados. As áreas dos setores são proporcionais aos respectivos dados que representam. Obtemos cada setor por meio de uma regra de três simples e direta, lem- brando que o total da série corresponde a 360◦. 26 Exemplo: Dado a tabela abaixo: REBANHO SUÍNO DO SUDESTE DO BRASIL EM 1992 ESTADOS QUANTIDADE (mil cabeças) Minas Gerais 3.363,7 Espírito Santo 430,4 Rio de Janeiro 308,5 São Paulo 2.035,9 Total 6.138,5 FONTE: SECEX. Calculamos o ângulo de cada dado da tabela 6.138,5 3.363,7 = 360◦ → ≈ 197,27 6.138,5 430,4 = 360◦ → ≈ 25,24 6.138,5 308,5 = 360◦ → ≈ 18,1 6.138,5 2.035,9 = 360◦ → ≈ 119,3 e montamos a seguinte representação gráfica: REBANHO SUÍNO DO SUDESTE DO BRASIL EM 1992 197,27◦ 25,24◦ 18,1◦ 119,4◦ Minas Gerais Espirito Santo Rio de Janeiro São Paulo FONTE: SECEX. Observações: O gráfico em setores na prática só deve ser empregado se hou- ver no máximo sete dados; Se os dados da série estiver em forma percentual basta multiplica- los por 3,6 para obtê-los em graus. 27 5.2.3 GRÁFICO POLAR É o gráfico ideal para representar séries temporais que apresentam em seu desenvolvimento determinada periodicidade, como por exemplo, a vari- ação de precipitação pluviométrica ao longo do ano. O gráfico polar baseia-se no sistema de coordenadas polares. Exemplo: Seja a tabela abaixo: PRECIPITAÇÃO PLUVIOMÉTRICA EM RECIFE - 1993 MESES MILÍMETROS Janeiro 49,6 Fevereiro 93,1 Março 63,6 Abril 135,3 Maio 214,7 Junho 277,9 Julho 183,6 Agosto 161,3 Setembro 49,2 Outubro 40,8 Novembro 28,6 Dezembro 33,3 FONTE: Ministério da Agricultura Para a construção do gráfico polar teremos que fazer os seguintes passos: PASSO 1: Traçamos uma circunferência de raio arbitrário (em par- ticular, damos preferência ao raio de comprimento proporcional à média dos valores da série); PASSO 2: Construímos uma semirreta (de preferência na horizontal) partindo de O (polo) e com uma escala (eixo polar); PASSO 3: Dividimos a circunferência em tantos arcos quantas forem as unidades temporais; PASSO 4: Traçamos a partir do centro O (pólo), semirretas passando pelos pontos de divisão; PASSO 5: Marcamos os valores correspondentes da variável, iniciando pela semirreta horizontal (eixo polar); PASSO 6: Ligamos os pontos encontrados com segmentos de reta; PASSO 7: Se pretendermos fechar a poligonal obtida, empregamos uma linha pontilhada. Assim, a representação gráfica será: 28 PRECIPITAÇÃO PLUVIOMÉTRICA EM RECIFE - 1993 É FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ JAN FONTE: Ministério da Agricultura 5.2.4 CARTOGRAMA O cartograma é a representação sobre uma carta geográfica, seu obje- tivo é de figurar os dados estatísticos, diretamente relacionados com áreas geográficas e políticas. Sua aplicação é mais frequente em: a) Dados absolutos (população), na qual, lançamos em geral, dos pontos, em número proporcional aos dados. b) Dados relativos (densidade), na qual, lançamos mão, em geral, de hachuras ou cores. Exemplo: Seja a tabela abaixo: POPULAÇÃO PROJETADA DA REGIÃO SUL DO BRASIL - 1994 ESTADOS POPULAÇÃO (hab.) ÁREA (km2) DENSIDADE Paraná 8.651.100 199.324 43,4 Santa Catarina 4.767.800 95.318 50,0 Rio Grande do Sul 9.475.900 280.674 33,8 FONTE: IBGE Logo, a sua representação será: 29 POPULAÇÃO PROJETADA DA REGIÃO SUL DO BRASIL - 1994 400.000 habitantes FONTE: IBGE 5.2.5 PICTOGRAMA O pictograma constitui um dos processos gráficos que melhor apresenta- se ao público devido a sua forma atraente e sugestiva. A representação gráfica consta de figuras, para sua confecção é necessário muita criatividade e uma otimização na união da arte com a técnica. Exemplo: Dada a tabela abaixo VENDA DE CHOCOLATE NO DIA DOS NAMORADOS NOS ÚLTIMOS ANOS Ano Toneladas 2014 28.702 2015 36.890 2016 38.650 Dados fictícios Podemos representar essesdados assim: 30 VENDA DE CHOCOLATE NO DIA DOS NAMORADOS NOS ÚLTIMOS ANOS 2014 2015 2016 Cada simbolo representa 10 mil toneladas Dados fictícios 31 UNIDADE 4 - FREQUÊNCIAS 6 FREQUÊNCIA De uma forma simples a frequência é o número que indica quantas vezes que um dado aparece em relação aos demais. Esse número pode ser obtido de diferentes modos o que implica em diferentes tipos de frequência. Ve- jamos cada uma delas. 6.1 FREQUÊNCIA SIMPLES OU ABSOLUTA Frequência simples ou absoluta é o número de vezes que um dado aparece. É representado por ƒ. A tabela a seguir mostra o número de vezes que uma determinada nota foi retirada numa turma de 25 alunos. ESTATURA DE 40 ALUNOS DO COLÉGIO A i NOTA ƒ 1 4,0 5 2 5,0 3 3 6,0 2 4 7,0 3 5 8,0 2 6 9,0 10 Total 25 Como já explicado na unidade anterior essa forma de organizar os dados é chamada de distribuição de frequências sendo o número de alunos que retiraram cada uma das notas a frequência absoluta da distribuição. Exemplos: a) A frequência absoluta da nota 4,0 é 5. b) A frequência absoluta da nota 9,0 é 10. 6.2 FREQUÊNCIA RELATIVA São os valores das razões entre as frequências simples e frequência total. Representamos a frequência relativa por ƒ r. 32 ƒ r = ƒ k∑ =1 ƒ ESTATURA DE 40 ALUNOS DO COLÉGIO A i ESTATURA (cm) ƒ ƒ r 1 150 ` 154 4 4/40 = 0,1 2 154 ` 158 9 9/40 = 0,225 3 158 ` 162 11 11/40 = 0,275 4 162 ` 166 8 8/40 = 0,2 5 166 ` 170 5 5/40 = 0,125 6 170 ` 174 3 3/40 = 0,075 Total 40 100 A frequência relativa por vezes é expressa em percentagem. Para isso basta multiplicar por 100. ESTATURA DE 40 ALUNOS DO COLÉGIO A i ESTATURA (cm) ƒ ƒ r(%) 1 150 ` 154 4 10 2 154 ` 158 9 22,5 3 158 ` 162 11 27,5 4 162 ` 166 8 20 5 166 ` 170 5 12,5 6 170 ` 174 3 7,5 Total 40 6.3 FREQUÊNCIA ABSOLUTA ACUMULADA A frequência absoluta acumulada (ou simplesmente frequência acumu- lada) representada por ƒ, é a soma das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe. Assim, ƒk = ƒ1 + ƒ2 + · · · + ƒk . 33 ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) ƒ ƒ 150 ` 154 4 4 154 ` 158 9 4 + 9 = 13 158 ` 162 11 4 + 9 + 11 = 24 162 ` 166 8 4 + 9 + 11 + 8 = 32 166 ` 170 5 4 + 9 + 11 + 8 + 5 = 37 170 ` 174 3 4 + 9 + 11 + 8 + 5 + 3 = 40 Total 40 6.4 FREQUÊNCIA RELATIVA ACUMULADA A frequência relativa acumulada, representada por ƒ r, é a razão entre a frequência acumulada pela frequência total da distribuição. Assim, ƒ r = ƒ k∑ =1 ƒ ESTATURA DE 40 ALUNOS DO COLÉGIO A ESTATURA (cm) ƒ ƒ r 150 ` 154 4 4/40 = 0,1 154 ` 158 9 13/40 = 0,325 158 ` 162 11 24/40 = 0,6 162 ` 166 8 32/40 = 0,8 166 ` 170 5 37/40 = 0,925 170 ` 174 3 40/40 = 1 Total 40 Assim como no caso da frequência relativa a frequência relativa absoluta é normalmente expressa também em percentagem. ESTATURA (cm) FREQUÊNCIA ƒ r(%) 150 ` 154 4 10% 154 ` 158 9 32,5% 158 ` 162 11 60% 162 ` 166 8 80% 166 ` 170 5 92,5% 170 ` 174 3 100% Total 40 Exemplo Resolvido: 1. Construa a tabela de distribuição de frequência da estatura média da amostra abaixo. Depois faça a análise dos resultados obtidos. 34 ESTATURA DOS ALUNOS DE UMA CLASSE DO 3◦ ANO 1,66 1,60 1,61 1,50 1,62 1,60 1,65 1,67 1,64 1,60 1,62 1,61 1,68 1,63 1,56 1,73 1,60 1,55 1,64 1,68 1,55 1,52 1,59 1,63 1,60 1,55 1,55 1,69 1,51 1,66 1,70 1,64 1,54 1,61 1,56 1,72 1,53 1,57 1,56 1,58 1,58 1,61 Resolução: 1◦ passo: Organizamos a tabela de forma crescente. Essa forma de or- ganização é chamada de rol. ESTATURA DOS ALUNOS DE UMA CLASSE DO 3◦ ANO 1,50 1,51 1,52 1,53 1,54 1,55 1,55 1,55 1,55 1,56 1,56 156 1,57 1,58 1,58 1,59 1,60 1,60 1,60 1,60 1,60 1,61 1,61 1,61 1,61 1,62 1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,66 1,66 1,67 1,68 1,68 1,69 1,70 1,72 1,73 2◦ passo: Determinamos a raiz do número de elementos da amostra. No rol contamos a presença de 42 elementos. Assim, a quantidade de classes será: p 42 ≈ 6,5⇒ k = 6 ou 7 classes 3◦ passo: Determinamos a amplitude total. Observe que na tabela de rol verificamos que o limite mínimo é 1,50 e o limite máximo é 1,73. Adicionando uma unidade ao limite máximo teremos: AT = Lm − mn = (1,73 + 1)1,50 = 0,24 4◦ passo: Determinamos a amplitude dos intervalos. Se a tabela possuir 6 classes então a amplitude será: h = AT k → h = 0,24 6 = 0,04 Mas, se a tabela possuir 7 classes então: h = AT k → h = 0,24 7 ≈ 0,035 35 A divisão de 0,24 por 7 não é um número finito, nesse caso podemos utilizar uma aproximação, sendo que essa aproximação é sempre feita para cima (no caso 0,035). Entretanto, a divisão de 0,24 por 6 é exata o que sugere que a tabela será melhor construída para uma distribuição de 6 classes. 5◦ passo: O quinto passo é a construção da tabela propriamente. a) Primeiro criamos uma coluna k, para enumerar as 6 classes que determinamos. Lembre-se que no passo anterior determinamos que a tabela fica melhor construída com 6 classes, mas a con- strução da tabela com 7 é análoga. k 1 2 3 4 5 6 b) Agora determinamos o limite das classes começando pelo primeiro intervalo com o limite mínimo de 1,50 e depois aumenta- mos gradualmente de 0,04 unidades. k Estaturas (m) 1 1,50 ` 1,54 2 1,54 ` 1,58 3 1,58 ` 1,62 4 1,62 ` 1,66 5 1,66 ` 1,70 6 1,70 ` 1,74 c) Determinamos o ponto médio () de cada classe através da soma do limite inferior com o limite superior dividido por dois de cada uma. k Estaturas (m) 1 1,50 ` 1,54 1,52 2 1,54 ` 1,58 1,56 3 1,58 ` 1,62 1,60 4 1,62 ` 1,66 1,64 5 1,66 ` 1,70 1,68 6 1,70 ` 1,74 1,72 d) Determinamos a frequência absoluta (ƒ ) de cada limite através da tabela de rol, lembre-se que o limite inferior está em um intervalo fechado e o limite superior está em um intervalo aberto. 36 k Estaturas (cm) ƒ 1 1,50 ` 1,54 1,52 4 2 1,54 ` 1,58 1,56 9 3 1,58 ` 1,62 1,60 12 4 1,62 ` 1,66 1,64 8 5 1,66 ` 1,70 1,68 6 6 1,70 ` 1,74 1,72 3 TOTAL 42 e) Determinamos a frequência acumulada (ƒ) repetindo-se a primeira frequência e somando com a posterior, o resultado será somado com a frequência da classe posterior e assim sucessiva- mente até obter a frequência total que é 42 na sexta classe. k Estaturas (cm) ƒ ƒ 1 1,50 ` 1,54 1,52 4 4 2 1,54 ` 1,58 1,56 9 13 3 1,58 ` 1,62 1,60 12 25 4 1,62 ` 1,66 1,64 8 33 5 1,66 ` 1,70 1,68 6 39 6 1,70 ` 1,74 1,72 3 42 TOTAL 42 f) Determinamos a frequência relativa (ƒ r(%)) fazendo a razão entre a frequência absoluta de cada classe pela frequência total. O resultado deve ser multiplicado por 100 para ser expresso em percentual. k Estatura (cm) ƒ ƒ ƒ r(%) 1 1,50 ` 1,54 1,52 4 4 9,5 2 1,54 ` 1,58 1,56 9 13 21,4 3 1,58 ` 1,62 1,60 12 25 28,6 4 1,62 ` 1,66 1,64 8 33 19,0 5 1,66 ` 1,70 1,68 6 39 14,3 6 1,70 ` 1,74 1,72 3 42 7,2 TOTAL 42 100 g) Determinamos a frequência relativa acumulada repetindo- se a primeira frequência relativa e somando com a posterior, e assim sucessivamente até obter a frequência relativa total que é 100% na sexta classe. 37 ESTATURA DOS ALUNOS DE UMA CLASSE DO 3◦ ANO k Estatura (m) ƒ ƒ ƒ r(%) ƒ r(%) 1 1,50 ` 1,54 1,52 4 4 9,5 9,5 2 1,54 ` 1,58 1,56 9 13 21,4 30,9 3 1,58 ` 1,62 1,60 12 25 28,6 59,5 4 1,62 ` 1,66 1,64 8 33 19,0 78,5 5 1,66 ` 1,70 1,68 6 39 14,3 92,8 6 1,70 ` 1,74 1,72 3 42 7,2 100,0 TOTAL 42 100 Com isso finalizamos a construção da tabela de distribuição de frequência da estatura média da amostra. Interpretação: a 1 classe corresponde alunos entre 1,50 ≤ k < 1,54 cm na qual temos 4 alunos que correspondem a 9,5% e está na série entre ]0; 4] alunos e ]0%;9,5%]. A 2 classe corresponde alunos entre 1,54 ≤ k < 1,58 cm na qual temos 9 alunos que correspondem a 21,4% e está na série entre ]4; 13] alunos e ]9,5%;30,9%].A 3 classe corresponde alunos entre 1,58 ≤ k < 1,62 cm na qual temos 12 alunos que correspondem a 28,6% e está na série entre ]13; 25] alunos e ]30,9%;59,5%]. A 4 classe corre- sponde alunos entre 1,62 ≤ k < 1,66 cm na qual temos 8 alunos que cor- respondem a 19% e está na série entre ]25; 33] alunos e ]59,5%;78,5%]. A 5 classe corresponde alunos entre 1,66 ≤ k < 1,70 cm na qual temos 6 alunos que correspondem a 14,3% e está na série entre ]33; 39] alunos e ]78,5%;92,8%]. A 6 classe corresponde alunos entre 1,70 ≤ k < 1,74 cm na qual temos 3 alunos que correspondem a 7,2% e está na série entre ]39; 42] alunos e ]92,8%;100%]. 7 HISTOGRAMA Histograma é um gráfico formado por um conjunto de retângulos justapos- tos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. Como exemplo observe a tabela a seguir. ESTATURA DOS ALUNOS DE UMA CLASSE DO 3◦ ANO k Estaturas (m) ƒ F ƒ r(%) Fr(%) 1 1,50 ` 1,54 1,52 4 4 9,5 9,5 2 1,54 ` 1,58 1,56 9 13 21,4 30,9 3 1,58 ` 1,62 1,60 12 25 28,6 59,5 4 1,62 ` 1,66 1,64 8 33 19,0 78,5 5 1,66 ` 1,70 1,68 6 39 14,3 92,8 6 1,70 ` 1,74 1,72 3 42 7,2 100,0 TOTAL 42 100 Que possui o seguinte histograma. 38 1,50 1,54 1,58 1,62 1,66 1,70 1,740 4 12 9 6 A principal diferença entre um histograma e um gráfico em barras é que neste último cada retângulo, ou barra, equivale a um só valor, enquanto no histograma equivale a um intervalo de valores. 39 UNIDADE 5 - MEDIDAS DE TENDÊNCIA CENTRAL E POSIÇÃO 8 MEDIDAS DE TENDÊNCIA CENTRAL Os tipos de medidas de tendência central e de posição são as médias a moda e mediana. 8.1 MÉDIAS Do ponto de vista teórico, vários tipos de média podem ser calculados para uma massa de dados, mas os principais são: aritméticas, geométricas e harmônicas. 8.1.1 MÉDIA ARITMÉTICA SIMPLES Para uma sequência numérica 1, 2, ..., n a média aritmética simples, designada por , é determinada por: = n∑ =1 n Exemplos Resolvidos: 1. Dada a sequência numérica: 2, 5, 7, 9, 13, 16, 17, 21 determine a média aritmética simples. Resolução: = n∑ =1 n = 2 + 5 + 7 + 9 + 13 + 16 + 17 + 21 8 = 11,25 Se ao invés de uma sequencia numérica tivermos dados dispostos em uma tabela de frequência a média aritmética é dada pela divisão da soma de todos os produtos dos pontos médios das classes por suas respectivas frequências absolutas pela soma das frequências. Interpretação: O valor médio da série é 11,25. 40 2. A altura de 100 indivíduos do sexo masculino foram agrupados segundo a tabela a seguir. Altura (cm) ƒ 155 ` 160 5 160 ` 165 12 165 ` 170 19 170 ` 175 25 175 ` 180 20 180 ` 185 10 185 ` 190 7 190 ` 195 2 Calcule a média aritmética desses dados. Resolução: Para calcular a média aritmética, devemos somar todos os produtos dos pontos médios das classes por suas respectivas frequências absolutas e di- vidir o resultado pela soma das frequências: = (157,5 × 5 + 162,5 × 12 + 167,5 × 19 + 172,5 × 25 + 177,5 × 20 + 182,5 × 10 +187,5 × 7 + 192,5 × 2)/100 ⇒ = 173,05cm 3. O numero de atendimentos diários de um grupo de bombeiros, durante um ano, está anotado abaixo. N◦ de atendimentos Frequência (em dias) 0 84 1 105 2 72 3 59 4 28 5 15 6 2 Qual a média desses atendimentos em uma semana? Resolução: A média semanal é dada por: 7× (84 · 0 + 105 · 1 + 72 · 2 + 59 · 3 + 28 · 4 + 15 · 5 + 2 · 6) 365 ' 12 atendimentos 8.1.2 MÉDIA ARITMÉTICA PONDERADA Para uma sequência numérica 1, 2, ..., n afetados de frequências ou pesos ƒ1, ƒ2, ..., ƒn respectivamente, a média aritmética ponderada, designada por X, é determinada por: 41 X = n∑ =1 × ƒ n∑ =1 ƒ Exemplos Resolvidos: 4. Numa certa prova foram acertadas 12 questões com peso 6, 14 com peso 5, 8 com peso 3, 9 com peso 2 e 10 com peso 1. Com base nessas informações determine a média aritmética ponderada. Resolução: X = n∑ =1 × ƒ n∑ =1 ƒ = 12 × 6 + 14 · 5 + 8 × 3 + 9 × 2 + 10 × 1 12 + 14 + 8 + 9 + 10 ≈ 3,66 5. Um carro vai do Rio de Janeiro até Salvador(BA), passando por Vitória(ES), desenvolvendo uma velocidade escalar média de 40 km/h do Rio de Janeiro até Vitória (levando 8 horas no percurso) e depois desenvolve uma veloci- dade escalar média de 100 km/h de Vitória até Salvador (levando 2 horas no percurso). Pergunta-se agora, qual a velocidade escalar média total desse percurso? Resolução: A velocidade escalar média total é simplesmente a média aritmética pon- derada, levando em consideração os intervalos de tempos como pesos: Vm = 40 × 8 + 100 × 2 8 + 2 m = 52 km/h 8.1.3 MÉDIA GEOMÉTRICA SIMPLES Para uma sequência numérica 1, 2, ..., n, a média geométrica simples, designada por g, é determinada por: g = n p 1 × 2 × · · · × n 42 Exemplo Resolvido: 6. Dada a sequência numérica: 2, 5, 7, 9, 13, 16, 17, 21 determine a média geométrica simples. Resolução: g = g = n p 1 · 2 · · ·n = 8 p 2 · 5 · 7 · 9 · 13 · 16 · 17 · 21 = 9,09 Interpretação: O valor médio geométrico da série é 9,09. 8.1.4 MÉDIA GEOMÉTRICA PONDERADA Para uma sequência numérica 1, 2, ..., n afetados de frequências ou pe- sos ƒ1, ƒ2, ..., ƒn respectivamente, a média geométrica ponderada, designada por Xg, é determinada por: Xg = n∑ =1 r ƒ11 × ƒ22 × ... × ƒnn ou ogXg = 1 n∑ =1 ƒ × n∑ =1 ƒ × og() Essa segunda fórmula é usada quando os valores das frequências são muito grandes. Exemplo Resolvido: 7. Numa certa prova foram acertadas 12 questões com peso 6, 14 com peso 5, 8 com peso 3, 9 com peso 2 e 10 com peso 1. Com base nessas informações determine a média geométrica ponderada. Resolução: Xg = ∑n =1 r ƒ11 · ƒ22 ...ƒnn = (12+14+8+9+10) p 612 · 514 · 38 · 29 · 110 = 53 p 612 · 514 · 38 · 29 · 110 ≈ 3,048 Também poderíamos usar a fórmula ogXg = 1∑n =1 ƒ × n∑ =1 ƒ × og() veja ogXg = 1 53 ·(12 × og(6) + 14 × og(5) + 8 × og(3) + 9 × og(2) + 10 × og(1)) 43 ⇒ ogXg ≈ 0,4840⇒ Xg ≈ 100,4840 ≈ 3,048 Interpretação: O valor médio geométrico da série é de aproximada- mente 3,05. 8.1.5 MÉDIA HARMÔNICA SIMPLES Para uma sequência numérica 1, 2, ..., n a média harmônica simples, designada por h, é determinada por: h = n n∑ =1 1 Exemplo Resolvido: 8. Dada a sequência numérica: 2, 5, 7, 9, 13, 16, 17, 21 determine a média harmônica simples. Resolução: h = n n∑ =1 1 = 8 1 2 + 1 5 + 1 7 + 1 9 + 1 13 + 1 16 + 1 17 + 1 21 = 6,67 Interpretação: O valor médio harmônico é 6,67. 8.1.6 MÉDIA HARMÔNICA PONDERADA Para uma sequência numérica 1, 2, ..., n afetados de frequências ou pe- sos ƒ1, ƒ2, ..., ƒn respectivamente, a média harmônica ponderada, designada por Xh, determinada por: Xh = n∑ =1 ƒ n∑ =1 ƒ 44 Exemplo Resolvido: 9. Numa certa prova foram acertadas 12 questões com peso 6, 14 com peso 5, 8 com peso 3, 9 com peso 2 e 10 com peso 1. Com base nessas informações determine a média harmônica ponderada. Resolução: Xh = n∑ =1 ƒ n∑ =1 ƒ = 53 22 ≈ 2,41 8.2 MEDIANA É um valor real que separa o rol em duas partes deixando a sua esquerda o mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que ocupa a posição central em uma distribuição, sendo denotada por md. A mediana possui para cada tipo de distribuição uma forma deferente de se determinar, veremos cada uma delas. 8.2.1 MEDIANA A PARTIR DE UM ROL Dado uma sequência 1, 2, ..., n, disposta em ordem crescente ou de- crescente, em que n é um número ímpar então: md = n+1 2 . Se forpar então: md = n 2 + n 2+1 2 Exemplos Resolvidos: 10. Dada a sequência numérica: 1, 8, 7, 4, 10, 1, 14, 22, 50 determine a mediana. Resolução: Primeiro determinamos um rol para a sequência. 1, 1, 4, 7, 8, 10, 14, 22, 50 Note que o rol é constituída de 9 valores, assim o termo central é o que ocupa a posição de número 5. Neste caso o número 8. md = 9+1 2 = 5 = 8 45 Ou seja, a mediana é oito. 11. Dada a sequência numérica: 2, 8, 7, 9, 10, 1, 14, 21 determine a mediana. Resolução: Primeiro determinamos um rol para a sequencia. 1, 2, 7, 8, 9, 10, 14, 21 Note que o rol é constituída de 8 valores assim não possui um termo central. Nesse caso a mediana é a média aritmética dos dois termos que seriam adjacentes (lado a lado) ao termo que seria o central. md = 8 + 9 2 = 8,5 8.2.2 MEDIANA NUMA TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS Vejamos como determinar a mediana através de uma tabela de distribuição de frequências. Exemplo Resolvido: 12. A altura de 100 indivíduos do sexo masculino foram agrupados se- gundo a tabela a seguir. N◦ de atendimentos Frequência (em dias) 0 84 1 105 2 72 3 59 4 28 5 15 6 2 Determine a mediana. Resolução: Para encontrar a mediana precisamos identificar a frequência absoluta acumulada imediatamente superior à metade das somas de todas as fre- quências. O valor da variável que corresponder a tal frequência acumulada será a mediana. 46 N◦ de atendimentos Frequência (em dias) Freq. acumulada 0 84 84 1 105 189 2 72 261 3 59 320 4 28 348 5 15 363 6 2 365 Total 365 Nesse caso a mediana é 1 porque é a variável que corresponde ao primeiro valor acima de 182,5 que é a metade da soma de todas as frequências. 8.3 MODA É o valor de maior frequência em um conjunto de dados, denotada por mo. Existem algumas observações para determinar a moda quanto ao tipo de distribuição de frequência os próximos exemplos deixarão isso claro. 8.3.1 MODA A PARTIR DE UM ROL Esse é o caso mais trivial de se obter a moda bastando somente identificar o valor que mais se repete. Exemplo Resolvido: 13. Dado a rol 20, 33, 44, 44, 44, 55, 58, 58 identifique a moda. Resolução: Note que 44 é o valor que mais se repete no rol, portanto é a moda procu- rada. 8.3.2 MODA A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS SIM- PLES O caso de se determinar a moda a partir de uma tabela de distribuição de frequência simples também é bastante fácil. Basta observar o termo de maior frequência. Esse será a moda procurada. Exemplo Resolvido: 14. O numero de atendimentos diários de um grupo de bombeiros, du- rante um ano, está anotado abaixo. 47 N◦ de atendimentos Frequência (em dias) 0 84 1 105 2 72 3 59 4 28 5 15 6 2 Qual a moda desse conjunto de dados Resolução: A moda desse conjunto de dados é 1 porque é o número de atendimentos diários que ocorreu mais frequentemente; 105 vezes. 8.3.3 MODA A PARTIR DE UMA DISTRIBUIÇÃO COM INTERVALO DE CLASSE Esse é o caso mais complicado para determinação da média. O próximo exemplo deixará claro como. Exemplo Resolvido: 15. A altura de 100 indivíduos do sexo masculino foram agrupados se- gundo a tabela a seguir. Altura (cm) ƒ 155 ` 160 5 160 ` 165 12 165 ` 170 19 170 ` 175 25 175 ` 180 20 180 ` 185 10 185 ` 190 7 190 ` 195 2 Calcule a moda desses dados. Resolução: Para calcular a moda desse conjunto de dados desse conjunto de dados procurarmos a classe com a maior frequência absoluta. Ela será a classe modal. Em nosso caso, a classe modal é 170 ` 175. A seguir, encontramos o ponto médio da classe modal: 170 + 175 2 = 172,5 cm então 172,5 cm é a moda procurada. 48 8.4 CURVAS DE FREQUÊNCIA E MEDIDAS DE TENDÊNCIA CENTRAL Vimos que, em geral, os dados coletados em uma pesquisa estatística per- tencem a uma amostra extraída de uma população. Imagine uma amostra tornando-se cada vez mais abrangente e sendo agrupada em classes com amplitudes cada vez menor. Se construíssemos o polígono de frequência dessa distribuição, a linha poligonal que formaria esse polígono tenderia a se tornar uma curva de frequência. A curva de frequência permite mostrar de modo mais evidente a ver- dadeira natureza da distribuição da população e dá uma imagem da tendên- cia dos fenômenos estudados. Uma das formas mais conhecidas que uma curva de frequência pode assumir é a de sino. As curvas em forma de sino caracterizam-se por apresentarem um valor máximo na região central. Nas curvas de frequência é possível identificar os valores que correspon- dem, no eixo das abcissas, às medidas de tendência central: Se a curva da distribuição de frequência é simétrica, a media, a mediana e a moda coincidem em um mesmo ponto: = dd =mo Neste caso, a curva de frequência é denominada curva em forma de sino. Caso a curva seja assimétrica positiva (alongada à dire- ita), as medidas de tendência central apresentarão a seguinte dis- posição: 49 Moda Média Mediana mo <md < Já para uma curva assimétrica negativa (alongada à es- querda), temos esta representação gráfica: Moda Mediana Média < md <mo Nos três casos, a mediana, como o próprio nome sugere, está sempre en- tre o valor da média e o da moda. Para finalizar, é importante salientar que a média aritmética sofre a in- fluência de todos os dados. Por isso, é preferível, às vezes, trabalhar com a mediana, que não sofre a influencia de valores externos (muito altos ou muito baixos). Por exemplo, numa pesquisa salarial, a mediana tende a re- fletir melhor a realidade observada, principalmente quando há uma diferença muito significativa entre a maior e a menos faixa salarial verificada. 9 SEPARATRIZES Além das medidas de posição que estudamos, há outras que, consider- adas individualmente, não são medidas de tendÃłncia central, mas estão lig- adas Ãa˘ mediana relativamente Ãa˘ sua característica de separar uma série em duas partes que apresentam o mesmo número de valores. Essas medidas são chamadas de separatrizes sendo as principais separa- trizes os quartis, os decis e os percentis e a própria mediana. 50 9.1 QUARTIS Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos portanto de 3 quartis (Q1, Q2 e Q3) para dividir uma série em quatro partes iguais, mas como Q2 divide a série ao meio então ele será a própria mediana da série. 9.2 QUARTIS EM DADOS NÃO AGRUPADOS O método mais prático é utilizar o princípio do calculo da mediana para os 3 quartis. Assim, na prática serão calculadas "3 medianas" em uma mesma série. Exemplo Resolvido: 16. Calcule os quartis da série: 5, 2, 6, 9, 10, 13, 15. Resolução: O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 2, 5, 6, 9, 10, 13, 15 A mediana da série acima é igual a 9, logo Q2 = 9. Temos agora duas sub-séries 2, 5, 6 e 10, 13, 15 como sendo os dois grupos de valores iguais proporcionados pela mediana (quartil 2). Para o calculo do quartil 1 e 3 basta agora calcular as medianas de cada uma das sub-séries. Logo em 2, 5, 6, cuja mediana é 5, temos Q1 = 5. E em 10, 13, 15, cuja mediana é 13, temos Q3 = 13. A determinação dos quartis é muito útil para aplicação de uma técnica da estatística chamada de análise de outliers. Essa análise por sua vez é uti- lizada para encontrar erros de medição, mal funcionamento de um equipa- mento ou identificar fraudes em cartão de crédito. 51 UNIDADE 5 - MEDIDAS DE TENDÊNCIA CENTRAL E POSIÇÃO 10 MEDIDAS DE DISPERSÃO As medidas de dispersão em geral indicam o quanto um determinado valor se afasta da média aritmética. Em geral há cinco medidas estatíti- cas de dispersão, o desvio médio simples, a variânça, o desvio padrão, o coeficiente de variação e a variação relatica. 10.1 DESVIO MÉDIO SIMPLESEsta Medida representa a média das distâncias entre cada elemento amostra e seu valor médio. Para determina-la existem três casos: a partir de dados brutos ou rol, a partir de uma tabela de distribuição de frequência e de uma distribuição com intervalo de classe. 10.1.1 DMS A PARTIR DE DADOS BRUTOS OU ROL Esse é certamente o caso mais simples para a determinação do desvio médio simples bastando aplicar a fórmula. DMS = ∑ | − | n O próximo exemplo mostrá como aplicar a formula acima na prática. Exemplo Resolvido: 1. Qual o desvio médio da série 3, 4, 5, 6, 7? Resolução: 1◦ passo: Fazemos a média dos números fornecidos. Essa média é obtida pela soma de todos os valores dividido pela quantidade de valores. No caso: = 3 + 4 + 5 + 6 + 7 5 = 5 2◦ passo: Com a média dos valores em mãos calculamos o módulo da subtração de cada valor dado pela média dos valores. No caso: 52 |3 − 5| = 2 |4 − 5| = 1 |5 − 5| = 0 |6 − 5| = 1 |7 − 5| = 2 3◦ passo: Finalmente somamos todos os valores e dividimos pela quanti- dade de números da série (n). DMS = 2 + 1 + 0 + 1 + 2 5 = 6 5 2. Calcule o desvio médio absoluto do conjunto: −7, 4, 0, 3, 8, 10. Resolução: A média é: = −7 + 4 + 0 + 3 + 8 + 10 6 = 3 Então DMS será: DMS = | − 7 − 3| + |4 − 3| + |0 − 3| + |3 − 3| + |8 − 3| + |10 − 3| 6 = 4,33 10.1.2 DMS A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Neste caso, deve-se lembrar que a frequência de cada elemento repre- senta o número de vezes que este valor figura na série. Consequentemente, haverá repetições de distâncias iguais de cada elemento distinto da série para a média da série. Assim, a média para estas distâncias é uma média aritmética ponderada que pode ser determinada por: DMS = ∑ | − | × ƒ∑ ƒ O próximo exemplo mostrá como aplicar a formula acima na prática. Exemplo Resolvido: 3. Calcule o desvio médio simples da série de trabalhadores de uma fábrica de acordo com os setores: SETOR DA FÁBRICA QUANTIDADE DE TRABALHADORES 1 38 2 27 3 14 4 9 53 Resolução: Como a sequência trata-se de uma amostra de uma população de uma fábrica, os setores serão o e a quantidade de trabalhadores da fabrica serão o ƒ, então determinaremos através da tabela o somatório de ƒ e o somatório de · ƒ, a media aritmética e a diferença da distancia entre a média da serie ao quadrado com o produto da frequência. ƒ · ƒ 1 38 38 2 27 54 3 14 42 4 9 36∑ 88 170 A média para os cálculo é de = ∑ · ƒ∑ ƒ = 170 88 = 1,93. Agora, deter- minamos o módulo da diferença de cada por essa média multiplicado por ƒ. |1 − 1,93| × 38 = 35,34 |2 − 1,93| × 27 = 1,89 |3 − 1,93| × 14 = 14,98 |4 − 1,93| × 9 = 18,63 Finalmente, fazemos o somatória de cada valor obtido e dividimos pelo somatória de ƒ obtendo então o DMS. DMS = 35,34 + 1,89 + 14,98 + 18,63 88 = 0,805 10.1.3 DMS A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE Nessa situação por desconhecer os valores individuais dos elementos com- ponentes da série, substituímos os valores de , pelos pontos médios de cada classe. Dessa forma o desvio médio simples passa a ser determinado por: DMS = ∑ | − | × ƒ∑ ƒ 10.2 VARIÂNCIA O desvio médio simples apesar de intuitivamente fácil de interpretar e simples de calcular não é muito utilizado em Estatística. O que de fato é a medida de dispersão usual é a variância e principalmente sua raiz quadrada que é denominada de desvio padrão. A variância, anotada aqui por var é definida como sendo "a média dos quadrados dos desvios em relação a mé- dia aritmética." Para determina-la também temos de considerar três casos. 54 10.2.1 VARIANÇA A PARTIR DE DADOS BRUTOS OU ROL A maioria dos livros apresentam a variança pela seguinte equação: r = ∑ ( − )2 n Entretanto, nem sempre esta expressão é a mais indicada para ser uti- lizada. Quando a média é um valor decimal não exato ela não é muito prática, uma vez que entrará no cálculo "n" vezes aumentando os erros de arredondamento que ocorrem. Neste caso é melhor se valer de uma ex- pressão alternativa que pode ser derivada da expressão acima que é: r = ∑ 2 n − 2 Esta é uma segunda expressão para o cálculo da variância e em muitas situações é mais vantajosa de ser usada. Neste caso a variância pode ser caracterizada como sendo: "a média dos quadrados menos o quadrado da média". 10.2.2 VARIANÇA A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊN- CIAS Neste caso usa-se: Var = ∑ ( − )2 × ƒ∑ ƒ 10.2.3 VARIANÇA A PARTIR DE UMA DISTRIBUIÇÃO DE FREQUÊN- CIAS COM INTERVALO DE CLASSE Neste caso os valores de da distribuição passa a ser a o ponto médio de cada classe. Var = ∑ ( − )2 × ƒ∑ ƒ 10.3 DESVIO PADRÃO O desvio padrão (ou dispersão absoluta), aqui denotado por DP, é sim- plesmente a raiz quadrada positiva da variância. Exemplo Resolvido: 4. Uma amostra de realizada em um hospital de uma região mediu a quantidade de atendimento de pessoas em um dia quanto a idade, determine a variância e o desvio padrão. 55 k Int. Classes ƒ 1 0 17 48 2 17 34 59 3 34 51 44 4 51 68 78 5 68 85 51 6 85 102 15 Resolução: Com base nos dados apresentados determina-se a tabela a seguir. k Int. Classes ƒ · ƒ ( − )2 · ƒ 1 0 17 8,5 48 408 69.421,48 2 17 34 25,5 59 1.504,5 26.093,39 3 34 51 42,5 44 1.870 714,60 4 51 68 59,5 78 4.641 13.121,23 5 68 85 76,5 51 3.901,5 45.808,25 6 85 102 93,5 15 1.402,5 33.092,71 Total – – 295 13.727,5 188.251,66 Onde a efetivação da tabela ocorreu por meio da média: = ∑ · ƒ∑ ƒ = 13.727,5 295 = 46,53 Assim, a variância será: Vr = ∑ ( − )2 · ƒ∑ ƒ = 188.251,66 295 = 638,14 e como o desvio padrão é simplesmente a raiz positiva da variança então: DP = p 638,14 = 25,26. Interpretação: A variação da série é 85 consultas, em média cada ele- mento da sequência varia de 46,53 ≈ 47 consultas por 638,14 ≈ 638 consul- tas e cada elemento da sequência está afastado de 46,53 47 consultas por 25,26 ≈ 25 consultas. 10.4 COEFICIENTE DE VARIAÇÃO O coeficiente de variação (ou dispersão relativa) denotado aqui por CV é uma medida de dispersão empregada para estimar a precisão de experi- mentos e representa o desvio-padrão expresso como porcentagem da mé- dia. Sua principal qualidade é a capacidade de comparação de distribuições diferentes denominado. Para obtê-la divide se o desvio padrão pela média do conjunto. CV = DP 56 10.5 VARIÂNCIA RELATICA Denotada por V é uma medida de dispersão também, empregada para estimar a precisão de experimentos e representa o desvio-padrão, só que ao quadrado, expresso como porcentagem da média. Sua principal qualidade é a capacidade de comparação de distribuições diferentes. A variança relática é igual ao quadrado do coeficiente de variação. Exemplo Resolvido: 5. Uma amostra de realizada em um hospital de uma região mediu a quantidade de atendimento de pessoas em um dia quanto a idade, determine o coeficiente de variação e a variança relatica. k Int. Classes ƒ 1 0 17 48 2 17 34 59 3 34 51 44 4 51 68 78 5 68 85 51 6 85 102 15 Resolução: No exercício anterior determinamos que o desvio padrão aqui é igual á 25,26 com = 46,53. Assim os valores pedidos são: CV = DP = 25,26 46,53 = 54,29% V = CV2 = � 54,29 100 �2 = 0,29474041 ≈ 29,47% Interpretação: As consultas teve uma dispersão relativa de 54,29% e uma dispersão absoluta de 29,47%. 57 UNIDADE 6 - PROBABILIDADE 11 INTRODUÇÃO À PROBABILIDADE Em várias situações deseja-se obter o qual provável é a ocorrência de um evento futuro: o lançamento de um produto, bons lucros em uma operação mercantil, perspectiva de chuva, resultado de um jogo, compra de ações e tantas outras situações. Para entendimentodas relações de probabilidade, faz-se necessário o esclarecimento e definição de alguns termos próprios do tema como veremos no tópico seguinte. 11.1 ALGUMAS DEFINIÇÕES Experimento Aleatório ou Fenômeno Aleatório: Ao soltar uma pedra do alto de um edifício, sabemos que esta pedra irá em direção ao chão. Esse é um experimento chamado de Experimento De- terminístico, pois existe a certeza de qual o evento irá acontecer! Mas, quais as chances de uma determinada rede suportar 20 usuários conecta- dos simultaneamente? Nesse caso, existem dois resultados possíveis: a rede aguenta ou a rede cai. Esse é um experimento chamado Aleatório, pois existe a possibilidade de ocorrência de mais de um evento. No experimento aleatório é impossível prever, com absoluta certeza, qual o resultado que será obtido. Por isso a probabilidade de um evento ocorrer é uma medida de tendência e não de certeza. Exemplo: O lançamento de uma moeda honesta, lançamento de um dado, lançamento de duas moedas, retirar uma carta de um baralho com- pleto com 52 cartas, determinar a vida útil de um componente, etc., são eventos aleatórios. Espaço Amostral Conjunto de todos os resultados possíveis de um certo fenômeno aleatório. NOTAÇÃO: A letra S ou a letra grega Omega (Ω). Exemplo: Lançamento de um Dado. Ω = {1,2,3,4,5,6} Lançamento de duas moedas. Ω = {(C,C); (C,K); (K,C); (K,K)} 58 Sendo C, cara e K, coroa. Espaço Amostral Finito Tem um número finito de elementos Exemplo: Lançamento de um dado Ω = {1,2,3,4,5,6} Espaço Amostral Infinito Tem um número infinito de elementos. Ω = {C,KC, KKC,KKKC,KKKKC, ...} Evento: É um subconjunto do espaço amostral. Exemplo: Seja o evento A, ocorrer pelo menos 1 cara no lançamento de duas moedas. A = {(C,C); (C,K); (K,C)} OBS: O conjunto Vazio (simbolizado por ∅) é considerado evento impos- sível. Exemplo: Seja o evento A, ocorrer pelo menos 3 caras no lançamento de duas moedas. A = ∅ Nessa apostila vamos alternar a entre a notação Ω e S para nos referirmos a um espaço amostral qualquer. Isso para que o leitor se acostume ao uso de ambas. 59 12 REGRA BÁSICA DA PROBABILIDADE Seja um evento A de espaço amostral finito S (não vazio). A probabili- dade de ocorrer o evento A é a razão entre o número de elementos de A e o número de elementos de S. Indicado por: n(A) o número de elemento de A, n(S) ou n(Ω) o número de elemento de S e P(A) a probabilidade de ocorrer A, temos P(A) = n(A) n(S) Exemplos Resolvidos: 1. Qual a probabilidade de ocorrer pelo menos 1 cara no lançamento de duas moedas? Resolução: Vamos adotar cara C e coroa K. O espaço amostral gerado pelo lança- mento de duas moedas é Ω = {(C,C), (C,K), (K,K), (K,C)}. Entretanto o que nos interessa é a ocorrência de pelo menos uma cara, ou seja, algum ele- mento do conjunto A = {(C,C), (C,K), (K,C)}. Portanto: P(A) = n(A) n(Ω) = 3 4 = 0,75 Ou seja, a probabilidade é de 0,75 ou 75%. 2. Qual a probabilidade ao lançar um dado obter como resultado um número par? Resolução: Ao lançar um dado o conjunto de todas as possibilidades de resultado é S = {1, 2, 3, 4, 5, 6}, porém só nos interessa os resultados pares, ou seja 2, 4, 6. Sendo então A = {2, 4, 6} então a probabilidade do evento ocorrer é de P(A) = n(A) n(S) = 3 6 = 0,5 Ou seja, a probabilidade é de 0,5 ou 50%. 60 É importante perceber que a probabilidade é uma medida de tendência e não de certeza. Ou seja, quando determinamos que a probabilidade de lançar um dado e obtermos um número par é de 50% não quer dizer que a cada duas jogadas uma trará um número par, quer dizer apenas que espera- se que isso ocorra. 12.1 CAMPO DE VARIAÇÃO DAS PROBABILIDADES A probabilidade de um evento A deve ser um número maior ou igual a 0 (zero), porem menor ou igual a 1. 0 ≤ P(A) ≤ 1 ou 0% ≤ P(A) ≤ 100% 12.2 PROBABILIDADE DO ESPAÇO AMOSTRAL A probabilidade do espaço amostral S é igual a 1. Isto é: P(S) = 1 ou P(S) = 100%. Exemplo Resolvido: 3. Qual a probabilidade ao lançar um dado obter-se resultado menor ou igual a 6? Resolução: A probabilidade de acontecer este evento será de 100% uma vez que qualquer uma das possibilidades de resultado atende ao interesse. 12.3 ADIÇÃO DE PROBABILIDADES A probabilidade de ocorrência do evento A, ou do evento B (ou de ambos) é igual a: P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Exemplos Resolvidos: 4. Retira-se uma carta de um baralho completo de 52 cartas. Qual a probabilidade de sair um rei ou uma carta de espadas? Resolução: Seja A o evento de retirar um rei e B o evento de retirar uma carta de espadas então: 61 P(A) = 4/52 P(B) = 13/52 P(A ∩ B) = 1/52 de modo que: P(A ∪ B) = 4 52 + 13 52 − 1 52 = 16 52 = 0,3077 Ou exatamente 30,77%. 5. Considere uma fábrica com 50 empregados. Um empregado não tem êxito em satisfazer os padrões de desempenho, se completa o trabalho mais tarde e/ou monta produtos com defeito. Foi observado que 5 dos 50 tinham completado o trabalho mais tarde, 6 dos 50 trabalhadores tinham montado peças defeituosas e 2 dos 50 tinham tanto completado mais tarde como montado produtos defeituosos. Pergunta-se agora: qual a probabilidade de um trabalhador terminar mais tarde ou montar produtos defeituosos. Resolução: Sejam A o evento que o trabalho termina mais tarde e B o evento que o produto montado é defeituoso então: P(A) = 5/50 P(B) = 6/50 P(A ∩ B) = 2/50 P(A ∪ B) = 5 50 + 5 50 − 2 50 = 0,18 ou seja, a probabilidade é de 18%. Caso os eventos A e B sejam mutuamente exclusivos, isto é: (A ∩ B) = ∅, então: P(A ∪ B) = P(A) + P(B) Exemplos Resolvidos: 6. Determinar a probabilidade de ser retirada uma carta de espadas ou uma dama de ouros. Resolução: Num baralho comum de 52 cartas temos 13 cartas de espadas. Sendo A o evento de se retirar uma carta dessas então: 62 P(A) = 13 52 E sendo B o evento de retirar uma dama de ouros, então: P(B) = 1 52 Como não existe nenhuma carta de espadas que também seja, ao mesmo tempo, uma dama de ouros então A ∩ B = ∅. Assim, a probabilidade de se retirar uma carta de espadas ou uma dama de ouros é: P(A ∪ B) = 13 52 + 1 52 = 14 52 ≈ 0,2692 Ou aproximadamente 26,92%. Essa regra pode ser para n eventos mutuamente exclusivos: A1, A2, A3, ..., An. Assim: P(A1 ∪ A2 ∪ · · · ∪ An) = P(A1) + P(A2) + · · · + P(An) 7. Determinar a probabilidade de ser retirada uma carta de espadas ou uma dama de ouros ou um rei de copas. Resolução: Seja A o evento: tirar uma carta de espadas, B o evento: tirar uma dama de ouros e C: tirar um rei de copas então: P(A ∪ B ∪ C) = 13 52 + 1 52 + 1 52 ≈ 0,2885 Ou aproximadamente 28,85%. 13 PROBABILIDADE DE UM EVENTO COMPLE- MENTAR Se A é o evento complementar de A, então: P(A) = 1 − P(A) 63 Exemplo Resolvido: 8. Determinar a probabilidade de ser retirada uma carta que não seja de paus. Resolução: Se soubermos qual a probabilidade de sair uma carta de paus poderemos subtrair do conjunto de todas as possibilidades e assim obter a possibilidade de não ser paus. Seja então P(A) a probabilidade de se retirar uma carta de paus, então: P(A) = 1 − P(A) ⇒ P(A) = 1 − 13 52 ⇒ P(A) = 3 4 = 0,75 ou seja, a probabilidade é de 75%. 14 INDEPENDÊNCIA ESTATÍSTICA Dois eventos serão independentes se a ocorrência de um deles não afetar a ocorrência do outro. Essa probabilidade conjunta é definida pela regra da multiplicação: P(A · B) = P(A ∩ B) = P(A) · P(B) Essa regra é válida para n eventos independentes: A1, A2, A3, ..., An, desde que as condições para multiplicação de probabilidades sejam satis- feitas para todas as combinações de dois ou mais eventos, isto é, desde que todas as combinações sejam constituídas por eventosindependentes, caso contrário a probabilidade da intercessão deve ser calculada diretamente e a fórmula acima não é válida. Veja um exemplo. Num grupo de 100 pessoas, 40 delas são loiras, 30 usam óculos e 20 são loiras e usam óculos. No espaço amostral dessas 100 pessoas, os eventos A “pessoa loira" e B “pessoa que usa óculos" não são independentes. Assim temos: p(A ∩ B) = 20 100 P(A) = 40 100 P(B) = 30 100 , com P(A ∩ B) 6= P(A) · P(B) 64 Exemplos Resolvidos: 9. Três parafusos e três porcas são colocados numa caixa. Se duas peças são retiradas aleatoriamente, pergunta-se: a) Qual a probabilidade de ser um parafuso e a outra porca? b) Qual a probabilidade de ser dois parafusos? c) Qual a probabilidade de ser duas porcas? Resolução: a) Podemos tirar um parafuso e depois uma porca ou primeiro a porca e depois o parafuso. Vamos calcular cada uma dessas probabilidade. Um parafuso e depois uma porca: a probabilidade de se tirar um para- fuso primeiro é o número de parafusos sobre o número total de peças na caixa: P(A) = 3 6 = 1 2 A probabilidade de tirarmos a porca depois do parafuso é a divisão do número de porcas pelo número de peças na caixa, que agora são apenas 5, pois já houve a retirada de um parafuso. P(B) = 3 5 Sendo assim, a probabilidade do evento tirar parafuso e depois uma porca será: P(A ∩ B) = 1 2 · 3 5 = 3 10 Primeira a porca e depois o parafuso: Seguindo o mesmo raciocínio de antes, chegamos ao mesmo resultado. P(B ∩ A) = 3 10 Como queremos uma ou outra: P((B ∩ A) ∪ (A ∩ B)) = 3 10 + 3 10 = 6 10 = 0,6 b) A probabilidade de tirarmos o primeiro parafuso é de P(A) = 3 6 = 1 2 Já a probabilidade de tirar o segundo parafuso é: P(B) = 2 5 Assim, a probabilidade total é de: 65 P(A ∩ B) = 1 2 · 2 5 = 1 5 = 0,2 c) Análogo ao item anterior. 10. Sendo σ = {1,2,3,4} um espaço amostral equiprovável e A = {1,2}; B = {1,3}; C = {1,4} três eventos de σ. Verificar se os eventos A, B e C são independentes. Resolução: P(A) = 1/2; P(B) = 1/2; P(A ∩ B) = 1/4; logo, P(A ∩ B) = 1/2 × 1/2 = 1/4. P(A) = 1/2; P(C) = 1/2; P(A ∩ C) = 1/4; logo, P(A ∩ C) = 1/2 × 1/2 = 1/4. P(B) = 1/2; P(C) = 1/2; P(B ∩ C) = 1/4; logo, P(B ∩ C) = 1/2 × 1/2 = 1/4. P(A) = 1/2; P (B) = 1/2; P(C) = 1/2; P (A ∩ B ∩ C) = 1/4. Logo A, B e C não são independentes. 11. Em uma caixa temos 10 peças, das quais 4 são defeituosas. São reti- radas duas peças, uma após a outra, com reposição. Calcular a probabilidade de ambas serem boas. Resolução: Seja os eventos A e B como descritos a seguir A = {a primeira peça é boa} B = {a segunda peça é boa} e considerando que a retirada da primeira peça é um evento indepen- dente da retirada da segunda, e vice versa, então: P(A ∩ B) = P(A) · P(B) = 6 10 · 6 10 = 9 25 = 0,36 Ou seja, a probabilidade é de 36%. 12. Em uma experiência que consiste em lançar, simultaneamente, um dado e duas moedas, qual a probabilidade de obter um “cinco" e duas coroas em uma única jogada? Resolução: Os eventos são independentes, ou seja, a ocorrência de um não afeta a ocorrência do outro, sendo assim a probabilidade procurada é de: 66 P(5 ∩ K ∩ K) = P(5) · P(K) · P(K) = 1 6 · 1 2 · 1 2 = 1 24 ≈ 0,0417 Ou aproximadamente 4,17%. 15 PROBABILIDADE CONDICIONAL Dados dois eventos, A e B, a probabilidade de que o evento A ocorra, dado que o evento B já ocorreu, é a probabilidade condicionada de B, repre- sentado por P(A | B). P(A | B) = P(A ∩ B) P(B) ou P(A | B) = n(A ∩ B) n(B) Exemplos Resolvidos: 13. Uma carta é retirada de um baralho. Qual a probabilidade de ser um rei preto, dado que a carta retirada foi uma "figura" (valete, dama ou rei)? Resolução: O fato de saber que a carta retirada é uma figura influencia diretamente no cálculo da probabilidade requerida, afinal o universo das possibilidades agora está restrito as figuras do baralho e não mais a todas as cartas. Sendo assim, façamos: A = {rei preto} e B = {figura}, então: P(A | B) = P(A ∩ B) P(B) = 2 52 12 52 = 2 12 = 1 6 ≈ 0,1667 ou seja, aproximadamente 16,67% Note que nesse caso não fizemos p(A∩B) = p(A) · p(B), pois os eventos A e B não são independentes. 14. Numa faculdade existem 250 alunos cursando o primeiro semestre. Destes alunos 100 são homens (H) e 150 são mulheres (M), 110 cursam Es- tatística (E) e 140 cursam química (Q). A distribuição dos alunos é a seguinte: Sexo H M TOTAL Disciplina E Q 40 70 110 60 80 140 TOTAL 100 150 250 Um aluno é sorteado ao acaso. Qual a probabilidade de que esteja cur- sando química, dado que é mulher? 67 Resolução: A informação dado que é mulher é extremamente importante pois limitará nossas possibilidades, apesar de querer um estudante de química não pode ser qualquer estudante tem que ser uma mulher. P(Q | M) = P(Q ∩M) P(M) P(Q | M) = 80 150 = 0,53 Ou seja, a probabilidade é de 53%. 15. A probabilidade de um voo regular partir no horário é P(D) = 0,83 ; a probabilidade deste voo chegar no horário é P(A) = 0,82; a probabilidade de que parta e chegue no horário P(D ∩ A) = 0,78. Calcule: a) A probabilidade do voo chegar no horário tendo saído no horário e b) A probabilidade do voo ter saído no horário dado que chegou no horário. Resolução: Os dados são: P(D) = 0,83 P(A) = 0,82 P(D ∩ A) = 0,78 logo P(A | D) = P(A ∩D) P(D) = 0,78 0,83 = 0,94 P(D | A) = P(A ∩D) P(A) = 0,78 0,82 = 0,95 15.1 TEOREMA DO PRODUTO A probabilidade de ocorrência simultÃc´nea de dois eventos, A e B, do mesmo espaço amostral, é igual ao produto da probabilidade de um deles pela probabilidade condicional do outro, dado o primeiro. P(A | B) = P(A ∩ B) P(B) ⇒ § P(A ∩ B) = P(B) · P(A | B) P(A ∩ B) = P(A) · P(B | A) 68 Exemplos Resolvidos: 16. Em um lote de 12 peças, 4 são defeituosas, 2 peças são retiradas um após a outra sem reposição. Qual a probabilidade de que ambas são sejam boas? Resolução: Seja A o evento da primeira peça retirada ser boa e B o evento da segunda peça ser boa então: P(A ∩ B) = P(A) · P(B | A) onde P(A) = 8 12 . Para calcular P(B | A) levamos em conta que se o evento A ocorreu então restarão no lote 11 peças das quais apenas 7 serão boas, pois uma peça foi retirada. Sendo assim: P(B) = 7 11 e portanto P(A ∩ B) = P(A) · P(B | A) = 8 12 · 7 11 = 14 33 17. Uma urna contém duas bolas brancas (B) e três vermelhas (V). Suponha que são sorteadas duas bolas ao acaso, com reposição. Isso significa que escolhemos a primeira bola, verificamos sua cor e devolvemos Ãa˘ urna; mis- turamos as bolas restantes e retiramos a segunda. Qual a probabilidade de ambas serem brancas? Resolução: A = {a primeira bola ser branca} B = {a segunda bola ser branca} P(A ∩ B) = P(A) · P(B | A) P(A ∩ B) = 2 5 · 2 5 = 4 25 15.2 TEOREMA DE BAYES Sejam A1, A2, A3...An, eventos mutuamente exclusivos, tais que: A1 ∪ A2 ∪ ...An = Ω. Sejam P(A) as probabilidades conhecidas dos vários eventos e B um evento qualquer de Ω, tal que são conhecidas todas as probabilidades condicionais P(B | A) 69 Ω A1 A2 A3 A4 B Então, tem-se que: P(A | B) = P(A) · P(B | A)n∑ =1 P(A) · P(B | A) Exemplos Resolvidos: 18. A probabilidade de um indivíduo da classe A comprar um carro é de 3/4, da B é de 1/5 e da C é de 1/20. As probabilidades de os indivíduos comprarem um carro da marca são 1/10, 3/5 e 3/10, dado que sejam de A, B e C, respectivamente. Certa loja vendeu um carro da marca x. Qual a probabilidade de o indivíduo que comprou seja da classe B? Resolução: Os dados do problema são os seguintes: P(A) = 3/4; P(B) = 1/5; P(C) = 1/20. com as seguintes probabilidades condicionais P(Crro| A) = 1/10; P(Crro | B) = 3/5; P(Crro | C) = 3/10. usando o teorema de Bayes ⇒ P(B | Crro) = P(B) · P(Crro | B) P(A) · P(Crro | A) + P(B) · P(Crro | B) + P(C) · P(Crro | C) = 1 5 · 3 5 3 4 · 1 10 + 1 5 · 3 5 + 1 20 · 3 10 = 4 7 19. Determinadas peças são produzidas em três fábricas F1, F2, e F3, sendo que a fábrica 1 e 2 produzem a mesma proporção de peças e a fábrica 70 3 produz o dobro das peças que cada uma das outras duas fábricas pro- duzem. Sabe-se também, que 2% das peças produzidas pela fábrica 1 são defeituosas e que a proporção para as fábricas 2 e 3 são 3% e 4%, respec- tivamente. Qual a probabilidade de que uma peça defeituosa tenha origem da fábrica 2? Resolução: Sendo a proporção de peças produzidas pelas fábricas 1 e 2, tem-se: + + 2 = 1⇒ = 25% Denotando por A o evento da peça ser defeituosa, deseja-se então P(F2 | A). Usando a regra de Bayes P(F2 | A) = P(F2) · P(A | F2) P(F1) · P(A | F1) + P(F2) · P(A | F2) + P(3) · P(A | F3) As probabilidades de que a peça (defeituosa ou não) proceda da fábrica F1, F2 ou F3 respectivamente são: P(F1) = 0,25; P(F2) = 0,25; P(F3) = 0,50 Já as probabilidades de procedência de uma peça defeituosa são de: P(A | F1) = 0,02; P(A | F2) = 0,03; P(A | F3) = 0,04 Logo: P(F2 | A) = 0,25 · 0,03 0,0325 = 23,08% 20. Em certo colégio, 5% dos homens e 2% das mulheres têm mais do que 1,80 m de altura. Por outro lado, 60% dos estudantes são homens. Se um estudante é selecionado aleatoriamente e tem mais de 1,80m de altura, qual a probabilidade de que o estudante seja mulher? Resolução: Temos que determinar a probabilidade de ser mulher dado que tem mais que 1,80 m. Vamos chamar essa probabilidade de P(M | M) Assim, utilizando a Regra de Bayes temos: P(M | M) = P(M) · P(M | M) P(M) · P(M |m) + P(H) · P(M | H) 71 Do enunciado extraímos os seguintes dados: P(M | H) = 0,05 (Probabilidade de Homem ter mais de 1,80 m); P(M | M) = 0,02 (Probabilidade de Mulher ter mais de 1,80 m); P(H) = 0,6 (Probabilidade de ser homem); P(M) = 0,4 (Probabilidade de ser mulher). O que implica em: p(M | M) = 0,4 · 0,02 (0,4 · 0,02) + (0,6 · 0,05) = 0,008 0,038 = 0,21 isto é, a probabilidade é de 21%. 21. Três máquinas, A, B e C produzem respectivamente 40%, 50% e 10% do total de peças de uma fábrica. As percentagens de peças defeituosas nas respectivas máquinas são 3%, 5% e 2%. Uma peça é sorteada ao acaso e verifica-se que é defeituosa. Qual a probabilidade de que a peça tenha vindo da máquina B? E da máquina A? Resolução: Temos que: P(A) = 0,4; P(B) = 0,5; P(C)= 0,10; P(D | A) = 0,03; P(D | B) = 0,05; P(D | C) = 0,02; P(B | D) = ? Utilizando a Regra de Bayes P(B | D) = P(B) · P(D | B) P(A) · P(D | A) + P(B) · P(D | B) + P(C) · P(D | C) = 0,5 · 0,05 (0,4 · 0,03) + (0,5 · 0,05) + (0,1 · 0,02) = 0,025 0,039 = 0,641 Ou 64,1%. 72 16 DISTRIBUIÇÃO DE PROBABILIDADE Consideremos a distribuição de frequências relativas ao número de aci- dentes diários em um estacionamento: TABELA 1 NÚMERO DE ACIDENTES FREQUÊNCIA 0 22 1 5 2 2 3 1 ∑ = 30 Em um dia, a probabilidade de: – não ocorrer acidente é: P(0) = 22 30 = 0,73 – ocorrer um acidente é: P(1) = 5 30 = 0,17 – ocorrer dois acidentes é: P(2) = 2 30 = 0,07 – ocorrerem três acidentes é: P(3) = 1 30 = 0,03 Podemos, então, escrever: 73 TABELA 2 NÚMERO DE ACIDENTES PROBABILIDADES 0 0,73 1 0,17 2 0,07 3 0,03 ∑ = 1,00 Essa tabela é denominada distribuição de probabilidade. E seja X o número de acidentes tal que P(X) seja uma função que resulte no valor de cada probabilidade, então P(X) é chamado de função de probabilidade. Outro exemplo de distribuição de probabilidade pode ser obtido do lançamento simultÃc´neo de duas moedas, cujo espaço amostral é: Ω = {(C,C), (C,K), (K,C), (K,K)} Se X agora representa "o numero de caras" que aparecem, a cada ponto amostral podemos construir a tabela a seguir: TABELA 3 PONTO AMOSTRAL X (C,C) 2 (C,K) 1 (K,C) 1 (K,K) 0 Considerando também que a probabilidade de ocorrência de cada ponto amostral é de 1/4 TABELA 4 PONTO AMOSTRAL X PROBABILIDADES (Ca,Ca) 2 1/4 (Ca,Co) 1 1/4 (Co,Ca) 1 1/4 (Co,Co) 0 1/4 podemos construir a seguinte tabela de distribuição de probabilidade do evento. 74 TABELA 5 NÚMERO DE CARAS P(X) 2 1/4 1 2/4 0 1/4∑ = 1,00 16.1 DISTRIBUIÇÃO BINOMIAL Vamos neste item, considerar experimentos que satisfaçam as seguintes condições: O experimento deve ser repetido, nas mesmas condições, um número n de vezes. Cada repetição do experimento admite apenas dois resultados: sucesso ou fracasso. Os resultados obtidos devem ser independentes, isto é, o resul- tado de um experimento não deve afetar o resultado dos outros. No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1 − p) do insucesso manter-se-ão constantes. Resolveremos problemas do tipo: determinar a probabilidade de se obterem k sucessos em n tentativas. O experimento "obtenção de caras em cinco lançamentos sucessivos e independentes de uma moeda" satisfaz essas condições. Sabemos que, quando da realização de um experimento qualquer em uma única tentativa, se a probabilidade de realização de um evento (sucesso) é p, a probabilidade de não-realização desse mesmo evento (insucesso) é 1 – p = q. Suponhamos, agora, que realizaremos a mesma prova n vezes sucessivas e independentes. A probabilidade de que um evento se realize k vezes nas provas é dada pela função: P(X) = � n k � pk · qn−k na qual: P(X = k) é a probabilidade de que o evento se realize k vezes em n provas; p é a probabilidade de que o evento se realize em uma só prova - sucesso; q é a probabilidade de que o evento não se realize no decurso dessa prova - insucesso;� n k � é o coeficiente binomial de n sobre k, igual a n! k!(n − k)! . Essa função, denominada lei binomial, define a distribuição binomial. 75 Exemplos Resolvidos: 1. Uma moeda é lançada 5 vezes seguidas e independentes. Calcule a probabilidade de serem obtidas 3 caras nessas 5 provas. Resolução: Temos: n = 5 e k = 3 Pela lei binomial, podemos escrever: P(X = 3) = � 5 3 � p3 · q5−3 = � 5 3 � p3q2 Se a probabilidade de obtermos "cara" numa só prova (sucesso) é p = 1 2 e a probabilidade de não obtermos "cara" numa só prova (insucesso) é q = 1 − 1 2 = 1 2 , então: P(X = 3) = � 5 3 � · � 1 2 �3 · � 1 2 �2 = 5 16 Logo: P(X = 3) = 5 16 2. Admite-se que uma válvula eletrônica, instalada em determinado cir- cuito, tenha probabilidade 0,3 de funcionar mais de 600 horas. Se ensaiar- mos 10 válvulas, qual será a probabilidade de que, entre elas, exatamente y funcione mais de 600 horas? Resolução: Temos: P = 0,3 (probabilidade de uma válvula funcionar mais de 600 hrs). q = 1 – p ⇒ q = 0,7. n = 10. então pela lei binomial podemos escrever:� 10 y � 0,3y · 0,710−y Logo: P(0) = � 10 0 � 0,30 · 0,710−0 = 0,0282 P(1) = � 10 1 � 0,31 · 0,710−1 = 0,1211 P(2) = � 10 2 � 0,32 · 0,710−2 = 0,2335 76 ... P(10) = � 10 10 � 0,310 · 0,710−10 = 0,0000056 3. Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a proba- bilidade de o time A ganhar 4 jogos. Resolução: Temos: n = 6; k = 4; P =? e q = 1 − 1 3 = 2 3 . Para determinamos P (probabilidade do time A ganhar uma vez) pensamos o seguinte: a probabilidade de num jogo o time A ganhar uma partida é igual a probabilidade do mesmo perder ou empatar. Seja P essa probabilidade então: P + P + P = 1⇒ 3P = 1⇒ P = 1 3 Assim, a probabilidade do time A ganhar uma única vez é de 1/3. Então:P(X = 4) = � 6 4 � · � 1 3 �4 · � 2 3 �2 = 20 243 Logo: P(X = 4) = 20 243 4. Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o time A: a. ganhar dois ou três jogos; b. ganhar pelo menos um jogo. Resolução de A: Pela propriedade de soma das probabilidades sabemos que: P(2 ou 3) = P(2) + P(3) Onde: P(2) = � 6 2 � × � 1 3 �2 × � 2 3 �6−2 = 240 729 77 e P(3) = � 6 3 � × � 1 3 �3 × � 2 3 �6−3 = 160 729 O que implica em: P(2 ou 3) = 240 729 + 160 729 = 400 729 Resolução de B: Nesse caso vamos determinar a probabilidade de A não ganhar nenhuma partida e depois encontrar a probabilidade do evento complementar. Que é a probabilidade do time A ganhar ao menos uma partida. P(0) = � 6 0 � × � 1 3 �0 × � 2 3 �6 ⇒ P(0) = 64 729 Como o que queremos é o complementar, então: P(A ganhar pelo menos um jogo) = 1 − 64 729 ⇒ P(A ganhar pelo menos um jogo) = 665 729 5. Seis parafusos são escolhidos ao acaso da produção de certa máquina, que apresenta 10% de peças defeituosas. Qual a probabi- lidade de serem defeituosos dois deles? Resolução: P(2) = � 6 2 � × (0,1)2 × (1 − 0,1)6−2 ⇒ P(2) = � 6 2 � × (0,1)2 × (0,9)4 ⇒ P(2) = 0,098415 ou 9,8415%. 16.2 DISTRIBUIÇÃO DE POISSON Enquanto a distribuição Binomial pode ser usada para encontrar a proba- bilidade de um número designado de sucessos em n tentativas, a distribuição de Poisson é usada para encontrar a probabilidade de um número designado de sucessos por unidade de intervalo (tempo, comprimento e etc.). A função de probabilidade nessa distribuição é: 78 P(X = ) = e−λλ ! . onde: x: é o numero de ocorrências do evento em um intervalo; λ: é a taxa média de ocorrência do evento no mesmo intervalo de x; e ≈ 2,71828 (constante natural). As condições exigidas para se aplicar a distribuição de Poisson são as mes- mas exigidas para se aplicar a distribuição Binomial. A distribuição de Poisson é frequentemente usada em pesquisa opera- cional na solução de problemas administrativos. Alguns exemplos são o número de chamadas telefônicas para a polícia por hora, o número de clientes chegando a uma bomba de gasolina por hora, e o número de acidentes de tráfego num cruzamento por semana, e etc. Exemplos Resolvidos: 6. Um departamento de polícia recebe em média 5 solicitações por hora. Qual a probabilidade de receber 2 solicitações numa hora selecionada aleato- riamente? Resolução: Queremos determinar a probabilidade de receber duas solicitações em uma hora. Sendo assim: x = 2. Já a taxa média de sucessos no intervalo específico de uma hora (λ) é 5. Sendo assim: P(2) = 52 · e−5 2! = 0,08422434 ou 8,42% 7. A experiência passada indica que um número médio de 6 clientes por hora param para colocar gasolina numa bomba. a. Qual é a probabilidade de 3 clientes pararem qualquer hora? b. Qual é a probabilidade de 3 clientes ou menos pararem em qualquer hora? c. Qual é o valor esperado, a média, e o desvio padrão para esta distribuição? 79 Resolução de A: P(3) = 63 · e−6 3! = 0,08928 Resolução de B: P(X ≤ 3) = P(0) + P(1) + P(2) + P(3) ⇒ P(X ≤ 3) = 6 0 · e−6 0! + 61 · e−6 1! + 62 · e−6 2! + 63 · e−6 3! ⇒ P(X ≤ 3) = 0,00248 + 0,01488 + 0,04464 + 0,08928 = 0,15128 Resolução de C: O valor esperado, ou média, desta distribuição de Poisson é λ = 6 clientes, e o desvio padrão é p λ = p 6 ' 2,45 clientes. 8. O pessoal de inspeção de qualidade afirma que os rolos de fita isolante apresentam, em média, uma emenda a cada 50 metros. Admitindo-se que a distribuição do número de emendas é dada como uma distribuição de Pois- son, vamos calcular as probabilidades: a. De nenhuma emenda em um rolo de 125 metros; b. De ocorrerem no máximo duas emendas em um rolo de 125 metros; c. De ocorrer pelo menos uma emenda em um rolo de 100 metros. Resolução de A: Como ocorre, em média, uma emenda a cada 50 metros então a taxa de emendas em 125 metros será: λ = 1 50 · 125 = 2,5 O evento que estamos considerando é o de não haver emendas em 125 metros assim: = 0 Então: P(X = 0) = (2,71828)−2,5(2,5)0 0! = 0,0821 ou 8,21% 80 Resolução de B: Do item anterior temos que: λ = 2,5 Então: P(X ≤ 2, 125m) = P(0) + P(1) + P(2) P(X ≤ 2, 125m) = 0,0821 + 2,5 1 · e−2,5 1! + 2,52 · e−2,5 2! ⇒ P(X ≤ 2, 125m) = 0,0821 + 0,2053 + 0,2566 ⇒ P(X ≤ 2, 125m) = 0,5440 ou 54,40% Resolução de C: λ = 1 50 · 100 = 2. P(X ≥ 1, 100m) = P(1) + P(2) + P(3) + P(4) + · · · P(X ≥ 1, 100m) = 1 − P(0) P(X ≥ 1, 100m) = 1 − e−2 P(X ≥ 1, 100m) = 0,8647 ou 86,47% 16.3 APROXIMAÇÃO DA DISTRIBUIÇÃO BINOMIAL POR POIS- SON Podemos usar a distribuição de Poisson como uma aproximação da dis- tribuição Binomial quando n, o número de tentativas, for grande e p ou 1 – p for pequeno (eventos raros). Um bom princípio básico é usar a distribuição de Poisson quando n ≥ 30 e n · p ou n · (1 − p) < 5. Exemplo Resolvido: 9. A experiência passada mostra que 1% das lÃc´mpadas incandescentes produzidas numa fábrica são defeituosas. Encontre a probabilidade de mais que uma lÃc´mpada numa amostra aleatória de 30 lÃc´mpadas sejam defeitu- osas, usando: a. A distribuição Binomial e b. A distribuição de Poisson. Resolução de A: Aqui n = 30, p = 0,01, e queremos encontrar P(X > 1). Então 81 P(2) + P(3) + P(4) + · · · ' 0,0328+ 0,0031+ 0,0002 ' 0,0361 ou 3,61%. Note que não foi calculado P(5) em diante, isso porque a partir de P(5) essa probabilidade se aproxima muito de zero e pode ser desprezada. Resolução de B: Como n = 30 e n ·p = (30) · (0,01) = 0,3, podemos usar a aproximação de Poisson da distribuição binomial. Considerando λ = 0,3, temos que encontrar P(X > 1) = 1−P(X ≤ 1), onde X é o número de lÃc´mpadas defeituosas. Agora, P(1) = (0,3)1(e)−0,3 1! = 0,222246 P(0) = (0,3)0(e)−0,3 0! = 0,74082 P(X ≤ 1) = P(1) + P(0) = 0,222246 + 0,74082 = 0,963066 Assim, P(X > 1) = 1 − P(X ≤ 1) = 1 − 0,963066 = 0,036934 ou 3,69% Quando n ficar maior, a aproximação torna-se mais estreita. 16.4 DISTRIBUIÇÃO NORMAL A distribuição normal é a mais importante das distribuições de probabil- idades. Conhecida como a "curva em forma de sino", a distribuição normal tem sua origem associada aos erros de mensuração. ÃL’ sabido que quando se efetuam repetidas mensurações de determinada grandeza com um apar- elho equilibrado, não se chega ao mesmo resultado todas Ãa˘s vezes; obtém se, ao contrário, um conjunto de valores que oscilam de modo aproximada- mente simétrico, em torno do verdadeiro valor. Construindo-se o histograma desses valores, obtém-se uma figura com forma aproximadamente simétrica. Gauss deduziu matematicamente a dis- tribuição normal como distribuição de probabilidade dos erros de observação, denominando-a então "lei normal dos erros". Supunha-se inicialmente que todos os fenômenos da vida real devessem ajustar-se a uma curva em forma de sino; em caso contrário, suspeitava-se de alguma anormalidade no processo de coleta de dados. Daí a designação de curva normal. A observação cuidadosa subsequente mostrou, entretanto, que essa pre- tensa universalidade da curva, ou distribuição normal, não correspondia Ãa˘ realidade. De fato, não são poucos os exemplos de fenômenos da vida real representados por distribuições não normais, curvas assimétricas, por exem- plo. Mesmo assim, a distribuição normal desempenha papel preponderante na estatística, e os processos de inferência nela baseados têm larga apli- cação. 82 16.5 CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL O aspecto gráfico de uma distribuição normal é o da figura a seguir. Observe que na figura podemos visualizaras seguintes propriedades de uma distribuição normal perfeita. O gráfico apresenta a forma de um sino; A curva é simétrica; A curva normal é assintótica em relação ao eixo das abscisas, isto é, aproxima-se indefinidamente do eixo das abscisas sem, contudo, alcança-lo; Como a curva é simétrica em torno da média (), a probabilidade de ocorrer valor maior do que a média é igual Ãa˘ probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Escrevemos: P(X > ) = P(X < ) = 0,5. A distribuição normal é especificada por dois parÃc´metros: que repre- senta a média e σ que representa o desvio-padrão. Ê É σ 16.6 ANALISANDO A DISTRIBUIÇÃO CONFORME A MÃL’- DIA E O DESVIO PADRÃO. Para uma mesma média e diferentes desvios padrão σ, a distribuição que tem maior desvio padrão se apresenta mais achatada, acusando maior dispersão em torno da média. A que tem menor desvio padrão apresenta “pico" mais acentuado e maior concentração em torno da média. 83 Curva com σ = 2 em azul e σ = 4 em vermelho. 16.7 DISTRIBUIÇÃO NORMAL PADRONIZADA Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a probabilidade dessa variável aleatória as- sumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto. Exemplo Resolvido: 10. Seja X a variável aleatória que representa os diÃc´metros dos parafu- sos produzidos por certas máquinas. Vamos supor que essa variável tenha distribuição normal com media = 2 cm e desvio padrão σ = 0,04 cm. Qual a probabilidade de um parafuso ter um diÃc´metro com o valor entre 2 e 2,05 cm. Resolução: ÃL’ fácil notar que essa probabilidade, indica por: P(2 < X < 2,05) Corresponde Ãa˘ área hachurada na figura 2 2,5 Queremos calcular P(2 < X < 2,05). Para obter essa probabilidade, pre- cisamos, em primeiro lugar, calcular o valor da variável z. z = − σ = 2,05 − 2 0,04 = 1,25 84 donde P(2 < X < 2,05) = P(0 < X < 1,25) Procuremos agora numa tabela de distribuição normal reduzida o valor de z = 1,25. Na primeira coluna encontramos o valor 1,2. Em seguida, encon- tramos, na primeiro linha, o valor 5, que corresponde ao ultimo algarismo do numero 1,25. Na intercessão da linha e coluna correspondente encontramos o valor 0,3944, o que nos permite escrever: P(0 < Z < 1,25) = 0,3944 Assim, a probabilidade de um parafuso fabricado por essa máquina apre- sentar um diÃc´metro entre a media = 2 e o valor = 1,05 é de 0,3944. Escrevemos, então: P(2 < X < 2,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44% 85 17 REFERÊNCIA SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática: Ensino médio. Vol. 1, 2 e 3. São Paulo. Saraiva. 2005. CRESPO, Antôntio Arnot. Estatística Fácil. São Paulo. Saraiva. 2002. 86