Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 1 2 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 2 Sumário CAPÍTULO 1 ............................................................................................................................... 5 1.1 Arredondamento de dados ............................................................................................................. 5 1.2 Razão e proporção ........................................................................................................................ 5 1.3 Regra de três ................................................................................................................................. 7 1.4 Valores relativos ............................................................................................................................ 8 CAPÍTULO 2 .......................................................................................................................... 10 2.1 Curso de Estatística ..................................................................................................................... 10 2.1.1 - Estatística Descritiva ........................................................................................................ 10 2.1.2- Estatística Indutiva ............................................................................................................ 11 2.1.3 Probabilidades ................................................................................................................... 11 2.2 Processo Estatístico .................................................................................................................... 12 2.3 Técnicas de Descrição Gráfica .................................................................................................... 12 2.4 Rol (ordenação sequencial) ......................................................................................................... 16 2.5 Tabelas de Distribuição de Frequências ..................................................................................... 17 2.6 Histograma ................................................................................................................................... 18 2.7 Medidas de Posição ...................................................................................................................... 20 2.7.1 Média Aritmética ................................................................................................................ 20 2.7.2 Mediana ............................................................................................................................. 21 2.7.3 Moda .................................................................................................................................. 22 2.8 Dados agrupados ......................................................................................................................... 22 2.9 Dados agrupados em classes ..................................................................................................... 22 2.9.1 Média aritmética pelo Ponto Médio de Classe (PMC) ....................................................... 23 2.9.2 Cálculo da mediana – variável contínua ........................................................................... 24 2.9.3 Cálculo da Moda ................................................................................................................ 25 CAPÍTULO 3 ............................................................................................................................. 30 3.1 Medidas de Dispersão .................................................................................................................. 30 3.1.1 Amplitude Total .................................................................................................................. 30 3.1.3 Variância ............................................................................................................................. 30 3.1.4 Desvio-Padrão ................................................................................................................... 31 3.1.5 Interpretando o desvio-padrão .......................................................................................... 31 3.2 Teorema de Tchebycheff ou Tchebychev ................................................................................... 31 3.3 Coeficiente de Variação de Karl Pearson .................................................................................... 31 3.4 Cálculo do desvio-padrão, para dados agrupados em classes. .................................................. 32 3.5 Separatrizes da Mediana ............................................................................................................. 33 3.6 Gráfico Box-Plot ........................................................................................................................... 36 3.7 Medidas de Assimetria e Curtose ................................................................................................ 40 3.7.1 - Assimetria ......................................................................................................................... 40 3.7.2 - Análise gráfica da Assimetria. .......................................................................................... 40 3.7.3 Métodos de Comparação das medidas de tendência central. .......................................... 41 3.9 Curtose......................................................................................................................................... 45 3.9.1 Análise gráfica da Curtose ................................................................................................ 45 3.10 Coeficiente Percentílico de Curtose ........................................................................................... 46 CAPÍTULO 4 .......................................................................................................................... 51 4.1 Análise Combinátoria .................................................................................................................... 51 4.1.1 Possibilidades ou Princípio Fundamental da Contagem ................................................... 51 4.1.3 Combinações ..................................................................................................................... 51 4.2 Probabilidades ............................................................................................................................. 52 4.3 Três origens da probabilidade. ..................................................................................................... 52 4.3.1 O Método subjetivo ............................................................................................................ 52 4.3.2 O Método clássico (Objetivo) ............................................................................................ 52 4.3.3 O Método relativo .............................................................................................................. 52 4.4 Probabilidade da ocorrência de um evento ................................................................................. 53 4.4.1 Probabilidade de não ocorrência ou Evento Complentar de A ......................................... 53 4.6 Atribuição de probabilidades (Frequência relativa) ..................................................................... 53 4.7 Lei dos grandes números ............................................................................................................ 54 4.8 Tipos de experimentos ................................................................................................................. 55 4.8.1 Experimentosdeterminísticos ........................................................................................... 55 4.8.2 Experimentos aleatórios ..................................................................................................... 55 3 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 3 4.8.3 Espaço amostral ................................................................................................................ 55 4.8.4 Experimentos em etapas múltiplas .................................................................................... 55 4.9 Probabilidade total ....................................................................................................................... 55 4.9.1 Evento certo ....................................................................................................................... 56 4.9.2 Evento nulo ........................................................................................................................ 56 4.9.3 Evento união ...................................................................................................................... 56 4.9.4 Evento intersecção ............................................................................................................ 56 4.9.5 Eventos mutuamente exclusivos ....................................................................................... 56 4.9.6 Eventos não mutuamente exclusivos ................................................................................ 57 4.9.7 Eventos equiprováveis ...................................................................................................... 57 4.9.8 Eventos compostos ........................................................................................................... 58 4.9.9 Eventos independentes ..................................................................................................... 58 4.10 Lei da multiplicação (Independência estática) ........................................................................... 59 4.11 Probabilidade condicional .......................................................................................................... 59 4.12 Teorema da probabilidade total ................................................................................................. 60 4.13 Distribuições de Probabilidades ................................................................................................ 63 4.14 Distribuição de Probabilidades Discretas ................................................................................... 64 4.15 Distribuição de Bernoulli (Jacob I). ............................................................................................ 65 4.17 Distribuição de Poisson ............................................................................................................. 68 4.18 Distribuição de probabilidades contínuas .................................................................................. 69 4.19 Distribuição exponencial ............................................................................................................ 69 4.20 Distribuição Normal .................................................................................................................... 70 CAPÍTULO 5 .......................................................................................................................... 76 5.1 Tipos de Amostragem .................................................................................................................. 76 5.2 Amostragem Probabilística .......................................................................................................... 76 5.3 Amostragem Aleatória Simples ................................................................................................... 76 5.4 Amostragem Sistemática ............................................................................................................. 76 5.5 Viés de Seleção ........................................................................................................................... 77 5.6 Amostragem Estratificada ............................................................................................................ 77 5.7 Amostragem por Conglomerados ................................................................................................ 78 5.8 Amostragem não-Probabilística ................................................................................................... 78 5.9 Amostragem por Conveniência ................................................................................................... 78 5.10 Amostragem Intencional ............................................................................................................ 79 5.11 Amostragem por Quotas ............................................................................................................ 79 5.12 Amostragem Bola de Neve ........................................................................................................ 79 CAPÍTULO 6 .......................................................................................................................... 81 6.1 Estimação .................................................................................................................................... 81 6.1.1 Propriedades dos estimadores ........................................................................................... 81 6.1.2 Não-tendencioso................................................................................................................. 81 6.1.4 Eficiência ........................................................................................................................... 81 6.1.5 Suficiência ......................................................................................................................... 81 6.1.7 Estimação por Intervalo ...................................................................................................... 81 6.2 Distribuição Amostral dos Estimadores ....................................................................................... 82 6.2.1 Distribuição amostral da Média ......................................................................................... 82 6.3 Teorema Central do Limite .......................................................................................................... 83 6.4 Distribuição amostral da Variância .............................................................................................. 83 6.5 Dimensionamento das Amostras ................................................................................................. 84 6.6 Tamanho da Amostra para estimar a Média populacional. ......................................................... 84 6.6.1 Populações Infinitas .......................................................................................................... 84 6.6.2 Populações Finitas ............................................................................................................ 84 6.7 - Tamanho da Amostra para estimar a Proporção populacional. ................................................. 85 6.7.1 Populações Infinitas .......................................................................................................... 85 6.7.2 Populações Finitas ............................................................................................................ 85 6.8 Intervalos de Confiança para Proporções ................................................................................... 85 6.9 Intervalo de Confiança para Médias ............................................................................................. 86 6.9.1 - Populações de tamanho desconhecido (Populações Infinitas) .......................................87 6.9.2 - Populações de tamanho conhecido (Populações Finitas) .............................................. 88 6.9.3 Intervalos de Confiança para médias populacionais com variância conhecida. ................ 88 6.9.4 Intervalos de Confiança para médias populacionais com variância desconhecida .......... 90 CAPÍTULO 7 .......................................................................................................................... 95 4 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 4 7.1 Nível de significância ................................................................................................................ 96 7.2 Poder de um Teste ...................................................................................................................... 96 7.3 Valor Crítico de um teste ............................................................................................................. 97 7.3.1 Valor Crítico para testes Unilaterais. ................................................................................. 97 7.3.2 Valor Crítico para teste Bilaterais ...................................................................................... 97 7.4 Valor de comparação testeZ ...................................................................................................... 97 7.5 Erros de decisão .......................................................................................................................... 98 7.6 Utilização das tabelas de distribuição de probabilidades ............................................................ 98 7.7 Testes de significância à Esquerda para Médias Populacionais................................................. 98 7.8 Testes de significância à Direita para Médias populacionais com desvio-padrão desconhecido. ........................................................................................................................................... 100 7.9 Sensibilidade dos Testes de Hipóteses ..................................................................................... 101 7.10 Testes Bilaterais para Médias Populacionais com desvio-padrão conhecido ......................... 102 CAPÍTULO 8 ........................................................................................................................ 104 8.1 Teste T para amostras dependentes (Emparelhadas) .............................................................. 104 8.2 Testando a correlação entre as variáveis .................................................................................. 104 8.2.1 Tabelas de contingências ................................................................................................ 105 82.2 A estatística Qui-quadrado ( 2) ............................................................................................... 106 8.3 Graus de liberdade e valor crítico de 2 .......................................................................... 107 CAPÍTULO 9 ........................................................................................................................... 114 9.1 Correlação positiva ..................................................................................................................... 114 9.2 Correlação Negativa .................................................................................................................. 114 9.3 Correlação Nula ......................................................................................................................... 115 9.4 Medindo o grau de Correlação entre duas variáveis. ................................................................ 115 9.5 Coeficiente de Correlação de Pearson. ..................................................................................... 115 9.6 Variância .................................................................................................................................... 117 9.7 Desvio-padrão ............................................................................................................................ 117 9.8 Covariância ................................................................................................................................ 118 CAPÍTULO 10 ...................................................................................................................... 121 10.1 Regressão – representação gráfica. ......................................................................................... 121 10.2 Regressão Linear Simples ........................................................................................................ 122 10.3 Variação Explicada ................................................................................................................... 123 10.4 Variação Não-Explicada ........................................................................................................... 124 10.5 Método dos Mínimos Quadrados .............................................................................................. 124 10.6 - Ajustamento pela equação da Reta. ...................................................................................... 124 10.7 Ajustamento pela equação da Parábola .................................................................................. 126 10.8 Ajustamento pela equação exponencial .................................................................................. 127 Apêndice ................................................................................................................................. 134 1 Tabela Z normal padronizada .............................................................................................. 134 2 Tabela t-student ............................................................................................................................. 135 RERÊNCIAS BIBLIOGRÁFICAS ............................................................................................ 136 5 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 5 CAPÍTULO 1 VALORES RELATIVAS 1.1 Arredondamento de dados Em conformidade com a Resolução nº 886/66 da Fundação IBGE, o arredondamento de dados é efetuado da seguinte maneira: Condições do Número x Procedimentos Exemplos: arredondamento com duas casas decimais x < 5 O último algarismo a permanecer fica inalterado. 13,241 passa 13,24 45,98298 passa 45,98 78,5612 passa 78,56 x > 5 Aumenta-se de uma unidade o último algarismo a permanecer. 12,487 passa 12,49 25,5081 passa a 25,51 53,78999 passa a 53,79 x = 5 Se ao 5 seguir, em qualquer casa, houver um algarismo diferente de zero, aumenta-se uma unidade no último algarismo a permanecer. 2,4352 passa a 2,44 85,36501 passa a 85,37 81,1150002 passa a 81,12 x = 5 Se o 5 for o último algarismo, ou se ao 5 só seguirem zeros, o último algarismo, a permanecer, somente será aumentado de uma unidade se for ímpar. 46,875 passa a 46,88 124,265 passa a 124,26 14,77500 passa a 14,78 99,36500 passa a 99,36 Tabela 1.1 – Regra para arredondamento de dados, segundo Resolução nº 886/66 do IBGE. Para nosso estudo, utilizaremos sempre duas casas decimais para uniformizarmos ao máximo os valores e diminuirmos as diferenças com aproximações. Com exceção dos exercícios que explicitem uma quantidade de casas decimais diferentes. 1.2 Razão e proporção A definição de razão entre dois números reais a e b (b diferente de zero) é o quociente exato de a por b, que pode ser escrito como a/b (a esta para b), onde a é chamado de antecedente e b é o consequente. Razão de duas grandezas é o quociente exato dos números que expressam essas grandezas. As grandezas serão diretamente proporcionais se ambas aumentam ou diminuem simultaneamente, ou seja, aumentando ou diminuindo uma,a outra, também, aumenta ou diminui na mesma proporção. As grandezas serão inversamente proporcionais quando aumentando ou diminuindo uma, a outra diminui ou aumenta respectivamente, na mesma proporção. Exercícios resolvidos 1) Em um curso há 36 rapazes e 48 moças. Com base nessa informação, calcule os itens a seguir: a) Qual a razão entre o número de moças para o número de rapazes? 3 4 36 48 , logo a razão é 4 : 3 ou 1,33 b) Qual a razão entre o número de moças para o número total de alunos? 7 4 84 48 , logo a razão é 4 : 7 ou 0,57 6 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 6 2) Em uma sala de aula a razão entre o número de alunas para o número de alunos é de 3 para 1. Sabendo-se que o total de alunos é igual a 48, qual o número de alunas dessa sala? Resolução: Temos que 48 corresponde a soma das partes da razão: 4, logo: Alunos proporção 48 4 x 3 (parte correspondente a proporção das alunas) 4.x = 3. 48 x = 36 Resposta: Temos 36 alunas, nessa sala de aula. Exercício propostos 1) Numa balada há 45 rapazes e 90 moças. Com base nessas informações, responda: a) Qual a razão entre o número de rapazes e o número de moças? b) Qual a razão entre o número de rapazes e o total de jovens? 2) Um lote de terreno tem 240 m² de área total e 80 m² de área construída. a) Qual a razão entre a medida da área construída em relação a área total do terreno? b) Qual a razão entre a medida da área construída em relação a área livre? 3) Escreva as seguintes sentenças sob a forma de razão: a) 10 rapazes para 18 moças. b) 3 professores para 135 alunos. c) 65 candidatos para 13 vagas. 4) Numa viagem de 1 200 Km, dois motoristas dividiram o percurso. O primeiro percorreu 480 km. Qual a razão entre a distância que irá percorrer o segundo motorista e o total do percurso? 5) A razão entre minha idade e a idade do meu pai é 2:5. Juntos temos 56 anos, qual a idade do meu pai? 6) Dois amigos ganham, em um sorteio, um pedaço de 30 kg de carne. Dividindo-o em duas partes, cuja razão é 2 para 3. Quanto será o peso do pedaço de cada um? 7) Um pai dividiu R$ 3 500,00 entre dois filhos, na razão 4/3. Quanto recebeu cada filho? 8) Dois amigos jogaram na loteria, sendo que o primeiro entrou com R$ 25,00 e o segundo com R$ 35,00. Ganharam um prêmio de R$ 53 400,00. Como deve ser dividido o prêmio, de forma diretamente proporcional, para que, cada um, receba o que tem direito? 9) Dois objetos de mesmo custo foram vendidos, respectivamente, com lucro de 20% e 30%. Sabendo-se que a soma dos dois proporcionou um faturamento de R$ 200,00. Por quanto foi vendido cada objeto? 7 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 7 1.3 Regra de três Exercícios resolvidos 3) Uma roda completa 60 voltas em 15 minutos. Quantas voltas serão completadas em 24 minutos? As bolinhas do mesmo lado indica que as grandezas são diretamente proporcionais, assim: 246015 24 1560 x x 96 15 1440 x x Resposta: Serão completadas, em 24 minutos, 96 voltas. 4) Com 8 eletricistas podemos fazer a instalação de uma casa em 3 dias. Em quantos dias 6 eletricistas fariam o mesmo trabalho? As bolinhas de lados opostos indica que as grandezas são inversamente proporcionais, assim, primeiro invertemos uma das variáveis e, a seguir, concluímos a operação resolvendo a regra de três. 4 6 24 3.86 3 8 6 xxx x Resposta: Oito eletricistas fariam a instalação em 4 dias. Exercícios propostos 10) Em uma fábrica são produzidos 300 sapatos em 6 horas. Em quantas horas poderão ser produzidos 400 sapatos? 11) Com 4 marceneiros podemos produzir uma cozinha planejada em 8 dias. Quantos dias gastarão 2 marceneiros para produzir a mesma cozinha? 12) Quatro pintores finalizaram uma obra em 18 dias. Em quantos dias 9 pintores realizariam a mesma tarefa? 13) Trinta operários constroem uma casa em 80 dias. Em quantos dias 20 operários construiriam essa casa? 14) Uma torneira despeja, em um tanque, 50 litros de água em 20 minutos. Quantas horas são necessárias para essa torneira despejar 600 litros de água? 15) Um tanque possui cinco torneiras de igual vazão. Com uma torneira totalmente aberta esse tanque ficará cheio em 240 minutos. Em quanto tempo o tanque irá encher, com as cinco torneiras totalmente abertas? 8 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 8 1.4 Valores relativos O trabalho com valores relativos é fundamental em estatística, pois na maioria das situações o trabalho é feito com amostras, o que prejudica o trabalho com valores absolutos. Exercício resolvido 5) Consideremos, em uma classe de 80 alunos, as notas da primeira avaliação, indicado na tabela 1.2. Vamos calcular o valor relativo de participação das notas em relação ao total. Tabela 1.2 – Notas dos 80 alunos da classe. A seguir, na tabela 1.3, temos a indicação dos valores relativos por 1 e por 100. NOTAS Nº DE ALUNOS RELATIVO POR 1 RELATIVO POR 100(%) 1,0 02 0,0250 2,50 2,0 03 0,0375 3,75 3,0 08 0,1000 10,00 4,0 11 0,1375 13,75 5,0 22 0,2750 27,50 6,0 16 0,2000 20,00 7,0 10 0,1250 12,50 8,0 05 0,0625 6,25 9,0 01 0,0125 1,25 10,0 02 0,0250 2,50 = 80 1,0000 100,00 Tabela 1.3 – Valores relativos por 1 e por 100 EXERCÍCIOS PROPOSTOS 16) De acordo com os dados oficiais (IBGE) a população estimada do Estado de São Paulo, em 2015, era de 44 396 484 habitantes e a sua área é de 242 222,362 km 2, com base nesses dados responda: a) Qual a densidade demográfica do estado de São Paulo? b) A densidade demográfica representa uma taxa, um índice ou um coeficiente? 17) Considere a série estatística, referente aos alunos de um curso na faculdade X: SÉRIES ALUNOS MATRICULADOS % 1ª 846 2ª 628 3ª 470 4ª 330 Total 2 274 Complete-a, determinando as participações percentuais dos alunos de cada série, em relação ao total. 9 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 9 18) Uma Faculdade apresentava, no final do ano, o seguinte quadro: MATRÍCULAS SÉRIE MARÇO NOVEMBRO 1ª 4800 4250 2ª 3580 3360 3ª 2360 2300 4ª 1204 1190 Total 11 944 11 100 a) Calcule a taxa de evasão por série. b) Calcule a taxa de evasão da faculdade. 19) Considere a tabela a seguir: (use quatro casas decimais) EVOLUÇÃO DAS RECEITAS DA EMPRESA CRIANÇA FELIZ SET./DEZ. – 2014 MESES VALOR (R$) a) b) c) Setembro 330 200,00 Outubro 540 100,00 Novembro 424 500,00 Dezembro 525 900,00 Total 1 820 700,00 Fonte: Dados fictícios Complete-a com uma coluna: a) de taxas percentuais em relação ao total; b) apontando o índice de desenvolvimento da receita de um mês, tomando como base o anterior. c) com o índice de desenvolvimento das receitas, tomando como base o mês de setembro. 10 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 10 CAPÍTULO 2 MEDIDAS DE POSIÇÃO Objetivos Mostrar as metodologias básicas para obtenção das medidas de posição. Mostrar como analisar e interpretar estas estatísticas, por meio de gráficos e tabelas de distribuição de frequências. Definir a sequência lógica do processo estatístico. Conceituar e esclarecer as diferenças entre variáveis discretas e contínuas. Introdução Se quisermos fazer uma representação gráfica do campo de estudo, pelo qual caminharemos e desenvolveremos nosso senso crítico, teríamos o seguinte diagrama, que pode ser considerado, também, como um esquema geral, para um curso de estatística: Figura 2.1 - Teorias Estatísticas. Neste capítulo, serão introduzidos osconceitos necessários e a nomenclatura que será utilizada durante todo curso e que será a base, para o entendimento dos tópicos que serão apresentados. 2.1 Curso de Estatística Nosso curso estará balizado pelas seguintes fundamentações teóricas da Estatística. 2.1.1 - Estatística Descritiva A Estatística Descritiva, como já se falou anteriormente, trabalha com informações referentes aos conjuntos de elementos observados. População População (ou Universo) é um conjunto de elementos, com pelo menos uma característica em comum, que deverá identificar claramente quais membros pertencem, ou não, a esse universo. Ao definirmos a população a ser estudada devemos, também, definir quais características queremos estudar, por exemplo, a idade das pessoas. Amostra Amostra é uma parte significativa da População que continua possuindo as mesmas características. É, portanto, um subconjunto da População. Neste capítulo trataremos apenas de variáveis unidimensionais, ou seja, quando apenas uma característica for associada a cada elemento da amostra estudada. 11 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 11 2.1.2- Estatística Indutiva O objetivo da Estatística Indutiva é o de tirar conclusões sobre populações a partir do estudo dos resultados obtidos com testes estatísticos aplicados sobre amostras, delas retiradas. Esse método de raciocínio, chamado de “indução”, é o termo que dá o nome a este ramo da Estatística (indutiva), ou seja, tirar conclusões do todo conhecendo apenas uma pequena parte dele. 2.1.3 Probabilidades Utilizando-se do Ramo da Matemática que trata do Cálculo de Probabilidades, a Estatística Indutiva irá nos permitir mensurar o grau de certeza de nossas induções e, portanto, de nossas conclusões. Variáveis Variáveis são os dados que representam ou quantificam os fenômenos observados. Estes dados podem ser, ou não, de mesma natureza, pois podem estar medindo fenômenos diferentes. Elas podem diferir em sua natureza, e também quantificar corretamente o fenômeno observado. Podemos classificar as variáveis em duas espécies: Qualitativas e Quantitativas. As variáveis Qualitativas podem, ainda, ser identificadas em duas subcategorias: nominal ou ordinal, as nominais são aquelas que não podem estabelecer uma relação de ordem ou hierarquia, por exemplo: cor dos olhos. As ordinais ordenam os fenômenos em seu maior ou menor grau, por exemplo: grau de satisfação em relação ao atendimento, ótimo, bom, regular, ruim ou péssimo. E, finalmente, as variáveis quantitativas são as que possibilitam quantificar e comparar a magnitude dos intervalos observados. Variável qualitativa A variável será qualitativa quando resultar de uma classificação por tipos ou atributos. Exemplos: a) População: moradores de uma cidade. Variável: cor dos olhos. b) População: peças defeituosas produzidas por máquina. Variável: qualidade (perfeita ou defeituosa). Variável quantitativa A variável será quantitativa quando seus valores forem expressos em números e puderem ser subdivididas em quantitativas discretas ou quantitativas contínuas. As variáveis quantitativas discretas são aquelas em que os valores estão contidos num conjunto finito ou enumerável, exemplo: a) População: casais residentes em uma cidade. Variável: número de filhos. b) População: jogadas possíveis de um dado. Variável: ponto obtido em cada jogada. As variáveis quantitativas contínuas são aquelas cujos valores pertencentem a um intervalo real. a) População: pessoas residentes em um bairro. Variável: idade. b) População: sabonetes da marca X. Variável: peso líquido. Estudaremos, mais adiante, as distribuições de frequência de dados não agrupados (variável discreta) e de dados agrupados em classes (variável contínua). Trataremos, na maior parte deste curso, das técnicas de organização e da análise prévia dos dados. 12 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 12 2.2 Processo Estatístico O processo estatístico é um processo lógico de análise e, como todo processo, deve ter uma abordagem, um cronograma e um resultado para tomada de decisão. Podemos subdividir um processo estatístico em 5 fases, a saber: 1 – Organização Determinar o procedimento estatístico necessário (técnicas unidimensionais ou multidimensionais), que dados deverão ser obtidos, como obtê-los, custo destes dados, credibilidade da fonte, tempo de obtenção dos dados, etc. 2 – Coleta dos dados Na maioria das vezes, o pesquisador tem as variáveis na própria empresa, pois o problema a ser estudado a ela pertence, entretanto, caso este não tenha, pode-se recorrer a empresas especializadas em pesquisa de campo, a organizações como Prefeituras, Bibliotecas, Jornais, Organizações de Classe ou Sindicatos, ou pesquisas nas redes globais. 3 – Apuração dos dados Tratamento dos dados obtidos, ordenamento, estudo das relações entre eles (média aritmética, mediana, moda, desvio-padrão, análise de variância e covariância), exclusão dos dados muito discrepantes, ou não significativos, por meio de métodos estatísticos apropriados. Além disso, pode-se fazer o estudo estatístico de pertinência, probabilidade de erro, grau de significância dos resultados, etc. 4 – Apresentação dos dados Normalmente, na apresentação, o uso de gráficos e tabelas simplifica, resume e torna prático o entendimento do estudo realizado. Esta deve ser o mais objetivo possível e resumir ao máximo o resultado obtido para que os leitores e/ou interessados tenham clareza da situação apresentada. 5 – Análise e interpretação dos resultados Verificação dos resultados e tomada de decisão. Normalmente ficará sob a responsabilidade de um alto escalão que, muitas vezes, não participou da realização da pesquisa, portanto, a apresentação deve ser clara, cuidadosa e criteriosa. 2.3 Técnicas de Descrição Gráfica Gráficos tem primordial importância em Estatística. Eles ilustram os fatos representados pelas variáveis em estudo. Um gráfico bem feito é uma rápida referência de muito valor e ajuda para o analista tirar conclusões instantaneamente. Com o avanço da tecnologia ficou muito prático a apresentação de diversos gráficos, portanto, não ficaremos discutindo a exaustão este tópico, por termos fácil acesso a este elemento, a qualquer momento, em programas simples de informática, por exemplo. Estudo de caso Um corretor de títulos (investimentos em ações) quer gerenciar uma pequena carteira de investidores e, para isto, compara por meio de representações gráficas, os níveis de investimentos individuais e perfis de seus clientes, para o mês de janeiro. 13 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 13 Investidores Característica Investimentos em reaisx (R$ 1 000) NOME SEXO PERFIL JAN FEV MAR ABR MAI JUN Adriano Campos Masculino Agressivo 18 22 23 25 20 23 Aristides Campos Masculino Moderado 14 15 14 13 12 11 Ana Campos Feminino Conservador 9 8 10 9 8 5 Beatriz Bik Feminino Moderado 5 6 8 4 6 5 Bel Carvalho Feminino Moderado 9 8 7 4 5 8 Beltier Feltrim Masculino Agressivo 12 11 10 8 9 12 Carlos Silva Masculino Agressivo 14 15 14 13 12 15 Carlos Martim Masculino Agressivo 16 17 18 16 15 14 Claudia Can Feminino Agressivo 12 14 18 17 15 16 Claudia Vert Feminino Conservador 8 9 10 12 11 10 Tabela 2.1 – Investidores pelo perfil Figura 2.2 - Gráfico dos investidores no mês de janeiro (x R$ 1 000,00) Observe, que rapidamente pode-se ter ideia de quem investe e do valor investido no mês em questão. Outro detalhe, que pode ser ilustrado por um gráfico, é a frequência com a qual certo evento se repete. Um gráfico por gênero de investidor pode ser construído, no caso Masculino ou Feminino. 14 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES14 Figura 2.3 – Gráfico de investidores por gênero No caso, pode-se observar que a carteira é composta por 5 homens e 5 mulheres. Se preferir, pode- se analisar detalhes a respeito do número de investidores em cada perfil. Figura 2.4 – Perfil dos investidores Por outro lado, existe uma grande disparidade de valores investidos, o que pode sugerir uma diferença de disponibilidades de cada investidor, ou ainda, uma diferença no perfil destes, que pode ser definida mediante correta pesquisa e classificação das variáveis em estudo. Neste caso, temos cinco clientes com perfil agressivo para os investimentos, três com perfil moderado e 2 com perfil conservador. Deixando todas as opções feitas até agora, neste exemplo, de gerenciamento e trocando a variável para perfil teremos: Figura 2.5 – gráfico de acordo com o perfil Mas, observe que, apesar de termos esclarecidos muitos pontos, ainda não se sabe quais deles tem este ou aquele perfil. Caso preferir um gráfico que relacione cada caso com o perfil desse investidor, poderá fazê-lo usando um gráfico de linhas. 15 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 15 Figura-2.6 – Gráfico de linhas relacionando o perfil dos investidores Se preferir, remova a linha que liga os pontos, afinal, não tem significado neste exemplo, já que a observação é pontual. Figura 2.7 - Gráfico de pontos relacionando o perfil dos investidores Com o gráfico acima fica claro, agora, qual dos investidores tem esse ou aquele tipo de perfil para os investimentos. Note o leitor que, quase sempre, o eixo das abscissas (Ox) ilustra o evento de estudo, enquanto que o eixo das ordenadas (Oy) ilustra a magnitude do evento ou uma característica qualitativa. 16 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 16 A magnitude do evento, quase sempre, é expressa em termos da frequência com a qual o evento em questão se verifica. Nas notações teóricas que se seguirão neste livro, escreveremos que i indica o número da classe de qualquer um dos valores observados, xi o valor observado e fi será a sua frequência (número de vezes que o valor xi for observado). O primeiro cuidado para se descrever graficamente um conjunto de dados é observar a frequência (número de vezes que cada variável é observada) dos diversos valores da variável em questão. Chamaremos a somatória das frequências fi, dos valores observados de n (i variando de 1 a k elementos). Perfil do Cliente p/ investimentos Números Porcentagens Quantidade (fi) Frequência relativa (fri) Agressivo 5 5/10 = 0,5 =50% Moderado 3 3/10 = 0,3 = 30% Conservador 2 2/10 = 0,2 = 20 % Total 10 1,00 ou 100,0% Tabela 2.2- Frequência Simples (fi) e Frequência Relativa Simples (fri) Observe a tabela 2.3, de bancos credenciados em alguns Estados Bancos Credenciados Número de Estabelecimentos Frequência Relativa Estado (xi) Unidades (fi) (fri ) por 1 (fri) por 100 São Paulo 38 0,32 32 Alagoas 30 0,25 25 Rio Grande do Sul 35 0,30 30 Minas Gerais 15 0,13 13 Total (n) 118 1,00 100 Tabela 2.3- Frequência Simples (fi) e Relativa Simples (fri) Daí fica claro que: n f fri i pode ser descrita como o quociente entre o número de vezes que determinada variável é notada, dividido pelo número total de eventos e que, a somatória das frequências relativas simples (fri) será sempre igual a 1 ou 100%(em porcentagem). Analisando-se, agora, a questão da frequência (em porcentagem) de cada evento, pode-se notar no gráfico, em setores, a participação dos bancos credenciados por Estado, citados na pesquisa : 32% 25% 30% 13% São Paulo Alagoas Rio Grande do Sul Minas Gerais Figura 2.8- Bancos Credenciados por Estado. 2.4 Rol (ordenação sequencial) O ROL é uma técnica de classificação das variáveis aleatórias que tem por finalidade visualizar detalhes das variáveis e facilitar a construção das tabelas de distribuição de frequências. Suponha que uma pesquisa em manufaturas de artesanato, do Estado de Alagoas, quer determinar qual o grau de mecanização destas unidades. Chegou-se a seguinte tabulação: {5,5,6,6,5,4,4,5,6,4,5,6,8,6,7,5,3,4,2,8,7,3,4,6,5,8,7,6,2,3,4,5,1,2,3,4,5,6,7,8,9,8,7,6,5,1,2,3,4,0}. 17 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 17 Para melhorar o aspecto da pesquisa e tentar dar algum significado às variáveis, pode-se empregar uma técnica chamada Steam and Leaf (caule e folha). 0 0 0 1,1 2,2,2,2 3,3,3,3,3 4,4,4,4,4,4,4,4 5,5,5,5,5,5,5,5,5,5 6,6,6,6,6,6,6,6,6 7,7,7,7,7 8,8,8,8,8 9 Figura 2.9 – Organização dos dados por meio da técnica Caule e folha Desta forma, fica mais fácil ver que existem duas empresas com 1 máquina, uma empresa com 0 (zero) máquinas e, ainda, uma empresa com 9 máquinas. O caule é o número zero que colocado a esquerda não altera o valor, pois não é significativo. Enquanto que, o número significativo faz parte da “folha “. Assim, pode-se montar uma tabela de distribuição de frequência com mais facilidade, como na tabela 2.4 a seguir: Tabela 2.4 - Distribuição de Frequências A partir dessa tabela, pode-se então construir o Histograma. Esse processo será visto mais adiante. 2.5 Tabelas de Distribuição de Frequências Para representar, de forma clara, essas observações, deve-se recorrer à construção de Tabelas de Distribuição de Frequências, que representarão a observação (xi) e também quantas vezes, ou com que frequência, aquela observação específica se repete (fi) dentro do cenário estudado. Para exemplificar, com valores mais simples, e facilitar o entendimento, suponham-se as quantidades de determinada peça em um almoxarifado da empresa. xi fi Fi fri Fri 0 1 1 1/50=0,02 0,02 1 2 3 2/50=0,04 0,06 2 4 7 4/50=0,08 0,14 3 5 12 5/50=0,10 0,24 4 8 20 8/50=0,16 0,40 5 10 30 10/50=0,20 0,60 6 9 39 9/50=0,18 0,78 7 5 44 5/50=0,10 0,88 8 5 49 5/50=0,10 0,98 9 1 50 1/50=0,02 1,00 Totais 50 ------ 1,00 18 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 18 xi fi 0 5 1 8 2 15 3 17 4 26 Tabela 2.5 - Número de Peças Onde o xi representa a codificação da peça, (ex: peça 1, ponta de eixo, peça 2, cubo de roda e assim por diante), e o fi representa a quantidade existente de cada peça em estoque. Observa-se que, nesse caso, temos 5 tipos de peças diferentes num total de 71 peças. Pode ser interessante ao observador querer saber quanto cada item representa em valor percentual do total do estoque (frequência relativa) e o acúmulo destes após a contagem de cada item (frequência relativa acumulada). Para isso, deve-se complementar a tabela com mais três colunas. xi Fi Fi fri Fri 0 5 5 0,0704 0,0704 1 8 13 0,1127 0,1831 2 15 28 0,2113 0,3944 3 17 45 0,2394 0,6338 4 26 71 0,3662 1,0000 Total 71 1,0000 Tabela 2.6 - Percentual de peças em estoque Para que possamos entender o gráfico de frequências (Histograma), devemos olhar para a tabela 2.6 e verificar que, por exemplo, a presença da peça de código 3 foi observada (frequência) 17 vezes. Representa-se, ainda por Fi as frequências absolutas acumuladas, por fri as frequências relativas simples e por Fri as frequências relativas acumuladas. 2.6 Histograma O histograma é um tipo de gráfico especial que relaciona o valor da variável com a respectiva frequência observada. A idealizadora deste tipo de gráfico foi a Sra. Florence Nightingale pesquisadora Italiana (filha de Ingleses) que, na guerra da Criméia, observou que os óbitos de batalha decresciam na medida em que se aumentava a frequência da lavagem das roupas de cama dos feridos. Hoje essa técnica, acompanhada do Teorema da probabilidade à posteriori (teorema de Bayes) é responsável pela ferramentamais utilizada em pesquisa de Marketing. Figura 2.10 – Histograma referente ao percentual de peças da tabela 2.6 19 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 19 Bloco Frequência % cumulativo Bloco frequência % cumulativo 0 5 7,04% 4 26 36,62% 1 8 18,31% 3 17 60,56% 2 15 39,44% 2 15 81,69% 3 17 63,38% 1 8 92,96% 4 26 100,00% 0 5 100,00% Total 71 100,00% Total 71 100,00% Tabela 2.7 - Frequências simples e acumuladas Para interpretá-los é necessário notar que, as planilhas eletrônicas ordenam as variáveis da maior para a menor magnitude, e reflete a frequência com que cada variável aparece na amostra (lado esquerdo com o seu respectivo acumulo percentual do lado direito do gráfico).Obviamente a soma é 100%. Exercício resolvido 1-) Uma empresa X mantém contas em oito agências de publicidade para seus dez produtos, conforme tabela de gastos indicada abaixo: PROD/AGEN. MACCA MARKE FACET GEGT FISK KONT JUNG SINTEL PRODUTO A 12 15 14 11 12 13 14 17 PRODUTO B 16 15 14 13 12 11 10 14 PRODUTO C 18 19 20 21 17 18 17 21 PRODUTO D 05 06 07 8 9 12 15 13 PRODUTO E 02 05 06 8 9 4 1 1 PRODUTO F 08 05 06 7 1 3 5 7 PRODUTO G 12 14 15 12 11 10 18 15 PRODUTO H 16 09 10 8 10 9 10 11 PRODUTO I 10 09 08 7 16 15 14 11 PRODUTO J 18 17 15 14 19 5 14 12 Tabela 2.8 – Tabela de gastos com publicidade (gastos em milhões de reais) Pode-se, ainda, ter uma ideia, em termos percentuais, deste Histograma ou ainda encontrar o Polígono de frequências acumuladas. Outra possibilidade é a de saber qual foi o gasto para a propaganda de cada produto, numa determinada agência de publicidade. PROD/AGEN. SINTEL(milhões) PRODUTO A 17 PRODUTO B 14 PRODUTO C 21 PRODUTO D 13 PRODUTO E 1 PRODUTO F 7 PRODUTO G 15 PRODUTO H 11 PRODUTO I 11 PRODUTO J 12 Tabela 2.9 – Tabela de gastos com publicidade da Agência Sintel 20 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 20 Figura 2. 11 - Histograma dos gastos, em milhões de reais, com publicidade, da agência Sintel 2.7 Medidas de Posição A classificação dos dados observados vai além das representações gráficas. As medidas de posição identificam a concentração dos dados observados. Servem, portanto, para o cálculo da variabilidade dos dados observados. Existem três medidas de posição que ajudam a compreender, inicialmente, a maioria dos eventos estudados. 2.7.1 Média Aritmética A média aritmética é uma medida de posição, de tendência central, ela é a medida que resume uma distribuição. É, normalmente, o cálculo mais instintivo no pesquisador e, também, nos profissionais. Quando nos deparamos com a necessidade de analisarmos dados em períodos Na verdade, a média é a medida estatística mais elementar, e em nada difere do que já fazemos diariamente. Por exemplo, quando calculamos a nota média de um aluno: somamos todas as notas e as dividimos pelo número de avaliações, com sua devida ponderação. Tomemos como exemplo a média do número de acidentes em uma determinada avenida, onde foram anotados os acidentes nos meses do ano de 2013: 20, 24, 30, 26, 22, 50, 20, 20, 22, 30, 32, 40. O cálculo da média será 28 12 336 . Portanto, temos em 2013 uma média de 28 acidentes por mês, nessa avenida. A notação a seguir simplifica este cálculo por definir a observação (número de acidente) e a sua respectiva frequência (quantas vezes ela se repete). Assim, se uma observação aparecer 3 vezes dizer-se-á que ela tem frequência igual a 3, se apararecer 2 vezes, frequência 2, e assim por diante. A média de uma sequência de observações é representada por: µ, para uma população e x , para uma amostra, e define-se por: i ii f xf x )( ,onde: ix iésima observação (primeira, segunda, terceira observação, ...) if frequência simples de cada observação (quantas vezes cada observação aparece), sendo que, a sua somatória é igual ao total de itens observados. Sendo assim, no exemplo abaixo, a média será: 7,5 10 57)( i ii f xf 21 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 21 Tabela 2.10 - Cálculo da média aritmética 2.7.2 Mediana É outra medida de posição que define o centro geométrico das observações. Tem como característica “dividir” ao meio o número de observações, ou seja, deixa para trás de si um número de observações igual ao existente a frente desta. Vejamos um exemplo com 11 observações de um determinado fenômeno {14, 15, 20, 16, 15, 16, 16, 25, 16, 15, 14}, anotado na tabela a seguir. Como o número de elementos é ímpar, segue o procedimento: Primeiro colocamos os valores em ordem crescente: Ordem ix 1º 14 2º 14 3º 15 4º 15 5º 15 6º 16 7º 16 8º 16 9º 16 10º 20 11º 25 Tabela 2.13 - Mediana para número ímpar de elementos Então, a Posição da Mediana da distribuição será: 2 1 n PM d , ou seja º6 2 12 2 111 dPM .(PMd = posição da mediana) Desta forma a observação que define a mediana sera o 6º elemento da distribuição, ou seja, o valor da mediana é 16. Para dados simples (não agrupados em classes), quando o número de observações n é “par”, a posição da mediana é calculada por: 2 n PMd Ordem ix 1º 14 2º 14 3º 15 4º 15 5º 15 6º 16 7º 16 8º 16 9º 16 10º 20 ix if ii xf 5 3 15 4 2 8 10 1 10 6 4 24 Totais 10 57 22 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 22 Tabela 2.14 - Mediana para número par de elementos Ou seja, no nosso exemplo, 5 2 n , então a mediana seria o elemento que está na 5º posição. Entretanto, isso contraria a definição por não deixar um número igual de elementos de cada lado da distribuição. Neste caso, a Mediana será o valor da posição intermediária, entre o 5º e o 6º elemento, ou seja, a Média aritmética entre os dois valores centrais, 15 e 16, então: 5,15 2 1615 dM . 2.7.3 Moda A moda de uma distribuição de frequências é o elemento observado com maior frequência, ou seja, aquele que se repete mais vezes. No nosso exemplo, a moda é a observação 16, pois essa se repetiu 4 vezes, sendo que nenhuma outra observação ocorreu em maior número. Entretanto, alerta-se que existe a possibilidade das distribuições de frequências terem mais de uma moda, ou mesmo, não existir a moda. 2.8 Dados agrupados Supondo que no exemplo anterior a amostra tenha 30 elementos, como: {12, 12, 13, 13, 13, 13, 13, 14, 14, 14, 15, 15, 15, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 18, 18, 18, 18, 18, 20, 20}. Observe que é evidente a dificuldade de usar o método anterior, essa amostra poderia ter 40, 50 ou mais elementos, portanto, verificamos a necessidade de usar outra forma para encontrar a mediana. Vejamos o cálculo para dados agrupados sem intervalos de classe. Primeiro construiremos a tabela de distribuição de frequências e encontramos a PMd, a seguir a frequência acumulada (Fi), a classe mediana é a que tem a Fi imediatamente superior a posição mediana: 15 2 30 PMd Xi fi Fi 12 2 2 13 5 7 14 3 10 15 3 13 16 10 23 Classe Mediana 18 5 28 20 2 30 Total 30 Logo a Fi, imediatamente superior a 15 é 23, portanto, Md = 16. Caso a PMd coincidir com Fi, devemos calcular a média aritmética entre variável correspondente a essa classe e o elemento imediatamento superior. 2.9 Dados agrupados em classes Nos exemplos do capítulo anterior, as variáveis pesquisadas (variáveis aleatórias discretas) não necessitavam de tratamento especial para sua classificação, ou seja, as próprias variáveis já explicavam o fenômeno observado. Entretanto, existem observações que requerem um tratamento diferenciado. Consideremos que, uma comissão de engenheiros, com especialização em construção de usinas elevatórias de eletricidade,precisassem fazer uma pesquisa em determinada região para saber qual o consumo de eletricidade esperado e, com isto, decidir pelos equipamentos a serem comprados para construir a tal usina. Dificilmente, durante o levantamento de dados, encontrariam duas casas com o mesmo consumo de energia elétrica. 23 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 23 Seja a tabela a seguir o resultado do levantamento do consumo, em KW/h de eletricidade, de 50 estabelecimentos de uma certa região: 102 110 76 86 90 82 96 90 98 92 84 86 104 78 116 82 80 114 104 108 86 92 76 80 102 78 108 76 88 80 76 88 94 70 88 125 94 86 72 76 110 72 94 88 76 106 78 90 84 82 Tabela 2.15 – Leitura do consumo de energia elétrica em KW/h/mês. Ao tentarmos obter a distribuição de frequências, com base nos dados descritos, obteríamos uma tabela um pouco extensa e sem muita eficiência. Para agrupar estas observações em classes, devemos definir primeiro o número de classes, e posteriormente, a amplitude das classes. Determinação do número de classes para dados agrupados (k). O primeiro método é denominado método da Raiz. Determina-se o número de observações (no exemplo acima = 50), daí então, o número de classes “k” será: 750 nk , teremos, portanto, sete classes. O segundo método é denominado, Método de Sturges e calcula-se da seguinte forma: nlk og 22,31 No exemplo acima, teríamos: 647,669897,122,315022,31 oglk Qualquer um dos métodos proporciona o rigor necessário para validar a condução das pesquisas. O método da Raiz será utilizado no presente curso, pois proporciona um cálculo mais rápido, por não ser necessário recorrer a tabelas de logaritmos, nem calculadoras sofisticadas. Determinação da amplitude de classe (h). Dessa forma, uma vez fixado o número de classes, calcula-se a amplitude delas, que deverá ser rigorosamente igual para todas as classes da distribuição. 886,7 7 70125__ k mínimaobservaçãomáximaobservação h Então teremos 7 classes, com amplitude 8 em cada uma delas. (O arredondamento para a amplitude de classes será sempre para o número significativo, imediatamente superior ao quociente encontrado). xi = 2 Lili 2.9.1 Média aritmética pelo Ponto Médio de Classe (PMC) Deve-se partir dos limites reais e seus pontos médios de classe (PMC). O ponto médio de classe é a média aritmética entre o “limite superior” e o “limite inferior” de cada classe. (iremos considerar que PMC = xi), Como se segue: Tabela 2.16 – Cálculo da média do consumo das 50 residências Classes xi if iF ii xf 70 78 74 9 9 666 78 86 82 11 20 902 86 94 90 13 33 1 170 94 102 98 5 38 490 102 110 106 7 45 742 110 118 114 4 49 456 118 126 122 1 50 122 50 4 548 24 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 24 A primeira classe é composta pelo intervalo 70 78, que indica intervalo fechado à esquerda e aberto a direita, ou seja, o valor 70 pertence a primeira classe, mas o 78 pertence a segunda. A segunda classe é composta pelo intervalo 78 86, que indica fechado à esquerda e aberto a direita, e assim por diante. O cálculo dos pontos médios será feito,como se segue: 74 2 7870 2 1 x Lili xi , e assim por diante. A Média será dada por: 96,90 50 4548)( i ii f xf x . 2.9.2 Cálculo da mediana – variável contínua Determinação do Valor da Mediana para dados agrupados em classes. A classe Mediana caracteriza o centro geométrico do conjunto de dados, ou seja, colocando os valores observados em ordem crescente de classes, e obtendo-se o Histograma desta distribuição, a Mediana é o valor que a divide ao meio (duas áreas de 50% de cada lado). Pela definição, admite-se que, os dados agrupados em classes distribuam-se uniformemente (variável aleatória contínua), e também, que existe apenas um valor de Mediana, definido pelo elemento de ordem, identificado também pela frequência relativa acumulada. Identificada a Classe Mediana, determinamos as frequências acumuladas iF . Observe o exemplo: Tabela 2.17 – Frequência simples e acumulada. 1º Passo: Calcula-se a posição mediana. não se preocupe se n é par ou ímpar. 2º Passo: Pela Fi identifica-se a classe que contém a mediana (classe Md). É a classe que contém a frequência acumulada imediatamente superior ao valor da posição mediana n/2. 3º Passo: Utiliza-se a fórmula: * *_ 2 * i i i f hantFi n lmd O asterisco (*) indica a classe mediana. li * = limite inferior da classe mediana. fi = tamanho da amostra ou número de elementos. Fi_ant* = soma das frequências anteriores à classe Md. hi* = amplitude da classe Md. fi* = frequência simples da classe Md. Classes fi Fi 70 78 9 9 78 86 11 20 86 94 13 33 94 102 5 38 102 110 7 45 110 118 4 49 118 126 1 50 Total 50 25 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 25 Cálculo da mediana da distribuição apresentada na tabela 2.17 Encontramos a posição mediana: 25 2 50 2 n , portanto, a classe mediana é a que tem a frequência acumulada (Fi) imediatamente superior a razão 2 n . Verificamos que a classe mediana é a 3ª, cujo Fi, é 33. Tabela 2.18 – Indicação da classe mediana Desta forma, teremos: hKwMd /08,898 13 20 2 50 86 Então, a mediana será igual a 89,08 kw/h. 2.9.3 Cálculo da Moda Pelo método simples: a Classe Modal, será aquela cuja frequência for maior, basta encontrar a média aritmética da classe com maior frequência. Mo = 90 2 9486 Cálculo da Moda (método de Czuber) a Moda será então: hi dd d lM io 21 1 onde: il limite inferior da Classe Modal (classe com maior frequência). 1d diferença entre a frequência simples da classe modal e a da classe anterior. 2d diferença entre a frequência simples da classe modal e a da classe posterior. hi amplitude de classe (igual para todas as classes). 21113 mod_1 anteriorfreqfreqd alclasse 8513mod_2 posterioralclasse freqfreqd No nosso exemplo, teremos: 6,87 82 2 886 Mo , ou seja, pelo método de Czuber o valor da moda é 87,6 kw/h. Classes fi Fi 70 78 9 9 78 86 11 20 86 94 13 33 94 102 5 38 102 110 7 45 110 118 4 49 118 126 1 50 Total 50 26 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 26 O HISTOGRAMA, POLÍGONO DE FREQUÊNCIAS e o POLÍGONO DE FREQUÊNCIAS ACUMULADAS dessa distribuição serão apresentadas a seguir: Figura 2.12 – Histograma da Leitura do consumo de energia elétrica em KW/h/mês. Figura 2.13 – Histograma e polígono de Frequências 2.14 – Polígono de Frequências 27 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 27 2.15 – Polígono de Frequências acumuladas EXERCÍCIOS PROPOSTOS 1) Determine a média aritmética, a moda e a mediana dos seguintes conjuntos de valores: a) 13, 13, 15, 11, 14, 12, 14, 10, 20, 15 b) 8, 5, 12, 16, 3, 12, 10, 18 c) 15, 18, 20, 16, 17, 19, 18 d) 23, 25, 22, 21, 23, 24, 26, 29, 23 2) A distribuição a seguir, relaciona o número de vendas de determinado produto em uma loja de acessórios. Determine a média aritmética, a moda e a mediana do número de vendas efetivadas desse produto. 40 – 44 – 46 – 57 – 40 – 44 – 48 – 62 – 54 – 57 – 40 – 30 3) O quadro abaixo mostra o número de filhos dos funcionários de uma empresa . Determine a média aritmética, a mediana e a moda dessa distribuição. Nº de filhos 0 1 2 3 Nº de funcionários 15 29 38 184) Determine a média aritmética, a mediana e a moda para a idade dos bebês consultados em um determinado posto de saúde, conforme tabela. 5) Determine a média, a mediana e a moda para a tabela referente às alturas dos animais num pet-shop. Alturas (cm) Frequência 20 40 3 40 60 6 60 80 2 80 100 5 Total Idades (em anos) 0 1 2 3 Frequência 45 20 15 20 28 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 28 6) Determine a média aritmética, a mediana e a moda da tabela abaixo referentes ao peso de um doce mineiro vendido na loja “Quetrembom”. 7) Determine a média aritmética, a mediana e a moda dos pesos de um grupo de indivíduos que passam férias em um sítio, conforme a tabela: Peso (Kgf) Frequência 20 40 5 40 60 7 60 80 10 80 100 12 100 120 6 Total 8) Determine a média aritmética, a mediana e a moda, dos salários dos funcionários de uma empresa conforme dados abaixo: 9) Um curso, de iniciação ao Raciocínio Lógico, apresentou a seguinte distribuição dos pontos dos alunos(sendo possíveis no máximo 30), segundo o sexo, indicada pelo gráfico seguinte. Com base nos dados do gráfico, encontre: a) a média de pontos de meninos, e a média do pontos das meninas. b) a mediana do total de pontos dos alunos. c) a moda do total de pontos dos alunos. 10) Uma pesquisa realizada com 1 200 pessoas às vésperas do feriado de natal tinha como pergunta principal: “O que você pretende fazer nesse próximo feriado de natal?” Os resultados são dados no gráfico seguinte: Potes (ml) Frequência 50 150 15 150 250 20 250 350 10 350 450 25 450 550 30 Total Salário (R$) Frequência 1450 1550 10 1550 1650 30 1650 1750 40 1750 1850 30 1850 1950 20 Total 29 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 29 “O que você pretende fazer nesse próximo feriado de natal” 15% 32% 26% 18% 9% Distribuição das opções dos entrevistados descansar em casa viajar ir ao cinema trabalhar outros Com base no gráfico responda: a) Quantas pessoas pretendem viajar? b) Quantas pessoas não pretendem descansar? c) Qual a média esperada de pessoas que pretendem trabalhar? 30 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 30 CAPÍTULO 3 MEDIDAS DE DISPERSÃO E ASSIMETRIA Considerações iniciais A interpretação das estatísticas usando a média aritmética, a moda e a mediana, apesar de importante, em muitas oportunidades não é suficiente para o entendimento do fenômeno, dentro do contesto estudado. Para melhor entendendimento as medidas de dispersão são fundamentais, pois torna mais claro o comportamento da distribuição. Objetivos Mostrar as metodologias básicas para obtenção das medidas de dispersão e assimetria. Mostrar como analisar e interpretar estas estatísticas com situações práticas. Definir a sequência lógica do processo estatístico para análise da dispersão e comportamento das distribuições. Mostrar que outras medidas de posição (Separatrizes da mediana) nos ajudam a comparar índices individuais de empresas com médias setoriais de indústrias. 3.1 Medidas de Dispersão Em muitos casos, o simples cálculo da média aritmética não proporciona uma visão do que realmente acontece com o comportamento dos dados observados, portanto, não proporciona informações suficientes para a tomada de decisão. Estudo de caso 1) Um casal resolveu que iria fazer uma dieta que consistia em comer, durante cada mês todo, a maior quantidade de frangos, como prato principal. Ao final de 5 meses, temos a seguinte tabela: Mês / participante Nº de frangos(Mulher) Nº de frangos(Homem) Média Janeiro 4 4 4 Fevereiro 3 5 4 Março 2 6 4 Abril 1 7 4 Maio 0 8 4 Observe que a média é sempre a mesma: 4. Mas, ao longo dos meses, a diferença entre a quantidade que cada um comeu fica cada vez maior. A média, embora seja uma medida importantíssima, sozinha, muitas vezes, esconde distorções no conjunto de dados. 3.1.1 Amplitude Total É a diferença entre o maior e o menor valor da série. No caso do exemplo anterior, a Amplitude Total do mês de maio será: AT = 8 – 0 = 8, o que já ajuda na análise da distribuição, pois percebe-se que a amplitude é o dobro da média, tendo a distribuição, apenas 2 elementos, indica uma dispersão significativa. O problema da amplitude total está no fato de que se a distribuição contém 2 ou 50 elementos ela será a mesma, ou seja, não há influência dos termos entre os extremos, mas, com certeza, o comportamento será diferente, portanto, a sua utilidade fica restrita. 3.1.3 Variância A variância é definida como, a média dos quadrados dos afastamentos de todas as observações, em relação à média aritmética. Ela nos proporciona uma medida de amplitude média, dos afastamentos das variáveis em relação à média elevado ao quadrado. Em algumas oportunidades, chega a coincidir com a amplitude total dos dados observados, mas isso não é uma regra. Note-se que, a amplitude total consegue apenas propiciar uma noção 31 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 31 da compactação total dos dados em relação à média. Ela não nos oferece sensibilidade maior que isto. O cálculo da variância é dada pela fórmula i ii f xxf 2 2 . Em muitos casos chega a não fazer sentido, pois se estivermos medindo salários, a variância seria uma medida de amplitude expressa em salários elevados ao quadrado, o que não faz sentido dentro do contexto estudado. Portanto, em função disso, usamos com mais frequência o desvio-padrão. 3.1.4 Desvio-Padrão O desvio-padrão é definido como a “raiz quadrada da média do quadrado dos desvios dos dados observados, em relação à média da distribuição destes”. O desvio-padrão populacional é calculado por meio da fórmula: i ii f xxf 2 Note que, quando os dados considerados representarem toda a População, o denominador da expressão acima será o número de observações, nf i . Mas, quando os dados observados forem uma “amostra” da população, é aconselhável a utilização de 11 nfi (mais adiante comentaremos sobre isso), daí a fórmula para calcular o desvio-padrão da amostra, será: 1 )( 2 i ii f xxf S Desta forma, o desvio-padrão identifica o valor médio dos afastamentos das observações em relação à média da distribuição. 3.1.5 Interpretando o desvio-padrão O desvio-padrão, ao contrário da variância, nos proporciona uma medida de concentração para cada módulo de sua medida. Vejamos, por exemplo, a regra empírica citada por (Martins, Atlas 2004): Para qualquer distribuição amostral com média x e desvio-padrão s, tem-se: Entre 60% e 80% das variáveis estudadas estarão entre ± 1 desvio-padrão. 95% das variáveis estudadas estarão entre ± 2 desvios. 100% das variáveis estudadas estarão entre ± 3 desvios. 3.2 Teorema de Tchebycheff ou Tchebychev (Pafnuti Lvovich Chebychev , Matemático Russo +1882) Para qualquer distribuição amostral, com média x e desvio-padrão s, tem-se: No mínimo 75% das variáveis estudadas estarão entre ± 2s. No mínimo 89% das variáveis estudadas estarão entre ± 3s. Note-se que, com este teorema, é possível obter uma visão mais específica a respeito da concentração das variáveis estudadas, pois 75% delas estarão entre os valores da média com ± 2s. 3.3 Coeficiente de Variação de Karl Pearson É uma medida relativa de dispersão. Mede o valor relativo que o desvio-padrão é, em relação à média da distribuição de frequências. Esta medida, aliada ao teorema de Tchebycheff, propicia uma avaliação da amplitude do desvio-padrão em relação à média. Quanto maior for esta dispersão relativa, menos concentrados em tornoda média estarão as variáveis estudadas. x s Cv Exemplo resolvido 2) Para exemplificarmos de maneira prática a utilização e o significado do desvio-padrão, considere os seguintes índices de Liquidez Geral de dois grupos, constituídos por 5 empresas cada um, do mesmo setor industrial, mas de regiões diferentes do país. O índice de Liquidez Geral é definido por ELPPC RLPAC LG , onde: 32 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 32 AC = Valor do Ativo Circulante Total RLP = Valor do Realizável de Longo Prazo PC = Valor do Passivo Circulante ELP = Valor do Exigível de Longo Prazo E representa quantas unidades monetárias (quantos reais) a empresa tem para pagar cada Unidade monetária da dívida que possui. Obviamente, quanto mais alto o valor dos ativos e menor os valores dos passivos, a empresa apresentará um Índice de Liquidez Geral maior. Grupo de Empresas Índice de Liquidez Geral x A 1,4 1,5 1,6 1,7 1,8 1,6 B 1,2 1,4 1,6 1,8 2 1,6 Tabela 3.2 – Comparação de duas amostras pela média. Como podemos perceber, a média dos índices de liquidez geral dos dois grupos, A e B, das empresas são iguais. A comprovação vem com cálculo do desvio-padrão. Considerando que, estamos lidando com duas amostras, portanto, o denominador da fórmula do desvio-padrão será igual a n – 1. Como a frequência das observações, dentro de cada grupo, é igual a 1 (pois não há dois índices iguais dentro de cada grupo), teremos, então: 158114,0 15 )6,18,1()6,17,1()6,16,1()6,15,1()6,14,1( 22222 AS 316228,0 15 )6,12()6,18,1()6,16,1()6,14,1()6,12,1( 22222 BS Nota-se, claramente, que o desvio-padrão das empresas do grupo B é duas vezes superior ao das empresas do grupo A. Dessa forma, pode-se dizer que o desempenho das empresas do grupo A é mais consistente do que o das empresas do grupo B, pois apresentam um menor desvio, em relação à média. Exemplo resolvido 3) Admita que os mesmos resultados de desvio-padrão, anteriores descritos, tivessem, por origem, os rendimentos de duas carteiras de ativos financeiros. As duas carteiras tiveram a mesma média de rendimento ao longo de 5 períodos, porém, a carteira de ativos B apresentou maior dispersão em relação à média. Ora rendeu muito (2), ora rendeu pouco (1,2). Já a carteira A teve rendimentos mais próximos, mesmo que, de menor magnitude. Entende-se que “dispersão ou afastamento, em relação à média, significa risco”. 3.4 Cálculo do desvio-padrão, para dados agrupados em classes. Exemplo: Tendo como referência a tabela a seguir, pede-se calcular o desvio-padrão. Classe fi ix ii xf 2xxf ii 70 78 9 74 666 2 588,77 78 86 11 82 902 883,10 86 94 13 90 1 170 11,98 94 102 5 98 490 247,81 102 110 7 106 742 1 583,41 110 118 4 114 456 2 123,37 118 126 1 122 122 963,48 = 50 4 548 8 401,92 Tabela 3.3 – Elementos para o cálculo do desvio-padrão com dados agrupados. Sendo a Média dada por: 98,90 50 4548)( i ii f fx x 33 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 33 Cálculo do desvio-padrão: 96,1204,168 50 92,8401)( 2 i ii f xxf S 3.5 Separatrizes da Mediana Como já visto anteriormente, a Mediana é uma medida de posição central dos dados observados. Assim como a mediana, existem outras medidas de posição com concepção semelhante, embora não sejam medidas de tendência central. A mediana divide a distribuição das observações em duas partes iguais (50% dos dados antes, e 50% depois dela). Os Quartis, dividem a distribuição em 4 partes iguais, portanto, cada Quartil deixa atrás de si 1/4 das observações: 4 i i fi Q , i = 1,2,3,4. Os Decis, dividem a distribuição em 10 partes iguais, portanto, cada Decil deixa atrás de si 1/10 das observações: 10 i i fi D i = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Os Percentis, dividem a distribuição em 100 partes iguais, portanto, cada Percentil deixa atrás de si 1/100 das observações: 100 i i fi P i = 1, 2, 3, ..., 99, 100. Representa-se abaixo a Curva Normal com a divisão em Quartis e Percentis O segundo quartil corresponde ao quinquagésimo percentil, que correspondem à mediana. Exercício resolvido 4) Suponha que uma empresa deseja determinar o consumo diário de determinado produto químico em suas células de fabricação. Essas informações servirão, posteriormente, para a verificação de custos de produção, vendas, CMV e determinação de ponto de pedido de matéria prima. Para tanto, a gerência financeira solicitou que fosse feito um levantamento de consumo desse produto por dia, durante um prazo de 80 dias, em todas as células de produção, e obtiveram-se os valores desse consumo em quilogramas (Kg) por unidade, tabulando-os, a seguir, por faixas (classes) de consumo como a seguir: Consumo de produto químico (Kg) xi if ii xf iF 5 25 15 4 60 4 25 45 35 6 210 10 45 65 55 14 770 24 65 85 75 26 1 950 50 85 105 95 14 1 330 64 105 125 115 8 920 72 125 145 135 6 810 78 145 165 155 2 310 80 Total 80 6 360 Tabela 3.4 – Consumo do produto químico em Kg/dia. Pede-se determinar: a) a média de consumo no período; 34 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 34 b) a Classe Mediana e o seu valor; c) a Moda; d) o trigésimo percentil, o terceiro decil, o quinto decil e o nono decil de consumos. Cálculo da Média pela Fórmula: diaKg f xf x i ii /50,79 80 6360)( Cálculo da Classe Mediana e o seu valor Calcula-se PMd = ,ª40 2 80 2 observação n portanto, a mediana deixa atrás de si a mesma quantidade de elementos que fica a sua frente. Como a Posição Mediana é a 40ª observação de consumo, logo, percorrendo-se a tabela, a Fi (Frequência Acumulada) imediatamente superior é 50 e, portanto, a classe mediana é a quarta: 65 85. Cálculo do valor da Mediana * * *_ 2 * hi fi Fi n liM ant d = diaKg /31,7730,126520 26 24 2 80 65 Cálculo da Moda pela Fórmula de Czuber Primeiro, devemos determinar a Classe Modal, que é aquela com maior frequência, neste caso, 26 observações. Essa classe, cuja frequência simples é 26 observações, coincide, excepcionalmente, com a classe mediana, mas, alertamos que isso não é regra. Método de Czuber anteriorfreqfreqd alclasse mod_1 posterioralclasse freqfreqd mod_2 a Moda será, então: hi dd d lM io 21 1 , onde: il limite inferior da Classe Modal (classe com maior frequência). 1d diferença entre a frequência simples da classe modal e a da classe anterior. 2d diferença entre a frequência simples da classe modal e a da classe posterior. hi amplitude de classe (igual para todas as classes). 121426 mod_1 anteriorfreqfreqd alclasse 121426mod_2 posterioralclasse freqfreqd No nosso exemplo teremos diaKgMo /751065 1212 12 2065 , ou seja, o consumo mais verificado durante todo o processo de observação foi 75 Kg/dia. Cálculo da moda simples Mo = 75 2 8565 Cálculo dos Elementos Separatrizes Trigésimo percentil 35 Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES 35 elementoEP fi EPi i º24 100 2400 100 8030 100 30 O Trigésimo percentil, é o elemento que deixa atrás de si 24 termos do conjunto ordenado de dados observados. Pela coluna de Frequência Acumulada, localiza-se a classe com valor imediatamente superior a 24, verificando-se que o mesmo está na 3ª classe, correspondente ao intervalo 45 65. Como esse valor coincide com a frequência acumulada até a 3ª classe, pode-se dizer que, o Trigésimo Percentil tem o valor de consumo do produto 65 Kg/dia. A interpretação, portanto, é que 30% das observações (dias observados), apresentaram um
Compartilhar