Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Curso de Estatística Aplicada Faculdade Salesiano Maria Auxiliadora - FSMA Lucas Alves Paes Gomes 1º Semestre de 2011 2 Conteúdo 1 A Estatística e a Engenharia 11 1.1 A Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.1 Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1.2 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . 13 1.2 Conceitos básicos da estatística . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Distribuição de Frequências 17 2.1 Alguns Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.1 Tabela Primitiva ou dados brutos . . . . . . . . . . . . . . . . . . . 18 2.1.2 Rol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.3 Tabela de distribuição de frequência . . . . . . . . . . . . . . . . . . 18 2.2 Elementos de uma distribuição de frequência . . . . . . . . . . . . . . . . . 19 2.2.1 Amplitude Amostral (AA) . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.3 Amplitude do Intervalo de Classes . . . . . . . . . . . . . . . . . . . 19 2.2.4 Limites de Classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.5 Frequência Simples ou Absoluta (fi). . . . . . . . . . . . . . . . . . 20 2.2.6 Ponto Médio de uma classe . . . . . . . . . . . . . . . . . . . . . . 21 3 4 CONTEÚDO 2.2.7 Frequência Relativa (fri) . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.8 Frequência Acumulada (Fi) . . . . . . . . . . . . . . . . . . . . . . 21 2.3 Distribuição de Frequências sem intervalo de classes . . . . . . . . . . . . . 22 2.4 Representação gráfica de uma distribuição . . . . . . . . . . . . . . . . . . 22 2.4.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5 Problemas Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3 Medidas de Tendência Central 25 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.1 Média Aritmética Simples (Dados não-agrupados) . . . . . . . . . . 26 3.2.2 Média Aritmética Ponderada (Dados agrupados) . . . . . . . . . . . 26 3.2.2.1 Sem intervalos de classe . . . . . . . . . . . . . . . . . . . 26 3.2.2.2 Com intervalos de classe . . . . . . . . . . . . . . . . . . . 27 3.3 Desvio em relação à Média . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.4.1 Mediana em dados não agrupados . . . . . . . . . . . . . . . . . . . 28 3.4.2 A mediana em dados agrupados . . . . . . . . . . . . . . . . . . . . 29 3.4.2.1 Sem intervalos de classe . . . . . . . . . . . . . . . . . . . 29 3.4.2.2 Com intervalo de classe . . . . . . . . . . . . . . . . . . . 30 3.5 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.5.1 A moda em dados não agrupados . . . . . . . . . . . . . . . . . . . 31 3.5.2 A moda em dados agrupados . . . . . . . . . . . . . . . . . . . . . 31 3.5.2.1 Sem intervalo de classe . . . . . . . . . . . . . . . . . . . . 31 3.5.2.2 Com intervalo de classe . . . . . . . . . . . . . . . . . . . 32 3.6 Considerações sobre o emprego da média aritmética, mediana e moda . . . 32 3.7 Problemas Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 CONTEÚDO 5 4 Medidas de Dispersão ou Variabilidade 35 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.2 Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.2.1 Desvio Médio em relação à média . . . . . . . . . . . . . . . . . . . 36 4.2.2 Desvio Médio em relação à mediana . . . . . . . . . . . . . . . . . . 36 4.3 Variância - Var(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.4 Desvio Padrão - dp(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.5 Coeficiente de Variação (CV) . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.6 Problemas Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5 Introdução à Probabilidade 41 5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.2 Conceitos Inicias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2.3 Evento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2.4 Tipos de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.2.5 Propriedades das Operações . . . . . . . . . . . . . . . . . . . . . . 44 5.3 Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.3.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.3.2 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.4 Análise Combinatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.4.1 Princípio Fundamental da Contagem . . . . . . . . . . . . . . . . . 47 5.4.2 Permutações Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6 CONTEÚDO 5.4.3 Permutações com elementos repetidos . . . . . . . . . . . . . . . . . 48 5.4.4 Arranjo Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.4.5 Arranjos com Repetição . . . . . . . . . . . . . . . . . . . . . . . . 49 5.4.6 Combinação Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.4.7 Combinações com Repetição . . . . . . . . . . . . . . . . . . . . . . 51 5.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.6 Partição de um Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . 52 5.7 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.8 Problemas Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6 Modelos Probabilísticos para Variáveis Aleatórias Discretas 57 6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.2 O conceito de Variável Aleatória Discreta (v.a.d) . . . . . . . . . . . . . . . 57 6.3 Valor Médio de uma Variável Aleatória Discreta . . . . . . . . . . . . . . . 60 6.4 Propriedades do Valor Esperado e da Variância . . . . . . . . . . . . . . . 61 6.5 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . 62 6.6 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas . . . . 63 6.6.1 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 63 6.6.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 64 6.6.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.6.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 66 6.6.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 67 CONTEÚDO 7 7 Variáveis Aleatórias Contínuas 69 7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 7.2 Função Distribuição da Probabilidade . . . . . . . . . . . . . . . . . . . . . 73 7.3 Valor Esperado e a Variância de uma V.A. Contínua . . . . . . . . . . . . 74 7.4 Modelos probabilísticos para v.a. Contínuas . . . . . . . . . . . . . . . . . 75 7.4.1 Modelo Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 7.4.2 Modelo Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 77 7.4.3 Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 7.4.3.1 Propriedades da Distribuição Normal . . . . . . . . . . . . 79 7.4.3.2 Determinações de Probabilidades . . . . . . . . . . . . . . 79 7.4.3.3 Distribuição Normal Padronizada . . . . . . . . . . . . . . 80 7.4.4 Outros Modelos Importantes . . . . . . . . . . . . . . . . . . . . . . 81 7.4.4.1 A distribuição Qui-Quadrado χ2 . . . . . . . . . . . . . . 81 7.4.4.2 A Distribuição t de Student . . . . . . . . . . . . . . . . . 82 7.4.4.3 A Distribuição de Weibull . . . . . . . . . . . . . . . . . . 82 7.5 Problemas Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 8 Introdução à Inferência Estatística 85 8.1 O Processo de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . 87 8.2 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . . . . . 91 8.3 Estatísticas e Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 8.4 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 8.4.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . . 94 8.4.2 Distribuição Amostral de uma Proporção . . . . . . . . . . . . . . . 97 8.4.2.1 Distribuição normal da aproximação binomial . . . . . . . 97 8.4.2.2 A distribuição Amostral da Proporção . . . . . . . . . . . 100 8.5 Determinação do Tamanho de uma amostra . . . . . . . . . . . . . . . . . 102 8 CONTEÚDO 9 Estimação de Parâmetros 105 9.1 Idéias Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 9.2 Estimação por Intervalo de Confiança . . . . . . . . . . . . . . . . . . . . . 106 9.2.1 Estimação do intervalo de confiança para Média da N(µ, σ2) com σ2 conhecida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 9.2.1.1 Interpretação do intervalo de confiança para µ . . . . . . . 108 9.2.2 Intervalo de confiança para a proporção populacional . . . . . . . . 110 9.2.3 Estimação do intervalo de confiança para Média da N(µ, σ2) com σ2 desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 9.2.3.1 Margem de Erro . . . . . . . . . . . . . . . . . . . . . . . 114 9.2.3.2 Amostras grandes . . . . . . . . . . . . . . . . . . . . . . . 114 9.3 Estimação do Intervalo de Confiança para a variância da N (µ;σ2) . . . . . 115 10 Testes de Hipóteses 119 10.1 Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 10.1.1 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 10.2 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 10.2.1 Hipótese nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 10.2.2 Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . 127 10.2.3 Estatística de Teste, Erros e Regras de Decisão . . . . . . . . . . . 128 10.2.4 Região Crítica e Nível de Significância . . . . . . . . . . . . . . . . 128 10.2.5 Função característica de operação e poder do teste . . . . . . . . . . 129 10.3 Teste de Hipótese: Média da N (µ;σ2) com σ2 conhecida . . . . . . . . . . 132 10.3.1 Procedimento geral para construção do teste de hipótese sobre a média de uma N (µ;σ2) com σ2 conhecida . . . . . . . . . . . . . . 140 CONTEÚDO 9 10.3.1.1 Teste Bilateral . . . . . . . . . . . . . . . . . . . . . . . . 142 10.3.1.2 Teste unilateral à direita . . . . . . . . . . . . . . . . . . . 142 10.3.1.3 Teste unilateral à esquerda . . . . . . . . . . . . . . . . . 143 10.3.2 Teste de hipótese versus intervalo de confiança . . . . . . . . . . . . 144 10.4 Valor P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 10.4.1 Teste Bilateral - Valor P para o Exemplo 1 . . . . . . . . . . . . . . 144 10.4.2 Teste Unilateral à direita - Exemplo 2 . . . . . . . . . . . . . . . . 145 10.4.3 Teste Unilateral à esquerda - Exemplo 3 . . . . . . . . . . . . . . . 146 10.5 Exemplo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 10.6 Exercícios para Média da N (µ;σ2) com σ2 conhecida . . . . . . . . . . . . 148 10.7 Teste de Hipótese: Proporções - Amostra Grande . . . . . . . . . . . . . . 149 10.7.1 Teste de Hipóteses sobre proporções . . . . . . . . . . . . . . . . . . 149 10.7.1.1 Teste Bilateral . . . . . . . . . . . . . . . . . . . . . . . . 150 10.7.1.2 Testes Unilaterais . . . . . . . . . . . . . . . . . . . . . . . 151 10.7.1.3 Valor P . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 10.7.1.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 10.8 Teste de Hipótese: Média da N (µ;σ2) - com σ2 desconhecida . . . . . . . . 152 10.8.1 Procedimento geral para construção do teste de hipótese sobre a média de uma N (µ;σ2) com σ2 desconhecida . . . . . . . . . . . . 152 10.8.1.1 Hipótese nula e hipótese alternativa . . . . . . . . . . . . . 153 10.8.1.2 Estatística de teste, erros, regra de decisão . . . . . . . . . 154 10.8.1.3 Nível de significancia e região crítica . . . . . . . . . . . . 154 10.8.1.4 Hipótese Bilateral . . . . . . . . . . . . . . . . . . . . . . 155 10.8.1.5 Teste unilateral à direita . . . . . . . . . . . . . . . . . . . 155 10.8.1.6 Teste unilateral à esquerda . . . . . . . . . . . . . . . . . 156 10.8.1.7 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 10 CONTEÚDO Capítulo 1 A Estatística e a Engenharia Um engenheiro é alguém que resolve problemas de interesse da sociedade, pela aplicação eficiente de princípios científicos. Os engenheiros executam isso através do refinamento do produto ou processos existentes, ou pelo projeto de um novo produto, ou processo que encontre as necessidades dos consumidores. O método da engenharia ou científico é a abordagem para formular e resolver esses problemas. As etapas no método da engenharia são dadas a seguir: 1. Desenvolver um descrição clara e concisa do problema. 2. Identificar, no mínimo tentar, os fatores importantes que afetam esse problema ou que possam desempenhar um papel em sua solução. 3. Propor um modelo para o problema, usando conhecimento científico ou de engenha- ria do fenômeno estudado. Estabelecer limitações ou suposições do modelo. 4. Conduzir experimentos apropriados e coletar dados para testar ou validar o modelo- tentativa ou conclusões feitas nas etapas 2 e 3. 5. Refinar o modelo, com base nos dados observados. 6. Manipular o modelo de modo a ajudar o desenvolvimento da solução do problema. 7. Conduzir um experimento apropriado para confirmar que a solução proposta para o problema é efetiva e eficiente. 8. Tirar conclusões ou fazer recomendações baseadas na solução do problema. 11 12 CAPÍTULO 1. A ESTATÍSTICA E A ENGENHARIA Note que o método de engenharia caracteriza uma forte relação recíproca entre o pro- blema, os fatores que podem influenciar sua solução, um modelo do fenômeno e a expe- riência para verificar a adequadação do modelo e da solução proposta para o problema. Consequentemente, engenheiros têm de saber como planejar eficientemente os experimen- tos, coletar dados, analisar e interpretar os dados e entender como os dados observados estão relacionados ao modelo que eles propuseram para o problema sob estudo. O campo da estatística lida com a coleta, a apresentação, a análise e o uso dos dados para tomar decisões, resolver problemas e planejar produtos e processos. Devido a muitos aspectos da prática da engenharia envolverem o trabalho com dados, obviamente algum conhecimento de estatística é importante para qualquer engenheiro. Especificamente, técnicas estatísticas podem ser uma ajuda poderosa no planejamento de novos produtos e sistemas, melhorando os projetos existentes e desenvolvendo e melhorando os processos de produção. Métodos estatísticos são usados para nos ajudar a entender a variabilidade. Por variabilidade, queremos dizer que sucessivas observações de um sistema ou fenômeno não produzem exatamente o mesmo resultado. Todos nós encontramos variabilidade no nosso dia-a-dia e o julgamento estatístico pode nos dar uma maneira útil para incorporar essa variabilidade em nossos processos de tomada de decisão. Por exemplo, considere o desempenho de consumo de gasolina de seu carro. Você sempre consegue o mesmo desempenho de consumo cada vez que enche o tanque do seu carro? Naturalmente, não. Na verdade, algumas vezes o desempenho varia consideravelmente. Essa variabilidade observada no consumo de gasolina depende de muitos fatores, tais como o tipo de estrada mais usada recentemente (cidade ou rodovia), as mudanças na condição do veículo ao longo do tempo (que poderiam incluir fatores como desgaste do pneu ou compressão do motor ou desgaste da válvula), a marca e/ou número de octanagem da gasolina usada, ou mesmo, possivelmente, as condições climáticas. Esses fatores representam fontes potenciais de variabilidade no sistema. A estatística no fornece uma estrutura para descrever essa variabilidade e para aprender sobre quais fontes potenciais de variabilidade são mais importantes ou quais têm o maior impacto no desempenho de consumo da gasolina. 1.1 A Estatística A Estatistica é o ramo da matemática que trata da coleta, organização, resumo, apresentação e análise dos dados, assim como obtenção de conclusões que auxiliam nos processos de tomada de decisão. A coleta, organização, descrição dos dados, o cálculo e a interpretação de coeficientes pertencem à Estatística Descritiva, enquanto que a análise 1.1. A ESTATÍSTICA 13 e a interpretação dos dados, associado a uma margem de incerteza, ficam a cargo da Estatística Indutiva ou Inferencial, também chamada como a medida da incerteza. Assim, a análise e a interpretação dos dados tornam possível o diagnóstico de uma empresa, o conhecimento de seus problemas (condições de funcionamento, produtividade, etc.) a formulação de soluções apropriadas e um planejamento objetivo de ação. 1.1.1 Método Estatístico Muito do conhecimento atual foi obtido por acaso, por necessidades práticas, sem a utilização de um método de pesquisa. Atualmente, quase todo acréscimo de conheci- mento resulta de observações e de estudo. Neste sentido, busca-se assegurar que todas as conclusões obtidas sejam cientificamente comprovadas. Método - é um conjunto de meios (procedimentos) devidamente organizados para se atingir um determinado objetivo. Dentre os métodos utilizados para fins científicos destacam-se o método experimental e o científico. � Método Experimental - consiste em manter constante todas as causas, ex- ceto uma, que deverá ter variações, permitindo assim determinar os efeitos destas variações caso existam. Ex: Estudos da Química, Física, etc. � Métodos Estatísticos - diante da impossibilidade de manter as causas cons- tantes, admite-se todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. Ex: Quais as causas que definem o preço de uma merca- doria quando a sua oferta diminui? Ou seja, seria impossível, no momento da pesquisa, manter constantes a uniformidade dos salários, o gosto dos consumi- dores, nível geral de preços de outros produtos, etc. 1.1.2 Fases do Método Estatístico 1º - DEFINIÇÃO DO PROBLEMA: nesta etapa deve-se definir exatamente o que se pretende pesquisar/analisar e qual o objetivo da pesquisa. 2º - PLANEJAMENTO: como obter informações? Que dados deverão ser obtidos? Quais as etapas da pesquisa (cronograma de atividades)? Quais os custos envolvidos?, etc. 14 CAPÍTULO 1. A ESTATÍSTICA E A ENGENHARIA 3º - COLETA DE DADOS: esta etapa consiste no registro sistemático de dados, com um objetivo determinado. Deve ser precedida de um planejamento experimental adequado e de uma técnica de amostragem conveniente. Os dados podem ser classificados em: Dados primários: quando são publicados pela própria pessoa ou organização que os haja recolhido. Ex: tabelas do censo demográfico do IBGE. Dados secundários: quando são publicados por outra organização. Ex: quando determinado jornal publica estatísticas referentes ao censo demográfico extraídos do IBGE. Coleta direta: quando é obtida diretamente da fonte. Ex: empresa que realiza uma pesquisa para saber a preferência dos consumidores por sua marca. Coleta Indireta: é feita por deduções a partir de elementos conseguidos pela coleta direta, por analogia, por avaliação, indícios ou proporcionalização. 4º - APURAÇÃO DOS DADOS: representa a soma e o processamento dos dados cole- tados e a disposição (distribuição e agrupamento) mediante critérios de classificação. 5º - APRESENTAÇÃO DOS DADOS: há duas formas usuais de apresentação, que não se excluem mutuamente. A apresentação em tabelas ou quadros, ou seja é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado. A apresentação gráfica dos dados constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno. 6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: a última fase do trabalho estatís- tico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva). Na estatística indutiva a interpretação dos dados se fundamentam na teoria da probabilidade. 1.2 Conceitos básicos da estatística O fenômeno estatístico é qualquer que se pretenda analisar, cujo estudo seja possível da aplicação do método estatístico. São divididos em três grupos: Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por uma única observação. A estatística dedica-se ao estudo desses fenômenos. Ex. A taxa de criminalidade de Macaé, o preço médio do litro de gasolina em Rio das Ostras, etc. 1.2. CONCEITOS BÁSICOS DA ESTATÍSTICA 15 Fenômenos individuais: são aqueles que irão compor os fenômenos de massa. Ex: cada crime em Macaé, o preço da gasolina em cada posto de Rio das Ostras, etc. Fenômenos de multidão: quando as características observadas para a massa não se verificam para o fenômeno individual. O dado estatístico é uma característica observada ou medida de alguma forma. Uma variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno. As variáveis podem ser: Qualitativas: quando seus valores são expressos por atributos: sexo, cor de pele, etc. Quantitativas: quando os dados são de caráter nitidamente quantitativo e o conjunto dos resultados possui uma estrutura numérica, trata-se portanto da estatística de variável e se subdividem em: � Variável discreta ou descontínua: seus valores são expressos geralmente através de números inteiros não negativos. Resulta normalmente de conta- gens finitas. Ex: Nº de alunos candidatos aprovados no vestibular, por curso. Direito = 80; Eng. de Produção = 100. � Variável contínua: resulta normalmente de uma mensuração, e a escala nu- mérica de seus possíveis valores corresponde ao conjunto R dos números reais, ou seja, podem assumir, teoricamente, qualquer valor entre dois limites. Ex: o tempo necessário para percorrer a ponto Rio-Niterói. O tempo necessário poderá ser qualquer valor dentro da escala de tempo utilizada. População é o conjunto total de elementos portadores de, pelo menos, uma característica comum. A população pode ser finita (quando é possível enumerar os elementos) e infinita (quando não é possível enumerar os elementos). Uma amostra é uma parcela representativa e finita da população que é examinada com o propósito de tirarmos conclusões sobre essa população. Parâmetros são valores singulares que existem na população e que servem para caraterizá- la. Para definirmos um parâmetro devemos examinar toda a população. Exemplo de parâmetros: média, mediana, desvio padrão, etc. Estimativa é um valor aproximado do parâmetro estudado e é calculado com o uso da amostra. Isto porque muitas vezes os dados de toda a população não estão acessíveis 16 CAPÍTULO 1. A ESTATÍSTICA E A ENGENHARIA (população muito grande ou inifinita, alto custo para obtenção e tratamento de todos os dados da população, muito tempo para coletar e analisar todos os dados da população, etc.) Capítulo 2 Distribuição de Frequências Vamos considerar, neste capítulo, o estudo detalhado da distribuição de frequência, que é a forma pela qual podemos descrever os dados estatísticos resultantes de variáveis quantitativas. São objetivos desta unidade: Compor uma distribuição de frequência com ou sem intervalos de classe; Determinar o quadro de frequências, eles são úteis para condensar grandes conjuntos de dados, facilitando o sua utilização; Representar uma distribuição de frequência através de um histograma. 2.1 Alguns Conceitos Ao analisarmos um conjunto de dados, devemos determinar se temos uma amostra ou uma população. Essa determinação afetará não somente os métodos utilizados, mas também as conclusões, pois se estamos trabalhando com uma amostra os resultados en- contrados são estimativas da população. Nem sempre é possível compreender o significado contido numa amostragem por sim- ples inspeção visual dos dados numéricos coletados. Entretanto, entendemos que o sucesso de uma decisão dependerá da nossa habilidade em compreender as informações contidas nesses dados. O objetivo deste estudo é mostrar a organização, apresentação e análise gráfica de uma série de dados, matéria prima das distribuições de freqüências e dos his- togramas. Freqüência de uma observação é o número de repetições dessa observação, ou seja, quantas vezes determinado fenômeno acontece. Os dados podem ser classificados como: 17 18 CAPÍTULO 2. DISTRIBUIÇÃO DE FREQUÊNCIAS 2.1.1 Tabela Primitiva ou dados brutos É uma tabela ou relação de elementos que não foram numericamente organizados. É difícil formar uma idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados. Ex: Na tabela abaixo, cada valor representa a quantidade ven- dida em milhares de unidades por cada um dos 36 representantes de uma determinada multinacional em 2001. Tabela 2.1: Dados brutos 2.1.2 Rol É uma tabela composta por dados ordenados (crescentes ou decrescente). Ex: A tabela abaixo apresenta o volume de vendas com os valores ordenados crescentemente. Tabela 2.2: Tabela Rol 2.1.3 Tabela de distribuição de frequência É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repeti- ções de seus valores). No exemplo acima, denomina-se frequência o número de vendedores que está relacionado a um determinado valor de vendas. Esses valores tabelados podem estar: Não agrupados em classes - os valores da variável aparecem individualmente. Agrupados em classes - os valores da variável não aparecem individualmente, mas agrupados em classes. 2.2. ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA 19 2.2 Elementos de uma distribuição de frequência 2.2.1 Amplitude Amostral (AA) É a diferença entre o valor máximo e o valor mínimo dos dados disponíveis. No exemplo anterior esse valor é 70. Ou seja: AA = xmax − xmin = 145− 75 = 70. (2.1) 2.2.2 Classes São intervalos de variação da variável e é simbolizada pela letra i, onde i = 1, 2, . . . , k, sendo k o número total de classes da distribuição. Não existe uma regra fixa para se determinar o número de classes. Podemos utilizar: A regra de Sturges que é calculada em função do número de dados existentes (n), como: i = 1 + 3, 3log(n). (2.2) Ou i = 5 para n ≤ 25 e i ∼= √n, para n > 25. Utilizando a regra de Sturges para os dados apresentados na Tabela 2.2, obtemos i = 1 + 3, 3log(36) = 6, 14 (6 classes). (2.3) 2.2.3 Amplitude do Intervalo de Classes Representa a medida do intervalo que define uma classe. É calculada como: h = AA i . (2.4) No nosso exemplo, esse valor é h = 70/6 = 11, 66 ∼= 12. 20 CAPÍTULO 2. DISTRIBUIÇÃO DE FREQUÊNCIAS 2.2.4 Limites de Classe Correspondem aos extremos de cada classe. Designa-se por Ii e Li, respectivamente, o limite inferior e o limite superior da classe i. Uma vez definidos o número de classes e a amplitude dos intervalos de classe, o próximo passo consiste em determinar os limites de cada uma das classes. De acordo com o exemplo, tem-se a seguinte tabela: Tabela 2.3: Divisão de classes Observe que a primeira classe é composta pelo menor valor da amostra e o intervalo de classe (h). Os intervalos de classe devem ser escritos de acordo com a resolução 886/66 do IBGE. Utiliza-se o símbolo para indicar a inclusão de Ii e a exclusão de Li. Ou seja: o vendedor que vendeu 99000 unidades estaria incluso na terceira classe (i = 3) e não na segunda. 2.2.5 Frequência Simples ou Absoluta (fi). São os valores que realmente representam o número de dados de cada classe. Para determinar a frequência de cada classe, deve-se realizar a apuração dos dados e deve-se lembrar que a soma das freqüências simples é igual ao número total dos dados. De acordo com os dados do exemplo, temos: Tabela 2.4: Frequência simples 2.2. ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA 21 2.2.6 Ponto Médio de uma classe É, como o próprio nome indica, o ponto que divide o intervalo de classe em duas partes iguais. É o valor que representa cada classe. Para obtermos o ponto médio de uma classe, calculamos: xi = Ii+Li 2 . (2.5) 2.2.7 Frequência Relativa (fri) São os valores das razões entre as frequências simples e a frequência total. fri = fi∑ fi . (2.6) 2.2.8 Frequência Acumulada (Fi) É o somatório das frequências de todas as classes até a classe em questão, inclusive a própria. Fk = f1 + f2 + . . .+ fk. (2.7) A Tabela 2.5 sumariza as propriedades apresentadas. Tabela 2.5: Dados sumarizados 22 CAPÍTULO 2. DISTRIBUIÇÃO DE FREQUÊNCIAS 2.3 Distribuição de Frequências sem intervalo de clas- ses É empregada quando se trata de variável discreta de variação relativamente pequena, onde cada valor pode ser considerado como um intervalo de classe. Se a variável assume numerosos valores distintos, é comum tratá-la como uma variável contínua, formando intervalos de classe diferente de um. Esse tratamento abrevia o trabalho, mas ocasiona alguma perda de precisão. Exemplo: Considere a variável x como sendo o número de filhos de 50 famílias entrevis- tadas. A tabela abaixo apresenta os outros tipos de frequências. Tabela 2.6: Distribuição de frequências para o número de filhos de 50 famílias. 2.4 Representação gráfica de uma distribuição Todos os gráficos que representam uma distribuição de frequências utilizam o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas) colocam-se os valores da variável e na linha vertical (eixo das orde- nadas), as frequências. Um gráfico usualmente utilizado é o histograma. 2.4.1 Histograma É formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidem com os pontos médios dos intervalos de classe. As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. 2.5. PROBLEMAS PROPOSTOS 23 As alturas dos retângulos devem ser proporcionais às freqüências das classes. A área de um histograma é proporcional à soma das frequências simples. A figura abaixo mostra o exemplo de um histograma. Histograma 5 11 7 5 4 4 0 0 2 4 6 8 10 12 14 86 98 110 122 134 146 Mais Vendas (x1000 unidades) Fr e qü ên ci a 2.5 Problemas Propostos Problema 2.1 - Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo: Tabela 2.7: Erros de impressão 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a) Represente os dados graficamente (gráfico de barras). b) Faça um histograma. 24 CAPÍTULO 2. DISTRIBUIÇÃO DE FREQUÊNCIAS Capítulo 3 Medidas de Tendência Central 3.1 Introdução A redução dos dados através de tabelas de frequências ou gráficos é um dos meios disponíveis para se ilustrar o comportamento de um conjunto de dados. No entanto, muitas vezes queremos resumir ainda mais esses dados, apresentando um único valor que seja representativo do conjunto original. As medidas de posição ou tendência central são medidas cujo valor numérico permite ter uma noção da localização do centro de uma distribuição de frequência. Estas medidas permitem verificar a tendência dos dados observados em torno dos valores centrais. As medidas de tendência central mais utilizadas são: as médias (aritméticas, harmôni- cas, geométrica, quadrática), a mediana e a moda. 3.2 Média Aritmética No nosso dia-a-dia, o conceito de média é bastante comum, quando nos referimos, por exemplo, à altura média dos brasileiros, à temperatura média dos últimos anos. Entre- tanto, lembre-se que só faz sentido se calculada para dados quantitativos (não faz sentido somar masculino + feminino!). Sejam x1, x2, x3, . . . , xn os valores de um conjunto de observações e n a quantidade de observações. 25 26 CAPÍTULO 3. MEDIDAS DE TENDÊNCIA CENTRAL 3.2.1 Média Aritmética Simples (Dados não-agrupados) Quando se deseja conhecer a média dos dados não-agrupados em tabelas de frequências, determinamos a média aritmética simples através da seguinte equação: x¯ = x1 + x2 + . . .+ xn n = 1 n n∑ i=1 xi. (3.1) Exemplo: Sabendo-se que a venda diária de arroz tipo A, durante uma semana foi de 10, 14, 13, 15, 16, 8 e 12 toneladas, temos, para a venda média diária na semana de: x = 10 + 14 + 13 + 15 + 16 + 18 + 12 7 = 14 toneladas. (3.2) A interpretaçao física da média aritmética simples é que ela representa o centro de gravidade da distribuição. Note que o valor desta média é um valor tal que, se substi- tuíssemos todos os dados por ela, isto é, se todas as observações fossem iguais à média aritmética semples, a soma total seria igual a soma dos dados originais. Então, a média é uma forma de se distribuir o total observado pelos n elementos, de modo que todos tenham o mesmo valor. 3.2.2 Média Aritmética Ponderada (Dados agrupados) Vimos que a média aritmética equivale a dividir o �todo� (soma dos valores) em partes iguais, ou seja, estamos supondo que os números que queremos sintetizar têm o mesmo grau de importância. Entretanto, há algumas situações onde não é razoável atribuir a mesma importância para todos os dados. Nesse tipo de situação, em vez de se usar a média aritmética simples, usa-se a média aritmética ponderada. O mesmo raciocínio pode ser aplicado para o caso quando cada dado da distribuição está associada a um valor de frequência (fi). Lembre-se que frequência é o número de vezes que um dado se repete. 3.2.2.1 Sem intervalos de classe Neste caso, a média ponderada é calculada pela equação: x = 1 n n∑ i=1 xifi. (3.3) 3.2. MÉDIA ARITMÉTICA 27 Exemplo: Considere a variável x como sendo o número de televisores de 50 famílias entrevistadas: Tabela 3.1: Número de televisores por família i xi fi fri Fi xifi 1 0 3 0,06 3 0 2 1 15 0,30 18 15 3 2 18 0,36 36 36 4 3 10 0,20 46 30 5 4 4 0,08 50 16 Total 50 1,00 97 Assim, tem-se que: x = 1 n ∑n i=1 xifi = 97 50 = 1, 94. Observe que como x (quantidade de televisores) é uma variável discreta, como devemos interpretar o resultado final? Afinal, não existem 1,94 televisores! O valor médio de 1,94 identifica uma tendência de que as famílias entrevistadas possuem em média dois televisores. 3.2.2.2 Com intervalos de classe Neste caso, convenciona-se que todos os valores incluídos em um determinado intervalo de classe são representados pelo seu ponto médio. Assim, determina-se a média aritmética ponderada por meio da equação: x = ∑k i=1 xifi∑k i=1 fi , (3.4) onde, xi é o ponto médio da classe i e k é o número total de classes. Exemplo: Calcular a média de vendas de 36 vendedores de uma empresa conforme a Tabela 3.2: 28 CAPÍTULO 3. MEDIDAS DE TENDÊNCIA CENTRAL Tabela 3.2: Vendas de 36 vendedores de uma empresa Vendas fi P.M. (xi) fri Fi xifi 75 |-- 87 5 81 0,14 5 405 87 |-- 99 11 93 0,31 16 1023 99 |-- 111 7 105 0,19 23 735 111 |-- 123 5 117 0,14 28 585 123 |-- 135 4 129 0,11 32 516 135 |-- 147 4 141 0,11 36 564 Total 36 1,00 3828 Assim, tem-se que: x = ∑k i=1 xifi∑k i=1 fi = 3828 36 = 106, 3. (3.5) 3.3 Desvio em relação à Média Denomina-se desvio em relação à média, a diferença entre cada elemento de um conjunto de valores e a média aritmética. Sendo o desvio denotado por di, temos: di = xi − x. (3.6) 3.4 Mediana Em muitos casos a média aritmética pode não representar muito bem os valores mais altos e os mais baixos. Isso acontece porque o valor mais alto pode ser bem diferente dos demais. A média aritmética é muito influenciada por valores discrepantes. Nesses casos é necessário utilizar uma outra medida de posição para representar o conjunto; uma medida possível é a mediana. A mediana é o número que se encontra no centro de uma série de números, estando estes ordenados de forma crescente ou decrescente. A mediana é o valor que separa o conjunto de números em dois subconjuntos de mesmo número de elementos. 3.4.1 Mediana em dados não agrupados Para determinar a mediana em dados não agrupados, procede-se da seguinte forma: 3.4. MEDIANA 29 1. Ordene os dados de forma crescente ou decrescente; 2. Determine a posição (p) da mediana, através da equaçao p = N+1 2 , onde N é o número de elementos da série. 3. Identifique a mediana: se o número de elementos N for ímpar, a mediana representa exatamente o valor central dos dados, definido pela posiçao p. Se o número de elementos for par, a mediana corresponde à média dos dois valores centrais da série. Exemplo: Determine a mediana da seguinte série de valores: 1, 7, 5, 11, 9. 1. Ordenação: 1, 5, 7, 9, 11. 2. Posição p da mediana: p = 5+1 2 = 3 (a mediana é o 3º elemento). 3. Como o número de elementos da série é ímpar, o valor da mediana é Md = 7. Exemplo: Determine a mediana da seguinte série de valores: 1, 7, 5, 11, 50, 9. 1. Ordenação: 1, 5, 7, 9, 11, 50. 2. Posição p da mediana: p = 6+1 2 = 3, 5 (a mediana está entre o 3º e o 4º elemento). 3. Como o número de elementos da série é par, o valor da mediana é a média dos dois valores centrais da série. Sendo a série ordenada (1, 5,7,9, 11, 50), então: Md = 7+9 2 = 8. 3.4.2 A mediana em dados agrupados Assim como no estudo das médias, a mediana pode ser agrupada em frequências sem intervalos de classe ou em uma distribuição de freqüência. 3.4.2.1 Sem intervalos de classe Identifica-se a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será o valor da variável que corresponde a tal frequência acumu- lada. Exemplo: Seja x o número de televisores de 50 famílias entrevistadas. 30 CAPÍTULO 3. MEDIDAS DE TENDÊNCIA CENTRAL i xi fi Fi 1 0 3 3 2 1 15 18 3 2 18 36 4 3 10 46 5 4 4 50 Total 50 1. Posição: p = 50+1 2 = 25, 5 (a mediana é o 25,5º elemento). 2. Md = 2 (o 25,5º elemento possui 2 televisores). 3.4.2.2 Com intervalo de classe Neste caso, devem-se realizar os seguintes passos: 1. Calcular as frequências acumuladas. 2. Calcular a posição da mediana: p = N 2 . 3. Determinar a classe na qual se encontra a mediana: a classe mediana (a classe correspondente à frequência acumulada imediatamente superior a p = N 2 ). 4. Determinar o limite inferior da classe mediana:Linf . 5. Determinar a amplitude do intervalo da classe mediana: h. 6. Determinar a frequência acumulada da classe anterior à da classe mediana: Fant. 7. Determinar a frequência da classe mediana: fi 8. Determinar o valor da mediana através da expressão: Md=Linf+h· ( p− Fant fi ) . (3.7) Exemplo: Calcule a mediana para a distribuição abaixo: Vendas fi P.M. (xi) fri Fi xifi 75 |-- 87 5 81 0,14 5 405 87 |-- 99 11 93 0,31 16 1023 99 |-- 111 7 105 0,19 23 735 111 |-- 123 5 117 0,14 28 585 123 |-- 135 4 129 0,11 32 516 135 |-- 147 4 141 0,11 36 564 Total 36 1,00 3828 3.5. MODA 31 1. As freqüências acumuladas estão descritas na quinta coluna. 2. A posição da mediana:p = N/2 = 36/2 = 18. 3. A classe mediana: [99, 111[. 4. O limite inferior da classe mediana: Linf=99. 5. A amplitude do intervalo da classe mediana: h = 12. 6. A frequência acumulada da classe anterior à da classe mediana: Fant=16. 7. A frequência da classe mediana:fi = 7 8. O cálculo da mediana: Md = Linf + h · ( p− Fant fi ) = 99 + 12 · ( 18− 16 7 ) = 102, 43. (3.8) 3.5 Moda A moda (Mo) é o valor que ocorre com maior frequência em uma série de valores. Assim, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa fábrica. Podemos ter distribuições amodais (todos os valores ocorrem o mesmo número de vezes), unimodais (uma moda), bimodais (duas modas), etc. 3.5.1 A moda em dados não agrupados A moda é facilmente obtida, bastando somente encontrar o valor que mais se repete. Exemplo: Na série {1, 2, 7, 8, 9, 10, 10, 15} a moda é igual a 10. 3.5.2 A moda em dados agrupados 3.5.2.1 Sem intervalo de classe Uma vez agrupados os dados, determina-se imediatamente a moda encontrando o valor da variável de maior freqüência. Exemplo: Para o exemplo do número de televisores para as 50 famílias entrevistadas (item 3.4.2.1, deseja-se saber qual a quantidade de televisores que a maioria das 50 famílias possui. Nesse exemplo, a moda será igual a 2. 32 CAPÍTULO 3. MEDIDAS DE TENDÊNCIA CENTRAL 3.5.2.2 Com intervalo de classe A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. Para calcular a moda é preciso determinar: 1. A classe modal 2. Limite inferior da classe modal: Linf . 3. A amplitude do intervalo da classe modal: h. 4. A frequência da classe anterior à da classe modal: fant. 5. A frequência da classe posterior à da classe modal: fpost. 6. A frequência da classe modal: fMo. 7. O cálculo da Moda: Mo = Linf − h · ( fMo − fant fpost + fant − 2fMo ) . (3.9) Exercício. Calcule a moda para a distribuição: Vendas fi P.M. (xi) fri Fi xifi 75 |-- 87 5 81 0,14 5 405 87 |-- 99 11 93 0,31 16 1023 99 |-- 111 7 105 0,19 23 735 111 |-- 123 5 117 0,14 28 585 123 |-- 135 4 129 0,11 32 516 135 |-- 147 4 141 0,11 36 564 Total 36 1,00 3828 R: 94,2. 3.6 Considerações sobre o emprego da média aritmé- tica, mediana e moda A média aritmética pode ser calculada a partir de dados brutos, sem a necessidade de agrupamento ou ordenação dos valores originais, o que não ocorre com a mediana e com a moda. A média aritmética é a medida de posição que possui a maior estabilidade. A mediana é preferível à média aritmética quando: 3.7. PROBLEMAS PROPOSTOS 33 Deseja-se conhecer exatamente o ponto médio da distribuição: aquele valor que divide a distribuição em duas partes iguais. Quando há valores extremos que afetam de maneira acentuada a média aritmética. A moda é utilizada quando se deseja obter uma medida rápida e aproximada de posição central ou quando a medida de posição deva ser o valor mais típico da distribuição. 3.7 Problemas Propostos Problema 3.1 - Uma empresa possui serventes recebendo salário de R$250,0 cada, quatro digitadores recebendo R$ 354,0 cada um, um gerente recebendo R$1250,0 e dois vendedo- res recebendo, em média, R$ 850 de comissão. Calcule o salário médio da empresa. Este valor é representativo? Problema 3.2 - Num final de semana de verão um supermercado vendeu as seguintes quantidades de carne: Tabela 3.3: Vendas de carnes Tipo de Carne Preço/kg Quantidade (kg) Boi 12,43 1100 Porco 12,50 443 Frango 7,85 650 Peru 18,94 210 Peixe 20,50 120 Qual o valor médio por quilograma vendido? 34 CAPÍTULO 3. MEDIDAS DE TENDÊNCIA CENTRAL Capítulo 4 Medidas de Dispersão ou Variabilidade 4.1 Introdução As medidas de dispersão servem para indicar o quanto os dados de uma distribuição apresentam-se dispersos em torno de um valor de tendência central (média ou mediana) tomado como ponto de comparação. Exemplo: Considere os seguintes conjuntos de valores das variáveis X, Y , Z: X= {80, 80, 80, 80, 80}, Y = {78, 79, 80, 81, 82} e Z = {15, 25, 60, 130, 170} É possível observar que: Os três conjuntos apresentam a mesma média aritmética = 400/5 = 80. O conjunto X é mais homogêneo que Y e Z, já que todos os valores são iguais à média. O conjunto Y é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa. Logo, o conjunto X apresenta dispersão nula e o conjunto Y apresenta uma dispersão menor que o conjunto Z. 35 36 CAPÍTULO 4. MEDIDAS DE DISPERSÃO OU VARIABILIDADE 4.2 Desvio Médio Desvio médio ou média dos desvios é igual a média aritmética dos valores absolutos dos desvios tomados em relação à média ou à mediana. 4.2.1 Desvio Médio em relação à média a) Dados não agrupados: Dx = 1 n n∑ i=1 |xi − x| . (4.1) b) Dados agrupados: Dx = ∑n i=1 |xi − x| • fi∑n i=1 fi . (4.2) 4.2.2 Desvio Médio em relação à mediana a) Dados não agrupados: DMd = 1 n n∑ i=1 |xi −Md| . (4.3) b) Dados agrupados: DMd = ∑n i=1 |xi −Md| • fi∑n i=1 fi . (4.4) 4.3 Variância - Var(x) Considerar o valor absoluto das diferenças é uma das maneiras de se contornar o fato de que ∑n i=1 (xi − x). No entanto, a função módulo tem a desvantagem de ser não dife- renciável no ponto zero. Outra possibilidade de correção, com propriedades matemáticas 4.3. VARIÂNCIA - VAR(X) 37 e estatísticas mais adequadas, é considerar o quadrado das diferenças. Isso nos leva a definição de variância. A variância de um conjunto de dados é definida por V ar(x) = n∑ i=1 (xi − x)2 . (4.5) a) Dados não agrupados: Variância populacional V ar(x) = 1 n n∑ i=1 (xi − x)2 = 1 n n∑ i=1 x2i − 1 n ( n∑ i=1 xi )2 . (4.6) Variância amostral V ar(x) = 1 n− 1 n∑ i=1 (xi − x)2 = 1 n− 1 n∑ i=1 x2i − 1 n ( n∑ i=1 xi )2 . (4.7) b) Dados agrupados: Variância populacional V ar(x) = 1 n n∑ i=1 (xi − x)2 · fi = 1 n n∑ i=1 x2i fi − 1 n ( n∑ i=1 xifi )2 . (4.8) Variância amostral V ar(x) = 1 n− 1 n∑ i=1 (xi − x)2 · fi = 1 n− 1 n∑ i=1 x2i fi − 1 n ( n∑ i=1 xifi )2 . Observações: Observe que quando a inferência abrange toda a população, o divisor nas expressões é n. Caso seja considerada uma amostra da população, o divisor é n-1. As expressões expandidas são mais práticas e frequentemente utilizadas para facilitar o cálculo computacional. 38 CAPÍTULO 4. MEDIDAS DE DISPERSÃO OU VARIABILIDADE Suponhamos que os valores representem os pesos, em quilogramas, de um conjunto de pessoas. Então, o valor médio representa o peso médio dessas pessoas e sua unidade também é quilograma, o mesmo acontecendo com as diferenças . Ao elevarmos essas diferenças ao quadrado, passamos a ter a variância medida em quilogramas ao quadrado, uma unidade que não tem interpretação física. Uma forma de se obter uma medida de dispersão com a mesma unidade dos dados consiste em tomar a raiz quadrada da variância. Esse valor é chamado de desvio padrão. 4.4 Desvio Padrão - dp(x) O desvio padrão de um conjunto de dados x1, x2, . . . , xn é definido por dp(x) = √ var(x). (4.9) Essa é uma das medidas de dispersão mais utilizada na estatística. Seu valor é calculado pela raiz quadrada das expressões obtidas no item 4.3 letras a) e b). 4.5 Coeficiente de Variação (CV) É definido como o quociente entre o desvio padrão e a média aritmética. É frequente- mente expresso em porcentagem. CV = dp(x) x . (4.10) Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio. Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada com a ordem de grandeza dos valores da variável e vice-versa. Exercício. Os dados abaixo representam as vendas semanais, em classes de salários mínimos, de vendedores de gêneros alimentícios: 4.6. PROBLEMAS PROPOSTOS 39 Vendas Semanais N°°°° Vendedores 30 |-- 35 2 35 |-- 40 8 40 |-- 45 17 45 |-- 50 6 50 |-- 55 3 a) Faça o histograma das observações b) Calcule a média da amostra, x. c) Calcule o desvio padrão da amostra, dp(x). d) Calcule a percentagem das observações compreendidas entre x− dp(x) e x+ dp(x). e) Calcule a mediana. 4.6 Problemas Propostos Problema 4.1 - Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrando-se o número de erros por página da tabela abaixo: Tabela 4.1: Erros de impressão de um livro Erros Frequência 0 25 1 20 2 3 3 1 4 1 a) Qual é o número médio de erros por página? b) E o número mediano? c) Qual é o desvio padrão? d) Faça uma representação gráfica para a distribuição. e) Se o livro tem 500 páginas, qual o número total de erros esperado no livro? Problema 4.2 - As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em percentagem) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padrão. 40 CAPÍTULO 4. MEDIDAS DE DISPERSÃO OU VARIABILIDADE Problema 4.3 - Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será feito por meio de uma amostra. Para determi- nar que tamanho deverá ter essa amostra, foi colhida uma amostra piloto. As idades observadas foram: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24. a) Determine as medidas descritivas dos dados que você conhece. b) Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra? Porque? Problema 4.4 - A distribuição de frequências do salário anual dos moradores do bairro A que tem alguma forma de rendimento é apresentada na tabela abaixo: Tabela 4.2: Salário anual dos moradores do bairro A Faixa Salarial (x 10 salários mínimos) Frequência 0 ├ 2 10.000 2 ├ 4 3.900 4 ├ 6 2.000 6 ├ 8 1.100 8 ├ 10 800 10 ├ 12 700 12 ├ 14 2.000 Total 20.500 a) Construa um histograma da distribuição. b) Qual a média e o desvio padrão da variável salário? c) O bairro B Apresenta, para a mesma variável, uma média de 7,2 e um desvio padrão de 15,1. Em qual dos bairros a população é mais homogênea quanto à renda? d) Construa a função de distribuição acumulada e determine qual a faixa salarial dos 10% mais ricos da população do bairro. e) Qual a �riqueza total� dos moradores do bairro? Capítulo 5 Introdução à Probabilidade 5.1 Introdução Até agora vimos que a análise de um conjunto de dados por meio de técnicas numéri- cas e gráficas permite que tenhamos uma boa idéia da distribuição desse conjunto. Em particular, a distribuição de freqüências é um instrumento importante para avaliarmos a variabilidade das observações de um fenômeno aleatório. A partir dessas frequências observadas podemos calcular medidas de posição e variabilidade, como média, mediana, desvio padrão, etc. Essas frequências e medidas calculadas a partir dos dados são estima- tivas de quantidades desconhecidas, associadas em geral a populações das quais os dados foram extraídos na forma de amostras. Em particular, as freqüências relativas são esti- mativas de probabilidades de ocorrência de certos eventos de interesse. Com suposições adequadas, e sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequên- cias, quando o fenômeno é observado diretamente. Tais modelos são chamados de modelos probabilísticos e serão objeto de estudo daqui em diante. A probabilidade é o campo da matemática que trata do estudo dos fenômenos aleató- rios. Este estudo é de grande importância, pois a maioria dos fenômenos de que trata a Estatística são de natureza aleatória ou probabilística. O conhecimento dos aspectos fundamentais do cálculo da probabilidade é uma necessidade essencial para o estudo da Estatística Indutiva ou Inferencial. 41 42 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE 5.2 Conceitos Inicias 5.2.1 Experimento Aleatório São fenômenos que, mesmo repetido várias vezes sob condições idênticas, apresentam resultados imprevisíveis. O resultado final depende do acaso. Exemplo: Considere o lançamento de uma moeda e observação da sua face superior. Este experimento pode ser caracterizado por: Pode ser realizado inúmeras vezes sob condições essencialmente iguais. O resultado do experimento não é conhecido a priori, mas todos os resultados pos- síveis podem ser conhecidos: cara ou coroa. Regularidade estatística: quando a quantidade de experimentos realizados for grande, a freqüência de ocorrência de um resultado particular se aproxima de um valor cons- tante. Assim, a regularidade estatística mostrará que a frequência de ocorrência do resultado �cara� se aproxima de 0,5. 5.2.2 Espaço Amostral É o conjunto de todos os resultados possíveis de um experimento aleatório. No experi- mento aleatório �lançamento de um dado� existem seis resultados possíveis: S = {1, 2, 3, 4, 5, 6}. 5.2.3 Evento Aleatório É qualquer subconjunto do espaço amostral de um experimento aleatório. Em geral é indicado por uma letra (A, B, C,...). Diz-se que um evento A ocorreu se, realizado o experimento, o resultado obtido pertence a A. Exemplo. Lançamento de um dado. S = {1, 2, 3, 4, 5, 6}. Evento A1: ocorrência de n.º par: A1 = {2, 4, 6}. Evento A2: ocorrência de n.º ímpar: A2 = {1, 3, 5}. Evento A3: ocorrência de n.º menor que 4: A3 = {1, 2, 3}. 5.2. CONCEITOS INICIAS 43 5.2.4 Tipos de Eventos Seja E um evento qualquer, tal que E ⊂ S (E está contido em S), então E é um evento de S. Evento Certo: E = S, E é um evento certo. Evento Impossível: um evento impossível é designado por φ (é um conjunto vazio). Por exemplo, no lançamento de um dado, ocorrer uma face maior que 6. E = φ. Evento Elementar: evento que só contém um elemento. Por exemplo, no lançamento de um dado ocorrer a face 3: E = {3}. Evento União: A união de dois eventos A e B é o evento que corresponde à ocor- rência de pelo menos um deles. Note que isso significa que pode ocorrer apenas A, ou apenas B ou A e B simultaneamente. Esse evento será representado por A ∪ B (Figura 5.1). Figura 5.1: União de dois eventos. Evento Interseção: É o evento que equivale à ocorrência simultânea de A e B (Figura 5.2), ou A ∩B. Figura 5.2: Interseção de dois eventos. Eventos Mutuamente Exclusivos: Dois eventos A e B são mutuamente exclusivos quando eles não podem ocorrer simultaneamente, isto é, quando a ocorrência de um impossibilita a ocorrência do outro. A ∩B = φ . 44 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE Figura 5.3: Eventos mutuamente exclusivos. Evento Complementar: O complementar de um evento A, denotado por A ou Ac, é um evento que ocorre se e somente se A não ocorrer (A = S − A). Figura 5.4: Evento complementar 5.2.5 Propriedades das Operações Sejam A, B, C eventos de um espaço amostral S. Então valem as seguintes proprieda- des. a) Identidade A ∩ φ = φ A ∪ φ = A A ∩ S = A A ∪ S = S b) Complementar S = φ φ = S A ∩ A = φ A ∪ A = S 5.3. PROBABILIDADES 45 c) Cumutativa A ∩B = B ∩ A A ∪B = B ∪ A d) Associativa (A ∩B) ∩ C = A ∩ (B ∩ C) (A ∪B) ∪ C = A ∪ (B ∪ C) e) Distributiva A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C) A ilustração da primeira propriedade distributiva está na Figura 5.5. Na linha superior, ilustramos o lado esquerdo da igualdade A ∩ (B ∪ C): no diagrama à esquerda temos o evento A e no diagrama do centro temos o evento (B ∪ C) . Para sombrear a interseção desses dois eventos, basta sombrear as partes que estão sombreadas em ambos os dia- gramas, o que resulta no diagrama à direita, na qual temos o evento A ∩ (B ∪ C). Na linha inferior, ilustramos o lado direito da igualdade (A ∩B) ∪ (A ∩ C): no diagrama à esquerda temos o evento (A ∩B) e no diagrama do centro, o evento (A ∩ C). Para som- brear a união desses dois eventos, basta sombrear todas as partes que estão sombreadas em algum dos diagramas, o que resulta no diagrama à direita, no qual temos o evento (A ∩B) ∪ (A ∩ C). Analisando os diagramas à direita nas duas linhas da figura, vemos que a primeira igualdade distributiva é válida. Figura 5.5: Igualdade distributiva A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C) 5.3 Probabilidades Considere um espaço amostral S finito, com todos seus elementos igualmente possíveis de acontecer. Seja um evento A (A ⊂ S). A probabilidade do evento A ocorrer é dada 46 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE por: P (A) = n (A) n (S) (5.1) onde n (A) é o número de elementos de A e n (S) é o número de elementos de S. 5.3.1 Propriedades 0 ≤ P (A) ≤ 1 P (S) = 1 P (A ∪B) = P (A) + P (B)− P (A ∩B) P (φ) = 0 P ( A ) = 1− P (A) P (A−B) = P (A)− P (A ∩B) Se A e B são eventos mutuamente exclusivos (A ∩B) = φ, então: P (A ∪B) = P (A) + P (B) . (5.2) 5.3.2 Eventos Independentes Diz-se que dois eventos são independentes quando a realização ou não realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Seja P (A) a probabilidade de realização do primeiro evento e seja P (B) a probabilidade de realização do segundo evento. A probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. P (A ∩B) = P (A) · P (B) . (5.3) Exemplo: Seja o lançamento de dois dados: A probabilidade de �sair� a face 1 no primeiro dado é P (A) = 1/6. A probabilidade de �sair� a face 3 no segundo dado é P (B) = 1/6. 5.4. ANÁLISE COMBINATÓRIA 47 A probabilidade de �sair� simultaneamente 1 no primeiro dado e 3 no segundo é: P (A ∩B) = 1 6 × 1 6 = 1 36 . (5.4) 5.4 Análise Combinatória Para se determinar o número de resultados possíveis de um experimento, utilizam-se técnicas de contagem da Análise Combinatória. A Análise Combinatória visa desenvol- ver métodos que permitam contar o número de elementos de um conjunto, sendo estes elementos agrupamentos formados sob certas condições. 5.4.1 Princípio Fundamental da Contagem Seja E um evento composto da ocorrência de um evento elementar A, seguido da ocorrência de um evento elementar B. Considerando-se que A pode ocorrer de n (A) formas e B de n (B) formas, o número n (E) em que E pode ocorrer é dado por: n (E) = n (A) · n (B) . (5.5) Exemplo: Existem 3 estradas ligando as cidades A e B e 4 estradas ligando as cidades B e C. De quantas formas pode-se ir de A até C, passando por B? R: 12. 5.4.2 Permutações Simples Dado um conjunto E de n elementos, chamam-se permutações dos n elementos de E as seqüências formadas com todos os elementos de E, usando cada elemento uma só vez em cada seqüência. Para distinguir dois agrupamentos consideram-se apenas a ordem em que os elementos estão dispostos. O cálculo do número de permutações é uma conseqüência direta do princípio fundamental da contagem. Consideremos então, n objetos distintos a1, a2, . . . , an. Para a primeira posição, temos n possibilidades. Para a segunda, escolhida a primeira, sobram n�1 objetos. Para a terceira, escolhidas a primeira e a segunda posições, sobram n�2 objetos. Continuando, para a última posição, escolhidas as n�1 anteriores, sobram apenas 1 objeto. Pelo princípio fundamental da contagem, o número total de permutações, que denotaremos Pn, é n × (n− 1) × (n− 2) × . . . × 1, e esse número, por definição, é o fatorial de n. 48 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE Pn = n! (5.6) Exemplo: Considere E = {a, b, c}, com a, b e c distintos. O número de permutações destes três elementos são as seguintes seqüências: Pn = n!→ P3 = 3! = 6 (a, b, c) ; (a, c, b) ; (b, a, c) ; (b, c, a) ; (c, a, b) ; (c, b, a) . Observe que (a, b, c) 6= (a, c, b), ou seja, são agrupamentos distintos (a ordem dos elementos importa). 5.4.3 Permutações com elementos repetidos São permutações com n elementos, com n1 elementos iguais a a1, n2 elementos iguais a a2, e nk elementos iguais a ak. São obtidos pela expressão: P n1,n2,...,nkn = n! n1!n2! . . . n3! . (5.7) Exemplo: Quantas são as permutações distintas da palavra ARARA? n= 5; n1= 3 (n. de repetições da letra A); n2 = 2 (n. de repetições da letra R). P n1,n2,...,nkn = n! n1!n2! . . . n3! = P 3,25 = 5! 3!2! = 10. (5.8) 5.4.4 Arranjo Simples Na definição de permutação, consideramos ordenações de todos os objetos. Mas é possível que queiramos ordenar apenas k dos n objetos, onde k ≤ n. Nesse caso, te- mos a definição de arranjo simples. Dado um conjunto E de n elementos a1, a2, . . . , an, denominam-se arranjos simples dos n elementos de E, tomados k a k, as seqüências forma- das de k elementos distintos escolhidos dentre os n elementos disponíveis. É importante notar que, sendo a definição de arranjo uma generalização de permutação (note que uma permutação é um arranjo em que k = n), a ordem dos elementos é relevante, ou seja, a1a2a3 e a1a3a2 são arranjos diferentes. 5.4. ANÁLISE COMBINATÓRIA 49 Akn = n! (n− k)! . (5.9) Exemplo: Em um campeonato de futebol, concorrem 20 times. Quantas possibilidades existem para os três primeiros lugares? Solução: A resposta é A320, pois a ordem faz a diferença nesse caso. A320 = 20! 17! = 20× 19× 18× 17! 17! = 20× 19× 18 = 6.840. (5.10) 5.4.5 Arranjos com Repetição São arranjos em que se admite a repetição de cada um dos n elementos até k vezes. São calculados pela expressão: ARkn = n k. (5.11) Exemplo: Deseja-se conhecer os números de 3 algarismos (distintos ou não) que podem ser formados a partir dos algarismos 1, 5, 7, 9. ARkn = AR 3 4 = 4 3 = 64. (5.12) Esses arranjos poderiam ser: 115, 151, 111, 755, 577, 777 ... Como exercício, repita esse mesmo exercício para o caso de arranjo simples! 5.4.6 Combinação Simples Vamos considerar agora a situação análoga a um arranjo, mas onde a ordem não im- porta, ou seja, a1a2a3 é igual a a1a3a2. Consideremos a situação na qual temos 5 objetos dos quais vamos tomar 3. Como visto, o número de arranjos é 5! 2! = 60. Vamos listá-los: 50 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE Figura 5.6: Combinações Simples. Essa listagem está organizada de modo que, em cada coluna, os objetos envolvidos são os mesmos. Note o seguinte: como a ordem não importa, os elementos de cada coluna são equivalentes, ou seja, só precisamos de um deles. Mas em cada coluna temos as permutações dos três elementos envolvidos. Logo, o número de elementos em cada coluna nesse exemplo é 3! = 6. Como só precisamos de um de cada 3!, o número total é 60 3! = 5! 2!3! . Ilustramos com esse exemplo o conceito e o cálculo do número de combinações simples de n elementos tomados k a k. Dado um conjunto de n elementos, a combinação dos n elementos tomados k a k nos dá o número de subconjuntos com k elementos (note que, em um conjunto, a ordem dos elementos não importa). O número de combinações simples de n elementos tomados k a k é igual a: Ckn = Akn k! = n! (n− k)!k! = ( n k ) . (5.13) O número ( n k ) é chamado de número ou coeficiente binomial, ou ainda, número combinatório. Note a diferença: no conceito de arranjo, estamos lidando com seqüências de k elementos, enquanto no conceito de combinação, estamos lidando com subconjuntos. Nas seqüências, a ordem dos elementos é relevante, mas não nos subconjuntos. Exemplo: De um grupo de 8 homens e 5 mulheres, devem ser escolhidos 3 homens e 3 mulheres para formar uma comissão. Quantas comissões podem ser formadas? Solução: Os 3 homens podem ser escolhidos de ( 8 3 ) maneiras; as três mulheres podem ser escolhidas de ( 5 3 ) maneiras. Pelo princípio fundamental da contagem, há ( 8 3 ) ×( 5 3 ) maneiras de escolher a comissão. Note que ( 8 3 ) × ( 5 3 ) = 560. 5.5. PROBABILIDADE CONDICIONAL 51 5.4.7 Combinações com Repetição Combinações com repetições de n elementos, tomados k a k, são todas as combinações em que os elementos que dela participam surgem repetidos em cada agrupamento até k vezes. CRkn = n · (n+ 1) · (n+ 2) · . . . · (n+ k − 1) k! . (5.14) Exemplo: Determine as combinações com repetição das letras a, b, c, d, tomadas 2 a 2. CRkn = n · (n+ 1) · (n+ 2) · . . . · (n+ k − 1) k! = CR24 = 4 · (4 + 1) 2! = 10. (5.15) 5.5 Probabilidade Condicional A probabilidade de ocorrência de um evento A, dado que um evento B já ocorreu, é denominada Probabilidade Condicional de A dado B. Denota-se por: P (A/B). Ao estabelecer P (A/B), desejamos relacionar A com B, ou seja, queremos saber a proporção de A a respeito de B. Então o espaço amostral de A/B deverá ser B. P (A/B) = n (A ∩B) /n (S) n (B) /n (S) . P (A/B) = P (A ∩B) P (B) Observação: Se A e B são independentes, temos: P (A/B) = P (A ∩B) P (B) = P (A) · P (B) P (B) = P (B) . (5.16) Exemplo: Uma urna U1 contém duas bolas vermelhas e 3 bolas brancas; a urna U2 contém 4 bolas vermelhas e 5 brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual a probabilidade de termos uma urna U1 e bola vermelha? Solução: P (V/U1) = P (U1∩V ) P (U1) ∴ P (U1 ∩ V ) = P (U1) · P (V/U1) = 12 · 25 = 15 . Vizualização pelo Diagrama de Árvore: 52 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE Figura 5.7: Diagrama de Árvore 5.6 Partição de um Espaço Amostral Seja um experimento aleatório E onde A1, A2, . . . , An são os n eventos do espaço amos- tral S. Os eventos A1, A2, . . . , An constituem uma partição do espaço amostral S se (Figura 5.8): P (A1) , P (A2) , . . . , P (An) > 0; A1∩A2, A1∩A3, . . . A1∩An, . . . Ai∩Aj = 0, ∀i 6= j (eventos mutuamente exclusivos 2 a 2); A1 ∪ A2 ∪ . . . An = S Figura 5.8: Partição de um espaço amostral Seja B um evento qualquer, sendo que B ⊂ S. Então é válida a relação: 5.7. TEOREMA DE BAYES 53 B = (A1 ∩B) ∪ (A2 ∩B) ∪ . . . ∪ (An ∩B) . (5.17) Como os eventos (A1 ∩B) , (A2 ∩B) , . . . (An ∩B) também são mutuamente exclusivos 2 a 2: P (B) = P (A1 ∩B) + P (A2 ∩B) + . . .+ P (An ∩B) . (5.18) A expressão anterior é conhecida como Teorema da Probabilidade Total. Sua visualização é mostrada na Figura 5.9 Figura 5.9: Partição do espaço amostral S com a ocorrência do evento B. Exemplo: A urna U1 tem duas bolas vermelhas e três brancas. A urna U2 tem 3 bolas vermelhas e uma branca. A urna U3 tem quatro bolas vermelhas e duas brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual a probabilidade da bola ser vermelha? P (V ) = P (U1 ∩ V ) + P (U2 ∩ V ) + P (U3 ∩ V ) = 109 180 . 5.7 Teorema de Bayes É uma consequência do teorema da probabilidade total e do conceito da probabilidade condicional. Se A1, A2, . . . , An constituem uma partição de um espaço amostral S e sabendo-se da ocorrência de um evento B qualquer, a probabilidade de que um evento Ai tenha sido a causa deste evento é dado por: 54 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE P (Ai/B) = P (Ai ∩B) P (B) , ondeP (B) = P (A1 ∩B) + P (A2 ∩B) + . . .+ P (An ∩B) . (5.19) Exemplo: Uma urna U1 tem 3 bolas vermelhas e 4 brancas. Uma urna U2 tem 6 bolas vermelhas e 2 brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual a probabilidade de: a) Urna U1 e bola vermelha; b) Bola Vermelha; c) Se a bola é vermelha, qual a probabilidade dela ter sido extraída da urna U2? R: a) 3/14; b) 33/56; c) 7/11. 5.8 Problemas Propostos Problema 5.1 - Quantos números naturais de três algarismos distintos existem? R: 648. Problema 5.2 - Temos 5 livros distintos de Estatística, 3 livros distintos de Matemática Financeira e 4 livros distintos de Contabilidade. De quantas maneiras podemos organizar esses livros em uma prateleira? Qual seria a resposta se os livros do mesmo assunto tivessem que ficar juntos? R: a) 479.001.600; b) 103.680. Problema 5.3 - O segredo de um cofre é formado por uma seqüência de 3 dígitos esco- lhidos entre 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Suponha que uma pessoa saiba que o segredo é formado por três algarismos distintos. Qual o número máximo de tentativas que ela terá de fazer para abrir o cofre? R: 720. Problema 5.4 - Problema dos Aniversários. Em um grupo de 10 pessoas, qual é a probabilidade de que pelo menos 2 façam aniversário no mesmo dia? Para simplificar, suponha que nenhuma dessas pessoas tenha nascido em ano bissexto. R: 0,11695. Problema 5.5 - Se um avião está presente em determinada área, um radar detecta sua presença com probabilidade 0,99. No entanto, se o avião não está presente, o radar detecta erradamente a presença de um avião com probabilidade 0,02. A probabilidade de um avião estar presente nesta área é de 0,05. Qual é a probabilidade de um falso alarme? Qual é a probabilidade de o radar deixar de detectar um avião? (Note que esses são os dois erros possíveis nesta situação). R: a) 0,019; b) 0,0005. Problema 5.6 - Sabe-se que um �soro da verdade�, quando aplicado a um suspeito, é 90% eficaz quando a pessoa é culpada e 99% eficaz quando é inocente. Um suspeito é retirado de um grupo de pessoas, onde 95% jamais cometeram qualquer crime. (i) Qual é a probabilidade de o soro dar a resposta certa? (ii) Se o soro indica �culpado�, qual é a probabilidade de o suspeito ser inocente? R: (i) 0,9855; (ii) 0,1743. 5.8. PROBLEMAS PROPOSTOS 55 Problema 5.7 - Mega Sena. No jogo da Mega-Sena da Caixa Econômica Federal, o apostador deve escolher no mínimo seis e no máximo 15 números diferentes entre 1 e 60. Um jogo simples consiste na escolha de 6 números, e os preços das apostas se baseiam no número de jogos simples em cada cartão. (a) Qual é o número de jogos simples distintos? (b) Num cartão com 15 números marcados, quantos são os jogos simples? (c)Se cada jogo simples custa R$1,50, qual o preço de um cartão com 15 números marcados? R: (a)50.063.860; (b) 5005; c) 7507,5. 56 CAPÍTULO 5. INTRODUÇÃO À PROBABILIDADE Capítulo 6 Modelos Probabilísticos para Variáveis Aleatórias Discretas 6.1 Introdução No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaços amostrais bem simples. Isso facilitou bastante a compreensão do conceito de probabi- lidade e a obtenção de algumas propriedades. Mas, para atender a situações práticas mais gerais, necessitamos ampliar esses conceitos para que tenhamos modelos probabilís- ticos que representem todos os tipos de variáveis definidas até agora. Para as variáveis qualitativas, a descrição de probabilidades associadas a eventos construídos no capítulo 5 adapta-se muito bem. Dada a sua simplicidade, trataremos aqui de variáveis quantitativas discretas. Já os modelos para variáveis contínuas necessitarão de um artifício matemático, baseado em uma generalização do conceito de histograma e esse será o objetivo do pró- ximo capítulo. O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante, e grande parte do restante da disciplina será dedicada à construção desses modelos e inferências sobre seus parâmetros. Essas variáveis, para as quais iremos construir modelos probabilísticos, serão chamadas de variáveis aleatórias discreta. 6.2 O conceito de Variável Aleatória Discreta (v.a.d) O conceito de v.a.d. será introduzido por meio de um exemplo. Exemplo 6.1 � Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro. As partes são adquiridas em fábricas 57 58CAPÍTULO 6. MODELOS PROBABILÍSTICOS PARAVARIÁVEIS ALEATÓRIAS DISCRETAS diferentes (A e B), e a montagem consistirá em juntar as duas partes e pintá-las. O produto acabado deve ter o comprimento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos limites, e isso só poderá ser verificado após a montagem. Para estudar a viabilidade de seu empreendimento, o empresário quer ter uma idéia da distribuição do lucro por peça montada. Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme sua medida esteja dentro da especificação, maior ou menor que a especificada, respectivamente. Além disso, foram obtidos dos fabricantes o preço de cada componente (R$5,00) e as probabilidades de produção de cada componente com as características bom, longo e curto. Esses valores estão na Tabela 6.1. Se o produto final apresentar algum componente com a característica C (curto), ele será irrecuperável, e o conjunto será vendido como sucata ao preço de R$5,00. Cada componente longo poderá ser recuperado a um custo adicional de R$5,00. Se o preço de venda de cada unidade for de R$25,00, como seria a distribuição de freqüências da variável X: lucro por conjunto montado? Tabela 6.1: Distribuição da produção das fábricas A e B. Produto Fábrica A Cilindro Fábrica B Esfera Dentro das especificações ........ bom (B) Maior que as especificações ....longo (L) Menor que as especificações ...curto (C) 0,80 0,10 0,10 0,70 0,20 0,10 A construção dessa distribuição de frequências vai depender de certas suposições que faremos sobre o comportamento do sistema considerado. Com base nessas suposições, estaremos trabalhando com um modelo de realidade, e a distribuição que obtivermos será uma distribuição teórica, tanto mais próxima da distribuição de freqüências real quanto mais fiéis à realidade forem as suposições. Primeiramente, vejamos a construção do espaço amostral para a montagem dos con- juntos segundo as características de cada componente e suas respectivas probabilidades. Como os componentes vêm de fábricas diferentes, vamos supor que a classificação dos cilindros e a da esfera, segundo suas características, sejam eventos independentes. Faça o diagrama em árvore para o exemplo 6.1! Uma representação do espaço amostral em questão está apresentada na Tabela 6.2. 6.2. O CONCEITO DE VARIÁVEL ALEATÓRIA DISCRETA (V.A.D) 59 Tabela 6.2: Distribuição de probabilidade das possíveis composições das montagens. Produto Probabilidade Lucro por montagem (X) BB BL BC LB LL LC CB CL CC 0,56 0,16 0,08 0,07 0,02 0,01 0,07 0,02 0,01 15 10 -5 10 5 -5 -5 -5 -5 A última coluna da Tabela 6.2 foi construída com base nas informações sobre preços. Por exemplo, obtendo uma montagem LB (cilindro longo e esfera boa), do preço de venda R$25,00 devemos descontar: R$10,00 dos custos dos componentes e R$5,00 para recuperar o cilindro longo. Portanto, o lucro X desse conjunto será R$10,00. Verifique o lucro das demais montagens. Com os dados da Tabela 6.2, vemos que X pode assumir um dos seguintes valores: 15, se ocorrer o evento A1 = {BB} 10, se ocorrer o evento A2 = {BL,LB} 5, se ocorrer o evento A3 = {LL} −5, se ocorrer o evento A4 = {BC,LC,CB,CL,CC} Cada um desses eventos tem uma probabilidade associada, ou seja: P (A1) = 0, 56, P (A2) = 0, 23, P (A3) = 0, 02, P (A4) = 0, 19. o que nos permite escrever a função (x, p(x)) da Tabela 6.3, que é um modelo teórico para a distribuição da variável X, que o empresário poderá usar para julgar a viabilidade econômica do projeto que ele pretende realizar. Aqui, x é o valor da v.a.d. X e p(x) é a probabilidade de X tomar o valor x. 60CAPÍTULO 6. MODELOS PROBABILÍSTICOS PARAVARIÁVEIS ALEATÓRIAS DISCRETAS Tabela 6.3: Distribuição da v.a.d. X x p(x) 15 10 5 -5 0,56 0,23 0,02 0,19 Total 1,00 A função (x, p(x)) é chamada função de probabilidade da v.a. X. Formalmente definiremos a função de probabilidade da seguinte forma: Seja E um experimento aleatório e S o espaço amostral associado a este evento. Seja X uma variável aleatória discreta com contradomínio Rx = {x1, x2, . . . , xn}, isto é, X pode assumir os valores x1, x2, . . . xn. A função que associa a cada elemento xi a probabilidade P (xi) = P (X = xi) é denominada função de probabilidade da variável aleatória X, observando-se que: P (xi) ≥ 0, ∀i; ∑n i=1 P (xi) = 1. 6.3 Valor Médio de uma Variável Aleatória Discreta Vamos introduzir o conceito de valor médio por meio do seguinte exemplo. Exemplo 6.2 � Uma pergunta que logo ocorreria ao empresário do Exemplo 6.1 é qual o lucro médio por conjunto montado que ele espera conseguir. Da Tabela 6.3, observamos que 56% das montagens devem produzir um lucro de 15 reais, 23% um lucro de dez reais, e assim por diante. Logo, o lucro esperado por montagem será dado por: Lucro médio = (0,56)(15) + (0,23)(10) + (0,02)(5) +(0,19)(-5) = 9,85. Isto é, caso sejam verdadeiras as suposições feitas para determinar a distribuição da v.a.d., o empresário espera ter um lucro de 9,85 reais por conjunto montado. Seja X uma variável aleatória discreta com valores possíveis x1, x2, . . . , x3. Seja a sua função probabilidade P (xi) = P (X = xi); i = 1, 2, . . . , n. Então o valor esperado de X 6.4. PROPRIEDADES DO VALOR ESPERADO E DA VARIÂNCIA 61 (também denominado esperança matemática de X ou valor médio de X), denotado por E(X), é definido como: E(X) = µ(X) = n∑ i=1 xiP (xi) . (6.1) A expressão 6.1 é semelhante àquela utilizada para a média, introduzida anteriormente, onde no lugar das probabilidades P (xi) tínhamos as freqüências f i. A distinção entre essas duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto, e a segunda, a valores observados da variável. Como P (xi) e fri têm a mesma interpretação, todas as medidas e gráficos discutidos anteriormente, baseados na distribuição das f i , possuem um correspondente na distribuição de uma v.a. Além do valor médio, ou simplesmente média, definido acima, podemos considerar também outras medidas de posição e variabilidade, como a mediana e o desvio padrão. Vamos considerar agora a definição de variância. Chamamos de variância da v.a. X o valor V ar(X) = n∑ i=1 [xi − E(X)]2 P (xi) . (6.2) O desvio padrão de X, dp(X), é definido como a raiz quadrada positiva da variância. 6.4 Propriedades do Valor Esperado e da Variância Sejam a e b duas constates e X e Y duas variáveis aleatórias. Valem as propriedades: E(a) = a; E(a+ bX) = a+ bE(X) E(aX) = aE(X); E(X ± Y ) = E(X)± E(Y ) E(X · Y ) = E(X) · E(Y ), X e Y são v.a. independentes. (6.3) V ar(a) = a; V ar(a+X) = V ar(X); V ar(aX) = a2V ar(X) V ar(X ± Y ) = V ar(X)± V ar(Y ), X e Y são v.a. independentes. (6.4) 62CAPÍTULO 6. MODELOS PROBABILÍSTICOS PARAVARIÁVEIS ALEATÓRIAS DISCRETAS Exercício 1: Considere um seguro para roubo de carro. O valor do carro é RS50.000. O prêmio anual a ser pago para segurar o carro é de R$4.000. A probabilidade do carro ser roubado é de 2%. O contrato é justo? Exercício 2: Seja X a quantidade de um produto da marca A vendida em uma semana, cuja distribuição de probabilidades está representada na tabela abaixo: ix 0 1 2 3 4 5 ( )iP X x= 0,1 0,1 0,2 0,3 0,2 0,1 a) Qual a esperança de venda semanal? b) Se para cada produto vendido lucra-se R$50 e os custos semanais são de R$20, qual o lucro líquido esperado? 6.5 Função de Distribuição Acumulada Dada uma variável aleatória X, chamaremos de função de distribuição acumulada (f.d.a) F (X) à função: F (X) = P (X ≤ x) . (6.5) Observe que o domínio de F é todo o conjunto dos números reais, ao passo que o contradomínio é o intervalo [0,1]. Voltando ao problema do empresário e usando a f.d. de X definida na Tabela 6.3, a f.d.a. de X será dada por F (x) = 0, se x < −5 0, 19, se − 5 ≤ x < 5 0, 21, se 5 ≤ x < 10 0, 44, se 10 ≤ x < 15 1, se x ≥ 15 (6.6) Observe que P (X = xi) é igual ao salto que a função F (x) dá no ponto xi; por exemplo, P (X = 10) = 0, 23 = F (10)− F (10−). De modo geral, P (X = xi) = F (xi)− F (xi−), onde lembramos que F (a−) = limx→a− F (x). 6.6. ALGUNSMODELOS PROBABILÍSTICOS PARAVARIÁVEIS ALEATÓRIAS DISCRETAS63 6.6 Alguns Modelos Probabilísticos para Variáveis Ale- atórias Discretas Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos. Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros. Para algumas dessas distribuições existem tabelas que facilitam o cálculo das probabilidades, em função de seus parâmetros. Nesta seção iremos estudar alguns desses modelos, procurando enfatizar as condições em que eles aparecem, suas funções de probabilidade, parâmetros e como calcular probabilidades. 6.6.1 Distribuição Uniforme Discreta Este é o caso mais simples de v.a. discreta, em que cada valor possível ocorre com a mesma probabilidade. Dessa forma, a v.a. discreta X, assumindo os
Compartilhar