Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
estatistica.pdf UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA Estatística Aplicada a Engenharia Civil Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br Natal / RN 2011.1 ÍNDICE UNIDADE I - ESTATÍSTICA DESCRITIVA ....................................................... 1 1.1 - NARUREZA E CAMPO DA ESTATÍSTICA.................................................................................................... 1 1.2 - O MÉTODO ESTATÍSTICO .............................................................................................................................. 1 1.3 - REPRESENTAÇÃO TABULAR........................................................................................................................ 2 1.3.1- Séries Estatísticas............................................................................................................................................ 3 1.4 - POPULAÇÃO, AMOSTRA E TIPOS DE VARIÁVEIS................................................................................... 8 1.5 - DISTRIBUIÇÕES DE FREQUÊNCIAS .......................................................................................................... 10 1.6 – MEDIDAS DE TENDÊNCIA CENTRAL ....................................................................................................... 15 1.6.1 - Média Aritmética ......................................................................................................................................... 16 1.6.2 - Mediana ....................................................................................................................................................... 18 1.6.3 - Moda ............................................................................................................................................................ 20 1.6.4 – Separatrizes ................................................................................................................................................. 23 1.7 - MEDIDAS DE DISPERSÃO ............................................................................................................................. 25 1.7.1 – Variância ..................................................................................................................................................... 26 1.7.2 - Desvio Padrão .............................................................................................................................................. 28 1.7.3 - Coeficiente de Variação ............................................................................................................................... 30 1.8 - ANÁLISE EXPLORATÓRIA DE DADOS...................................................................................................... 31 1.8.1 - Ramo-e-Folhas............................................................................................................................................. 31 1.8.2 - Esquema dos 5-Números ............................................................................................................................. 32 1.8.3 - Box-Plot ....................................................................................................................................................... 33 UNIDADE II - PROBABILIDADE ...................................................................... 34 2.1 - EXPERIMENTOS ALEATÓRIOS .................................................................................................................. 34 2.2 - ESPAÇO AMOSTRAL...................................................................................................................................... 34 2.3 - EVENTOS .......................................................................................................................................................... 35 2.4 - RESULTADOS EQUIPROVÁVEIS ................................................................................................................ 37 2.5 - FORMULAÇÃO AXIOMÁTICA DO CONCEITO DE PROBABILIDADE............................................... 38 2.5.1 - Teoremas Fundamentais do Cálculo das Probabilidades ............................................................................. 38 2.6 - PROBABILIDADE CONDICIONAL .............................................................................................................. 38 2.7 - EVENTOS INDEPENDENTES ........................................................................................................................ 40 2.8 - TEOREMA DE BAYES..................................................................................................................................... 41 2.9 – VARIÁVEL ALEATÓRIA UNIDIMENSIONAL .......................................................................................... 42 2.9.1 - Variáveis Aleatórias Discretas ..................................................................................................................... 43 2.9.2 - Variáveis Aleatórias Contínuas.................................................................................................................... 45 2.9.3 - Valor Esperado de Variáveis Aleatórias ...................................................................................................... 47 2.9.4 – Variância de uma Variável Aleatória .......................................................................................................... 51 UNIDADE III - PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE ...... 52 3.1 - PRINCIPAIS DISTRIBUIÇÕES DISCRETAS ............................................................................................................ 52 3.1.1 - Distribuição de Bernoulli ............................................................................................................................. 52 3.1.2 - Distribuição Binomial .................................................................................................................................. 53 3.1.3 Distribuição Hipergeométrica ........................................................................................................................ 56 3.1.4 - Distribuição de Poisson................................................................................................................................ 57 3.2 - PRINCIPAIS DISTRIBUIÇÕES CONTÍNUAS ........................................................................................................... 58 3.2.1 - Distribuição Uniforme ................................................................................................................................. 58 3.2.2 - Distribuição Exponencial ............................................................................................................................. 59 3.2.3 - Distribuição Normal..................................................................................................................................... 60 3.3 - A DISTRIBUIÇÃO T DE STUDENT ......................................................................................................................... 66 3.4 - DISTRIBUIÇÃO F DE SNEDECOR .......................................................................................................................... 69 UNIDADE IV - INFERÊNCIA ESTATÍSTICA .................................................. 70 4.1 - DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E DA PROPORÇÃO.................................................................................. 72 4.1.1 – Distribuição Amostral da Média ................................................................................................................. 72 4.1.2 – Distribuição Amostral da Proporção ........................................................................................................... 73 4.2 - ESTIMAÇÃO POR PONTO E INTERVALO............................................................................................................... 74 4.2.1 - Estimação Pontual........................................................................................................................................ 74 4.2.2 - Estimação Intervalar .................................................................................................................................... 74 4.2.2.1- Intervalo de confiança para a média........................................................................................................................76 4.2.2.2 - Intervalo de confiança para a proporção................................................................................................................80 4.3 - TESTES DE HIPÓTESES ........................................................................................................................................ 81 4.3.1 - Teste para a Média quando σ2 é desconhecido............................................................................................. 83 4.3.2 - Teste para a Diferença entre Médias quando 2 1σ e 2 2σ é desconhecido ................................................... 87 4.3.3 - Teste para Proporções .................................................................................................................................. 90 4.3.4 - Valor-P......................................................................................................................................................... 92 UNIDADE V - PLANEJAMENTO DE EXPERIMENTOS................................ 94 5.1 – OBSERVAÇÃO × EXPERIMENTAÇÃO................................................................................................................... 94 5.2 – RELACIONADO DUAS VARIÁVEIS ........................................................................................................................ 95 5.3 – VARIÁVEL DE CONFUNDIMENTO ........................................................................................................................ 98 5.4 – TIPOS DE ESTUDOS OBSERVACIONAIS ................................................................................................................ 99 5.5 – DIFICULDADES ENCONTRADAS EM ESTUDOS OBSERVACIONAIS ..................................................................... 101 5.6 – UNIDADE EXPERIMENTAL X UNIDADE OBSERVACIONAL ............................................................................... 103 5.7 – PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO ................................................................................... 105 5.7.1 – Aleatorização............................................................................................................................................. 105 5.7.2 – Replicação ................................................................................................................................................. 106 5.7.3 – Blocagem................................................................................................................................................... 106 5.8 – PLANEJAMENTO E ANÁLISE DE EXPERIMENTOS COM UM ÚNICO FATOR ....................................................... 107 5.8.1 - Análise de Variância com um único fator .................................................................................................. 109 5.8.2 - Teste de comparação Múltipla (Teste de Tukey) ....................................................................................... 121 5.9 – PLANEJAMENTO E ANÁLISE DE EXPERIMENTOS EM BLOCOS ......................................................................... 124 5.9.1 - Analise de variância em Blocos ................................................................................................................. 125 UNIDADE VI - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES ......... 130 6.1 - COEFICIENTE DE CORRELAÇÃO ....................................................................................................................... 133 6.2 - MODELO DE REGRESSÃO LINEAR SIMPLES ..................................................................................................... 137 6.2.1 - Determinação da equação de regressão linear simples .............................................................................. 138 6.2.1 - Estimadores de Mínimos Quadrados ......................................................................................................... 139 6.2.3 – Resíduos .................................................................................................................................................... 142 6.2.4 – Inferências sobre β1 ................................................................................................................................... 144 6.2.4.1 – Estimador da variância de b1................................................................................................................................144 6.2.4.2 – Intervalo de Confiança para β1.............................................................................................................................145 6.2.4.3 – Teste de hipótese sobre β1 .....................................................................................................................................146 6.2.3 – Predições ................................................................................................................................................... 147 6.2.4 – Intervalo de confiança para E(Yh) ............................................................................................................. 148 6.2.5 – Intervalo de predição para uma nova observação...................................................................................... 148 6.2.6 – ANOVA .................................................................................................................................................... 149 6.2.7 – O Coeficiente de Determinação (R2) ......................................................................................................... 151 6.2.8 – Análise de adequação do modelo .............................................................................................................. 152 BIBLIOGRAFIA ANEXOS TABELA A - DISTRIBUIÇÃO NORMAL PADRÃO TABELA B - DISTRIBUIÇÃO T DE STUDENT TABELA C - DISTRIBUIÇÃO F DE FISHER TABELA D – TESTE DE TUKEY EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 1 UNIDADE I ESTATÍSTICA DESCRITIVA 1.1 - Narureza e Campo da Estatística Estatística é a ciência que diz respeito à coleta, apresentação e análise de dados quantitativos, de tal forma que seja possível efetuar julgamentos sobre os mesmos. Ramos da Estatística: a) Estatística descritiva → trata da observação de fenômenos de mesma natureza, da coleta de dados numéricos referentes a esses fenômenos, da sua organização e classificação através de tabelas e gráficos, bem como da análise e interpretação. b) Probabilidade estatística → utilizada para analisar situações que envolvem o acaso (aleatoriedade). c) Inferência estatística → estuda as características de uma população com base em dados obtidos de amostras. OBS: Estatística Indutiva pode ser denominada como inferência. Portanto, a estatística indutiva estuda as características de uma população, com base em dados obtidos de amostras. Inferência = Indução + Margem de Erro 1.2 - O Método Estatístico A realização de uma pesquisa deve passar, necessariamente pelas fases apresentadas abaixo: Coletas dos Dados Definição do problema Planejamento Crítica dos Dados Apresentação dos dados Tabelas e Gráficos Análise e interpretação dos dados →→→→ →→→→ →→→→ →→→→ →→→→ EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 2 1) Definição do problema →→→→ Saber exatamente o que se pretende pesquisar, ou seja, definir corretamente o problema. 2) Planejamento →→→→ determinar o procedimento necessário para resolver o problema, como levantar informações sobre o assunto objeto do estudo. É importante a escolha das perguntas em um questionário, que na medida do possível, devem ser fechadas. � O levantamento de dados pode ser de dois tipos: Censitário e Amostragem. � Outros elementos do planejamento de uma pesquisa são: • Cronograma das atividades; • Custos envolvidos; • Exame das informações disponíveis; • Delineamento da amostra. 3) Coleta de Dados →→→→ consiste na busca ou compilação dos dados. Pode ser classificado, quanto ao tempo em: • Contínua (inflação, desemprego, etc); • Periódica (Censo); • Ocasional (pesquisa de mercado, eleitoral) 4) Crítica dos dados →→→→ objetiva a eliminação de erros capazes de provocar futuros enganos. Faz-se uma revisão crítica dos dados suprimindo os valores estranhos ao levantamento. 5) Apresentação dos dados →→→→ a organização dos dados denomina-se “Série Estatística”. Sua apresentação pode ocorrer por meio de tabelas e gráficos. 6) Análise e Interpretação dos Dados →→→→ consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas, especialmente as de posição e as de dispersão. 1.3 - REPRESENTAÇÃO TABULAR Consiste em dispor os dados em linhas e colunas, distribuídas de modo ordenado, segundo algumas regras práticas e obedecendo (ainda) à Resolução no 886/66, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As tabelas devem conter: EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 3 a) Título - O quê? (fenômeno). Onde? (época). Quando? (local). b) Cabeçalho - indica o conteúdo das colunas c) Coluna Indicadora - especifica o conteúdo das linhas d) Cabeçalho da coluna indicadora - indica o conteúdo da coluna indicadora e) Corpo - caselas ou células, onde são registrados os dados. f) Rodapé - notas e identificação da fonte de onde foram coletados os dados. 1.3.1- Séries Estatísticas São os dados organizados em forma de tabelas. De acordo com o fenômeno, o local e a época de ocorrência, as Séries Estatísticas classificam-se em Temporal, Especificativa e Geográfica. Série Temporal|: É a série estatística em que os dados são observados segundo a época de sua ocorrência. Exemplo: Tabela 01 – Lançamento de super-remédios no mercado brasileiro, período 1997 - 2002 Anos Quantidade de super-remédios 1997 1998 1999 2000 2001 2002 18 29 33 40 50 69 FONTE: Rev. Veja, ed. 26/06/2002 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 4 Tabela 02 – Desempenho Operacional da Varig (em R$ milhões), período 1997 - 2001 Anos Valores 1997 1998 1999 2000 2001 41 37 61 198 483 FONTE: Rev. Época, 15/jul/2002 Série Geográfica: É a série estatística em que os dados são observados segundo o local onde ocorreram. Exemplo: Tabela 03 – Candidatos a Dep. Federal nos estados da região NE do Brasil, 2002 Estados Número de candidatos Alagoas Ceará Maranhão Paraíba Pernambuco Piauí Rio Grande do Norte Sergipe Bahia 267 516 474 220 631 204 233 237 569 FONTE: Tribunal Superior Eleitoral Série Especificativa ou Específica: É a série estatística em que os dados são agrupados segundo a modalidade (espécie) de ocorrência. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 5 Exemplo: Tabela 04 – Valor de uma dívida de R$ 1.000 ao fim de 1 (um) ano, de acordo com o tipo de financiamento, Brasil, 2002. Tipo de Financiamento Montante (em R$) Empréstimo Pessoal Cheque Especial Crediário Cartão de Crédito Empréstimo em Financeiras 1.847,84 3.087,46 2.172,01 3.296,01 2.842,06 FONTE: Rev. Época, 24/06/2002 Tabela 05 – Fracionamento do Salário no orçamento familiar do brasileiro (%), 2002 Descrição % Habitação Alimentação Saúde, Tarifas Públicas, Transporte Vestuário, Educação, Lazer e outros 24,4 23,7 13,4 11,2 FONTE: Rev. Época, 24/06/2002 Série Mista ou de Dupla Entrada: Corresponde à fusão de duas ou mais séries simples. Exemplos: Tabela 06 – Participação de cada fabricante no mercado de absorventes higiênicos no Brasil, 1997-99 (em %) Participação (%) Fabricantes 1997 1998 1999 Johnson & Johnson 42,4 39,0 38,7 Kimberly Clark 16,0 21,9 25,7 Procter & Gamble 23,6 19,2 15,5 Outros 18,0 19,9 20,1 Fonte: Gazeta Mercantil, set/2000 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 6 Tabela 07 – Balança Comercial do Rio Grande do Norte, 1986-99 Valor (US$mil) Anos Exportações Importações 1986 27.947 5.016 1987 47.978 4.890 1988 60.047 8.488 1989 70.672 20.186 1990 88.800 21.889 1991 80.189 6.826 1992 72.934 11.271 1993 81.288 16.393 1994 86.729 33.279 1995 79.228 34.542 1996 94.876 101.978 1997 93.504 125.445 1998 101.748 88.528 1999 115.473 84.267 Fonte: Boletim Conjuntural, Nordeste do Brasil, SUDENE, Agosto/2000 Tabela 08 – Crescimento em relação ao mesmo mês de 2001 (%) dos Setores Petrolífero e Industrial, período jan-jun/02 Meses Setor Petrolífero Setor Industrial Janeiro Fevereiro Março Abril Maio Junho 9,5 7,0 15,33 15,71 22,92 15,95 - 1,18 - 1,26 - 3,67 6,10 - 0,96 0,69 FONTE: IBGE EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 7 Tabela 09 – Valor de Mercado e Patrimônio (em US$ bilhões), de 5 (cinco) grandes empresas dos Estados Unidos Empresas Valor de Mercado Patrimônio Microsoft Merck Cisco Dell Ebay 336 146 120 70 15,5 65 44 37 13 1,5 FONTE: Rev. Época, jul/2002 Tabela 10 – Evolução do No de Milionários (em mil), no Brasil e na América Latina, período 1997 - 2001 Anos Brasil América Latina 1997 1998 1999 2000 2001 61 68 81 83 90 190 213 252 259 280 FONTE: Rev. Época, jun/2002 Tabela 11 – Índice de Desemprego (em %), em algumas Regiões Metropolitanas do Brasil, abril/2000/2002 Índice de Desemprego Regiões Metropolitanas 2000 2002 Distrito Federal Belo Horizonte Porto Alegre Recife Salvador São Paulo 21,6 18,4 18,8 20,1 28,2 18,6 21,1 18,9 15,7 21,8 28,8 20,4 FONTE: Rev. Época, 15/07/2002 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 8 1.4 - População, Amostra e Tipos de Variáveis Inferência Obtenção de resultados para uma população com base em observações Estatística extraídas a partir de uma amostra retirada desta população. POPULAÇÃO: É o conjunto de elementos (na totalidade) que têm, em comum, uma determinada característica. Pode ser finita, como o conjunto de alunos de uma determinada escola, ou infinita, como o número de vezes que se pode jogar um dado. AMOSTRA: É qualquer subconjunto da população. A técnica de seleção desse subconjunto de elementos é chamada de Amostragem. População (N) Amostra (n) X: determinada característica de interesse da população; Ө: parâmetro populacional; Ө Como já vimos, a inferência estatística tem como objetivo a estimação de parâmetros para uma população tendo como base às informações extraídas através de uma amostra. Neste contexto, o estudo dos mais diversos tipos de procedimentos de amostragem se faz necessário. As técnicas de amostragem podem ser classificadas em dois grandes grupos: a amostragem probabilística e a amostragem não probabilística. X EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 9 a) Amostragem Probabilística: neste grupo encontram-se os planos amostrais que utilizam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida à priori, de pertencer à amostra. b) Amostragem Não Probabilística: neste grupo encontram-se os planos amostrais que não utilizam mecanismos aleatórios de seleção dos elementos da amostra, e dessa forma, não existe nenhuma probabilidade associada à seleção desses elementos. Ambos os procedimentos têm vantagens e desvantagens. A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida. Tais medidas já são bem mais difíceis para os procedimentos do outro grupo. Diante disso, amostras probabilísticas são comumente utilizadas na prática. Os tipos de planos de amostragem probabilísticos são os seguintes: 1. Amostragem Aleatória Simples: cada elemento da população tem a mesma chance (ou probabilidade) de ser selecionado. Os elementos são escolhidos através de sorteio. Para isso, tabelas de números aleatórios são frequentemente utilizadas. Por exemplo, selecionar 5 alunos de uma turma usando a lista de chamada. 2. Amostragem Estratificada: a população é dividida em estratos (ou grupos) homogêneos, sendo selecionada uma amostra aleatória simples de cada estrato. Por exemplo, selecionar alunos de 5ª a 8ª série de uma determinada escola. Neste caso, cada série corresponde a um estrato, e de cada estrato uma amostra aleatória simples dos alunos é extraída, lembrando que pra tanto seria necessário sorteio a partir da lista de chamada também. 3. Amostragem Sistemática: os elementos são selecionados segundo uma regra pré-definida. É bastante utilizada quando os elementos da população estão arranjados em uma ordem. Por exemplo, se em uma concessionária deseja-se estimar o preço total dos seus carros a partir de uma amostra de 10 carros selecionar possuindo para tanto uma lista dos carros em ordem de preço do maior para o menor, ou do menor para o maior. Uma observação importante é que, por exemplo, se os elementos escolhidos estiverem em ordem não se deve pegar os primeiros elementos, ou os últimos, ou os do meios, deve-se percorrer elementos de cada parte. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 10 TIPOS DE VARIÁVEIS: É condição inerente à uma população natural existir variação quanto aos atributos que lhe podem ser estudados. Portanto, a variabilidade é uma característica comum aos dados de observação e experimentos. Um atributo sujeito à variação é descrito em Estatística por uma variável. Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua Variável Qualitativa: os dados podem ser distribuídos em categorias mutuamente exclusivas. Por exemplo, sexo (masculino, feminino), cor, causa de morte, grupo sanguíneo, etc. - Nominal: as categorias podem ser permutáveis (não existe ordem natural dos seus níveis); Exemplo: [masculino, feminino], [sim, não], [fuma, não fuma]; - Ordinal: as categorias descrevem uma ordenação natural dos seus níveis. Exemplo: [péssimo, ruim, regular, bom, ótimo] Variável Quantitativa: os dados são expressos através de números. Por exemplo, idade, estatura, peso, etc. - Discreta: Assumem valores que podem ser associados aos números naturais ( 1,2,3,...=ℕ ). Dá uma idéia de contagem. Exemplo: Idade dos alunos em anos [18, 19, 21, 24, 27, 30, 24, 17, 19, 22, 20, 21, 38, 25] - Contínua: Assume infinitos valores em um dado intervalo. Dá uma idéia de medição. Exemplo: altura e/ou peso de animais ou de pessoas. [1.70, 1.57, 1.80, 1.94, 1.68, 1.71] 1.5 - Distribuições de Frequências Tabelas com grandes números de dados são cansativas e não dão uma visão rápida e geral do fenômeno. Dessa forma, é necessário que os dados sejam organizados em uma tabela de distribuição de frequências. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 11 Distribuição de Frequências: série estatística em que os dados são agrupados em classes, com suas respectivas frequências absolutas, relativas e percentuais, com o objetivo de facilitar ao analista o seu estudo. Construção de uma Distribuição de Frequências: Para a construção de uma distribuição de frequências os seguintes componentes são necessários: � Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados. Exemplo: Peso de alunos da disciplina: 74 58 69 80 74 95 56 74 76 81 60 57 64 62 � Rol: são os dados apresentados em ordem crescente. Exemplo: Peso de alunos da disciplina (em forma de rol): 56 57 58 60 62 64 69 74 74 74 76 80 81 95 Os seguintes componentes são utilizados apenas em distribuição de frequências em classes: � Amplitude Total (A): é a diferença entre o maior valor do rol (LS) e o menor valor (LI). A = LS - LI � Número de Classes (c): corresponde à quantidade de classes, nas quais serão agrupados os elementos do rol. Para determinar c, utiliza-se a fórmula de Sturges: c = 1 + (3,33333.....) · log(n) em que n = número de elementos do rol. � Amplitude ou Intervalo de Classe (i): geralmente utilizam-se intervalos iguais, obtidos através da fórmula: i = A/c Outros elementos da tabela: - Li = limite inferior de cada classe; - Ls = limite superior de cada classe; - x = ponto médio de cada classe � x = Li + (i/2); EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 12 - f = frequência absoluta = número de ocorrências de cada classe; - fr = frequência relativa � ∑= f/ff r ; - f % = frequência percentual � f % = 100.fr; - ↓F = frequência absoluta acumulada "abaixo de"; - ↑F = frequência absoluta acumulada "acima de"; - ↓F% = frequência percentual acumulada "abaixo de"; - ↑F% = frequência percentual acumulada "acima de"; Exemplos 1) (Dados Simples) Numa pesquisa feita para detectar o número de filhos de empregados de uma multinacional, foram encontrados os seguintes valores: 1 4 2 5 3 2 0 3 2 1 5 4 2 5 0 3 2 4 2 3 2 3 2 1 4 2 1 3 4 2 Solução: � Rol (dados em ordem crescente): 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 5 5 5 � Tabela de Distribuição de Frequências: X f fr f % ↓F ↑F ↓F% ↑F% 0 2 0,067 6,7 2 30 6,7 100 1 4 0,133 13,3 6 28 20 93,3 2 10 0,333 33,3 16 24 53,3 80 3 6 0,2 20 22 14 73,3 46,7 4 5 0,167 16,7 27 8 90 26,7 5 3 0,1 10 30 3 100 10 Total 30 1 100 - - - - EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 13 Algumas considerações ou conclusões: a) Quantos empregados têm "x" filhos? A resposta é dada através de f (frequência absoluta simples). b) Quantos empregados têm menos de "x" filhos? A resposta é dada através de ↓F (frequência absoluta acumulada "abaixo de"). c) Quantos empregados têm mais de "x" filhos? A resposta é dada através de ↑F (frequência absoluta acumulada "acima de"). 2) (Dados Agrupados em Classes) Um determinado hospital está interessado em analisar a quantidade de creatinina (em miligramas por 100 mililitros) encontrada na urina (de 24 horas) de seus pacientes internados com problemas renais. Os dados são os seguintes: 1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38 1,56 1,83 1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83 1,50 1,46 1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60 1,59 1,49 1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58 1,37 1,40 1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66 1,71 1,44 1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75 1,57 1,83 1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40 1,86 2,02 Solução: � Rol (dados em ordem crescente): 1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,86 1,86 1,86 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 14 � Amplitude Total (dá uma idéia do campo de variação dos dados): A = LS - LI = (2,34) - (1,08) = 1,26 Analisando-se a quantidade creatinina encontrada na urina dos 84 pacientes verificou-se que, ocorreu a variação de 1,26 no seu campo (de 1,08 a 2,34). � Estabelecer o Número de Classes (c): c = 1 + (3,3333.....) · log(n) = 1 + (3,3333....) · log(84) = 7,414 � c = 7 � Estabelecer o Intervalo de Classe (i): i = A / c = (1,26) / 7 = 0,18 � Construção da Tabela: Classes fi Pm (X) fr f % ↓%f ↑%f ↓F ↑F 1,08 ├ 1,26 5 1,17 0,059 5,9 5,9 100 5 84 1,26 ├ 1,44 13 1,35 0,155 15,5 21,4 94,1 18 79 1,44 ├ 1,62 32 1,53 0,381 38,1 59,5 78,6 50 66 1,62 ├ 1,80 18 1,71 0,214 21,4 80,9 40,5 68 34 1,80 ├ 1,98 11 1,89 0,131 13,1 94,0 19,1 79 16 1,98 ├ 2,16 2 2,07 0,024 2,4 96,4 6,0 81 5 2,16 2,34 3 2,25 0,036 3,6 100 3,6 84 3 Total 84 - 1 100 - - - - Observação 1: O melhor valor para representar cada classe é o ponto médio (Pm), o qual se obtém pela fórmula: Pm = Li + (i / 2), ou ainda, Pm = (Li + Ls) / 2 Observação 2: fi : número de elementos de cada classe. fr : mede o quanto cada valor significa e relação a unidade (1). f%: mede o quanto cada valor significa com relação a 100. Observação 3: 1,08 ├ 1,26, intervalo fechado à esquerda (pertencem a classe valores iguais ao extremo inferior) e aberto à direita (não pertencem a classe valores iguais ao extremo superior). De forma análoga, 2,16 2,34, intervalo fechado à esquerda e à direita. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 15 Algumas considerações ou conclusões: a) Quantos pacientes têm quantidade de creatinina no intervalo de "x"? A resposta é dada através de f (frequência absoluta simples). Ex.: Quantos pacientes têm quantidade de creatinina no intervalo [1,44; 1,62)? R.: 32 pacientes. b) Quantos pacientes têm quantidade de creatinina inferior ao intervalo "x"? A resposta é dada através de ↓F (frequência absoluta acumulada "abaixo de"). Ex.: Quantas crianças têm quantidade de creatinina inferior ao intervalo [1,80; 1,98)? R.: 68 pacientes. c) Quantos pacientes têm quantidade de creatinina superior ao intervalo "x"? A resposta é dada através de ↑F (frequência absoluta acumulada "acima de"). Ex.: Quantas crianças têm quantidade de creatinina superior ao intervalo [1,80; 1,98)? R.: 5 pacientes. 2) Construir uma distribuição de frequências, utilizando a fórmula de Sturges e analisá-la com base nos elementos abaixo, correspondente ao faturamento bruto mensal (US$ mil) de 50 pequenas empresas: 2,1 4,4 2,7 32,3 9,9 9,0 2,0 6,6 3,9 1,6 14,7 9,6 16,7 7,4 8,2 19,2 6,9 4,3 3,3 1,2 4,1 18,4 0,2 6,1 13,5 7,4 0,2 8,3 0,3 1,3 14,1 1,0 2,4 2,4 18,0 8,7 24,0 1,4 8,2 5,8 1,6 3,5 11,4 18,0 26,7 3,7 12,6 23,1 5,6 0,4 1.6 – Medidas de Tendência Central Os dados quantitativos, apresentados em tabelas e gráficos, constituem a informação básica do problema. Mas é conveniente apresentar medidas que mostrem a informação de maneira resumida. Medidas de Tendência Central São medidas que tendem para o centro da distribuição e têm a capacidade de representá-la como um todo. Dão o valor do ponto em torno do qual os dados se distribuem. As principais são: Média Aritmética, Mediana e Moda e algumas. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 16 1.6.1 - Média Aritmética A média aritmética pode ser definida em dois tipos: populacional (µ ) e amostral (X ). Nos dois casos existem três situações quanto aos cálculos. 1. Dados apresentados em forma de rol: A média será: rol do elementos de número rol do elementos os todosde soma n x X n i == ∑ =1i Exemplo: Peso em gramas de ratos (50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74) � X =67 Análise: o peso médio dos 12 ratos observados é de 67 gramas. Exercício: Um gerente de supermercado quer estudar a movimentação de pessoas em seu estabelecimento, constata que 195, 1.002, 941, 768 e 1.283 pessoas entraram no seu estabelecimento nos últimos cinco dias. Descubra o número médio de pessoas que entraram diariamente neste estabelecimento nos últimos cinco dias. 2. Dados apresentados em forma de distribuição de frequência simples: A média será: ∑ ∑ = == n 1i i n ii f fx X 1i Exemplo: Número de cáries em crianças X 0 1 2 3 4 Total f 2 4 10 6 5 27 2,3 27 (4).(5) (3).(6) (2).(10) (1).(4)(0).(2) f fx X n 1i i n ii = ++++ == ∑ ∑ = =1i Análise: Verifica-se que o número médio de cáries das 27 crianças observadas no estudo é de 2,3. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 17 Exercício: As informações abaixo apresentam a idade dos usuários de drogas internos numa clínica para tratamento. Determine a idade média dos internos. Idade fi 17 2 18 4 19 5 20 6 21 3 22 4 23 2 Total 26 3. Dados apresentados em forma de distribuição de frequência em classes: A média será: ∑ ∑ = == n 1i i n 1i im f fP X Exemplo: Nascidos vivos segundo o peso ao nascer, em kg. Classes fi Pm 1,5 ├ 2,0 3 1,75 2,0 ├ 2,5 16 2,25 2,5 ├ 3,0 31 2,75 3,0 ├ 3,5 34 3,25 3,5 ├ 4,0 11 3,75 4,0 ├ 4,5 4 4,25 4,5 5,0 1 4,75 Total 100 - 3 100 (4,75).(1) )(2,25).(16(1,75).(3) f fP X n 1i i n im = +++ == ∑ ∑ = = …1i Análise: Verifica-se que o peso médio dos 100 nascidos vivos observados é 3 kg. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 18 1.6.2 - Mediana Valor que divide a distribuição em duas partes iguais, em relação à quantidade de elementos. Isto é, é o valor que ocupa o centro da distribuição, de onde se conclui que 50% dos elementos ficam abaixo dela e 50% ficam acima. Colocados em ordem crescente, a mediana (Med ou Md) é ou valor que divide a amostra, ou população, em duas partes iguais. 0 Med 100% a) Variável Discreta: os dados estão dispostos em forma de rol ou em uma distribuição de frequência simples. � Se "n" for ímpar: Med = elemento central (de ordem 1 2 n + ) - Exemplo (dados em forma de rol): Seja a amostra: 8, 10, 12, 14, 16 � Med = 5 1 3 2 + = � elemento do rol = 12 Interpretação: o 3º elemento do rol (12) divide 50% da distribuição dos dados à direita e à esquerda. - Exemplo (dados em uma distribuição de frequência simples): Suponha a seguinte distribuição de frequência simples. X fi ↓F 1 1 1 2 3 4 3 5 9 4 2 11 Total 11 - n = 11 (ímpar) Elemento mediano: [(n+1)/2]º = 6º elemento 3ª classe contém o 6º elemento � Med = 3. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 19 � Se "n" for par: Med = média aritmética dos dois elementos centrais (de ordem 2 n e 1 2 n + ) - Exemplo (dados em forma de rol): Seja a amostra: 8, 10, 12, 14, 16, 19 6 3 elemento do rol 2 2 6 1 1 4 elemento do rol 2 2 n n = = + = + = � � Méd = 3 elemento 4 elemento 12 14 13 2 2 + + = = � � Interpretação: a média do 3º e 4º elemento do rol (13) divide 50% da distribuição dos dados à direita e à esquerda. - Exemplo (dados em uma distribuição de frequência simples): Suponha a seguinte distribuição de frequência simples. X fi ↓F 82 5 5 85 10 15 87 15 30 89 8 38 90 4 42 Total 42 - n = 42 (par) Elemento mediano: (n/2)º = 21º elemento (n/2)º + 1 = 22º elemento 3ª classe contém o 21º e o 22º elemento Med = (87 + 87)/2 = 87 b) Variável Contínua: os dados estão agrupados em uma distribuição de frequências em classes, então: • 1º Passo: Organizar os dados em forma de rol (ordem crescente); • 2º Passo: Calcular a ordem (n/2)º. Como a variável é contínua não importa se é par ou ímpar. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 20 • 3º Passo: Através da ↓F identificar a classe que contém a mediana, isto é, a posição da mediana. • 4º Passo: Utilizar a fórmula: Med Med Med Med .if FP LIMed ↓− += − - LIMed = limite inferior da classe que contém a mediana; - PMed = posição da mediana = 2f i /∑ = xº elemento; - -F ↓ = frequência absoluta acumulada "abaixo de" da classe anterior à classe que contém a mediana; - fMe = frequência absoluta da classe que contém a mediana; - iMe = intervalo da classe que contém a mediana; Exemplo: Nascidos vivos segundo peso ao nascer, em kg. Neste caso, a mediana é dada por: Classes fi Pm ↓F 1,5 ├ 2,0 3 1,75 3 2,0 ├ 2,5 16 2,25 19 2,5 ├ 3,0 31 2,75 50 3,0 ├ 3,5 34 3,25 84 3,5 ├ 4,0 11 3,75 95 4,0 ├ 4,5 3 4,25 98 4,5 5,0 2 4,75 100 Total 100 - - PMe = (n/2)� (100/2)� 50º elemento � 3ª classe: [2,5; 3,0) 3)0,5.( 31 19-50 2,5.i f FP LIMed Med Med Med Med = += ↓− += − 1.6.3 - Moda É o valor que ocorre com maior frequência na série, ou seja, aquele que mais se repete. Exemplo: Na série 3, 4, 5, 7, 7, 7, 9, 9 � Mo = 7 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 21 � Série Unimodal (tem uma única moda) Exemplo: Na série 3, 5, 6, 6, 6, 7, 8 � Mo = 6 � Série Bimodal (ocorrem duas modas) Exemplo: Na série 2, 5, 5, 5, 6, 7, 9, 9, 9, 10, 10 � Mo1 = 5 e Mo2 = 9 � Série Trimodal (ocorrem três modas) Exemplo: Na série 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, 9, 9 � Mo1 = 4, Mo2 = 7 e Mo3 = 9 � Série Polimodal (ocorrem quatro ou mais modas) Exemplo: Na série 0, 0, 1, 3, 3, 4, 7, 8, 8, 11, 12, 12, 13, 13 � Mo1 = 0, Mo2 = 3, Mo3 = 8, Mo4 = 12 e Mo5 = 13 � Série Amodal (não existe moda) Exemplo: Na série 0, 1, 3, 4, 7, 8, não existe moda a) Dados Apresentados em uma Distribuição de Frequência Simples. Mo = elemento que tenha maior frequência Ex1.: X f 1 13 3 15 6 25 10 8 Total 61 Mo = 6 Ex2.: Tipo de Sangue f O 547 A 441 B 123 AB 25 Total 1136 Mo = sangue do tipo "O" EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 22 b) Dados Apresentados em uma Distribuição de Frequência Classes. Nesse caso, a moda pode ser determinada através de quatro processos. 1. Moda Bruta (MoB) Corresponde ao ponto médio da classe modal, ou seja, MoB = (li + ls)/2 Exemplo: Quantidade de Creatinina Classes fi 1,08 ├ 1,26 5 1,26 ├ 1,44 13 1,44 ├ 1,62 32 1,62 ├ 1,80 18 1,80 ├ 1,98 11 1,98 ├ 2,16 2 2,16 2,34 3 2. Moda de Pearson (MoP) Utilizada mais especificamente, juntamente com X e Med, para mostrar o comportamento da distribuição, em relação a concentração ou não de seus elementos. X2. -3.MedMo = Utiliza-se a MoP para a análise da assimetria. a) Assimetria à esquerda: oPMMedX << (concentração à direita ou nos valores maiores); b) Simétrica: XMedM oP == (concentração no centro); c) Assimetria à direita: XMedM oP << (concentração à esquerda ou nos valores menores). EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 23 Exemplo: Calcule a moda de Pearson para os seguintes dados X = 1,61 e Med = 1,57. X2. -3.MedMo = = 3.(1,57) - 2.(1,61) = 1,49 Análise: XMedM oP << , o que indica uma assimetria à direita, isto é, uma maior concentração à esquerda (ou em direção aos valores menores). 1.6.4 – Separatrizes São valores que dividem a distribuição em partes iguais. Mediana (Me) divide em duas partes iguais Quartis (Q1, Q2 e Q3) dividem em quatro partes iguais Decis (D1, D2, ..., D9) dividem em dez partes iguais Percentis (P1, P2, ..., P99 ) dividem em cem partes iguais São utilizadas para se conhecer, com precisão, as distribuições dos dados como um todo. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 24 Relação visual das separatrizes !-------------------!-------------------! Md !---------!---------!---------!---------! Q1 Q2 Q3 !---!---!---!---!---!---!---!---!---!---! D1 D2 D3 D4 D5 D6 D7 D8 D9 !---!---!---!---!---!---!---!---!---!---! P10 P20 P30 P40 P50 P60 P70 P80 P90 Calculam-se as separatrizes, como a Mediana, em distribuição de frequências em classe da seguinte maneira: Primeiro encontra-se a posição e em seguida identifica a classe para cada separatriz. As posições são calculadas da seguinte maneira: 1 – Posição da Mediana: PMe = 2 n 2 – Posição dos Quartis: PQx = . n 4 x , x = 1, 2, 3 3 – Posição dos Decis: PDx = . n 10 x , x = 1, 2, ..., 9 4 – Posição dos Percentis: PPx = . n 100 x , x = 1, 2, ..., 99 em que: x refere-se a determinação da separatriz (exemplo para quartil, x=1,2,3) n refere-se ao número de elementos dos dados ou distribuição. Exemplo: Considere as idades de 24 alunos da disciplina de Estatística Básica do Curso de Engenharia de Produção. Calcule os Quartis. 17 18 19 20 21 22 23 24 25 26 27 29 32 33 35 38 39 42 44 46 48 50 54 57 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 25 Calculando os quartis, temos: 1 2 3 1 24 6 elemento 4 4 2 24 12 elemento 4 3 24 18 elemento 4 o o o x n Eq Eq Mediana Eq ⋅ ⋅ = = = ⋅ = = = ⋅ = = Em relação aos quartis, encontramos os 6º, 12º e o 18º elemento da distribuição dos dados, que correspondem aos números 22, 29 e 42. Assim, podemos concluir que 25% dos alunos têm idade de até 22 anos, como também metade dos alunos têm até 29 anos de idade e 25% têm ao menos 42 anos. E, 25% dos alunos têm mais de 42 anos de idade. 1.7 - Medidas De Dispersão Utilizaremos o termo dispersão para indicar o grau de afastamento de um conjunto de números em relação a sua média, pois ainda que consideremos a média como um número que tem a faculdade de representar uma série de valores ela não pode por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. O nosso objetivo é construir medidas que avaliem a representatividade da média, para isto usaremos as medidas de dispersão. Uma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são suficientes para caracterizar totalmente uma sequência numérica. Se observarmos as seguintes sequências: X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160 Calculando a média aritmética de cada um desses conjuntos, obtemos: 70 5 350 X n x X i ========⇒⇒⇒⇒==== ∑∑∑∑ 70 5 350 Y n y Y i ========⇒⇒⇒⇒==== ∑∑∑∑ EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 26 70 5 350 Z n z Z i ========⇒⇒⇒⇒==== ∑∑∑∑ Observamos, então, que os três conjuntos apresentam a mesma média aritmética igual a 70. No entanto, são sequências completamente distintas do ponto de vista da variabilidade de dados. Na sequência X, não há variabilidade dos dados. A média 70 representa bem qualquer valor da série. Na sequência Y, a média 70 representa bem a série, mas existem elementos da série levemente diferenciados da média 70. Na sequência Z, existem muitos elementos bastante diferenciados da média 70. Concluímos que a média 70 representa otimamente a sequência X, representa razoavelmente bem a sequência Y, mas não representa bem a sequência Z. Nosso objetivo é construir medidas que avaliem a representatividade da média. Para isto, usaremos as medidas de dispersão. Observe que na sequência X os dados estão totalmente concentrados sobre a média 70, não há dispersão de dados. Na sequência Y, há forte concentração dos dados sobre a média 70, mas há fraca dispersão de dados. Já na série Z há fraca concentração de dados em torno da média 70 e forte dispersão de dados em relação à média 70. As principais medidas de dispersão absolutas são: amplitude total, variância, desvio padrão e coeficiente de variação. 1.7.1 – Variância È a medida de dispersão mais utilizada. É definida como sendo o quociente entre a soma dos quadrados dos desvios e o número de elementos. É classificada em dois tipos: Variância Populacional ( 2σ ) ⇒ ( )22 iX X N σ − = ∑ Variância Amostral (s2) ⇒ ( )22 1 iX X S n − = − ∑ EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 27 Exemplo: Calcular a variância das notas obtidas por quatro alunos em cinco provas Alunos Notas ( )2iX X−∑ ( ) 2 1 iX X n − − ∑ Variância Amostral (S2) Antônio 5 5 5 5 5 0 João 6 4 5 4 6 1 José 10 5 5 5 0 = 12,5 Pedro 10 10 5 0 0 25 (preencha os espaços em branco realizando os cálculos necessários) Comentários: • As notas de Antônio não variaram ⇒ s2 = 0; • As notas de João variaram menos que as notas de José; • As notas de Pedro variaram mais que as outras. IMPORTANTE: Quando os dados estão dispostos em uma tabela de distribuição de frequência (simples ou em classes), utiliza-se as seguintes fórmulas: 1º Caso – Frequência Simples ( ) ⋅ −⋅ − = ∑ ∑ n fx fx n s i i 2 22 1 1 ( ) ⋅ −⋅= ∑ ∑ N fx fx N i i 2 22 1σ 2º Caso – Frequência em Classes ( ) ⋅ −⋅ − = ∑ ∑ n fPm fPm n s 2 22 1 1 ( ) ⋅ −⋅= ∑ ∑ N fPm fPm N 2 22 1σ ATENÇÃO: “Desvantagem” do uso da variância No cálculo da variância, quando elevamos ao quadrado a diferença )x(x i −−−− , a unidade de medida da série fica também elevada ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 28 Logo, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Solução: Utilizar o DESVIO PADRÃO como medida. 1.7.2 - Desvio Padrão Medida de dispersão que apresenta as propriedades da variância e tem a mesma unidade de medida dos dados. É a raiz quadrada da variância. Notações: 1) Quando a sequência de dados representa uma população a variância será denotada por 2σ e o desvio padrão correspondente por σ . 2) Quando a sequência de dados representa uma amostra a variância será denotada por 2S e o desvio padrão correspondente por S . Desvio Padrão Populacional (σ) ⇒ ( ) N XX i∑ − = 2 σ Desvio Padrão Amostral (s) ⇒ ( ) 1 2 − − = ∑ n XX S i OBS: Quanto maior o valor do desvio padrão significa que mais dispersos estão os elementos em torno da média. Execício: Calcular o desvio padrão das notas obtidas por quatro alunos em cinco provas Alunos Notas ( ) 2 iX X−∑ ( )2 1 iX X n − − ∑ ( ) 2 1 iX X n − − ∑ Desvio padrão amostral (S) Antônio 5 5 5 5 5 0 João 6 4 5 4 6 1 José 10 5 5 5 0 3,535 Pedro 10 10 5 0 0 5 (preencha os espaços em branco realizando os cálculos necessários) EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 29 Interpretação do Desvio Padrão O desvio padrão é, sem dúvida, a mais importante das medidas de dispersão. É fundamental que o interessado consiga relacionar o valor obtido do desvio padrão com os dados da série. Quando uma curva de frequência representativa da série é perfeitamente simétrica ( MoMdX ======== ), podemos afirmar que os intervalos Quando a distribuição não é perfeitamente simétrica, estes percentuais apresentam pequenas variações para mais ou para menos, segundo o caso. Exemplo: Suponha uma série com média 100====x e desvio padrão 5====σσσσ , podemos interpretar estes valores da seguinte forma: 1. Os valores da série estão concentrados em torno de 100. 2. O intervalo [95, 105] contém aproximadamente 68% dos valores da série. O intervalo [90, 110] contém aproximadamente 95% dos valores da série. O intervalo [85, 115] contém aproximadamente 99% dos valores da série. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 30 1.7.3 - Coeficiente de Variação Dissemos antes que, por serem as unidades do desvio-padrão as mesmas que as unidades dos dados originais, é mais fácil entender o desvio-padrão do que a variância. No entanto, aquela mesma propriedade torna difícil comparar a variação para valores originados de diferentes populações, ou seja, quando as medidas de duas ou mais variáveis são expressas em unidades diferentes como peso/altura, capacidade/comprimento, etc. Usa-se então o Coeficiente de Variação (CV), que é uma medida relativa, que expressa o desvio padrão como uma porcentagem da média aritmética e ele não tem unidade específica. Quanto mais próximo de zero, mais homogênea é a distribuição. Quanto mais distante, mais dispersas. O CV mede a dispersão em relação à média. É a razão entre o desvio padrão e a média. O resultado obtido dessa operação é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. 100 s CV X = ⋅ OBS.: um CV alto indica que a dispersão dos dados em torno da média é muito grande. Exemplo: Alturas e Pesos de Homens. Usando os dados amostrais de alturas e pesos de 40 homens de uma turma de estatística, encontramos as estatísticas dadas na tabela a seguir. Média - X Desvio padrão - S Altura (cm) 168 7,56 Peso (kg) 72 10,98 Calcule o coeficiente de variação para altura e peso, e a seguir, compare os dois resultados. Solução: Calculando o CV para Altura: 7,56 100 100 0,045 100 4,5%. 168Altura S CV X = ⋅ = ⋅ = ⋅ = Calculando o CV para Peso: 10,98 100 100 0,1525 100 15,25%. 72Peso S CV X = ⋅ = ⋅ = ⋅ = EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 31 Reparem que se fôssemos comparar apenas o desvio padrão (fazendo isso já estaríamos errando, pois não se pode comparar desvios-padrão de populações com unidade de medição diferentes, neste caso cm e kg), iríamos erroneamente deduzir que as duas populações tinham variabilidade muito próximas. No entanto, ao calcular os coeficientes de variação para as duas populações, analisa-se que a variabilidade das alturas dos homens é quase quatro vezes menos que a variabilidade dos pesos. Isso faz sentido intuitivamente, porque vemos rotineiramente que os pesos entre homens variam muito mais do que as alturas. Por exemplo, é muito raro ver dois homens adultos com um deles tendo duas vezes a altura do outro, mas é muito comum ver dois homens com um deles pesando duas vezes o peso do outro. 1.8 - Análise Exploratória de Dados 1.8.1 - Ramo-e-Folhas Trata-se de um procedimento alternativo para se resumir e analisar um conjunto de valores, com o objetivo de se obter uma idéia da forma de sua distribuição (assimetria), com a vantagem sobre o histograma de não perder informações. Exemplo: Construir um ramo-e-folhas para o conjunto de números a seguir e comentar sobre a assimetria. a) Permanência (em dias) de hóspedes em um hotel da cidade: 1 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 6 6 6 6 6 7 7 7 8 8 9. Solução: 1 2 3 4 5 6 7 8 9 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Análise: A distribuição é aparentemente simétrica, com uma maior concentração no número 5. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 32 Exercício: Construa como no exemplo anterior, um ramo-e-folhas para o conjunto de números a seguir e comentar sobre a assimetria. a) Salário (em salários mínimos) de 36 funcionários de uma empresa produtora de alimentos enlatados: 04,00 04,56 05,25 05,73 06,26 06,66 06,86 07,39 07,44 07,59 08,12 08,46 08,74 08,95 09,13 09,35 09,77 09,80 10,53 10,76 11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99 16,22 16,61 17,26 18,75 19,40 23,30 b) Taxas de ocupação de alguns hotéis de Natal: 50,7 51,1 52,4 53,0 53,4 53,5 54,1 55,3 55,7 55,7 59,5 63,5 64,3 67,3 69,1 69,5 70,2 70,5 71,4 72,3 73,0 74,4 77,8 82,5 82,7 84,3 85,8 87,5 95,4 c) Quantidade de seringas utilizadas em Laboratórios de Análises Clínicas durante um certo período. 50 90 120 170 180 180 200 240 250 280 360 480 500 560 870 1000 1050 1100 4200 5100 1.8.2 - Esquema dos 5-Números No caso de uma distribuição com outliers, não é ideal representar um conjunto de valores com o uso da média e do desvio-padrão, pois devido a presença de valores extremos, elas foram afetados. Tukey (1970, 1977) sugeriu o uso de cinco medidas para analisar casos como esse, sendo elas: - Limite Inferior (Li) e Limite Superior ( Ls) - Q1, Q2 e Q3 Forma de representação: Ls Q2 = Med Li Q3 Q1 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 33 Notações: a) Q3 - Q1 = Intervalo interquartil (dj) b) Me - Li = Dispersão inferior c) Ls - Me = Dispersão superior. Estas cinco medidas são chamadas de estatística de ordem e são medidas resistentes de posição de uma distribuição. Dizemos que uma medida de posição é resistente quando for pouco afetada por mudanças de uma pequena porção dos dados. A mediana é uma medida resistente, ao passo que a média não o é. 1.8.3 - Box-Plot É a representação gráfica dos 5-números, em que são destacados o intervalo interquartil (dj) e as observações discrepantes, ou seja: valores menores que Q dj1 3 2 − ou maiores que Q dj3 3 2 + . (Os pontos discrepantes são representados por um asterisco ou travessão). O desenho esquemático (Figura abaixo) dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central dos valores é dada pela mediana e a dispersão por dj. As posições relativas de Q1, Q2 e Q3, dão uma noção da assimetria. As caudas são as linhas acima e abaixo do retângulo (ou caixa). (Q3 + 3/2dj) LS Q1 LI (Q1 - 3/2dj) Q2 = Med Q3 Desenho esquemático do Box-plot EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 34 UNIDADE II PROBABILIDADE 2.1 - Experimentos Aleatórios A Teoria da probabilidade é útil para analisar situações que envolvem o acaso. Jogos de dados e de cartas, ou o lançamento de uma moeda para o ar. As distribuições de probabilidade incorporam a estatística descritiva e a teoria da probabilidade. Ambas formam a base da inferência estatística. Algumas aplicações: - Na maioria dos jogos esportivos (futebol, basquete, surfe...), até certo ponto; - Na decisão de parar de imunizar pessoas com menos de 20 anos contra determinada doença; - Na decisão de arriscar-se a atravessar uma rua no meio do quarteirão; - Todas utilizam a probabilidade consciente ou inconscientemente. Um fenômeno ou experimento se diz aleatório se: a) O experimento pode ser repetido sob condições idênticas; b) Todos os possíveis resultados do experimento são conhecidos de antemão; c) Em qualquer realização do experimento, não de pode predizer com certeza, qual resultado particular ocorrerá, quando o experimento for realizado. Dito de outra forma: um experimento aleatório é aquele cuja natureza, envolve um elemento casual, que torna impossível a previsão, com certeza, de qualquer resultado particular, dentre todos os possíveis, que este experimento possa apresentar, quando de sua realização. 2.2 - Espaço Amostral É o conjunto dos distintos resultados de um experimento aleatório, e será representado por Ω . Cada elemento desse conjunto (dos resultados possíveis) é chamado ponto amostral. EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 35 2.3 - Eventos É um subconjunto do espaço amostral, isto é, é um subconjunto de todos os resultados possíveis de um experimento aleatório, e é sempre representado por letras maiúsculas A, B, etc. Se um evento A é formado por apenas um ponto amostral, A é dito evento elementar. Temos ainda que φ e Ω são eventos. O primeiro é chamado de evento impossível (nunca ocorre), o segundo é chamado de evento certo (sempre ocorre). Dado que os eventos associados a um espaço amostral são por sua vez conjuntos, podemos efetuar as operações do tipo: união, intercessão, complementação e diferença, de forma semelhante às respectivas operações que se realizam com os subconjuntos de qualquer conjunto abstrato, e formar a partir destas operações, novos eventos tais como: • { }BxouAx:xBA ∈∈=∪ , isto é: A ∪ B é o evento que ocorre sempre que ocorre A ou sempre que ocorre B, e somente neste caso. A B∪ • { }BxeAx:xBA ∈∈=∩ isto é: A ∩ B é o evento que ocorre somente quando ocorrem A e B simultaneamente. A B∩ • Ac = {x : x ∈ Ω, x ∉ A}, isto é Ac é o evento contrário de A, somente ocorre se A não ocorre, (e não ocorre, se A ocorre). Claramente nota-se que Ac ∪ A = Ω. A Ac EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 36 • A – B = {x : x ∈ A e x ∉ B}, isto é: (A – B) é o evento que ocorre unicamente quando ocorre A e não ocorre B. A-B Quando dois eventos são tais que, eles nunca podem ocorrer simultaneamente, neste caso se tem que A ∩ B = ∅, eles são chamados eventos mutuamente exclusivos ou mutuamente excludentes, (em termos de conjunto, diríamos que são conjuntos disjuntos). Seguem-se exemplos, para melhor esclarecer o acima exposto. Ex. 1. Uma fábrica produz um determinado artigo. Da linha de produção são retirados 03 artigos e cada um testado, e classificado como B (bom) ou D (defeituoso). Um espaço amostral associado ao experimento é: ΩΩΩΩ = {BBB, DDD, BBD, DBB, DDB, DBD, BDD, BDB} Ex. 2. Considere o experimento que consiste em selecionar uma família aleatoriamente, em certo distrito do Seridó, e verificar o nº de filhos que esta família já registrou. Um espaço amostral associado a este experimento é: ΩΩΩΩ = {0, 1, 2, 3, 4, ...} Ex. 3. Seja agora o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar. Um espaço amostral pode ser: ΩΩΩΩ = R+, isto é, ΩΩΩΩ = {t : t≥0} Ex. 4. Um dado é lançado e o nº que aparece na face superior é observado. Um espaço amostral é: ΩΩΩΩ = {0, 1, 2, 3, 4, 5, 6} Com exceção do exemplo 3, que é contínuo, todos os demais são espaços amostrais do tipo chamado discreto. Um espaço amostral é discreto quando é formado por um conjunto contável (finito ou infinito). Caso contrário, ele é dito contínuo. Consideremos novamente o Ex. 1. Sejam os eventos associados a este espaço, tais como: • A = “obter dois artigos defeituosos”. Logo, A = {DDB, DBD, BDD} • B =“obter no mínimo 1 artigo bom”. Logo, B={DDB, DBD, BDD, BBD, BDB, DBB, BBB} • C = “obter no máximo 1 artigo defeituosos”. Logo, C = {BBB, BBD, BDB, DBB} A B EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 37 Então poderemos ter, por exemplo, os novos eventos (resultantes das operações). • A ∩ B = {DDB, DBD, BDD} = A • A ∩ C = ∅, (portanto A e C são incompatíveis ou mutuamente exclusivos ou excludentes). • A ∪ C = {BBB, BBD, DBB, DDB, DBD, BDD, BDB} • Bc = {DDD}, (portanto Bc é um evento elementar). Consideremos agora o exemplo 3 (espaço amostral contínuo), e seja A o evento dado por: A = “o tempo de vida da lâmpada é inferior a 20 horas”. Então, A = {t : 0 ≤ t < 20} e Ac = (t ≥ 20}. Naturalmente que A ∪ Ac = (t : t ≥ 0) = Ω é o evento certo. E observe que, sempre, A∩Ac=∅, para qualquer evento A. Obs.: Vale a pena lembrar as leis de MORGAN, referente a álgebra de conjuntos: • (A ∪ B)c = Ac ∩ Bc (o complementar da união é igual à interseção dos complementares) • (A ∩ B)c = Ac ∪ Bc (o complementar da interseção é igual à união dos complementares) 2.4 - Resultados Equiprováveis Muitos experimentos aleatórios sugerem que os distintos resultados de um espaço amostral finito estejam associados, cada um deles, a um mesmo valor p, que representa a probabilidade de sua ocorrência. Por exemplo, em um lançamento de um dado honesto se tem que o espaço amostral finito é formado por: ΩΩΩΩ = {1, 2, 3, 4, 5, 6} e cada ponto amostral tem a mesma probabilidade de ocorrência que será neste caso, p = 1/6. Suponha, por exemplo, que sorteamos numa urna com n bolas numeradas, 1, 2, 3, ..., n, uma bola ao acaso. A probabilidade de cada bola (cada ponto amostral) será 1/n. Se um evento A, associado a este espaço é formado por K pontos, digamos A = 1, 2, ..., 10, (n>10), então se tem : n 10 n 1 .10)A(P == º ( ) º n de elementos do evento A casos favoráveis P A n de elementos do espaço casos possíveis = ⇒ Ω EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 38 2.5 - Formulação Axiomática do Conceito de Probabilidade Este conceito de probabilidade se estabelece a partir de uma função real P(A), definida sobre os eventos associados a um espaço amostral, a qual faz corresponder a cada subconjunto A, de Ω (sendo este subconjunto um evento), um nº real, tal que cumpra os seguintes axiomas: a) 0 ≤ P(A) ≤ 1 b) P(Ω) = 1 c) Se A e B são eventos mutuamente exclusivos, isto é A ∩ B = ∅, então se tem que P(A∪B) = P(A) + P(B). Obs.: Esta definição axiomática é mais abrangente que a regra de Laplace, dado que a definição clássica se limita aos espaços amostrais finitos equiprováveis. 2.5.1 - Teoremas Fundamentais do Cálculo das Probabilidades a) Se ∅ é um conjunto vazio, então � P(∅∅∅∅) = 0; b) Sejam A e B eventos quaisquer, então � P(A ∪∪∪∪ B) = P(A) + P(B) – P(A ∩∩∩∩ B); c) Se Ac é o complementar de A, então � P(Ac) = 1 – P(A); d) Se A ⊂ B então � P(A) ≤≤≤≤ P(B); 2.6 - Probabilidade Condicional Sejam A e D, eventos quaisquer, associados a um espaço amostral sendo P(D) > 0. Muitos problemas envolvem o cálculo da probabilidade da ocorrência de A, quando já se tem a informação de que houve a ocorrência de D. Isto é, a probabilidade de A será calculada considerando-se a condição de que já houve a ocorrência de D. Esta nova informação (de que D ocorreu) equivale a restringir o espaço amostral, que agora será considerado como o conjunto dos pontos amostrais que formam o evento D. E, a probabilidade de A, dentro desta condição, chama-se “probabilidade condicional de A, dado que D ocorreu”. A qual será escrita sob a forma: P(A / D), sendo definida como: )D(P )DA(P )D/A(P ∩ = , com P(D) > 0 EST0312– Estatística Aplicada a Engenharia Civil – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 39 Desta relação acima, obtemos a chamada REGRA DO PRODUTO DE PROBABILIDADE, dada por: P(A ∩∩∩∩ D) = P(D) · P(A / D) ou P(A ∩∩∩∩ D) = P(A) · P(D / A) Esta regra pode ser estendida para mais de dois eventos: Sejam A1, A2, … , An eventos quaisquer associados a Ω, então: P(A1 ∩∩∩∩ A2 ∩∩∩∩ ... ∩∩∩∩ An) = P(A1)·P(A2/A1)·P(A3/A1 ∩∩∩∩ A2)· ...· P(An/A1 ∩∩∩∩ A2 ∩∩∩∩ … ∩∩∩∩ An-1) Exemplo: Um par de dados “honestos” é lançado. Qual a probabilidade de ocorrer o nº 2 em pelo menos um dos dados, se já tem a informação de que ocorreu que a soma dos nº é igual a seis? Solução: Sejam os eventos: A: “a soma dos dois dados é 6” B: “ocorre o nº 2 em pelo menos um dos dados”
Compartilhar