Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA O presente material foi elaborado com o objetivo de facilitar as atividades em sala de aula, seguindo a bibliografia apresentada no final do texto. Esclarece-se que o material, não substitui a bibliografia apresentada, portanto, é necessário consultar os livros recomendados. Profa. Sachiko Araki Lira . 2º. SEMESTRE DE 2014 SUMÁRIO ii SUMÁRIO ESTATÍSTICA DESCRITIVA ........................................................................................................ 1 1.1 Variável Aleatória ................................................................................................................ 2 1.2 Tipos de Escalas e Variáveis............................................................................................... 4 1.3 Tabelas ............................................................................................................................... 5 1.3.1 Normas para apresentação de tabelas ............................................................................. 5 1.3.2 Tabelas de distribuição de frequências............................................................................. 6 1.3.2.1 Variável Discreta ........................................................................................................... 6 1.3.2.2 Variável Contínua .......................................................................................................... 8 1.4 Gráficos ............................................................................................................................... 9 1.4.1 Representação Gráfica ..................................................................................................... 9 1.4.2 Histograma de Frequências.............................................................................................. 9 1.4.3 Diagrama de Ramo e Folhas (Stem and Leaf Plot) ........................................................ 10 1.4.4 Gráfico de Boxplot ou da Caixa ...................................................................................... 11 1.4.5 Gráfico de Linhas ........................................................................................................... 12 1.5 Medidas de Posição, Variabilidade e Forma da Distribuição ............................................. 12 1.5.1 Medidas de Posição ....................................................................................................... 13 1.5.1.1 Esperança matemática ou média aritmética ................................................................ 13 1.5.1.2 Mediana ...................................................................................................................... 15 1.5.1.3 Moda ........................................................................................................................... 18 1.5.2 Separatrizes ................................................................................................................... 20 1.5.2.1 Quartil.......................................................................................................................... 20 1.5.3 Medidas de Dispersão .................................................................................................... 22 1.5.3.1 Amplitude Total ........................................................................................................... 22 1.5.3.2 Amplitude Interquartil ................................................................................................... 23 1.5.3.3 Desvio Médio ............................................................................................................... 23 1.5.3.4 Variância e Desvio Padrão .......................................................................................... 24 1.5.3.5 Coeficiente de Variação............................................................................................... 27 1.5.4 Forma da Distribuição .................................................................................................... 27 1.5.4.1 Coeficiente do momento de assimetria ........................................................................ 27 1.5.4.2 Coeficiente do momento de curtose ............................................................................ 28 Lista de Exercícios no. 1 – Estatística Descritiva ..................................................................... 31 ELEMENTOS DE PROBABILIDADES ....................................................................................... 34 2.1 Experimento Aleatório (E) ................................................................................................ 34 2.2 Espaço Amostral (S) ......................................................................................................... 34 2.3 Evento ............................................................................................................................... 34 2.3.1 Evento Complementar .................................................................................................... 35 2.3.2 Eventos Independentes .................................................................................................. 35 2.3.3 Eventos Mutuamente Exclusivos .................................................................................... 36 2.4 Definição Clássica de Probabilidade ................................................................................. 37 2.5 Definição Axiomática de Probabilidade ............................................................................. 37 2.6 Probabilidade Condicional ................................................................................................. 37 2.7 Teorema da Probabilidade Total ....................................................................................... 38 2.8 Teorema de Bayes ............................................................................................................ 39 Lista de Exercícios no. 2 - Probabilidades ............................................................................... 40 VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADES .............. 43 3.1 Definições ......................................................................................................................... 43 3.2 Distribuições de Probabilidades Discretas ......................................................................... 46 3.2.1 Distribuição binomial ...................................................................................................... 46 3.2.2 Distribuição de Poisson .................................................................................................. 48 3.2.3 Distribuição Hipergeométrica .......................................................................................... 50 SACHIKO ARAKI LIRA iii Lista de Exercícios no. 3 – Distribuições de Probabilidades Discretas .................................... 52 VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADES .............. 54 4.1 Definições ......................................................................................................................... 54 4.2 Distribuições de Probabilidades Continuas ........................................................................ 56 4.2.1 Distribuição Exponencial ................................................................................................ 56 4.2.2 Distribuição normal ou Gaussiana .................................................................................. 57 4.3.2.1 Distribuição normal padronizada ou reduzida .............................................................. 59 4.3.3 Distribuição 2 ( qui-quadrado)...................................................................................... 61 4.3.4 Distribuição“ t ” de Student ............................................................................................ 62 4.3.5 Distribuição F de Snedecor ............................................................................................ 63 Lista de Exercícios no. 4 – Distribuições de Probabilidades Contínuas ................................... 64 NOÇÕES DE AMOSTRAGEM E DISTRIBUIÇÕES AMOSTRAIS.............................................. 66 5.1 Introdução ......................................................................................................................... 66 5.2 Amostragem Probabilística ................................................................................................ 66 5.2.1 Amostragem Aleatória Simples (AAS) ............................................................................ 66 5.2.2 Amostragem Sistemática ................................................................................................ 67 5.2.3 Amostragem Estratificada............................................................................................... 68 5.3 Distribuições Amostrais ..................................................................................................... 68 5.3.1 Distribuição Amostral de Médias .................................................................................... 68 5.3.2 Distribuição Amostral de Proporções .............................................................................. 72 5.3.3 Distribuição Amostral da Variância ................................................................................. 72 ESTIMAÇÃO DE PARÂMETROS .............................................................................................. 74 6.1 Introdução ......................................................................................................................... 74 6.2 Estimador e Estimativa ...................................................................................................... 74 6.3 Qualidades de um Estimador ............................................................................................ 74 6.4 Estimação por Pontos ....................................................................................................... 75 6.4.1 Estimador da Média Populacional .................................................................................. 75 6.4.2 Estimador da Variância Populacional ............................................................................. 75 6.4.3 Estimador do Desvio Padrão Populacional ..................................................................... 76 6.4.4 Estimador da Proporção Populacional ............................................................................ 76 6.5 Estimação por Intervalo ..................................................................................................... 76 6.5.1 Intervalo de Confiança para Média populacional ............................................................ 76 6.5.2 Intervalo de Confiança para Diferença entre Duas Médias Populacionais 1 e 2 ......... 80 6.5.3 Intervalo de Confiança para a Variância Populacional .................................................... 84 6.5.4 Intervalo de Confiança para o Desvio Padrão Populacional ........................................... 85 6.5.5 Intervalo de Confiança para Proporção Populacional ..................................................... 86 6.6 Dimensionamento da Amostra .......................................................................................... 87 6.6.1 Estimação da Média Populacional .................................................................................. 87 6.6.2 Estimação da Proporção Populacional ........................................................................... 88 Lista de Exercícios no. 5 - Intervalos de Confiança ................................................................ 89 TESTES DE HIPÓTESES .......................................................................................................... 92 7.1 Etapas para Testes de Hipóteses ...................................................................................... 92 7.1.1 Nível de Significância ..................................................................................................... 92 7.1.2 Erro Estatístico ............................................................................................................... 93 7.2 Testes Estatísticos Paramétricos ...................................................................................... 93 7.2.1 Teste para a Média Populacional ................................................................................... 93 7.2.1.1 Quando a variância populacional 2 é Conhecida ...................................................... 93 7.2.1.2 Quando a variância populacional 2 é desconhecida ................................................. 95 7.2.2 Teste para a Proporção Populacional ............................................................................. 96 7.2.3 Teste para a Variância Populacional .............................................................................. 98 7.2.4 Teste para a Diferença entre Duas Médias Populacionais............................................ 100 7.2.4.1 Quando as variâncias populacionais 2 1 e 2 2 são Conhecidas ................................ 100 7.2.4.2 Quando as variâncias populacionais 2 1 e 2 2 são Desconhecidas .......................... 102 7.2.5 Duas Amostras Emparelhadas ..................................................................................... 106 7.2.6 Teste para Igualdade de Duas Variâncias .................................................................... 107 SUMÁRIO iv Lista de Exercícios no. 6 – Testes de Hipóteses ................................................................... 110 TESTES DE ADERÊNCIA ....................................................................................................... 113 8.1 Teste Qui-quadrado de Aderência ................................................................................... 113 8.2 Teste de Lilliefors ............................................................................................................ 117 Lista de Exercícios no. 7 – Testes de Aderência ................................................................... 119 ANÁLISE DA VARIÂNCIA ........................................................................................................ 121 9.1 Fundamentos da ANOVA ................................................................................................ 121 9.2 Análise da Variância a um Critério de Classificação ........................................................ 123 9.3 Comparações Múltiplas entre Médias .............................................................................. 128 9.3.1 Teste de Scheffé .......................................................................................................... 128 Lista de Exercícios no. 8 – Análise da Variância ................................................................... 131 ANÁLISE DE CORRELAÇÃO E REGRESSÃO SIMPLES ....................................................... 133 10.1 Introdução ..................................................................................................................... 133 10.2 Diagrama de Dispersão ................................................................................................. 133 10.3 Análise de Correlação ................................................................................................... 134 10.3.1 Coeficiente de Correlação Linear de Pearson ............................................................ 134 10.3.1.1 Teste de Hipóteses para Coeficiente de Correlação ................................................136 10.4 Análise de Regressão Linear Simples ........................................................................... 137 10.4.1 Estimação dos Parâmetros ......................................................................................... 138 10.4.2 Testes de Hipóteses na Regressão Linear ................................................................ 141 10.4.2.1Teste t ..................................................................................................................... 141 10.4.2.2 Análise da Variância ................................................................................................ 141 10.4.3 Coeficiente de Determinação ou Explicação............................................................... 144 10.5 Ajuste de Curva Geométrica (ou Função Potência) ....................................................... 147 10.5.1 Estimativa dos Coeficientes ........................................................................................ 148 10.5.2 Testes de Hipóteses ................................................................................................... 149 10.5.2.1 Análise da Variância ................................................................................................ 149 10.5.3 Coeficiente de Determinação ou Explicação............................................................... 149 10.6 Ajuste de Função Exponencial ...................................................................................... 152 10.6.1 Estimativa dos Coeficientes ........................................................................................ 153 10.6.2 Testes de Hipóteses ................................................................................................... 154 10.6.2.1 Análise da Variância ................................................................................................ 154 10.6.3. Coeficiente de Determinação ou Explicação .............................................................. 154 Lista de Exercícios no. 9 – Análise de Correlação e Regressão ............................................ 158 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA ..................................................................... 160 11.1 Regressão Linear com 2 Variáveis Independentes ........................................................ 160 11.1.1 Estimativas dos Coeficientes de Regressão ............................................................... 161 1.1.2 Teste para Verificar a Existência de Regressão ........................................................... 161 11.1.3 Cálculo do Coeficiente de Determinação ou Explicação ............................................. 161 Lista de Exercícios no. 10 – Análise de regressão Linear Múltipla ........................................ 166 BIBLIOGRAFIA ........................................................................................................................ 168 TABELA A1.1 – ÁREAS SOB A CURVA NORMAL ............................................................... 169 TABELA A1.2 – ÁREAS SOB A CURVA NORMAL ............................................................... 170 TABELA A2 - DISTRIBUIÇÃO ‘ t ’ DE STUDENT .................................................................. 171 TABELA A3 - DISTRIBUIÇÃO DE 2 .................................................................................. 172 TABELA A4 - DISTRIBUIÇÃO ‘F’ DE SNEDECOR (Nível de Significância 1%) .................... 173 TABELA A5 - DISTRIBUIÇÃO ‘F’ DE SNEDECOR (Nível de Significância de 5%) ............... 174 TABELA A6 - DISTRIBUIÇÃO ‘F’ DE SNEDECOR (Nível de Significância de 10%) ............. 175 TABELA A7 - VALORES CRÍTICOS )cd( PARA TESTE DE LILLIERFORS ....................... 176 SACHIKO ARAKI LIRA 1 ESTATÍSTICA DESCRITIVA INTRODUÇÃO Estatística é a ciência que trata da coleta, organização, descrição, análise e interpretação dos dados experimentais. O diagrama abaixo mostra o contexto em que se situa o estudo completo da Estatística, aqui subdividido em Estatística Descritiva e Estatística Indutiva (ou Inferência Estatística). FIGURA 1 - ESQUEMA GERAL DA ESTATÍSTICA FONTE: COSTA NETO (1994), p. 04. A Estatística Descritiva é a parte que trata da organização e descrição de dados, através dos cálculos de médias, variâncias, estudo de gráficos, tabelas etc. A Teoria das Probabilidades permite-nos modelar os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza. É uma ferramenta fundamental para a inferência estatística. A Estatística Indutiva compreende um conjunto de técnicas baseadas em probabilidades, que a partir de dados amostrais, permite-nos tirar conclusões sobre a população de interesse. A Amostragem é o ponto de partida para um estudo estatístico. O estudo de qualquer fenômeno, seja ele natural, social, econômico ou biológico, exige a coleta e a análise de dados estatísticos. A coleta de dados é, pois, a fase inicial de qualquer pesquisa. A População é o conjunto de todas as observações potenciais sobre determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos, constitui uma amostra da população. É a partir do dado amostral, que se desenvolvem os estudos, com o objetivo de se fazer inferências sobre a população. Estatística Descritiva Amostragem Cálculo das Probabilidade s Estatística Indutiva ESTATÍSTICA DESCRITIVA 2 1 ESTATÍSTICA DESCRITIVA O objetivo da estatística descritiva é organizar os dados e apresentá-los de forma a possibilitar a visualização das informações subjacentes (que não são observáveis). As técnicas estatísticas e gráficas, disponíveis para a análise exploratória de dados, podem ser aplicadas a qualquer conjunto de dados, sejam para dados populacionais ou amostrais. O parâmetro é uma medida numérica que descreve de forma reduzida alguma característica de uma população ou universo. É habitualmente representado por letras gregas. Por exemplo: μ (média), σ (desvio padrão), ρ (coeficiente de correlação). O parâmetro normalmente é desconhecido e, deseja-se estimar através de dados amostrais. Estatística ou medida amostral é uma medida numérica que descreve alguma característica de uma amostra. É habitualmente representada por letras latinas. Por exemplo: X (média), S (desvio padrão), r (coeficiente de correlação). Em resumo, a análise exploratória de dados permite organizar os dados através de tabelas, gráficos e medidas de localização e dispersão, procurando mostrar um padrão ou comportamento de um conjunto de dados. 1.1 VARIÁVEL ALEATÓRIA Variável aleatória é aquela cujo valor numérico não é conhecido antes da sua observação. Esta tem uma distribuição de probabilidades associada, o que permite calcular a probabilidade de ocorrência de certos valores. Geralmente, utilizam-se letras maiúsculas (X, Y, Z...) para designar as variáveis aleatórias, e minúsculas (x, y, z...) para indicar particulares valores dessas variáveis. O comportamento de uma variável aleatória é descrito por sua distribuição de probabilidade. Exemplo: Suponha que em um lote de 10 parafusos, 2 são defeituosos. A variável aleatória X=número de parafusos defeituosos, na escolha de 3 parafusos com reposição, pode assumir os seguintes valores: DDDsse,3 PDDsouDPDsouDDPsse,2 PPDsouPDPsouDPPsse,1 PPPsse,0 )s(X sendo P=perfeito e D=defeituoso. DISTRIBUIÇÃO DE PROBABILIDADES DA VARIÁVEL ALEATÓRIA X xX )xX(P 0 512,0)108( 3 1 384,0)102()108(3 2 2 096,0)102()108(3 2 3 008,0)10/2( 3 SACHIKO ARAKI LIRA 3A função de repartição ou função de distribuição acumulada da v. a X é definida por Rx,)xX(P)x(F XX , ou seja, é definida como sendo a probabilidade de X assumir um valor menor ou igual a x. Para o exemplo tem-se: FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA DA VARIÁVEL ALEATÓRIA X xX )xX(P )x(F X 0 512,0)108( 3 0,512 1 384,0)102()108(3 2 0,896 2 096,0)102()108(3 2 0,992 3 008,0)10/2( 3 1,000 1.1.1 ARREDONDAMENTO DE NÚMEROS 1. Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o último número que permanecer. Exemplo: seja o número 48,231, ao arredondar para 2 casas decimais ficará 48,23. 2. Quando o primeiro algarismo a ser abandonado for 6, 7, 8 ou 9, aumenta-se de uma unidade o último algarismo a permanecer. Exemplo: o número 23,077, ao arredondar para 2 casas decimais ficará 23,08. 3. Quando o primeiro algarismo a ser abandonado for 5, haverá duas formas: a) como regra geral, aumenta-se de uma unidade o último algarismo a permanecer. Exemplo: 12,5253 ficará 12,53. b) se ao 5 só seguirem zeros, o último algarismo a ser conservado só será aumentado se for ímpar. Exemplo: 24,7750 passa a ser 24,78 24,7650 passa a ser 24,76. Exemplos: arredondar os números dados para 2 casa decimais. 17,44452 ficará 17,44; 179,5673 ficará 179,57; 87,4931 ficará 87,49; 4,5652 ficará 4,57; 4,5650 ficará 4,56; 4,575 ficará 4,58. ESTATÍSTICA DESCRITIVA 4 4. Quando houver parcelas e total, e ocorrer diferença no arredondamento, deve-se fazer correção na parcela (ou parcelas) onde o erro relativo for menor. Exemplo: 2,4 para 2 13,4 14 16,1 16 ----- ---- 31,9 32 1.2 TIPOS DE ESCALAS E VARIÁVEIS Uma variável pode se apresentar das seguintes formas, quanto aos valores assumidos: 1.o Escala nominal: é aquela que permite o agrupamento da unidade de observação (unidade da pesquisa) de acordo com uma classificação qualitativa em categorias definidas, ou seja, consiste simplesmente em nomear ou rotular, não sendo possível estabelecer graduação ou ordenamento. Ao se trabalhar com essa escala, cada unidade de observação deve ser classificada em uma e somente uma categoria, isto é, deve ser mutuamente excludente. Por exemplo, seja X, a variável, estado de uma peça de automóvel. Neste caso, a variável X assume as categorias “perfeita” e “defeituosa”, sendo denominada dicotômica. Quando assume mais de duas categorias é denominada politômica. Não tem significado aritmético ou de quantificação, não se faz cálculos, apenas a contagem. 2.o Escala ordinal: permite o agrupamento da unidade de observação de acordo com uma ordem de classificação. A escala ordinal fornece informações sobre a ordenação das categorias, mas não indica a grandeza das diferenças entre os valores. Exemplo: Seja X a variável que indica a qualidade de um determinado produto. Tem-se então: A (indicando melhor qualidade), B (qualidade intermediária) e C (pior qualidade). 3.º Escala intervalar: é uma escala ordinal em que a distância entre as categorias é sempre a mesma. As escalas para medir temperaturas como a Fahrenheit e a Centígrada são exemplos de escalas de intervalo. Não se pode afirmar que 40 graus é duas vezes mais quente que uma temperatura de 20 graus, embora se possa dizer que a diferença entre 20 graus e 40 graus é a mesma que entre 75 graus e 95 graus. 4.º Escala de razão: quando uma escala tem todas as características de uma escala intervalar e o zero absoluto representa o ponto de origem, é chamada escala de razão. Sempre que possível, é preferível utilizar a medida de escala de razão, pois a partir desta pode-se transformar em escala intervalar, ordinal ou nominal, não ocorrendo o inverso. De acordo com o nível de mensuração, a variável pode ser classificada em qualitativa ou quantitativa. Variável qualitativa é aquela cujo nível de mensuração é nominal ou ordinal, enquanto a quantitativa é aquela em que o nível de mensuração é intervalar ou de razão. SACHIKO ARAKI LIRA 5 A variável quantitativa pode ser ainda discreta ou contínua, sendo a primeira resultante de contagem, assumindo somente valores inteiros, e a última de medições, assumindo qualquer valor no campo dos números reais. Apresentam-se, a seguir, os conceitos de variáveis quantitativas discretas e contínuas. Variável aleatória discreta: uma variável aleatória X é discreta se o conjunto de valores possíveis de X for finito ou infinito numerável. Variável aleatória contínua: a variável aleatória X é chamada de contínua quando o seu contradomínio é um conjunto infinito. Variável Qualitativa Quantitativa Nominal Ordinal Discreta Contínua FIGURA 2 - TIPOS DE VARIÁVEIS Exemplo de aplicação: Seja uma população de peças produzidas em um determinado processo. É possível ter as seguintes situações: VARIÁVEL TIPO Estado: Conforme ou Não-conforme Qualitativa Nominal Qualidade: 1ª., 2ª. ou 3ª. categoria Qualitativa Ordinal Número de peças conformes Quantitativa Discreta Comprimento das peças Quantitativa Contínua 1.3 TABELAS 1.3.1 NORMAS PARA APRESENTAÇÃO DE TABELAS Uma tabela deve apresentar os dados de forma resumida, oferecendo uma visão geral do comportamento do fenômeno analisado. Uma tabela é constituída dos seguintes elementos: 1 - Título: é a indicação que precede a tabela e contém a identificação de três fatores do fenômeno. a) A data a qual se refere; ESTATÍSTICA DESCRITIVA 6 b) o local onde ocorreu o evento; c) o fenômeno que é descrito. 2 - Cabeçalho: é a parte superior da tabela que especifica o conteúdo das colunas. 3 - Corpo da tabela: é o espaço que contém as informações sobre o fenômeno observado. 4 - Fonte: é a indicação da entidade responsável pelo levantamento dos dados. 1.3.2 TABELAS DE DISTRIBUIÇÃO DE FREQUÊNCIAS Serão apresentados alguns conceitos importantes para a construção de tabelas de frequências. Dados brutos: É o conjunto de dados numéricos obtidos e que ainda não foram organizados. Rol: É o arranjo dos dados brutos em ordem crescente (ou decrescente). Amplitude (At): É a diferença entre o maior e o menor dos valores observados. Frequência absoluta ( if ): É o número de vezes que um elemento aparece no conjunto de dados: k 1i i nf onde n é o número total de observações e k é o número de valores diferentes observados. Frequência Relativa ( rf ): n f f ir e 1f k 1i r Frequência Absoluta Acumulada ( acf ): É a soma da frequência absoluta do valor i assumida pela variável com todas as frequências absolutas anteriores. 1.3.2.1 VARIÁVEL DISCRETA Quando uma variável quantitativa discreta assume poucos valores, pode-se considerar que cada valor seja uma classe e que existe uma ordem natural nessas classes. Exemplo: Os dados que seguem apresentam os resultados da inspeção diária de todas as unidades de computadores produzidos durante os últimos 10 dias. O número de unidades não- conformes são: 4 - 7 - 5 - 8 - 6 - 6 - 4 - 5 - 8 - 7 SACHIKO ARAKI LIRA 7 TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS DO NÚMERO DE UNIDADES NÃO CONFORMES DE COMPUTADORES PRODUZIDOS DURANTE 10 DIAS NÚMERO DE DEFEITOS FREQUÊNCIA 4 2 5 2 6 2 7 2 8 2 FONTE: MONTEGOMERY, D. C. NOTA: A produção diária é de 100 computadores. Número de Classes (k) Quandose tratar de uma variável quantitativa discreta que pode assumir um grande número de valores distintos, a construção da tabela de frequências e de gráficos considerando cada valor como uma categoria fica inviável. A solução é agrupar os valores em classes ao elaborar a tabela. Segundo Bussab e Morettin, a escolha dos intervalos dependerá do conhecimento que o pesquisador tem sobre os dados. Assim, a definição do número de intervalos ou classes é arbitrária. Mas, vale lembrar que, quando se utiliza um pequeno número de intervalos pode-se perder informações, e ao contrário, com um grande número de intervalos pode-se prejudicar o resumo dos dados. Existem duas soluções para a definição do número de intervalos bastante utillizadas, que são: 1) Se o número de elementos (n) for menor ou igual a 25 então o número de classes (k) é igual a 5; se n for maior que 25, então o número de classes é aproximadamente a raiz quadrada positiva de n. Ou seja: Para n 25, k = 5 Para n > 25, k = n 2) Fórmula de Sturges para número de classes: )n(log3,31k . Amplitude total ou “range” (At): É a diferença entre o maior e o menor valor observados no conjunto de dados. minmáxt XXA Amplitude dos intervalos ou das classes (h): É a divisão da amplitude total (At) pelo número de intervalos (k). Ou seja: h k At ESTATÍSTICA DESCRITIVA 8 1.3.2.2 VARIÁVEL CONTÍNUA Quando a variável quantitativa em estudo é contínua, que assume muitos valores distintos, o agrupamento dos dados em classes será sempre necessário, na construção das tabelas de frequências. Exemplo 1: A tabela abaixo apresenta as medidas de uma dimensão de uma peça produzida por um processo de usinagem. Construir a tabela de distribuição de frequências em classes. 102,8 - 136,4 - 110,1 - 115,9 - 118,5 - 149,3 - 125,3 - 144,8 - 129,7 - 132,7 135,0 – 108,2 - 138,1 - 138,6 - 139,6 - 144,4 - 125,9 - 145,2 - 145,7 – 120,4 ROL: 102,8 - 108,2 - 110,1 - 115,9 - 118,5 - 120,4 - 125,3 - 125,9 - 129,7 - 132,7 135,0 - 136,4 - 138,1 - 138,6 - 139,6 - 144,4 - 144,8 - 145,2 - 145,7 - 149,3 50,468,1023,149XXA minmáxt 5k 103,9 5 50,46 k A h t TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS DAS MEDIDAS DE UMA DIMENSÃO DE UMA PEÇA PRODUZIDA POR UM PROCESSO DE USINAGEM INTERVALO DE CLASSES if rf fac 102,8 |--- 112,8 3 0,15 3 112,8 |--- 122,8 3 0,15 6 122,8 |--- 132,8 4 0,20 10 132,8 |--- 142,8 5 0,25 15 142,8 |--- 152,8 5 0,25 20 TOTAL 20 1,00 FONTE: Elaborada pelo autor. Exemplo 2: O tempo necessário para se realizar certa operação industrial foi cronometrado (em segundos), sendo feita 30 determinações: 45 - 37 - 39 - 48 - 51 - 40 - 53 - 49 - 39 - 41 - 45 - 43 - 45 - 34 - 45 41 - 57 - 38 - 46 - 46 - 58 - 57 - 36 - 58 - 35 - 31 - 59 - 44 - 57 - 35 SACHIKO ARAKI LIRA 9 ROL: 31 - 34 - 35 - 35 - 36 - 37 - 38 - 39 - 39 - 40 - 41 -41 - 43 - 44 - 45 45 - 45 - 45 - 46 - 46 - 48 - 49 - 51 - 53 - 57- 57 - 57 - 58 - 58 – 59 28,03159XXA minmáxt 65,87)30log(3,31k (fórmula de Sturges) 54,7 6 28 k A h t TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS DO TEMPO NECESSÁRIO PARA SE REALIZAR CERTA OPERAÇÃO INDUSTRIAL INTERVALO DE CLASSES if rf fac 31 |---- 36 4 0,13 4 36 |---- 41 6 0,20 10 41 |---- 46 8 0,27 18 46 |---- 51 4 0,13 22 51 |---- 56 2 0,07 24 56 |---- 61 6 0,20 30 TOTAL 30 1,00 FONTE: Elaborada pelo autor. 1.4 GRÁFICOS 1.4.1 REPRESENTAÇÃO GRÁFICA O objetivo do gráfico é passar para o leitor uma visão clara do comportamento do fenômeno em estudo, uma vez que os gráficos transmitem informação mais imediata do que uma tabela. A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais: a) Simplicidade: O gráfico deve ser destituído de detalhes de importância secundária. b) Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. c) Veracidade: o gráfico deve ser a verdadeira expressão do fenômeno em estudo. 1.4.2 HISTOGRAMA DE FREQUÊNCIAS Este é um gráfico usado para apresentar dados organizados em intervalos de classes, utilizado principalmente para representar a distribuição de variáveis contínuas. ESTATÍSTICA DESCRITIVA 10 1.4.3 DIAGRAMA DE RAMO E FOLHAS (STEM AND LEAF PLOT) Este diagrama é muito útil para uma primeira análise dos dados. Passos para construir um diagrama de ramo e folhas: 1. ordenar os valores para encontrar o valor mínimo e máximo dos dados; 2. dividir cada número ix em duas partes: um ramo, consistindo em um ou mais dígitos iniciais, e uma folha, consistindo nos dígitos restantes ; 3. listar os valores do ramo em uma coluna vertical; 4. a partir dai colocam-se os valores na folha . O valor zero, significa que há informação e que é um número inteiro. Já, quando naquele valor inteiro não existe observações, não colocar nada, deixar em branco; 5. escrever as unidades para o ramo e folhas no gráfico. Considerando os dados do exemplo 1: Os dados referem-se às medidas de uma dimensão de uma peça produzida por um processo de usinagem. 102,8 - 108,2 - 110,1 - 115,9 - 118,5 - 120,4 - 125,3 - 125,9 - 129,7 - 132,7 135,0 - 136,4 - 138,1 - 138,6 - 139,6 - 144,4 - 144,8 - 145,2 - 145,7 - 149,3 RAMO FOLHA FREQ. 10 2 8 2 11 0 5 8 3 12 0 5 5 9 4 13 2 5 6 8 8 9 6 14 4 4 5 5 9 5 HISTOGRAMA DE FREQUÊNCIAS 0 1 2 3 4 5 6 7 8 9 10 Classes Freq. 76 105 134 163 221192 250 SACHIKO ARAKI LIRA 11 Considerando os dados do exemplo 2, tem-se: O tempo necessário para se realizar certa operação industrial foi cronometrado (em segundos): 31 - 34 - 35 - 35 - 36 - 37 - 38 - 39 - 39 - 40 - 41 -41 - 43 - 44 - 45 45 - 45 - 45 - 46 - 46 - 48 - 49 - 51 - 53 - 57- 57 - 57 - 58 - 58 – 59 RAMO FOLHA FREQ. 3 1 4 5 5 6 7 8 9 9 9 4 0 1 1 3 4 5 5 5 5 6 6 8 9 13 5 1 3 7 7 7 8 8 9 8 1.4.4 GRÁFICO DE BOX PLOT OU DA CAIXA Comprimento da caixa = amplitude interquartílica = Q3 - Q1 A linha central do retângulo (“caixa”) representa a mediana da distribuição. As bordas superior e inferior do retângulo representam os quartis 1 e 3, respectivamente. Logo, a altura deste retângulo é chamada de amplitude interquartílica (IQ). Os traços horizontais ao final das linhas verticais são traçados sobre o último ponto (de um lado ou de outro) que não é considerado um outlier. Não há um consenso sobre a definição de um outlier. Porém, no caso do box plot em geral, a maior parte das definições considera que pontos acima do valor do 3º quartil somado a 1,5 vezes ESTATÍSTICA DESCRITIVA 12 a IQ ou os pontos abaixo do valor do 1º quartil diminuído de 1,5 vezes a IQ, são considerados outliers. 1.4.5 GRÁFICO DE LINHAS O gráfico de linhas é indicado para representar séries temporais ou sequência temporal, que é um conjunto de dados em que as observações são registradas na ordem em que elas ocorrem. Este tipo de gráfico é importante para a análise do controle de processo de produção e de séries temporais. A seguir, o gráfico de controle de média das medidas dos diâmetros internos (mm) de anéis de pistão de motores de automóveis, de 25 amostras, cujos tamanhos de amostras variam entre 3 e 5. 1.5 MEDIDAS DE POSIÇÃO, VARIABILIDADE E FORMA DA DISTRIBUIÇÃO Estimador ou estatísticaé uma função dos valores da amostra, ou seja, é uma variável aleatória, pois depende dos elementos selecionados para compor a amostra. Ao analisarmos a distribuição de frequências de uma variável quantitativa, proveniente de uma amostra, deve-se, verificar basicamente três características: Medidas de posição; Medidas de variabilidade ou diispersão; Medida da forma. SACHIKO ARAKI LIRA 13 1.5.1 MEDIDAS DE POSIÇÃO A média e a mediana, indicam, por critérios diferentes, o centro da distribuição de frequências. Assim, é comum chamar também de medidas de tendência central. 1.5.1.1 ESPERANÇA MATEMÁTICA OU MÉDIA ARITMÉTICA A esperança matemática ou média aritmética de uma variável aleatória X é o centro de gravidade do conjunto de dados, e é definida como a soma de todos os valores da variável dividida pelo número de observações. a) Para dados simples A esperança matemática ou média aritmética populacional é dada pela expressão: N 1i ix N 1 )X(E A média aritmética amostral é obtida através da seguinte expressão: n 1i ix n 1 X b) Para dados agrupados em classes N fx )X(E k 1i i i (população) onde: k é o número de classes; ix é o ponto médio das classes. n fx X k 1i i i (amostra) onde: k é o número de classes; ix é o ponto médio das classes. Propriedades da Esperança Matemática 1. K)X(E)KX(E , sendo k=constante e X v.a. 2. )X(Ek)K.X(E 3. Sejam X e Y variáveis aleatórias. Então: )Y(E)X(E)YX(E 4. Sejam X e Y variáveis aleatórias independentes. Então: )Y(E.)X(E)Y.X(E ESTATÍSTICA DESCRITIVA 14 5. 0)XX(E v.a. centrada A média e os valores extremos: a média apresenta um grave problema, ela é fortemente influenciada pelos valores extremos. Por esta razão, deve-se fazer uma análise cuidadosa dos dados. Exemplos de aplicação: 1) Suponha que um engenheiro esteja projetando um conector de náilon para ser usado em uma aplicação automotiva. O engenheiro estabelece como especificação do projeto uma espessura de 3/32 polegadas, mas está inseguro acerca do efeito dessa decisão na força da remoção do conector. Oito unidades do protótipo são produzidas e suas forças de remoção são medidas (em libras- força): 12,6 - 12,9 - 13,4 - 12,3 - 13,6 - 13,5 - 12,6 - 13,1. A média da força de remoção será: n 1i ix n 1 X 0,13 8 104 1,136,125,136,133,124,139,126,12 8 1 X libras-força 2) Considere a seguinte distribuição: TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS DO TEMPO NECESSÁRIO PARA SE REALIZAR CERTA OPERAÇÃO INDUSTRIAL INTERVALO DE CLASSES if rf fac 31 |---- 36 4 0,13 4 36 |---- 41 6 0,20 10 41 |---- 46 8 0,27 18 46 |---- 51 4 0,13 22 51 |---- 56 2 0,07 24 56 |---- 61 6 0,20 30 TOTAL 30 1,00 FONTE: Elaborada pelo autor. Calcular o tempo médio necessário para realizar a operação industrial. Solução: INTERVALO DE CLASSES if ix iifx 31 |---- 36 4 33,5 134,0 36 |---- 41 6 38,5 231,0 41 |---- 46 8 43,5 348,0 46 |---- 51 4 48,5 194,0 51 |---- 56 2 53,5 107,0 56 |---- 61 6 58,5 351,0 TOTAL 30 1365,0 SACHIKO ARAKI LIRA 15 45,50 30 1365 n fx X k 1i i i 3) Seja a distribuição de frequências a seguir. Calcular a média das medidas da dimensão das peças. TABELA DE DISTRIBUIÇÃO DE FREQUENCIAS DAS MEDIDAS DE UMA DIMENSÃO DE UMA PEÇA PRODUZIDA POR UM PROCESSO DE USINAGEM INTERVALO DE CLASSES if rf fac 102,8 |--- 112,8 3 0,15 3 112,8 |--- 122,8 3 0,15 6 122,8 |--- 132,8 4 0,20 10 132,8 |--- 142,8 5 0,25 15 142,8 |--- 152,8 5 0,25 20 TOTAL 20 1,00 FONTE: Elaborada pelo autor. INTERVALO DE CLASSES if ix iifx 102,8 |--- 112,8 3 107,8 323,4 112,8 |--- 122,8 3 117,8 353,4 122,8 |--- 132,8 4 127,8 511,2 132,8 |--- 142,8 5 137,8 689,0 142,8 |--- 152,8 5 147,8 739,0 TOTAL 20 2616,0 130,8 20 2616 n fx X k 1i i i 1.5.1.2 MEDIANA A mediana é o valor que ocupa a posição central do conjunto de observações de uma variável, dividindo o conjunto em duas partes iguais, sendo que 50% dos dados tomam valores menores ou iguais ao valor da mediana e os 50% restantes, acima do seu valor. ESTATÍSTICA DESCRITIVA 16 a) Para dados simples Etapas para a obtenção da mediana: 1. ordenar os dados em ordem crescente (pode ser também na ordem decrescente, mas não é comum e pode atrapalhar na hora de calcular as medidas de posição) 2. o lugar ou posição que a mediana ocupa é: 1 4 )1n( 2PosMe 3. o valor da mediana é o valor da variável que ocupa o lugar ePosM . A mediana é independente dos valores extremos, porque ela só leva em consideração os valores de posição central. Exemplo de aplicação: 1) Considerando-se as forças de remoção, medidas em uma amostra de oito unidades do protótipo (em libras-força): 12,6 - 12,9 - 13,4 - 12,3 - 13,6 - 13,5 - 12,6 - 13,1. Rol: 12,3 - 12,6 - 12,6 - 12,9 - 13,1 - 13,4 - 13,5 - 13,6 5,41 4 )18( 2PosM e A mediana é a média aritmética dos valores que ocupam a posição 4 e 5. Logo, 13,0 2 1,139,12 Me 2) Os dados que seguem são os resultados da inspeção diária de todas as unidades de computadores produzidos durante os últimos 10 dias. O número de unidades não-conformes são: 4 - 7 - 5 - 8 - 6 - 6 - 4 - 5 - 8 - 7 Calcular a mediana. Rol: 4 - 4 - 5 - 5 - 6 - 6 - 7 - 7 - 8 - 8 5,51 4 )110( 2PosM e 6 2 66 Me b) Dados agrupados em classes h f fac)2n( LM i ie SACHIKO ARAKI LIRA 17 onde: iL é o limite inferior da classe que contém a mediana; n é o número de elementos do conjunto de dados; fac' é a freqüência acumulada da classe anterior a que contém a mediana; if é a freqüência simples da classe que contém a mediana; h é o intervalo ou amplitude da classe que contém a mediana. 1) Seja a distribuição de frequências a seguir. Calcular a mediana das medidas da dimensão das peças. INTERVALO DE CLASSES if 102,8 |--- 112,8 3 112,8 |--- 122,8 3 122,8 |--- 132,8 4 132,8 |--- 142,8 5 142,8 |--- 152,8 5 TOTAL 20 Solução: 1) O passo inicial é calcular 10 2 20 2 n ; 2) Calcular as frequências acumuladas ( acf ). INTERVALO DE CLASSES if acf 102,8 |--- 112,8 3 3 112,8 |--- 122,8 3 6 122,8 |--- 132,8 4 10 132,8 |--- 142,8 5 15 142,8 |--- 152,8 5 20 TOTAL 20 h f fac)2n( LM i ie 132,810 4 6)220( 8,122Me ESTATÍSTICA DESCRITIVA 18 2) Considerando a distribuição a seguir, calcular a mediana. INTERVALO DE CLASSES if 31 |---- 36 4 36 |---- 41 6 41 |---- 46 8 46 |---- 51 4 51 |---- 56 2 56 |---- 61 6 TOTAL 30 Solução: INTERVALO DE CLASSES if acf 31 |---- 36 4 4 36 |---- 41 6 10 41 |---- 46 8 18 46 |---- 51 4 22 51 |---- 56 2 14 56 |---- 61 6 30 TOTAL 30 15 2 30 2 n h f fac)2n( LM i ie 44,1255 8 10)15( 41Me 1.5.1.3 MODA a) Para dados simples A moda, representada poroM , é o valor que apresenta maior frequência. Ela pode não existir (distribuição amodal), ter somente um valor (unimodal) ou pode ter dois ou mais (bimodal ou multimodal), principalmente quando a variável assume muitos valores. Exemplo: 1) Considerando-se as forças de remoção, medidas em uma amostra de oito unidades do protótipo (em libras-força): 12,6 - 12,9 - 13,4 - 12,3 - 13,6 - 13,5 - 12,6 - 13,1. Para o exemplo tem-se que a moda é igual a 12,6 libras-força. SACHIKO ARAKI LIRA 19 b) Dados agrupados em classes X2M3M eo ( moda de Pearson) onde: eM é a mediana da distribuição de dados; X é a média da distribuição de dados. 1) Dada a distribuição de freqüências a seguir, calcular a moda. INTERVALO DE CLASSES if 31 |---- 36 4 36 |---- 41 6 41 |---- 46 8 46 |---- 51 4 51 |---- 56 2 56 |---- 61 6 TOTAL 30 Solução: Tem-se que a média e a mediana da distribuição são, respectivamente: 45,50X 44,125Me Logo, a moda será: 41,37550,452125,443X2M3M eo 2) Seja a distribuição de frequências a seguir. Calcular a moda das medidas da dimensão das peças. INTERVALO DE CLASSES if 102,8 |--- 112,8 3 112,8 |--- 122,8 3 122,8 |--- 132,8 4 132,8 |--- 142,8 5 142,8 |--- 152,8 5 TOTAL 20 Solução: Tem-se que a média e a mediana da distribuição são, respectivamente: ESTATÍSTICA DESCRITIVA 20 130,8X 132,810 4 6)220( 8,122Me 136,88,13028,1323X2M3M eo 1.5.2 SEPARATRIZES A idéia de mediana é a de dividir o conjunto ordenado de dados em dois subconjuntos com igual número de elementos. Essa idéia pode ser generalizada, tem-se assim, os chamados quartis, decis e percentis. Os quartis dividem o conjunto de dados em quatro partes iguais, os decis em dez partes iguais e os percentis, em cem partes iguais. 1.5.2.1 QUARTIL São três medidas )QeQ,Q( 321 que dividem o conjunto de dados em 4 partes iguais, sendo que a cada quartil correspondem 25% dos dados. a) Para dados simples 1 4 )1n( iPosQ i , 3,2,1i Exemplo 1: Os dados a seguir são diâmetros (em cm) de peças de automóveis: 12,3 - 12,6 - 12,6 - 12,9 - 13,1 - 13,4 - 13,5 - 13,6 - 15,0 Calcular os quartis. 3,01 4 )19( 1PosQ 1 (3º elemento) , logo 6,12Q1 5,01 4 )19( 2PosQ 2 (5º elemento) , logo 1,13Q2 7,0 1 4 )19( 3PosQ 3 (7º elemento) , logo 5,13Q3 Exemplo 2: Os dados abaixo são as medidas de uma dimensão de uma peça produzida por um processo de usinagem. 102,8 - 108,2 - 110,1 - 115,9 - 118,5 - 120,4 - 125,3 - 125,9 - 129,7 - 132,7 135,0 - 136,4 - 138,1 - 138,6 - 139,6 - 144,4 - 144,8 - 145,2 - 145,7 - 149,3 Calcular os quartis (1,2 e 3) . SACHIKO ARAKI LIRA 21 5,751 4 )120( 1PosQ 1 (5,75º elemento) , logo 119,92575,0*)5,1184,120(5,118Q1 10,51 4 )120( 2PosQ 2 (10,5º elemento) , logo 133,855,0*)7,1320,135(7,132Q2 15,25 1 4 )120( 3PosQ 3 (15,25º elemento) , logo 140,8025,0*)6,1394,144(6,139Q3 b) Para dados agrupados em classes 4 n iPosQ i , 3,2,1i h f fac)PosQ( LQ i i ii onde: n é o número de elementos do conjunto de dados; iL é o limite inferior da classe que contém o quartil; fac' é a freqüência acumulada da classe anterior a que contém o quartil; if é a freqüência simples da classe que contém o quartil; h é o intervalo ou amplitude da classe que contém a mediana. Exemplos: 1) Seja a distribuição de frequências a seguir. Calcular os quartis 1,2 e 3, das medidas da dimensão das peças. INTERVALO DE CLASSES if acf 102,8 |--- 112,8 3 3 112,8 |--- 122,8 3 6 122,8 |--- 132,8 4 10 132,8 |--- 142,8 5 15 142,8 |--- 152,8 5 20 TOTAL 20 Solução: a) 5 4 20 1PosQ 1 ESTATÍSTICA DESCRITIVA 22 119,4710 3 35 8,1121Q 10 4 20 2PosQ 2 132,8010 4 610 8,1222Q 15 4 20 3PosQ 3 142,8010 5 1015 8,132Q3 2) Dada a distribuição de frequências a seguir, calcular os quartis 1,2 e 3. INTERVALO DE CLASSES if 31 |---- 36 4 36 |---- 41 6 41 |---- 46 8 46 |---- 51 4 51 |---- 56 2 56 |---- 61 6 TOTAL 30 1.5.3 MEDIDAS DE DISPERSÃO Para descrever adequadamente a distribuição de frequências de uma variável quantitativa, além da informação do valor representativo da variável (tendência central), é necessário dizer também o quanto estes valores variam, ou seja, o quanto eles são dispersos. Somente a informação sobre a tendência central de um conjunto de dados não consegue representá-lo adequadamente. As medidas de dispersão medem o grau de variabilidade ou dispersão dos dados. 1.5.3.1 AMPLITUDE TOTAL A amplitude total mede a distância entre o valor máximo e mínimo. Ela é uma estatística rudimentar, pois embora forneça uma noção de dispersão, não diz qual é sua natureza. minmáxt XXA Exemplo de aplicação: Exemplo 1: Os dados a seguir são diâmetros (em cm) de peças de automóveis: 12,3 - 12,6 - 12,6 - 12,9 - 13,1 - 13,4 - 13,5 - 13,6 - 15,0 Tem-se que: SACHIKO ARAKI LIRA 23 7,23,120,15XXA minmáxt 1.5.3.2 AMPLITUDE INTERQUARTIL A amplitude interquartil, ou comprimento da caixa, é a distância entre o primeiro e terceiro quartil. É muito útil para detectar valores extremos, e é usado no diagrama de Box plot. 13 QQQI Exemplo: considerando o dados referentes aos diâmetros (em cm) de peças de automóveis e os quartis correspondentes, já calculados anteriormente, calcular a amplitude interquartil. 3,01 4 )19( 1PosQ 1 (3º elemento) , logo 6,12Q1 7,0 1 4 )19( 3PosQ 3 (7º elemento) , logo 5,13Q3 9,06,125,13IQ Para a construção do gráfico box plot, tem-se: IQ5,1Qeriorinfitelim 1 IQ5,1Qeriorsupitelim 3 Para o exemplo em questão: 25,119,05,16,12eriorinfitelim 85,149,05,15,13eriorsupitelim Existe um valor outlier, que é 15,0. 1.5.3.3 DESVIO MÉDIO a) Para dados simples O desvio médio é a média dos valores absolutos dos desvios. É calculada através da expressão: n Xx DM n 1i i Exemplo de aplicação: Os dados a seguir são diâmetros (em cm) de peças de automóveis: 12,3 - 12,6 - 12,6 - 12,9 - 13,1 - 13,4 - 13,5 - 13,6 - 15,0. Tem-se que: 22,13X ESTATÍSTICA DESCRITIVA 24 QUADRO 3 - VALORES DA VARIÁVEL X E DES- VIOS ABSOLUTOS EM RELAÇÃO À MÉDIA ix Xx i 12,3 0,92 12,6 0,62 12,6 0,62 12,9 0,32 13,1 0,12 13,4 0,18 13,5 0,28 13,6 0,38 15,0 1,78 5,22 58,0 9 22,5 n Xx DM n 1i i b) Para dados agrupados em classes n fXx DM k 1i ii Dada a distribuição de freqüências a seguir, calcular o desvio médio. Sabe-se que 50,45X . INTERVALO DE CLASSES if ix Xx i ii fXx 31 |---- 36 4 33,5 12,0 48 36 |---- 41 6 38,5 7,0 42 41 |---- 46 8 43,5 2,0 16 46 |---- 51 4 48,5 3,0 12 51 |---- 56 2 53,5 8,0 16 56 |---- 61 6 58,5 13,0 78 TOTAL 30 212 07,70667,7 30 212 n fXx DM k1i ii 1.5.3.4 VARIÂNCIA E DESVIO PADRÃO A variância da variável aleatória, representada por )X(V ou 2 , é obtida elevando-se os desvios em relação à media ao quadrado. Quando se extrai a raiz quadrada da variância, tem-se o desvio padrão. Propriedades da Variância 1. 0)k(V , onde k=constante SACHIKO ARAKI LIRA 25 2. )X(Vk)kX(V 2 , onde k=constante e X v.a. 3. Sejam X e Y v.a. independentes. Então: )Y(V)X(V)YX(V 4. Sejam X e Y v.a. não independentes (ou dependentes). Então: )Y,X(COV2)Y(V)X(V)YX(V )Y,X(COV2)Y(V)X(V)YX(V onde: )Y(E)X(E)XY(E)Y,X(COV (covariância) a) Para dados simples A variância e o desvio padrão populacional são obtidas pelas expressões: N 1i 22 ix N 1 (variância) 2 (desvio padrão) A variância e o desvio padrão amostral são obtidas pelas expressões: n 1i 2 2 Xx 1n 1 S i (variância) 2 SS (desvio padrão) Exemplo de aplicação: Considerando o exemplo tem-se: QUADRO 4 - VALORES DA VARIÁVEL X E DESVIOS SIMPLES E QUADRÁTICOS EM RELA- ÇÃO À MÉDIA iX Xx i 2Xx i 12,3 -0,92 0,8464 12,6 -0,62 0,3844 12,6 -0,62 0,3844 12,9 -0,32 0,1024 13,1 -0,12 0,0144 13,4 0,18 0,0324 13,5 0,28 0,0784 13,6 0,38 0,1444 15,0 1,78 3,1684 5,1556 0,6445 19 1556,5 Xx 1n 1 S n 1i i 2 2 0,80S b) Para dados agrupados em classes A variância e o desvio padrão populacional são obtidas pelas expressões: ESTATÍSTICA DESCRITIVA 26 N fx f fx k 1i 2 i k 1i k 1i 2 i 2 i i i (variância) 2 (desvio padrão) A variância e o desvio padrão amostral são obtidas pelas expressões: 1n fXx 1f fXx S k 1i 2 i k 1i k 1i 2 i 2 i i i (variância) 2 SS (desvio padrão) Exemplo: Seja a distribuição de frequências a seguir. Calcular variância e o desvio padrão. INTERVALO DE CLASSES if ix if)Xx( 2 i 102,8 |--- 112,8 3 107,8 1587,0 112,8 |--- 122,8 3 117,8 507,0 122,8 |--- 132,8 4 127,8 36,0 132,8 |--- 142,8 5 137,8 245,0 142,8 |--- 152,8 5 147,8 1445,0 TOTAL 20 3820,0 Dados: 130,8X 0526,201 120 3820 1n fXx S k 1i 2 i 2 i 18,14S Exercício: Dada a distribuição de frequências a seguir, calcular a variância e o desvio padrão. INTERVALO DE CLASSES if 31 |---- 36 4 36 |---- 41 6 41 |---- 46 8 46 |---- 51 4 51 |---- 56 2 56 |---- 61 6 TOTAL 30 SACHIKO ARAKI LIRA 27 1.5.3.5 COEFICIENTE DE VARIAÇÃO É uma medida de dispersão relativa. É definido como o quociente entre o desvio padrão e a média, multiplicado por 100, para expressar porcentagem. Em algumas situações é desejável comparar o grau de dispersão de dois conjuntos de dados com unidades de medidas diferentes. Neste caso, deve-se usar o coeficiente de variação (CV), que é uma medida de dispersão relativa, e ela não é afetada pelas unidades de medida da variável. Ou ainda, quando as médias dos dois conjuntos de dados são muito distintas, neste caso faz-se necessário utilizar uma medida de dispersão relativa. 100CV coeficiente de variação populacional 100 X S CV coeficiente de variação amostral Exemplo de aplicação: Para o exemplo tem-se: Dados: 130,8X ; 18,14S Logo, %84,10100 8,130 18,14 CV 1.5.4 FORMA DA DISTRIBUIÇÃO A distribuição de frequências de uma variável pode ter várias formas, mas existem três formas básicas, apresentadas através de histogramas e suas respectivas ogivas, que são gráficos específicos para distribuições de frequências. A distribuição é simétrica, quando as observações estão igualmente distribuídas em torno de um valor mais frequente (metade acima e metade abaixo). Já, a assimetria de uma distribuição pode ocorrer de duas formas: assimetria positiva; assimetria negativa. Em alguns casos, apenas o conhecimento da forma da distribuição de freqüências de uma variável já nos fornece uma boa informação sobre o comportamento dessa variável. 1.5.4.1 COEFICIENTE DO MOMENTO DE ASSIMETRIA 23 i 2 i 3 i k 1i i k 1i 3 f)Xx( n 1 f)Xx( n 1 a Uma distribuição é classificada como: ESTATÍSTICA DESCRITIVA 28 Simétrica: 0a3 e tem-se que média=mediana=moda Assimétrica negativa: 0a 3 e tem-se que média mediana moda Assimétrica positiva: 0a3 e tem-se que moda mediana média Graficamente: FIGURA 3: CLASSIFICAÇÃO DAS DISTRIBUIÇÕES QUANTO A ASSIMETRIA 1.5.4.2 COEFICIENTE DO MOMENTO DE CURTOSE A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta distribuição. O coeficiente momento de curtose é definido como sendo: 2 k 1i 2 k 1i 4 4 ii ii f)Xx( n 1 f)Xx( n 1 a Se 3a4 , a distribuição é platicúrtica e esta apresenta uma curva de frequência mais aberta, com os dados fracamente concentrados em torno de seu centro. Se 3a4 , a distribuição é mesocúrtica e os dados estão razoavelmente concentrados em torno de seu centro. Se 3a4 , a distribuição é leptocúrtica e esta apresenta uma curva de frequência bastante fechada, com os dados fortemente concentrados em torno de seu centro. A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em uma distribuição de frequências. Uma distribuição é classificada quanto ao grau de achatamento como: Assimetria positiva Simétrica Assimetria negativa SACHIKO ARAKI LIRA 29 FONTE: COSTA NETO (1994) Exemplo 1: Para a distribuição de frequências das medidas da dimensão das peças apresentadas a seguir e as estatísticas já calculadas anteriormente, calcular os coeficientes de assimetria e curtose. INTERVALO DE CLASSES if 102,8 |--- 112,8 3 112,8 |--- 122,8 3 122,8 |--- 132,8 4 132,8 |--- 142,8 5 142,8 |--- 152,8 5 TOTAL 20 Solução: INTERVALO DE CLASSES if ix )Xx( i ii f)Xx( i 2 i f)Xx( i 3 i f)Xx( i 4 i f)Xx( 102,8 |--- 112,8 3 107,8 -23 -69 1.587 -3.6501 839.523 112,8 |--- 122,8 3 117,8 -13 -39 507 -6.591 85.683 122,8 |--- 132,8 4 127,8 -3 -12 36 -108 324 132,8 |--- 142,8 5 137,8 7 35 245 1.715 12.005 142,8 |--- 152,8 5 147,8 17 85 1.445 24.565 417.605 TOTAL 20 0 3.820 -16.920 1.355.140 -0,3205 820.3 20 1 )920.16(20 1 f)Xx( n 1 f)Xx( n 1 a 23 2 3 23 i k 1i i k 1i ii 3 A distribuição apresenta assimetria negativa. ESTATÍSTICA DESCRITIVA 30 1,8573 820.3 20 1 140.355.1 20 1 f)Xx( n 1 f)Xx( n 1 a 22 i 2 i i 4 i k 1i k 1i 4 A distribuição é platicúrtica. Exemplo 2: Dada a distribuição de freqüências a seguir, calcular a assimetria e curtose. INTERVALO DE CLASSES if 31 |---- 36 4 36 |---- 41 6 41 |---- 46 8 46 |---- 51 4 51 |---- 56 2 56 |---- 61 6 TOTAL 30 Solução: INTERVALO DE CLASSES if ix )Xx( i ii f)Xx( i 2 i f)Xx( i 3 i f)Xx( i 4 i f)Xx( 31 |---- 36 4 33,5 -12 -48 576 -6.912 82.944 36 |---- 41 6 38,5 -7 -42 294 -2.058 14.406 41 |---- 46 8 43,5 -2 -16 32 -64 128 46 |---- 51 4 48,5 3 12 36 108 324 51 |---- 56 2 53,5 8 16 128 1.024 8.192 56 |---- 61 6 58,5 13 78 1.014 13.182 171.366 TOTAL 30 0 2.080 5.280 277.360 0,3049 080.2 30 1 )280.5( 30 1 f)Xx( n 1 f)Xx( n 1 a 23 2 3 23 i k 1i i k 1i ii 3 A distribuição apresenta assimetria ligeiramente positiva. 1,9230 080.2 30 1 360.277 30 1 f)Xx( n 1 f)Xx( n 1 a 22 i 2 i i 4 i k 1i k 1i 4 A distribuição é platicúrtica. SACHIKO ARAKI LIRA 31 LISTA DE EXERCÍCIOS NO. 1 – ESTATÍSTICA DESCRITIVA 1. Conceitue: a) População ou Universo; b) Amostra; c) Parâmetro; d) Estatística ou medida amostral; e) Variável aleatória discreta e exemplifique; f) Variável aleatória contínua e exemplifique. 2. Uma importante característica de qualidade da água é a concentração de material sólido suspenso. Em seguida são apresentadas 30 medidas de sólidos suspensos de um certo lago. 42,4 - 65,7 - 29,8 - 58,7 - 52,1 - 55,8 - 57,0 - 68,7 - 67,3 - 67,3 - 54,3 - 54,0 - 73,1 - 81,3 - 59,9 56,9 - 62,2 - 69,9 - 66,9 - 59,0 - 56,3 - 43,3 - 57,4 - 45,3 - 80,1 - 49,7 - 42,8 - 42,4 - 59,6 - 65,8 a) construir a distribuição de frequências em classes; b) calcular as frequências relativa e acumulada; c) construir o histograma de frequências. 3. O tempo necessário para se realizar certa operação industrial foi cronometrado (em segundos), sendo feita 40 determinações: 45 - 37 - 39 - 48 - 51 - 40 - 53 - 49 - 39 - 41 - 45 - 43 - 45 – 34 - 45 - 35 41 - 57 - 38 - 46 - 46 - 58 - 57 - 36 - 58 - 35 - 31 - 59 - 44 - 57 - 45 - 44 38 - 43 - 33 - 56 - 47 - 48 - 44 - 49 a) construir a distribuição de frequências em classes; b) calcular as frequências relativa e acumulada; c) construir o histograma de frequências. 4. Foram obtidos oito medidas do diâmetro interno de anéis de pistão forjados de um motor de um automóvel. Os dados (em mm) são: 74,001 - 74,003 - 74,015 - 74,000 - 74,005 - 74,002 - 74,005 - 74,004 Calcule a média, a mediana, a moda, o desvio médio , o desvio padrão e o coeficiente de variação da amostra. 5. Os tempos de esgotamento de um fluído isolante entre eletrodos a 34 kV, em minutos são: 0,19 - 0,78 - 0,96 - 1,31 - 2,78 - 3,16 - 4,15 - 4,67 - 4,85 - 6,50 - 7,35 - 8,01 - 8,27 - 12,06 - 31,75 - 32,52 - 33,91 - 36,71 - 72,89. Calcule a média, mediana, quartil 1, quartil 3, desvio padrão e coeficiente de variação e comente os resultados obtidos. 6. O pH de uma solução é medido oito vezes por uma operadora que usa o mesmo instrumento. Ela obteve os seguintes dados: 7,15 - 7,20 - 7,18 - 7,19 - 7,21 - 7,20 -7,16 - 7,18 Faça uma análise estatística dos dados e comente. ESTATÍSTICA DESCRITIVA 32 7. Prevenir a propagação de trinca de fadiga em estruturas de aviões é um importante elemento de segurança em aeronaves. Um estudo de engenharia para investigar a trinca de fadiga em n=9 asas reportou os seguintes comprimentos (em mm) de trinca: 2,13 - 2,96 - 3,02 - 1,82 - 1,15 - 1,37 - 2,04 - 2,47 - 2,60 Calcule a média, os quartis (1,2 e 3), o desvio padrão e o coeficiente de variação da amostra. Comente os resultados obtidos. 8. Uma amostra de 7 corpos de prova de concreto forneceu as seguintes resistências à ruptura ( 2cm/kg ) : 340 - 329 - 337 - 348 - 351 - 360 - 354 Calcular a média, mediana, moda, variância, desvio padrão e coeficiente de variação. Comente os resultados obtidos. 9. O tempo necessário para se realizar certa operação industrial foi cronometrado (em segundos), sendo feita 20 determinações: 45 - 37 - 39 - 48 - 51 - 40 - 53 - 49 - 39 - 41 - 45 - 43 - 45 – 34 - 45 - 35 - 38 - 46 - 46 - 58 Faça uma análise estatística dos dados construindo a distribuição de freqüências em classes(calcule também as medidas de assimetria e curtose). 10. As taxas de octanagem de combustível para motor, de várias misturas de gasolina foram obtidas: 88,5 - 94,7 - 84,3 - 90,1 - 89,0 - 89,8 - 91,6 - 90,3 - 90,0 - 91,5 - 89,9 98,8 - 88,3 - 90,4 - 91,2 - 90,6 - 92,2 - 87,7 - 91,1 - 86,7 - 93,4 - 96,1 Faça uma análise estatística dos dados (calcule também as medidas de assimetria e curtose). 11. A propagação de trincas por fadiga em diversas peças de aeronaves tem sido objeto de muitos estudos. Os dados a seguir consistem dos tempos de propagação (horas de vôo/104) para atingir um determinado tamanho de trinca em furos de fixadores propostos para uso em aeronaves militares. 0,736 - 0,863 - 0,865 - 0,913 - 0,915 - 0,937 - 0,983 - 1,007 1,011 - 1,064 - 1,109 -1,132 - 1,140 - 1,153 - 1,253 - 1,394 a) Calcule e compare os valores da média e mediana amostrais; b) calcule o desvio médio, desvio padrão e o coeficiente de variação; c) qual é a conclusão sobre a forma da distribuição (assimetria e curtose)? 12. O tempo necessário para se realizar certa operação industrial foi cronometrado (em segundos), sendo feita 12 medições: 45 – 37 – 39 – 48 – 51 – 40 - 53 – 49 – 39 – 41- 45 – 43 a) calcular Q1 (quartil 1), Q2 (quartil 2) e Q3 (quartil 3); b) construir o gráfico Box plot. SACHIKO ARAKI LIRA 33 13. As taxas de octanagem de combustível para motor, de várias misturas de gasolina foram obtidas: 88,5 - 94,7 – 80,0 - 90,1 - 89,0 - 89,8 - 91,6 - 90,3 - 90,0 - 91,5 - 89,9 a) calcular Q1 (quartil 1), Q2 (quartil 2) e Q3 (quartil 3); b) construir o gráfico Box plot. ELEMENTOS DE PROBABILIDADES 34 ELEMENTOS DE PROBABILIDADES DEFINIÇÕES 2.1 EXPERIMENTO ALEATÓRIO (E) Definição 1: É o fenômeno que, mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. O resultado final depende do acaso. 2.2 ESPAÇO AMOSTRAL (S) Definição 2: É o conjunto formado por todos os resultados possíveis em qualquer experimento aleatório. Exemplos: a) Inspecionar uma peça de automóvel. conformenão,conformeS ; b) Tomar uma válvula eletrônica e verificar o tempo de vida. 0x,RxS ; c) Inspecionar uma lâmpada. defeituosanão,defeituosaS ; d) Medir o conteúdo de cobre no latão. %90x%50,RxS 2.3 EVENTO Definição 3: É umsubconjunto do espaço amostral S de um experimento aleatório. Exemplo: Seja o espaço amostral )n,n(),c,n(),n,c(),c,c(S , resultado do experimento de seleção de duas peças, sendo c=peça conforme e n=peça não conforme. Suponha que A seja o subconjunto de resultados para os quais, no mínimo uma peça seja conforme. Então o evento A será: )c,n(,)n,c(),c,c(A . S A SACHIKO ARAKI LIRA 35 Por serem subconjuntos, é possível realizar a operação de união (U) entre conjuntos. A União de Eventos representa a ocorrência de um evento OU de outro. Outra operação que pode ser feita sobre Eventos é a intersecção (∩). A intersecção de eventos representa a ocorrência de um E de outro. União de eventos => BA Interseção de eventos => BA 2.3.1 EVENTO COMPLEMENTAR O evento complementar do evento A, representado por A , é aquele que ocorre somente se A deixar de ocorrer. E tem-se que: SAAAA => 1)AA(P AAAA Ø => 0)AA(P Seja o evento A, obter número 4 na face superior no lançamento de um dado 4A . O evento complementar A será: 6,5,3,2,1A 2.3.2 EVENTOS INDEPENDENTES Quando a realização ou não realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Exemplos: 1) No lançamento de dois dados qual é a probabilidade de obter o nº 4 no primeiro dado e o nº 3 no segundo dado ? 61)1dadono4.no(P)1(P 61)2dadono3.no(P)2(P 3616161)2(P)1(P)2E1(P)21(P A B A B BA ELEMENTOS DE PROBABILIDADES 36 2) Suponha que numa produção diária de 850 peças fabricadas contenha 50 peças que não satisfaçam as exigências dos consumidores. Duas peças são selecionadas, sendo que a primeira peça é reposta antes da segunda ser selecionada. Qual é a probabilidade das duas peças serem defeituosas? %35,00035,0 850 50 850 50 )DeD(P 2.3.3 EVENTOS MUTUAMENTE EXCLUSIVOS Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que, ao se realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: )B(P)A(P)BOUA(P)BA(P Exemplos: 1) No lançamento de um dado qual a probabilidade de se tirar o nº 3 ou o nº 4 ? Os dois eventos são mutuamente exclusivos então: 316161)4.no(P)3.no(P)BOUA(P)BA(P 2) Um parafuso é selecionado aleatoriamente de um lote de 100 parafusos, sendo que 15 apresentam pequenos defeitos e 10 são não-conformes (não aceitáveis). Qual é a probabilidade do parafuso selecionado ser: a) Perfeito ou apresentar pequeno defeito? b) Apresentar pequeno defeito ou não-conforme? Solução: 15,0 100 15 )defeitopequeno(P 10,0 100 10 )conformenão(P A B S SACHIKO ARAKI LIRA 37 75,0 100 75 )perfeito(P a) 90,0 100 15 100 75 )defeitopequenoouperfeito(P b) 25,0 100 10 100 15 )conformenãooudefeitopequeno(P 2.4 DEFINIÇÃO CLÁSSICA DE PROBABILIDADE Seja A um subconjunto do espaço amostral S. Então, se todos os resultados elementares de S são equiprováveis, a medida da probabilidade de ocorrência do evento A é dada por: )S(n )A(n Semelementosdenúmero Aemelementosdenúmero )A(P 2.5 DEFINIÇÃO AXIOMÁTICA DE PROBABILIDADE Seja o espaço amostral S associado a um certo experimento. A cada evento SA associa-se um número real representado por )A(P , chamado de probabilidade de A , satisfazendo as propriedades: 1) 1)A(P0 2) 1)S(P (ou seja, a probabilidade do evento certo é igual a 1 ) 3) sejam A e B dois eventos mutuamente exclusivos. A probabilidade de ocorrência de A ou B é igual à soma das probabilidades individuais. )B(P)A(P)BouA(P 2.6 PROBABILIDADE CONDICIONAL Definição 4: Sejam A e B eventos de um experimento E, com 0)B(P . Então a probabilidade condicional do evento A dado que B tenha ocorrido é: )B(P )BA(P )B|A(P , EA Exemplo: A tabela a seguir fornece um exemplo de 400 itens classificados por falhas na superfície e como defeituosos (funcionalmente). DEFEITUOSO FALHAS NA SUPERFÍCIE Sim Não TOTAL Sim 10 18 28 Não 30 342 372 TOTAL 40 360 400 ELEMENTOS DE PROBABILIDADES 38 a) Qual é a probabilidade do item ser defeituoso, dado que apresenta falhas na superfície? b) Qual é a probabilidade de ter falhas na superfície dado que é defeituoso? Solução: A Probabilidade Condicional pode assumir a forma abaixo, chamada algumas vezes de teorema da multiplicação de probabilidades: )B(P)B|A(P)BA(P , ou de forma equivalente, )A(P)A|B(P)BA(P Exemplo: A probabilidade de que o primeiro estágio de uma operação,numericamente controlada, de usinagem para pistões com alta rpm atenda às especificações é igual a 0,90. Falhas são devido a variações no metal, alinhamento de acessórios, condições da lâmina de corte, vibração e condições ambientais. Dado que o primeiro estágio atende às especificações, a probabilidade de que o segundo estágio de usinagem atenda à especificações é de 0,95. Qual a probabilidade de ambos os estágios atenderem as especificações? 855,090,095,0)A(P)A|B(P)BA(P 2.7 TEOREMA DA PROBABILIDADE TOTAL Suponha que eventos aleatórios k21 A,,A,A sejam k conjuntos mutuamente exclusivos e exaustivos )S...,AAA( k21 . Então: i ii )A|B(P).A(P)B(P Exemplos: 1) A probabilidade de que um conector elétrico que seja mantido seco falhe durante o período de garantia de um computador portátil é 1%. Se o conector for molhado, a probabilidade de falha durante o período de garantia será de 5%. Se 90% dos conectores forem mantidos secos e 10% forem mantidos molhados, qual é a probabilidade dos conectores falharem durante o período da garantia? Solução: SACHIKO ARAKI LIRA 39 2) Suponha que na fabricação de semicondutores, a probabilidade seja de 0,10 de que um chip que esteja sujeito a altos níveis de contaminação durante a fabricação cause uma falha no produto. A probabilidade é de 0,005 de que um chip que não esteja sujeito a altos níveis de contaminação durante a fabricação cause uma falha no produto. Em um dado instante da produção, 20% dos chips estão sujeitos a altos níveis de contaminação. Qual a probabilidade de um produto usando um desses chips vir a falhar? Solução: 2.8 TEOREMA DE BAYES Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo teorema de Bayes, que expressa uma probabilidade condicional em termos de outras probabilidades condicionais. k 1j jj ii i )A|B(P).A(P )A|B(P).A(P )B|A(P Exemplo: Uma determinada peça é produzida por três fábricas, 1, 2 e 3. Sabe-se que a fábrica 1 produz o dobro de peças que 2, e 2 e 3 produziram o mesmo número de peças durante um período de produção especificado. Sabe-se também que 2% das peças produzidas por 1 e por 2 são defeituosas, enquanto 4% daquelas
Compartilhar