Baixe o app para aproveitar ainda mais
Prévia do material em texto
EEssttaattííssttiiccaa ee PPrroobbaabbiilliiddaaddee PPrrooffeessssoorreess:: DDaanniieellaa CCaarriinnee RRaammiirreess ddee OOlliivveeiirraa MMaarrccooss SSaannttooss ddee OOlliivveeiirraa Prof. Daniela ____/____/____ ii Índice 1. Introdução à Estatística 1 1.1. O que é Estatística? 1 1.2. Estatística na Prática 1 1.3. Um pouco da história da Estatística 2 1.4. Exercícios 2 2. Variáveis 3 2.1. Definição de Variável 3 2.2. Classificação das Variáveis 3 2.3. Exercícios 5 3. Amostragem 6 3.1. Por que fazer Amostragem? 6 3.2. Quando o uso de amostragem não é interessante? 6 3.3. Tipos de Amostragem 6 3.3.1. Amostragem Aleatória Simples (AAS) 6 3.3.2. Amostragem Sistemática (AS) 7 3.3.3. Amostragem Estratificada (AE) 8 3.3.4. Amostragem por Conglomerado (AC) 9 3.4. Exercícios 10 4. Tabulação de Variáveis 11 4.1. Variáveis Qualitativas Unidimensionais 11 4.2. Variáveis Quantitativas Unidimensionais 12 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 13 4.4. Exercícios 14 5. Medidas de Posição 15 5.1. Mínimo e Máximo 15 5.2. Moda 15 5.3. Média 15 5.4. Mediana 16 5.5. Exercícios 18 Prof. Daniela ____/____/____ iii 6. Medidas de Dispersão 19 6.1. Motivação 19 6.2. Amplitude 19 6.3. Variância e Desvio Padrão 19 6.4. Intervalo Interquartil 21 6.5. Exercícios 21 7. Estatística Gráfica 22 7.1. Gráficos para as Variáveis Qualitativas 22 7.1.1. Gráfico em Barras 22 7.1.2. Gráfico de Composição em Setores (“Pizza”) 23 7.1.3. Gráfico de Pareto 23 7.2. Gráficos para as Variáveis Quantitativas 25 7.2.1. Gráfico em Barras 25 7.2.2. Gráfico de Pontos 26 7.2.3. Histograma 26 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 27 7.2.5. Ramo-e-Folhas 28 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 29 7.3 Exercícios 31 8. Correlação e Regressão 32 8.1. Estudo da relação entre variáveis 32 8.2. Diagrama de Dispersão 32 8.3. Coeficiente de Correlação 35 8.4. Regressão Linear Simples 37 8.5. Coeficiente de Determinação 39 8.6. Exercícios 40 Lista de Exercícios 1 41 9. Probabilidade 44 9.1. Processo ou Experimento Aleatório 44 9.2. Espaço Amostral (Ω) 44 9.3. Evento 45 9.4. Exercícios 46 9.5. Introdução à Probabilidade 47 Prof. Daniela ____/____/____ iv 9.6. Definição Clássica 48 9.7. Definição Freqüentista 49 9.8. Definição Subjetiva 51 9.9. Definição Moderna 51 9.10. Probabilidade Condicional 52 9.11. Independência de Eventos 53 9.12. Regra da Probabilidade Total 54 9.13. Teorema de Bayes 54 10. Variável Aleatória Discreta 56 10.1. Introdução 56 10.2. Esperança Matemática (Média) 57 10.3. Variância 58 10.4. Exercício 58 10.5. Modelo Bernoulli 58 10.6. Modelo Binomial 59 10.7. Exercícios 60 10.8. Distribuição Hipergeométrica 60 10.9 Exercício 61 10.10. Distribuição Poisson 61 10.11. Exercícios 62 11. Variável Aleatória Contínua 63 11.1. Esperança e Variância 65 11.2. Distribuição Normal 66 11.3. Tabela da Distribuição Normal Padrão 69 11.4. Exercícios 73 Lista de Exercícios 2 74 12. Estimação 77 12.1. Inferência Estatística 77 12.2. Estimação Pontual e Intervalar para Proporção 77 12.3. Exercícios 79 12.4. Estimativa Pontual e Intervalar para a Média Populacional 79 12.5. Exercícios 81 12.6. Estimativa para a Média Populacional com Variância Desconhecida 81 12.7. Exercício 83 Prof. Daniela ____/____/____ v 13. Testes de Hipóteses 84 13.1. Introdução 84 13.2. Formulação das Hipóteses 84 13.3. Tipos de Erros possíveis nos Testes de Hipóteses 84 13.4. Nível de Significância de um Teste de Hipótese (α) 85 13.5. Teste de Hipóteses para a Proporção 85 13.6. Exercícios 87 13.7. Teste de Hipóteses para Média com Variância Conhecida 88 13.8 Exercícios 90 13.9 Teste de Hipóteses para Média com Variância Desconhecida 91 13.10. Exercícios 93 Lista de Exercícios 3 94 Apêndice A Gabarito da Lista de Exercícios 1 95 B Gabarito da Lista de Exercícios 2 101 C Gabarito da Lista de Exercícios 3 102 D Aula no Laboratório de Computação 104 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 1 1. INTRODUÇÃO À ESTATÍSTICA 1.1. O que é Estatística? Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas. 1.2. Estatística na Prática População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc. Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras. Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas. Amostra: é qualquer subconjunto da população. Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de tirarmos conclusões a respeito de características de interesse. Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios. Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população), das informações e conclusões obtidas a partir de um subconjunto de valores (amostra). População (Características) Informações contidas nos dados Conclusões sobre as características da população Análise descritiva Inferência Estatística Amostra Técnicas de amostragem Análise descritiva Planejamento de Experimentos Cálculo de Probabilidades Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 2 1.3. Um pouco da história da Estatística 5000 AC Registros egípcios de presos de guerra; 2000 AC Censo Chinês; 695 Primeira utilização da média ponderada pelos árabes na contagem de moedas; 1654 Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades; 1763 Inferência Estatística (Reverendo Bayes); 1930 Controle de Qualidade nas indústrias; 1959 Estudo retrospectivo de doenças (Mantel & Haenszel); 1996 Profundidade da Regressão (Rousseeuw e Hubert); 1997 Modelos Fatoriais; 2001 100 anos da Biometrika. Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm 1.4. Exercícios – Parte I – A1 1) Para as situações descritas a seguir, identifique a população e a amostra correspondente. (a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos. População: Amostra: (b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. População: Amostra: (c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. População: Amostra: Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 3 2. VARIÁVEIS2.1. Definição de Variável Qualquer característica associada a uma população é chamada de variável. Porque o nome variável? Porque ela “varia” de alguma forma. Exemplos: Idade: pode variar de 0, 1 , 2, ... anos Sexo: pode ser masculino ou feminino Estado Civil: pode ser solteiro, casado, divorciado, etc. 2.2. Classificação das Variáveis As variáveis podem ser classificadas como Qualitativas ou Quantitativas. Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência, apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis Qualitativas. As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de variáveis Quantitativas. Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 2.1. Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos de uma Empresa. Idade N° Estado Civil Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência 1 Solteiro Fundamental ... 4,00 26 3 Interior 2 Casado Fundamental 1 4,56 32 10 Capital ... ... ... ... ... ... ... ... 35 Casado Médio 2 19,40 48 11 Capital 36 Casado Superior 3 23,30 42 2 Interior Fonte: Bussab e Morettin (2002) Observações sobre a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo). Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 4 Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos: Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis resultados. Exemplo: Região de Procedência, etc. Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados. Exemplo: Grau de instrução, etc. As variáveis Quantitativas também podem sofrer uma classificação dicotômica: Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem. Exemplo: Nº de Filhos, etc. Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração. Exemplo: Salário, etc. Resumindo Como as variáveis são classificadas e outros exemplos: Nominal Sexo, Cor dos Olhos. Qualitativa Ordinal Estado Civil, Classe social. Discreta Números de carros. Quantitativa Contínua Peso, altura. Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os dados de uma forma resumida. Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação. Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente chamadas de sucesso e fracasso. Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 5 2.3. Exercícios – Parte I – A1 1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: ID: Identificação do aluno; Turma: Turma a que o aluno foi alocado (A ou B); Sexo: Feminino (F) ou Masculino (M); Idade: Idade; Alt: Altura; Peso: Peso; Filh: Número de filhos na família; Fuma: Hábito de fumar (sim ou não); Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito; Exer: Horas de atividade física, por semana; Cine: Número de vezes que vai ao cinema por semana; OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa TV: Horas gastas assistindo TV, por semana OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe. Tabela 2.2: Informações do questionário estudantil. ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV 1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R 2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R ... ... ... ... ... ... ... ... ... ... ... ... ... ... 49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R 50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B Fonte: Magalhães e Lima (2004). Classifique as variáveis da Tabela 2.2. como Variável Qualitativa Nominal: Variável Qualitativa Ordinal: Variável Quantitativa Discreta: Variável Quantitativa Contínua: Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 6 3. AMOSTRAGEM A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte (amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento. 3.1. Por que fazer Amostragem? Existem várias razões para o uso de amostragem em levantamento de grandes populações. Algumas delas são: Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população. Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país. Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores. 3.2. Quando o uso de amostragem não é interessante? População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é aconselhável realizar o censo (análise de toda a população). Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a população no próprio local de trabalho. Esta atitude pode ser politicamente mais recomendável. Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico para estudar diversas característica da população brasileira. Dentre estas características têm- se o número total de habitantes, que é fundamental para o planejamento do país. Desta forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população. 3.3. Tipos de Amostragem 3.3.1. Amostragem Aleatória Simples (AAS) A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma AAS precisamos ter uma lista completa dos elementos da população. Este tipode amostragem consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de todos os elementos da população ter igual probabilidade de serem escolhidos. 1 Censo: estudo de todos os elementos da população. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 7 Procedimento para o uso deste método: 1) Numerar todos os elementos da população (N elementos); 2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n). Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®. Tabela de Números Aleatórios Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número sorteado não existir, simplesmente não consideramos e prosseguimos o processo. Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de 4 elementos: {09, 26, 29, 11}. Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios. 3.3.2. Amostragem Sistemática (AS) É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas de cadastramento, produção de garrafas da cervejas, etc. Procedimento para o uso deste método: 1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da amostragem i = N/n (considera-se apenas a parte inteira do número). 6 1 0 9 2 6 2 9 8 5 1 1 9 5 7 7 7 9 0 4 5 7 0 0 9 1 2 9 5 9 8 3 5 3 8 7 0 2 0 2 9 4 4 7 4 0 9 9 9 3 8 2 1 3 2 2 4 0 3 3 1 9 7 2 5 5 6 9 8 2 1 6 9 4 2 1 6 6 3 9 5 0 4 0 5 0 5 5 7 9 0 0 5 8 1 7 2 6 3 0 3 8 1 1 5 4 8 9 0 4 1 3 6 9 1 7 3 5 4 8 5 8 9 3 4 2 7 0 1 5 2 8 9 6 2 4 7 5 0 3 0 0 4 5 8 6 6 8 7 9 0 2 5 8 9 6 2 4 8 5 8 0 4 8 9 6 3 2 5 8 1 2 5 8 7 4 6 3 2 1 4 8 9 6 5 4 1 2 3 2 0 1 4 5 2 3 6 9 8 0 1 2 8 7 5 6 3 2 1 0 8 5 6 4 9 7 3 2 1 0 5 9 4 7 6 4 1 2 3 3 0 1 2 5 8 9 7 4 1 0 3 1 4 5 8 7 6 9 3 2 0 1 4 5 6 9 8 7 4 5 9 8 7 4 5 6 3 2 1 5 9 4 5 6 0 2 5 8 0 0 8 5 1 8 9 6 5 4 7 3 1 0 2 5 8 9 6 3 2 0 4 7 8 9 6 3 2 0 1 4 8 2 3 6 8 9 5 2 0 1 0 8 5 8 9 6 3 2 1 4 5 2 5 8 9 6 3 2 1 4 8 5 2 3 0 2 5 7 4 0 8 5 6 3 1 2 5 2 3 0 9 0 1 2 5 9 0 3 6 8 2 0 3 5 8 4 6 1 3 0 5 8 7 9 6 3 2 0 1 8 9 6 3 2 5 8 4 1 0 3 1 9 1 5 8 9 6 3 2 1 7 8 9 6 5 2 0 3 2 5 9 6 3 2 0 1 5 8 9 6 2 1 5 4 7 9 9 4 0 2 2 7 9 1 2 3 5 8 9 6 0 1 5 4 2 0 3 6 9 8 2 5 8 0 2 1 4 8 0 9 5 2 0 3 2 1 2 4 8 9 5 6 1 9 4 5 9 6 3 2 1 4 7 8 9 6 3 0 1 5 1 4 5 8 9 6 3 2 1 4 0 2 1 3 6 5 4 7 8 9 9 2 5 1 2 3 5 8 9 4 3 2 1 4 7 0 2 3 0 0 4 5 6 3 0 0 1 4 5 2 9 3 0 2 5 8 9 2 6 4 6 3 3 1 2 5 8 7 0 3 9 4 7 8 4 1 0 1 3 6 8 7 4 1 2 3 0 2 5 8 6 1 0 2 5 4 6 7 8 9 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 8 2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i). Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar essa amostra. 1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7; 2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será composta dos elementos: {06, 13, 20, 27, 34} Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios, quando for necessário. 3.3.3. Amostragem Estratificada (AE) A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda, bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Aqui, um conhecimento prévio sobre a população em estudo é fundamental. Estrato 1 Subgrupo 1 da amostra Estrato 2 Subgrupo 2 da amostra ... ... ... Estrato k Subgrupo k da amostra Amostra Estratificada A AE tem as seguintes características: • dentro de cada estrato há uma grande homogeneidade (pequena variabilidade); • entre os estratos há uma grande heterogeneidade (grande variabilidade). Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra. Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em uma determinada universidade, realizaremos um levantamento por amostragem. A população é composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que identificaremos da seguinte forma: População Professores P001 P002 … P100 Servidores S001 S002 ... S100 Alunos A001 A002 ... A300 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 9 Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria, para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de proporcionalidade. Estrato Proporção na População Tamanho do subgrupo na amostra Professores 100/500 = 0,20 (ou 20%) np = ( 0,20)*10 = 2 Servidores 100/500 = 0,20 (ou 20%) ns = ( 0,20)*10 = 2 Alunos 300/500 = 0,60 (ou 60%) na = ( 0,60)*10 = 6 Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da tabela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para os servidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha da tabela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra {P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificada proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado para se obter a opinião em relação à gestão atual da reitoria. 3.3.4. Amostragem por Conglomerado (AC) A população é dividida em subpopulações (conglomerados) distintas (quarteirões, residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é adequado quando é possível dividir a população em um grande número de pequenas subpopulações. A AC tem as seguintes características: • dentro de cada conglomerado há uma grande heterogeneidade (grande variabilidade); • entre os conglomerados há uma pequena variabilidade (grande homogeneidade). Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a técnica de amostragem por conglomerados, podemosselecionar aleatoriamente 2 zonas eleitorais e, em seguida, entrevistar todos os eleitores dessas zonas selecionadas Zona 1 2 3 4 5 6 7 8 9 10 11 12 Entrevistar todos os eleitores dessas zonas Zona 1 2 3 4 5 6 7 8 9 10 11 12 Zona 1 2 3 4 5 6 7 8 9 10 11 12 Entrevistar todos os eleitores dessas zonas Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 10 Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa uma amostra de membros de todos os estratos. Curiosidade Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que simplesmente usa resultados que sejam muito fáceis de obter. 3.4. Exercícios – Parte I – A1 1) Um administrador especialista em avaliar através de sistemas informatizados as ações da BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações serão selecionadas (Use a primeira linha da tabela de números aleatórios)? 2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha) 3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100 computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 = 60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12 computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha) Ei! Você é a favor da pena de morte? Ei! Você é a favor da pena de morte? Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 11 4. TABULAÇÃO DE VARIÁVEIS 4.1. Variáveis Qualitativas Unidimensionais Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de seus possíveis resultados. A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos dados da Tabela 2.1. Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 Médio 18 Superior 6 Total n = 36 1,0000 Fonte: Bussab e Morettin (2002) Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33% tem nível fundamental, 50% nível médio e apenas 16,67% nível superior. Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada categoria, sendo o “n” o número total de observações. As proporções são muito úteis quando se querem comparar resultados de duas pesquisas distintas. O próximo exemplo ilustra este fato. Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela abaixo: Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 650 Médio 1020 0,5100 Superior Total n = 2000 1,0000 Fonte: Bussab e Morettin (2002) Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n = 36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos as freqüências relativas a um mesmo total. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 12 4.2. Variáveis Quantitativas Unidimensionais A construção de tabelas de freqüências para variáveis quantitativas necessita de certos cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1., usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo menor, pois não existem observações iguais. Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela de Classes de Freqüências. Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário: Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário. Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 04 |-- 08 10 0,2778 27,78% 08 |-- 12 12 12 |-- 16 8 16 |-- 20 5 20 |-- 24 1 Total 36 1,0000 Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14. Número de Classes A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um número pequeno de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude. Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é um número inteiro próximo de: Regra 1: nlogx2,31C += Regra 2: nC = onde n é o número de elementos pesquisado. As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 13 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de associação, tabela de contingência ou distribuições conjuntas de freqüências. Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o conceito em Metodologia e a Seção a que pertence. Conceito em Metodologia Seção A B C Total por Seção Dep. Pessoal 3 1 3 7 Séc. Técnica 0 4 3 7 Sec. Venda 4 3 4 11 Total por Conceito 7 8 10 25 Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no Primeiro semestrede 2005. Vendas em 1000 R$ Meses A B C Total por Mês Janeiro 40,0 25,2 8,1 73,3 Fevereiro 40,1 28,0 10,0 78,1 Março 35,1 28,0 15,4 78,5 Abril 28,2 20,2 22,3 70,7 Maio 14,1 25,6 28,1 67,8 Junho 5,0 30,0 35,2 70,2 Total por Produto 162,5 157,0 119,1 438,6 Fonte: Dados Hipotéticos. Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas notas em Matemática e Estatística. Matemática Estatística 0 |- 4 4 |- 7 7 |- 10 Totais em Estatística 0 |- 4 32 25 5 62 4 |- 7 20 183 82 285 7 |- 10 7 27 19 53 Totais em Matemática 59 235 106 400 Fonte: Dados Hipotéticos. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 14 4.4. Exercícios – Parte I – A1 Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia 1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5 2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0 3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5 4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5 5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0 6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5 7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0 8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5 9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0 10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5 11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5 12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0 13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5 14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5 15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0 16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5 17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5 18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5 19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5 20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5 21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0 22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0 23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0 24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0 25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5 (*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas. Fonte: Bussab e Morettin (2002) 1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da Tabela 4.7. 4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela 4.7. 5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela 4.7. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 15 5. MEDIDAS DE POSIÇÃO 5.1. Mínimo e Máximo O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior observação. Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo, Min = __ e Max = __. 5.2. Moda Valor ou atributo que ocorre com maior freqüência. Exemplo (a): 2, 5, 2, 7, 8 Moda = __ . Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. “Conjunto _ _ _ _ _ _ _” Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem “Conjunto _ _ _ _ _ _” Moda para dados agrupados em Tabelas de Freqüências Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O resultado foi: Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8 Total 30 Moda = __. Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência. 5.3. Média Valor que representa o centro do conjunto de dados. Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média desse conjunto é obtida pela soma das n observações dividido por n, ou seja, n x n xxxx x n i i n ∑ ==++++= 1321 L (5.1) Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 16 Média para dados agrupados em Tabelas de Freqüências Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8 Total 30 Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável, da seguinte forma: n nx x v i ii∑ == 1 , (5.2) onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima classe. Assim, para o exemplo temos: =+++== ∑ = 30 8315251201 xxxx n nx x i n i i ___. Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março é ___. 5.4. Mediana É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e metade será menor ou igual. Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9. Método prático para o cálculo da Mediana para dados em Rol 1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o máximo. 2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: 2 1np += . 3) O valor da mediana será: (a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados ordenados, isto é Mediana = x(p) Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 17 (b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p, respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados ordenados, ou seja, 2 xx Mediana )P()P( +− += Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5 1º ordenar a série: __, __, __, __, __, __, __, __, __. n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada será a mediana. Assim, mediana = __ . Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 1º ordenar a série: __, __, __, __, __, __, __, __, __, __. n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja, Mediana = (2+3)/2 = 2,5. Notas: 1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. 2) Quando o número de elementos da série estatística for par, a mediana será sempre a média aritmética dos 2 elementos centrais da série. 3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor. 4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos: Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10, isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma. Mediana para dados agrupados em Tabelas de FreqüênciasNesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana. Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados referentes a freqüência acumulada. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 18 Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi) 0 2 1 5 2 15 3 8 Total 30 Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16. Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é a primeira freqüência acumulada que contém os elementos 15 e 16. 5.5. Exercícios – Parte I – A1 1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir. 5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60. Calcule o mínimo, máximo, moda, média e mediana. 2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir. Tabela 5.1: Dados Brutos (em horas) Máquina # Tempo de Falha Máquina # Tempo de Falha 1 150 14 171 2 291 15 197 3 93 16 200 4 53 17 262 5 2 18 255 6 65 19 286 7 183 20 206 8 144 21 179 9 223 22 232 10 197 23 165 11 187 24 155 12 197 25 203 13 213 Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete os resultados. 3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e mediana das idades organizadas nessa tabela. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 19 6. MEDIDAS DE DISPERSÃO 6.1. Motivação Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se com as notas descritas na tabela abaixo: Tabela 6.1: Distribuição das Notas Provas Candidatos 1 2 3 4 5 6 A 7,0 7,5 8,0 8,0 8,5 9,0 B 6,0 7,0 8,0 8,0 9,0 10,0 C 7,5 8,0 8,0 8,0 8,0 8,5 Fonte: Dados Hipotéticos Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, mas: Candidatos A B C Média De modo análogo, nem adianta pensar em moda ou mediana, pois: Candidatos A B C Moda Mediana Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais homogêneas, isto é, aquele que apresentou menor dispersão das notas. 6.2. Amplitude A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de dados, ou seja, Amplitude = Máximo – Mínimo (6.1) Exemplo: Para os três candidatos temos: Candidatos A B C Amplitude 6.3. Variância e Desvio Padrão A variância mede a dispersão dos dados em torno de sua média. 1 )( 1 )()()()( 1 2 22 3 2 2 2 12 − − =− −++−+−+−= ∑ = n xx n xxxxxxxx s n i i nL (6.2) Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 20 O desvio padrão é simplesmente a raiz quadrada positiva da variância 2ss = (6.3) Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos: Notas Média Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0 5,0 5 5,2 16 )89()85,8()88()88()85,7()87( 2222222 ==− −+−+−+−+−+−=As 7,05,0 ≅=As Notas Média Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0 ==−= 516 2 Bs =Bs Notas Média Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0 ==−= 516 2 Cs =Cs Resumindo Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão A 8,0 8,0 8,0 B 8,0 8,0 8,0 C 8,0 8,0 8,0 Fórmula alternativa para o cálculo da variância Podemos calcular a variância através da seguinte fórmula alternativa: ⎥⎦ ⎤⎢⎣ ⎡ −⎟⎠ ⎞⎜⎝ ⎛ −= ∑= 21 22 )(1 1 xnx n s n i i (6.4) . A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao quadrado da variável ( )∑ 2ix . Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 21 6.4. Intervalo Interquartil O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), ou seja, IQ = Q3 – Q1. (6.5) Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de dados ordenados. 6.5. Exercícios – Parte I – A1 1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular a variância, sabendo que a média é 5,4. 2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários entrevistados foi: Empresa A Empresa B Empresa C 5,5 4 5 6 5 6 6 6 6 6 6 6 6,5 9 7 Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa para tomar sua decisão. 3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem de sangue. Para isto o responsável pelas análises preparou uma substância de concentração conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles foram os seguintes: A 5 10 7 15 16 12 4 8 10 13 B 10 9 10 9 11 8 9 7 8 9 C 10 11 9 10 10 9 11 12 8 10 Em medidas clínicas três termos são utilizados freqüentemente: Precisão: refere-se à dispersão dos resultados Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro valor” Exato: refere-se ao instrumento preciso e não-viciado (a) Descreva os três instrumentos em termos das definições acima. (b) Qual instrumento lhe parece recomendável? Justifique sua resposta. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 22 7. ESTATÍSTICA GRÁFICA 7.1. Gráficos para as Variáveis Qualitativas A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto. 7.1.1. Gráfico em Barras O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução. Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3333 33,33% Médio 18 0,5000 50,00% Superior 6 0,1667 16,67% Total n = 36 1,0000 100,00% Fonte: Bussab e Morettin (2002) 12 18 6 0 2 4 6 8 10 1214 16 18 Fr eq üê nc ia (n i) Fundamental Médio Superior Grau de Instrução Figura 7.1: Gráfico em Barras para a variável Grau de Instrução Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 23 7.1.2. Gráfico de Composição em Setores (“Pizza”) O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. Para o exemplo anterior temos o seguinte gráfico: 50% 17% 33% Fundamental Médio Superior Figura 7.2: Gráfico em Setores para a variável Grau de Instrução 7.1.3. Gráfico de Pareto O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior freqüência, e assim por diante. Fr eq ue nc ia A bs ol ut a Po rc en ta ge m A cu m ul ad a Modelo-Aviões Count Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6 Cum % 281 57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0 55 45 44 32 25 4 3 MD-90MD-11MD-747MD-717MD-767MD-757MD-777MD-737 500 400 300 200 100 0 100 80 60 40 20 0 Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company) Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 24 A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do total dos aviões produzidos em 2000. Nú m er o de D ef ei to s Po rc en ta ge m A cu m ul ad a Tipo de Defeito Count Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9 Cum % 30 37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0 21 6 6 5 5 4 4 Ou tro s En tal he s/f en da s/g oiv as Pa rte s s al i en tes Pa rte s n ão lu bri fic ad as Fo ra de se qü ên cia Fa lta de fu ro s/r an hu ra s Pa rte s m al ap ar ad as Fo ra do co nto rn o 90 80 70 60 50 40 30 20 10 0 100 80 60 40 20 0 445566 21 30 Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta. Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou eliminá-los. Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%) pertence à minoria da população (20%). Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 25 7.2. Gráficos para as Variáveis Quantitativas Para variáveis Quantitativas podemos considerar uma variedade maior de representações gráficas. 7.2.1. Gráfico em Barras O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das variáveis qualitativas. Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados. Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos. Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5 Total n = 20 100 Fonte: Bussab e Morettin (2002) Figura 7.5: Gráfico de Barras para a variável Números de Filhos Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 26 7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot) Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos. Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10. Figura 7.6: Gráfico de Dispersão – Dot Plot 7.2.3. Histograma O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um). Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados: Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB, por faixas de salário Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Densidade de Freqüência (di = fi/ai) 04 |-- 08 10 0,2778 27,78 0,0695 08 |-- 12 12 0,3333 33,33 0,0833 12 |-- 16 8 0,2222 22,22 0,0556 16 |-- 20 5 0,1389 13,89 0,0347 20 |-- 24 1 0,0278 2,78 0,0070 Total n = 36 1,0000 100,00 1098765432 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 27 0,0695 0,0833 0,0556 0,0347 0,007 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 D en sid ad e de F re qü ên ci a 04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24 Classes de Salários Figura 7.7: Histograma da variável Salário 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares. Ano Dívida Ano Dívida Ano Dívida 1956 2736 1973 14857 1990 123439 1957 2491 1974 20032 1991 123910 1958 2870 1975 25115 1992 135949 1959 3160 1976 32145 1993 145726 1960 3738 1977 37951 1994 148295 1961 3291 1978 52187 1995 159256 19623533 1979 55803 1996 179935 1963 3612 1980 64259 1997 199998 1964 3294 1981 73963 1998 241644 1965 3823 1982 85487 1999 241468 1966 3771 1983 93745 2000 236156 1967 3440 1984 102127 2001 226067 1968 4092 1985 105171 2002 227689 1969 4635 1986 111203 2003 235414 1970 6240 1987 121188 2004 220182 1971 8284 1988 113511 2005 187987 1972 11464 1989 115506 2006 191999 Fonte: IPEADATA Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 28 0 50000 100000 150000 200000 250000 19 56 19 58 19 60 19 62 19 64 19 66 19 68 19 70 19 72 19 74 19 76 19 78 19 80 19 82 19 84 19 86 19 88 19 90 19 92 19 94 19 96 19 98 20 00 20 02 20 04 20 06 Ano D ív id a em M ilh õe s d e D ól ar es Figura 7.8: Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006 7.2.5. Ramo-e-Folhas Suponha que os dados sejam representados por x1, x2, ..., xn, e que cada número xi consista em, pelo menos, dois dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi em duas partes: um ramo, que consiste em um ou mais dos dígitos líderes, e uma folha, que consiste nos dígitos restantes. Por exemplo, se os dados representam porcentagens de defeitos (valores entre 0 e 100), em lotes de placas de semicondutores, então poderíamos dividir o valor 76 no ramo 7 e na folha 6. Em geral, devemos escolher poucos ramos em comparação com o número de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma vez escolhido um conjunto de ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de cada ramo, são listadas todas as folhas que correspondem aos valores dos dados observados. Tabela 7.5: Força de ruptura em libras por polegada para 100 garrafas descartáveis de 1 litro de refrigerante. 176 221 242 253 261 265 271 278 286 301 187 223 243 254 262 265 272 278 287 307 197 228 245 254 263 267 274 280 290 308 200 231 246 257 263 267 274 280 293 317 205 231 248 258 264 268 274 280 294 318 208 234 248 258 264 268 274 280 296 321 210 235 250 260 265 269 275 281 298 328 214 235 250 260 265 269 276 281 299 334 215 235 250 260 265 270 276 283 299 337 220 242 251 260 265 271 277 283 300 346 Fonte: Hines et al. (2006), p. 157. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 29 1 17 6 2 18 7 3 19 7 6 20 058 9 21 045 13 22 0138 19 23 114555 26 24 2235688 36 25 0001344788 (22) 26 0000123344555555778899 42 27 01124444566788 28 28 0000113367 18 29 0346899 11 30 0178 7 31 78 5 32 18 3 33 47 1 34 6 Figura 7.9: Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5. O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação revela imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor central está em algum ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas de maneira aproximadamente simétrica em torno do valor central. Assim, o ramo-e-folhas, como o histograma, nos permite determinar rapidamente algumas características importantes dos dados que não eram tão imediatamente óbvias na apresentação original da Tabela 7.5. Note que, aqui, os números originais não se perdem, como ocorre em um histograma. Através do ramo-e-folhas podemos calcular qualquer medida de posição e dispersão. 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) Representa os dados utilizando os três quartis (Q1, Q2 ou mediana e Q3), o mínimo e o máximo em uma caixa retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil para o cálculo das linhas extremas. * (Outlier ou Ponto Discrepante ou Ponto Aberrante) Figura 7.10: Desenho esquemático geral. “M áxim o” Q 3 M ediana Q 1 “M ínim o” 25% 50% 75% Q 3+1,5(Q 3-Q 1) Q 1-1,5(Q 3-Q 1) “M áxim o” Q 3 M ediana Q 1 “M ínim o” 25% 50% 75% “M áxim o” Q 3 M ediana Q 1 “M ínim o” 25% 50% 75% Q 3+1,5(Q 3-Q 1) Q 1-1,5(Q 3-Q 1) Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 30 O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou mais amostras. Para ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que representam leituras de viscosidade em três misturas diferentes de uma matéria-prima usada em uma linha de produção. Um dos objetivos do estudo que Hines et al discutem é comparar as três misturas. Tabela 7.6: Medidas de viscosidade para três misturas Mistura 1 Mistura 2 Mistura 3 22,02 21,49 20,33 23,5 22,56 20,49 23,83 22,67 21,67 25,38 22,78 21,95 25,49 24,18 22,28 25,9 24,46 22,45 26,67 24,62 27,00 A Figura 7.11 a seguir apresenta os box-plot para os dados da viscosidade. Essa apresentação permite uma interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do que a mistura 2, e esta tem viscosidade mais alta que a mistura 3. A distribuição da viscosidade não é simétrica, porque as linhas superior e inferior e os comprimentos das caixas superior e inferior em torno da linha mediana não são iguais. O valor da viscosidade máxima da mistura 3 parece alta, em comparação com os demais valores da mistura 3 e, também, é maior que os valores das demais misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais aprofundados. V is co si da de (c en tip oi se ) Mistura 3Mistura 2Mistura 1 27 26 25 24 23 22 21 20 26,67 25,9 25,38 23,5 22,02 24,62 24,46 22,78 22,56 21,49 27 22,45 21,95 20,49 20,33 Figura 7.11: Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 31 7.3. Exercícios – Parte I – A1 1) Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na Tabela 7.7. Tabela 7.7: Defeitos em elementos estruturais da porta Tipo de Defeito Frequência Absoluta Partes Salientes 5 Fora do Contorno 30 Partes mal aparadas 25 Total 60 2) Observe a sua conta de luz de 2007 e construa um gráfico temporal e um gráfico de barras, colocando no eixo x, os meses (janeiro, ..., dezembro) e no eixo y, consumo de energia (em kWh). 3) Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo: 4) Construa uma tabela de classes de freqüências para os dados do exercício 3, com intervalos de amplitude 1, de 0 a 10, isto é: Taxas Freqüência Absoluta Proporção Densidade [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10] em seguida, faça o histograma. 3,67 1,82 3,73 4,10 4,30 1,28 8,14 2,43 4,17 5,36 3,96 6,54 5,84 7,35 3,63 2,93 2,82 8,45 5,28 5,41 7,77 4,65 1,88 2,12 4,26 2,78 5,54 0,90 5,09 4,07 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 32 8. CORRELAÇÃO E REGRESSÃO 8.1. Estudo da relação entre variáveis O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista: (a) Inspeção visual: diagrama de dispersão (b) Quantificando a força dessa relação: coeficiente de correlação. (c) Explicitando a forma dessa relação: ajuste de uma reta. Exemplos: 1) Idade e altura das crianças; 2) Tempo de prática de esportes e ritmo cardíaco; 3) Tempo de estudo e nota na prova; 4) Taxade desemprego e taxa de criminalidade; 5) Expectativa de vida e taxa de analfabetismo. 8.2. Diagrama de Dispersão Utilizado para estudar a relação entre duas variáveis quantitativas, fornecendo uma representação gráfica das duas variáveis. Exemplo: Nota na Prova e Tempo de Estudo X: tempo de estudo (em horas) Y: nota obtida na prova Tabela 8.1: Pares de observações (Xi, Yi) Tempo Nota 3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 Construção do Gráfico de Dispersão No Excel podemos fazer: Coluna A: Valores de X (Tempo) Coluna B: Valores de Y (Notas) Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de “Dispersão (XY)”. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 33 0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 12 14 Tempo N ot a Figura 8.1: Diagrama de Dispersão para as variáveis Tempo e Nota Exemplo: Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Numa pesquisa feita com 11 famílias com renda bruta mensal entre 10 e 60 salários mínimos mediram-se: X: renda bruta mensal (em salários mínimos) Y: porcentagem da renda bruta anual gasta com assistência médica Tabela 8.2 X Y X Y 12 7,2 40 6,0 16 7,4 48 5,6 18 7,0 50 6,0 20 6,5 54 5,5 28 6,6 32 6,5 30 6,7 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 34 0 1 2 3 4 5 6 7 8 0 10 20 30 40 50 60 Renda Bruta Mensal (em sal. mínimos) Po rc en ta ge m d a R en da B ru ta A nu al g as ta c om A ss ist . M éd ic a Figura 8.2: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y (Porcentagem da Renda Bruta Anual gasta com Assist. Médica). Podemos notar que, conforme aumenta a renda bruta mensal, a porcentagem da renda bruta anual gasta com assistência médica diminui. Nota-se também uma tendência linear decrescente. Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que ilustra com maior clareza essa tendência linear decrescente. 5 5,5 6 6,5 7 7,5 0 10 20 30 40 50 60 Renda Bruta Mensal (em sal. mínimos) Po rc en ta ge m d a R en da B ru ta A nu al g as ta c om A ss is t. M éd ic a Figura 8.3: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 35 8.3. Coeficiente de Correlação O coeficiente de correlação linear é definido como: yx n i ii yx n i ii SSn YXnYX SSn YYXX r )1()1( ))(( 11 − − =− −− = ∑∑ == (9.1) onde X e Y são as médias amostrais das variáveis X e Y , respectivamente. xS e yS são os desvios padrão das variáveis X e Y , respectivamente Recordando: 1 )( 1 2 − − = ∑ = n XX S n i i x e 1 )( 1 2 − − = ∑ = n YY S n i i y Propriedades do coeficiente de correlação linear O valor do coeficiente de correlação linear situa no intervalo [-1, 1], ou seja, 11 ≤≤− r Classificação da correlação 1. 1=r indica correlação linear positiva e perfeita; 2. 1−=r indica correlação linear negativa e perfeita; 3. 0=r indica inexistência de correlação linear; 4. 01 ≤≤− r indica correlação linear negativa; 5. 10 ≤≤ r indica correlação linear positiva. Gráficos - Exemplos da classificação da correlação 1=r , correlação linear positiva e perfeita 1−=r , correlação linear negativa e perfeita 0≅r , inexistência de correlação linear 5040302010 40 30 20 10 Y 5040302010 40 30 20 10 Y Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 36 -1 ≤ r ≤ 0, correlação linear negativa 0 ≤ r ≤ 1, correlação linear positiva. O valor do coeficiente de correlação não depende da escala que medimos as variáveis. Para as duas figuras abaixo o valor do coeficiente de correlação é 46,0=r . O coeficiente de correlação linear mede apenas o grau de associação LINEAR. 01,0≅r O coeficiente de correlação linear é sensível a valores discrepantes. X Y X Z=Y/10+0,8 X Y r = 0 r = 0.91 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 37 Exemplo: Considere o Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Obter o coeficiente de correlação com os dados da Tabela 8.2. Medidas Descritivas com os dados da Tabela 8.2 Média X 31,63636 Média Y 6,454545 Desvio de X 14,63744 Desvio de Y 0,62348 n 11 Soma XY 2160,4 -0,9399564 62348,0.63744,14.10 454545,6.636363,31.114,2160 SS)1n( YXnYX r yx n 1i ii =−=− ∑ − = = Podemos observar uma correlação negativa entre a renda bruta mensal e a porcentagem da renda bruta anual gasta com assistência médica, isto é quanto maior for a renda bruta mensal, menor é a porcentagem de sua renda gasta com assistência médica. 8.4. Regressão Linear Simples Objetivo: ajustar uma reta entre duas variáveis quantitativas. Reta Ajustada A reta ajustada de duas variáveis quantitativas Y e X é dado por bXaY +=) Definição de a e b a: intercepto; b: inclinação da reta. Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento médio de b unidades em Y. Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os valores de a e b, que minimiza a soma dos quadrados dos erros (ou desvios) ∑∑ == +−== n i ii n i i bXaYebaSQ 1 2 1 2 )}({),( O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b. Derivando e igualando a zero, observamos que as soluções de a e b devem satisfazer: XbYa −= 21 )1( x n i ii Sn YXnYX b − −= ∑ = Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 38 Reta Ajustada - Uso do Excel Coluna A: variável Y; Coluna B: variável X. Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos: =INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a); =INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b). Exemplo: Consumo de cerveja e temperatura As variáveis foram observadas em nove localidades com as mesmas características demográficas e sócio-econômicas. Y: consumo de cerveja em um dia (em 100 litros) X: temperatura máxima (em ºC) Os dados amostrais estão dispostos na Tabela 8.3. Tabela 8.3 Temperatura Consumo Temperatura Consumo 16 290 36 370 31 374 36 365 38 393 22 320 39 425 15 270 37 406 A correlação entre X e Y é: X = xS = Y = yS = ∑ = n i iiYX 1 = A reta ajustada para este exemplo é: y = 5,2194x + 200,42 250 270 290 310 330 350 370 390 410 430 450 10 15 20 25 30 35 40 45 Temperatura Máxima C on su m o de C er ve ja Figura 8.4: Diagrama de Dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja, juntamente com a Reta de Regressão Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 39 (a) Qual a interpretação de b para o exemplo consumo de cerveja e temperatura? (b) Qual o consumo previsto para uma temperatura de 25ºC? 8.5. Coeficiente de Determinação A quantidader2 = (quadrado do coeficiente de correlação x 100%) chama-se coeficiente de determinação e é, em geral, usada para julgar-se a adequação de um modelo de regressão. Claramente, 0 ≤ r2 ≤ 100. Na prática, nos referimos a r2 de modo mais informal como a quantidade de variabilidade nos dados explicada pelo, ou devido ao, modelo de regressão. Exemplo: Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta com assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os dados da Tabela 8.2, logo, o coeficiente de determinação será r2 ≅ 88,35%, isto é, 88,35% da variabilidade nos dados é explicada pelo modelo de regressão y = 7,7212 – 0,04x. y = -0,04x + 7,7212 R2 = 0,8835 5 5,5 6 6,5 7 7,5 10 15 20 25 30 35 40 45 50 55 60 renda bruta mensal (em salários mínimos) po rc en ta ge m d a re nd a br ut a an ua l g as ta c om a ss is tê nc ia m éd ic a Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 40 8.6. Exercícios – Parte I – A1 1) Considere o exemplo das variáveis Nota na Prova e Tempo de Estudo X : tempo de estudo (em horas) Y : nota obtida na prova Tempo 3 7 2 1,5 12 Nota 4,5 6,5 3,7 4 9,3 (a) Faça o Gráfico de Dispersão. (b) Obtenha o Coeficiente de Correlação. (c) Calcule a Reta de Regressão e represente no Gráfico de Dispersão. (d) Obtenha o coeficiente de determinação. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 41 Lista de Exercícios 1 1) Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 2) Classifique as seguintes variáveis: a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo); b) Bacias Hidrográficas (A:Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, S:do Sul); c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); d) Renda; 3) Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de amostragem aleatória simples e sistemática. Depois, levando em conta que o sexo dos funcionários é importante na pesquisa, obtenha uma amostra de mesmo tamanho utilizando amostragem estratificada proporcional considerando que dos 80 funcionários, 30 são mulheres e 50 são homens. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 4) Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa eleitoral vai selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão dentro dessas zonas eleitorais, isto é, foi utilizada amostragem por conglomerado. Apresentem quais serão as 15 zonas eleitorais amostradas. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 5) Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística na Escola E. Tabela 1: Dados Brutos R : Ruim M : Médio B: Bom O : Ótimo M R M M M R B B M M R B M M M M R B B R B M R M B M R M R M B M R M R M B M B M B B B B O M M M M M B B B B B B B O B O a) Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e relativa, porcentagens e interpretação. b) Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1. 6) Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material de construção. Tabela 2: Dados Brutos (em m) 19,5 20,0 14,1 16,1 10,0 16,0 22,0 20,5 15,0 16,7 22,0 12,5 16,3 15,3 16,0 13,8 19,7 17,0 14,1 18,8 12,3 15,5 14,7 20,3 17,4 19,5 17,9 18,2 16,9 19,3 16,9 a) Obtenha as medidas de posição: mínimo, máximo, média, moda, mediana, Q1 e Q3. b) Obtenha as medidas de dispersão: amplitude, variância, desvio-padrão e intervalo-interquartil. Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 42 c) Organize os dados da Tabela 2 em uma Tabela de Classes de Freqüências, com título, freqüências absoluta e relativa, porcentagem e interpretação. Utilize uma amplitude de 2 para as classes. d) Faça o histograma utilizando os dados agrupados em (c), baseados na Tabela 2. e) Construa o dot-plot, box-plot e o ramo-e-folhas para os dados da Tabela 2. 7) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir: Tabela 3: Medidas da pulsação 64 64 68 68 76 60 72 68 80 60 72 88 60 88 60 a) Calcule: Média, Mediana. Comente os resultados; b) Calcule: Mínimo, Q1, Q3 e Máximo. Interprete estas 4 estatísticas; c) Calcule: Variância e Desvio Padrão. Comente. d) Construa o gráfico de barras para os dados de pulsação dos índios. 8) Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo: Tabela 4: Valores codificados do investimento em educação Cidade A B C D E F G H I J Investimento 20 16 14 7 19 15 14 16 19 18 a) Calcule a média e o desvio-padrão das observações; b) Receberão um programa especial às cidades com valores de investimento inferiores à média menos duas vezes o desvio padrão. Alguma cidade receberá o programa? c) Será considerado como investimento básico a média das observações compreendidas entre a média original menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o investimento básico e compare com a média obtida no item a). Justifique a diferença encontrada. 9) Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar o tempo (em dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados abaixo mostram o tempo de cicatrização em cobaias submetidas a um dos três tratamentos (A, B, C): Tabela 5: Tempo (em dias) do completo fechamento em cortes provenientes de cirurgia A 13 14 15 13 15 14 15 15 14 14 B 14 12 13 13 14 14 13 14 C 12 12 13 13 12 13 11 11 Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente. 10) A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo (em milhares) que circulam em seu habitat na Flórida-EUA. Tabela 6: Dados Brutos Barcos(X) 68 68 67 70 71 73 76 81 83 84 Mortes(Y) 53 38 35 49 42 60 54 67 82 78 Oliveira, D. C. R. e Oliveira, M. S. ____/____/____ 43 a) Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis. b) Verifique se a correlação é significativa (através do coeficiente de correlação (r)). c) Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o número de barcos como a variável independente. d) Interprete o coeficiente de determinação (r2). 11) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Tabela 7: Dados Brutos X 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68 Y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78 a) Faça o diagrama de dispersão dos dados. b) Calcule o coeficiente de correlação linear entre X e Y e interprete-o. c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular (dependente) e X: idade (independente) e interprete os coeficientes. Alguns resultados: n = 18; 1108 18 1 =∑ =i iX ; 70362 18 1 2 =∑ =i iX ; 1530 18 1 =∑ =i iY ; 133300 18 1 2 =∑ =i iY e 91964 18 1 =∑ = i i iYX . Observação: O gabarito da Lista de Exercícios
Compartilhar