Baixe o app para aproveitar ainda mais
Prévia do material em texto
Apostila de Estatística Laboratório de EAA DME – Departamento de Matemática da PUC Minas 2º semestre de 2006 © DME /2006-2 2 de 70 LABORATÓRIO DE ESTATÍSTICA – AULA 1 ** Síntese Tabular, Gráfica e Numérica de Dados Qualitativos**. 1.1. Introdução O Minitab 14 para Windows é um sistema computacional para análise estatística de dados. Caracteriza-se pela simplicidade de uso e pela correção com que as técnicas estatísticas foram programadas. Este pacote é um dos mais utilizados no ensino da disciplina. Iniciando o Software Iniciar → Programas → MINITAB FOR WINDOWS → Minitab Após este procedimento o Minitab apresentará duas janelas visíveis: • Session: onde serão impressas as opções solicitadas e a maioria dos resultados obtidos. Pode-se também digitar os comandos desejados. • Worksheet : planilha para armazenagem de dados e de resultados. • A janela Project Manager normalmente permanece minimizada, mas pode ser maximizada a qualquer momento para obter-se informações sobre o projeto que está sendo trabalhado. A alternação entre as janelas pode ser feita: • Clicando com o mouse sobre a janela desejada, ou. • Usando as teclas de atalho: Ctrl+D - janela de Dados e Ctrl+M - janela da Seção O menu principal encontra-se no topo da janela contendo, na primeira linha, grupos de funções (File, Edit, Data, ...) e, na segunda linha, alguns atalhos (imprimir, salvar...): • File: funções de manipulação de arquivos: abrir e fechar projetos (Project), planilhas de dados (worksheet); salvar; imprimir e etc... • Edit: funções de manipulação de células da planilha e edições de preferências; • Data: manipulações da planilha de dados: recodificação; ordenação; atribuição de postos (ranking), cópia, empilhamento de colunas; etc... • Calc: funções que envolvem cálculos matemáticos ou probabilísticos em células, linhas ou colunas; • Stat: funções estatísticas envolvendo variáveis do banco de dados; • Graph: funções gráficas; • Editor: movimentações com colunas; busca e substituição de valores; etc... • Tools: algumas ferramentas disponíveis e complementares como, por exemplo, abertura do Notepad; Calculadoras, etc... • Windows: opções de apresentação das janelas de trabalho; apresentação das janelas utilizadas no projeto facilitando sua exposição; etc... • Help: Ajuda aos recursos, às funções, às definições das funções e aos procedimentos do Minitab. Grupo de Funções © DME /2006-2 3 de 70 1.2. Os Dados – Elementos e Variáveis EXERCÍCIO 1.1 (adaptado de Morettin & Bussab, Cap. 4, pág.98) O departamento de vendas da companhia X foi formado há um ano com a admissão de vendedores. Foi selecionada uma amostra aleatória de 15 vendedores. Naquela época, foram observados os valores de três variáveis para cada vendedor. Teste: resultado (número de acertos) em um teste apropriado para vendedores contendo 10 questões de múltipla escolha; Experiência: nº de anos de experiência em vendas; Conceito do gerente: conceito do gerente de vendas quanto ao currículo do candidato. O diretor da companhia resolveu ampliar o quadro de vendedores e pede a sua colaboração para resolver algumas perguntas. Para isso, ele te dá informações adicionais sobre duas variáveis: Vendas: volume médio mensal de vendas em milhares de unidades monetárias; Zona: zona da capital na qual o vendedor trabalhou durante o ano. Considere a Tabela abaixo com o Conjunto de Dados (banco de dados). Esta tabela contém as informações sobre uma amostra aleatória de 15 vendedores Tabela 1.1: Informações sobre vendedores da Cia X Vendedor Teste Experiência Conceito do gerente Vendas Zona 1 8 5 Excelente 54 Norte 2 9 2 Excelente 50 Sul 3 7 2 Regular 48 Sul 4 8 1 Regular 32 Oeste 5 6 4 Bom 30 Sul 6 8 4 Bom 30 Oeste 7 5 3 Bom 29 Norte 8 5 3 Bom 27 Norte 9 6 1 Regular 24 Oeste 10 7 3 Regular 24 Oeste 11 4 4 Bom 24 Sul 12 7 2 Regular 23 Norte 13 3 3 Regular 21 Sul 14 5 1 Regular 21 Oeste 15 3 2 Bom 16 Norte Fonte: Dados hipotéticos Dados: “São fatos e números coletados, analisados e sintetizados para apresentação e interpretação” (ANDERSON, 2003). Nesta tabela temos 15 Elementos e 5 Variáveis a) Complete: O vendedor 5 acertou _______ questões no teste de múltipla escolha apropriado para vendedores. O vendedor 3 tem ______ anos de experiência em vendas. O vendedor 9, na análise do currículo, foi classificado como _________ pelo gerente de vendas. O vendedor 2 vendeu ______ mil unidades monetárias, em média, e foi designado para a zona ________ da capital. O vendedor 12 teve seu currículo classificado pelo gerente como _______ e foi designado para a zona ______. Ele acertou _____ questões no teste, tem ______ anos de experiência e tem uma média de vendas mensais de _____ mil unidades monetárias. © DME /2006-2 4 de 70 Classificação das variáveis Para cada tipo de variável existem técnicas mais apropriadas para resumir as informações; daí a importância de classificar corretamente cada variável. Uma classificação muito usada é: Nominal Qualitativa Ordinal Discreta Quantitativa Continua b) Classifique as variáveis em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas). Teste: ________________________ ________________ Experiência: ___________________ ________________ Conceito do gerente: _______________ _____________ Vendas: ________________________ ______________ Zona: ___________________ _____________________ Entrando e Salvando Dados no Minitab c) Crie o arquivo de dados. Observação: as informações (números ou categorias) e os respectivos títulos de cada Variável serão digitados nas colunas; c1) Preencha os títulos de cada coluna A planilha de dados é denominada Worksheet. Cada coluna corresponde a uma variável. As colunas são designadas por C1, C2,... . O nome de cada variável é digitado no espaço apropriado antes da numeração das linhas da planilha. c2) Preencha as informações de cada variável Para simplificar a digitação criamos a seguinte codificação para as variáveis: ─ Conceito do gerente: Excelente = 3, Bom = 2 e Regular = 1; ─ Zona: Norte = 1, Sul = 2 e Oeste = 3; Digite a planilha (verifique se apareceu a letra T ao lado de C1, C2.). (Caso tenha aparecido, apague e refaça a digitação dos dados). © DME /2006-2 5 de 70 d) Salve o arquivo de dados seguindo a orientação do seu professor. File →→→→ Save Current Worksheet As →→→→ C →→→→ Temp →→→→ Nome do Arquivo (Escolha Um Nome) e) Recodifique as variáveis “Conceito do gerente” e “Zona”. Salve novamente o arquivo. 1. Escolha na barra de ferramentas a opção Data; 2. Selecione Code; 3. Dentre as alternativas apresentadas, escolha a 2ª opção: Numeric to text; 4. Posicione o cursor em: (Code data from columns); 5. Clique duas vezes (1) no nome da variável Conceito do gerente, para informar qual variável está sendo codificada; 6. Posicione o cursor em: (Into columns); 7. Clique novamente duas vezes no nome da variável Conceito do gerente para informar em que coluna será armazenada a informação; 8. Preencha as informações: Original values New 3 Excelente 2 Bom 1 Regular 9. Clique Ok; 10. Repita o procedimento para Zona; 11. Salve as alterações no arquivo de dados: FILE →→→→ SAVE CURRENT WORKSHEET. (1) Na maioria dos procedimentos temosque informar a variável que será utilizada. Primeiro posicionar o cursor no quadro variables Depois podemos proceder de uma das três maneiras: • Clicar duas vezes no nome da variável que aparece no retângulo à esquerda com o botão esquerdo do mouse. • Clicar uma vez no nome da variável e uma vez em select. • Digitar C e o número correspondente da coluna que contem os dados da variável. Por exemplo, no caso da variável Conceito do gerente, digite C3. Sintetizando os Dados Alguns procedimentos adequados a cada tipo de variável: Para as qualitativas nominais: • Tabelas (Distribuição de freqüência, Tabulação cruzada, Distribuição de freqüência relativa percentual); • Gráficos: (setores, barras, Pareto, etc); • Medidas (freqüências relativas e moda). Para as qualitativas ordinais: • Tabelas (Distribuição de freqüência, Tabulação cruzada, Distribuição de freqüência relativa percentual, Distribuição de freqüência relativa acumulada e Distribuição de freqüência relativa percentual acumulada); • Gráficos: (setores, barras, Pareto, etc); • Medidas: freqüências relativas e moda. Para as quantitativas: • Tabelas (Distribuição de freqüência, Distribuição de freqüência relativa percentual, Distribuição de freqüência acumulada e Distribuição de freqüência relativa percentual acumulada); • Gráficos (Gráfico de pontos, Ramo e folhas, Gráfico em caixas, Histograma, Diagrama de dispersão); • Medidas: (Média aritmética, Mediana, Quartil Inferior e Superior, Variância, Desvio padrão, Coeficiente de variação, Coeficiente de correlação etc.) © DME /2006-2 6 de 70 f) Sintetize as variáveis qualitativas através de freqüências e porcentagens (tabelas simples). 1. Escolha na barra de ferramentas Stat; 2. Escolha o comando Tables; 3. Escolha a opção Tally Individual Variables; 4. Escolha a variável qualitativa para as quais se deseja construir a distribuição de freqüências: Conceito do Gerente e Zona; 5. Escolha as opções de saída (Display): frequências (Counts), porcentagens (Percents) para a variável Zona, frequências acumuladas (Cumulative counts) ou ainda porcentagens acumuladas (Cumulative percents); 6. Clique Ok e analise as tabelas apresentadas. Complete: f1) Na amostra temos ________ vendedores regulares e _______% de bons. f2) ______ % são bons ou excelentes vendedores. f3) _______ % dos vendedores foram alocados na zona sul, que corresponde a _______ pessoas. Observação: A variável quantitativa discreta Teste também pode ser sintetizada da mesma maneira uma vez que assume poucos valores e é discreta. Complete: f4) ______ vendedores acertaram 5 questões no teste de múltipla escolha, que corresponde a _____%. f5) ______ vendedores acertaram menos de 5 questões no teste de múltipla escolha. f6) ______ % dos vendedores acertaram menos de 5 questões no teste de múltipla escolha. f7) ______ % dos vendedores acertaram 5 ou menos questões no teste de múltipla escolha. g) Construa um gráfico de barras para a variável Conceito do Gerente. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Bar Chart (Gráfico de Barras); 3. Clique Ok; 4. Passe a variável Conceito do Gerente para o quadro Categorical variables, 5. Escolha a opção Labels. Esta opção permite escrever um título apropriado para o gráfico (Titles/Footnotes) e apresentar as freqüências de cada categoria selecionando Data labels e Use Y-value labels em Label type; 6. Clique Ok.. h) Construa um gráfico de setores para a variável Zona. 1. Escolha na barra de ferramentas Graph; 2. Selecione Pie Chart (Gráfico de Setores); 3. Selecione Chart raw data; 4. Passe a variável Zona para o quadro Categorical variables; 5. Escolha a opção Labels. Esta opção é usada tanto para escolher um título apropriado para o gráfico (Titles/Footnotes), como para apresentar o nome, a freqüência e a porcentagem de cada categoria (Slice Labels); 6. Clique Ok. © DME /2006-2 7 de 70 1.3. Análise Bidimensional (variáveis qualitativas) Os dados podem ser sintetizados simultaneamente em uma tabulação cruzada, a fim de revelar a relação entre duas (ou mais) variáveis. Podemos sintetizar simultaneamente os dados de duas variáveis em uma tabela de dupla entrada. Para isso: a) Faça o cruzamento entre as variáveis: Conceito e Zona e responda as perguntas a seguir: 1. Escolha na barra de ferramentas Stat; 2. Escolha o comando Tables; 3. Escolha a opção Cross Tabulation and Chi Square; 4. Agora, escolha para o quadro Categorical variables as variáveis Conceito no quadro correspondente a For rows: e Zona no quadro correspondente a For columns: . Entre as opções de saída (Display), escolha: frequências (Counts) 5. Clique Ok. Complete a tabela 1.2: Tabela 1.2: Tabulação cruzada para o Conceito do Gerente e divisão por Zonas de Vendas Zona Conceito do gerente Norte Sul Oeste Total Regular Bom Excelente Total Responda: a1) Considerando os 15 vendedores, qual é a porcentagem de vendedores que obtiveram o conceito Regular e foram alocados na zona Oeste? ___________ a2) Entre os vendedores que tiveram o conceito Bom, qual é a porcentagem de vendedores que foi alocada na zona Norte? ___________ a3) Qual é a porcentagem de vendedores classificados como regulares?__________ a4) Entre os vendedores alocados na zona Oeste, qual é a porcentagem de vendedores que obtiveram conceito Regular? _________________ a5) Entre os vendedores alocados na zona Norte, qual é a porcentagem de vendedores que obtiveram conceito Regular? _________________ a6) Entre os vendedores alocados na zona Sul, qual é a porcentagem de vendedores que obtiveram conceito Regular? _________________ Se quisermos comparar as zonas em relação à classificação do vendedor devemos calcular as porcentagens relativas aos totais de coluna na tabela anterior. Isto pode ser feito diretamente no Minitab repetindo os passos de 1 a 4 e escolhendo entre as opções de saída as porcentagens relativas ao total das colunas (Column Percents). Em seguida, clique em ok. b) Complete a tabela 1.3: Tabela 1.3: Distribuição conjunta das proporções (em porcentagens) da classificação do Conceito do gerente de acordo com a Zona Zona Conceito do gerente Norte Sul Oeste Total Regular Bom Excelente Total 100 100 100 100 © DME /2006-2 8 de 70 O minitab permite construir uma tabela de dupla entrada colocando em cada célula todas as informações possíveis, ou seja: Freqüência; Percentagem em relação ao total da linha; Percentagem em relação ao total da coluna; Percentagem em relação ao total da amostra; Para isso, siga os passos: 1. Escolha na barra de ferramentas Stat; 2. Escolha o comando Tables; 3. Escolha a opção Cross Tabulation and Chi Square; 4. Agora, escolha para o quadro Categorical variables as variáveis Conceito no quadro correspondente a For rows: e Zona no quadro correspondente a For columns: . Em seguida, escolha as opções de saída (Display): frequências (Counts), porcentagens relativas ao total das linhas (Row Percents),. porcentagens relativas ao total das colunas (Column Percents) e porcentagens relativas ao total geral (Total Percents); 5. Clique Ok. c) Represente o cruzamento entre as variáveis Conceito do Gerente e Zona através de um gráfico de barras. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Bar Chart; 3. Escolha o tipo Stack ou Cluster e deixe a opção default ‘counts of unique values’ para Bar represents: e clique Ok ; 4. Para o quadro Categorical variables, selecione as variáveis Zona e Conceito; 5. Selecione Labels → Data Label → Use y-values labels em Label Type → Ok(2);6. Clique Ok. (2) Caso tenha esquecido de mandar mostrar os valores acima de cada coluna isto pode ser feito depois do gráfico pronto. Para isso clique com o botão direito do mouse em cima do gráfico →Add → Data Label → Label Type → Use y-values labels → Ok. Bibliografia ANDERSON, D. R.; SEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia. 2. ed. São Paulo: Pioneira Thomson Learning, 2002. BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. 5. ed. rev. São Paulo: Saraiva, 2003. © DME /2006-2 9 de 70 LABORATÓRIO DE ESTATÍSTICA – AULA 2 ** Síntese Tabular, Gráfica e Numérica de Variáveis Quantitativas**. **Análise Bidimensional** 2.1 Abrindo arquivos (planilha de trabalho) Abra o arquivo de dados que você salvou na aula passada. File →→→→ Open Worksheet →→→→ C →→→→ Temp →→→→ Nome do Arquivo 2.2 Síntese numérica de variáveis quantitativas Sintetize as variáveis quantitativas calculando as medidas usuais: média aritmética, mediana, desvio padrão o primeiro quartil (Q1), terceiro quartil (Q3), o mínimo e o máximo. 1. Escolha a opção Stat na barra de ferramentas; 2. Escolha a opção Basic Statistics; 3. Selecione a opção Display Descriptive Statistics; 4. Passe para o quadro Variables as variáveis Teste, Experiência e Vendas. 5. Selecione Ok. Observação: Como não usamos a opção Statistics o Minitab forneceu sua escolha padrão: N = número de dados; N* = número de dados omissos; Mean = média aritmética; SE Mean = erro padrão da média, que é o desvio padrão dividido pela raiz quadrada do tamanho da amostra. Esta medida é utilizada na inferência sobre a média populacional e será estudada posteriormente; StDev = desvio padrão; Minimum = mínimo; Q1 = primeiro quartil; Median = mediana; Q3 = terceiro quartil; Maximun = máximo. Poderíamos ter escolhido as medidas desejadas dentre uma lista de estatísticas disponíveis usando a opção Statistics. a) Complete: Quadro 2.1: Síntese numérica para as variáveis quantitativas Variáveis Medidas Teste (número de questões certas) Experiência (anos) Vendas (1000 unidades monetárias) Menor valor Primeiro quartil Segundo quartil Terceiro quartil Maior valor Média aritmética Desvio padrão b) O desvio padrão da variável vendas é de ________ mil unidades monetárias. c) Suponha que um vendedor seja considerado excepcional se seu volume médio de vendas for maior que dois desvios padrão acima da média geral. Quanto ele deve vender para ser considerado excepcional?___________________________. Quais são os vendedores excepcionais ____________________________________________________________________ d) Cinquenta por cento venderam, em média, menos de _________ mil unidades monetárias. © DME /2006-2 10 de 70 e) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujo volume médio de vendas for inferior ao 1o quartil da distribuição. Qual é o volume mínimo de vendas que um vendedor deve realizar para não ser transferido? ____________________________________________. f) A menor nota no teste foi _______ e a maior _______. Setenta e cinco por cento acertaram _____ ou mais questões. g) Vinte e cinco por cento dos vendedores têm _______ ou mais anos de experiência. h) Em média, os vendedores têm _____ anos de experiência. 2.3 Gráfico de pontos Construa um gráfico de pontos para a variável Vendas. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Dot Plot (Gráfico de Pontos); 3. Escolha a opção Simple de One Y; 4. Selecione para o quadro Variables a variável Vendas; 5. Clique Ok. Complete: O valor máximo de vendas foi de _______ mil unidades monetárias. ______ vendedores tiveram um volume médio mensal de 24000 unidades monetárias. No intervalo de 36 a 48 mil, temos _____ vendedores. 2.4 Gráfico de Ramo-e-folhas Construa um Ramo-e-folhas para a variável Vendas. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Stem-and-leaf; 3. Selecione para o quadro Variables a variável Vendas; 4. Digite 5 no quadro correspondente ao Incremento; 5. Clique Ok. Stem-and-Leaf Display: Vendas Stem-and-leaf of Vendas N = 15 Leaf Unit = 1,0 1 1 6 7 2 113444 (2) 2 79 6 3 002 3 3 3 4 3 4 8 2 5 04 Complete: _________ venderam 24 000 unidades monetárias ou menos. _________ venderam de 27 a 29 000 unidades monetárias. _________ venderam 48 000 unidades monetárias ou mais. _________ venderam 30 000 unidades monetárias ou mais. A forma da distribuição dos valores da variável Vendas é _____________________________. Compare os valores da média aritmética e da mediana. A média está localizada no _______ ramo e a mediana no _______ ramo. © DME /2006-2 11 de 70 Complete: Tabela 2.1: Vendas, em unidades monetárias. Faixas de vendas Freqüências 10 000 ≤ x < 20 000 20 000 ≤ x < 30 000 30 000 ≤ x < 40 000 40 000 ≤ x < 50 000 50 000 ≤ x < 60 000 Total 2.5 Gráfico de Caixas (Boxplot) Faça um Boxplot para a variável Vendas. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Boxplot; 3. Escolha a 1ª opção de gráfico Simple; 4. Clique Ok; 5. Passe a variável Vendas para o quadro Graph variables 6. Selecione Labels e escreva um título para o gráfico; 7. Clique Ok. 2.6 Análise Bidimensional I (uma variável quantitativa e outra qualitativa) Os vendedores argumentam ao diretor que o critério de ser transferido devido às vendas menores que o primeiro quartil não é justo, pois há zona de vendas menos privilegiada. A quem você daria razão? Para você responder este item, é necessário seguir os seguintes passos: a) Calcule as medidas descritivas, para a variável Venda, de acordo com a variável Zona. Analise os resultados, levando em conta as medidas de posição e de variabilidade. Não esqueça de calcular os coeficientes de variação. 1. Escolha a opção Stat na barra de ferramentas; 2. Escolha a opção Basic Statistics; 3. Selecione a opção Display Descriptive Statistics; 4. Passe para o quadro Variables a variável Vendas; 5. Passe a variável Zona para o quadro By variable; 6. Clique em Statistics e selecione as estatísticas: Mean (Média), Standard Deviation (Desvio padrão), Coefficient of variation (coeficiente de variação), Minimum (Mínimo), Maximum (Máximo), First quartile (1º Quartil), Median (Mediana), Third quartile (3º Quartil); 7. Selecione Ok; 8. Selecione Ok. © DME /2006-2 12 de 70 Complete: Quadro 2.2: Sumário da variável Vendas, de acordo com a Zona para a qual o vendedor foi designado. Zona Medidas Norte Sul Oeste Menor valor 1º Quartil Segundo quartil 3º Quartil Maior valor Média aritmética Desvio padrão Coeficiente de variação Responda: Em média a zona pior para vendas é a _____________. Os valores observados foram mais homogêneos em torno da respectiva média na zona __________. b) Faça o gráfico de caixas para a variável Vendas, de acordo com a variável Zona. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Boxplot; 3. Escolha With Groups na opção One Y e clique Ok; 4. Selecione para o quadro Graph Variables a variável Vendas; 5. Clique no quadro correspondente a Categorical variables for grouping e escolha a variável Zona; 6. Clique Ok. Analise o gráfico observando o que ocorreu com a zona oeste, em comparação com as outras. ______________________________________________________________________________ ______________________________________________________________________________________________ Complete: os valores das amplitudes interquartílicas são: _______, ______ e ______ para as zonas norte, sul e oeste, respectivamente. 2.7 Análise Bidimensional II (variáveis quantitativas) Qual das variáveis, Teste ou Experiência observada na admissão, é mais importante para julgar um futuro candidato ao emprego? 1) Faça um gráfico de dispersão para as variáveis: Teste e Vendas. 1. Escolha na barra de ferramentas Graph; 2. Escolha a opção Scatterplot; 3. Selecione o tipo Simple e clique Ok; 4. Escolha para Y a variável Vendas e para X a variável Teste; 5. Clique Ok. © DME /2006-2 13 de 70 2) Calcule o coeficiente de correlação linear entre as variáveis: Teste e Vendas. 1. escolha a opção Stat na barra de ferramentas; 2. escolha a opção Basic Statistics; 3. selecione a opção Correlation; 4. passe para o quadro Variables as variáveis Vendas e Teste; 5. clique Ok. c) Refaça os itens (a) e (b) para as variáveis Experiência e Vendas. Bibliografia ANDERSON, D. R.; SEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia. 2. ed. São Paulo: Pioneira Thomson Learning, 2002. BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. 5. ed. rev. São Paulo: Saraiva, 2003. © DME /2006-2 14 de 70 LABORATÓRIO DE ESTATÍSTICA - AULA 3 ** Histograma ** 3.1 Construção de Histograma EXERCÍCIO 3.1 (Adaptado de Werkema, cap. 6, pág. 167). Uma fábrica de azulejos recentemente começou a receber reclamações de seus clientes. A maioria das reclamações era relativa aos seguintes problemas: 1. os azulejos, ao serem manuseados, quebravam-se facilmente. 2. o assentamento dos azulejos não produzia um resultado uniforme em relação ao nível da parede. Em vista dessa situação, o gerente de vendas da indústria decidiu formar um grupo de trabalho para estudar estes problemas. Na primeira fase do estudo, o grupo de trabalho concluiu que a produção de azulejos com espessura inadequada poderia ser a causa dos problemas relatados pelos clientes. Esta conclusão resultou do conhecimento dos seguintes fatos: 1. azulejos com espessura muito fina quebram-se facilmente. 2. a falta de uniformidade na espessura dos azulejos provoca dificuldades durante o seu assentamento. Sabe-se que os limites de especificação para a espessura dos azulejos são 5,0 ± 1.5 mm, ou seja, a espessura dos azulejos deve variar entre 3.5 a 6.5 mm, sendo o valor nominal de especificação igual a 5.0 mm. Para avaliar se estavam ocorrendo problemas com a espessura dos azulejos produzidos, o grupo decidiu retirar uma amostra aleatória dos azulejos fabricados pela empresa, medir a espessura destes azulejos e comparar os resultados obtidos com as especificações. Como a indústria emprega duas turmas de trabalho (turmas A e B) e pode haver diferença na qualidade dos azulejos produzidos por cada turma, foi utilizada uma estratificação, sendo então retirada uma amostra de 80 azulejos produzidos pela turma A e 80 fabricados pela turma B. Os dados coletados estão apresentados na Tabela 3.1 a seguir e digitados no arquivo aula3ex1.mtw. Tabela 3.1 - Medidas de espessura (em mm) de 160 azulejos produzidos pela fábrica separados por turma de trabalho Espessura dos azulejos (em mm) Turma A Turma B 4.2 2.6 4.3 3.5 5.3 5.8 6.0 5.7 3.0 5.4 3.3 3.1 5.9 5.5 6.9 5.3 3.5 3.3 3.6 4.0 6.5 6.3 5.3 5.1 3.7 4.6 3.6 4.0 5.7 5.7 6.2 5.5 4.3 4.7 5.6 3.4 6.4 6.0 5.7 6.1 5.6 2.8 3.9 2.4 6.4 5.8 6.7 5.7 5.4 3.9 4.5 3.4 5.7 6.0 5.9 5.9 3.8 3.9 2.9 3.8 6.1 5.7 5.6 5.8 4.9 4.7 4.5 4.1 6.3 7.0 5.3 5.7 4.1 2.8 5.9 4.0 5.9 5.7 6.6 5.8 3.0 5.5 3.5 3.7 6.7 5.9 6.1 5.8 4.1 2.9 3.1 2.3 5.7 5.7 6.5 5.6 4.9 4.0 4.5 2.9 5.8 6.1 5.4 6.4 3.8 2.4 4.5 3.1 6.4 6.7 6.3 6.8 4.3 3.7 3.0 4.0 6.0 5.8 6.2 5.0 4.4 3.1 3.5 4.6 6.5 4.9 5.4 5.4 4.2 3.7 2.4 4.5 5.4 4.9 5.7 5.7 3.1 3.5 2.7 4.4 5.6 5.8 5.3 5.1 2.8 2.7 3.5 5.2 6.1 6.2 5.9 6.5 5.7 4.2 5.1 3.1 5.1 5.3 6.2 5.4 a) Responda: Quais as reclamações dos Clientes? ____________________________________________________________________________________ ____________________________________________________________ Os azulejos aceitáveis devem ter uma espessura de ______ a ______ mm. © DME /2006-2 15 de 70 Os azulejos são fabricados por ___ turmas de trabalho. O plano amostral utilizado foi: _________________ _______________. b) Abra o arquivo aula3ex1.mtw. File → Open Worksheet → ...... → aula3ex1.mtw A primeira coluna (C1) contem todas as medidas de espessura. A coluna seguinte (C2) serve para indicar qual turma produziu cada azulejo. c) Calcule as medidas descritivas utilizando todos os dados de espessura. Complete: Média aritmética: _______ mm; Desvio padrão: _______ mm; Menor valor: _______ mm; Primeiro quartil: _______ mm; Mediana: _______ mm; Terceiro quartil: _______ mm; Maior valor: _______ mm; Tamanho da amostra: ______ azulejos. d) Construa um gráfico de pontos utilizando todos os dados e responda: d1) Qual é a forma da distribuição das medidas de espessura dos azulejos produzidos pela fábrica? ___________________________________________________________ d2) Qual é a moda (o valor de espessura mais freqüente)? _________mm. e) Construa um histograma utilizando os dados de espessura dos 160 azulejos. Mostre as freqüências acima de cada coluna e exiba no gráfico os limites de especificação. Para isso, siga os passos: 1. Selecione Graph;. 2. Selecione Histogram; 3. Escolha a opção Simple; 4. Selecione a variável Espessura para o quadro Graph variables. ... Dando um título ao histograma... 1. Selecione Labels; 2. Digite no quadro Title um título apropriado para o seu gráfico. ... Mostrando a frequência absoluta de cada classe... 1. Selecione Data Labels ainda na opção Labels; 2. Assinale Use y-values labels em Label Type; 3. Selecione Ok.. ... Traçando os limites de especificação... 1. Selecione Scale; 2. Selecione Reference Lines...; 3. Digite 3,5 6,5 na caixa referente à Show references lines at X position; 4. Selecione Ok. ... Finalizando a primeira parte ... 5. Selecione Ok. Responda: e1) O histograma possui _____ classes; e2) O ponto médio da primeira classe é de _____ mm; e3) O ponto médio da última classe é de _____ mm; e4) A largura da classe (diferença entre dois pontos médios consecutivos) é de ___ mm. © DME /2006-2 16 de 70 f) O histograma não ficou da maneira desejada. Serão necessárias algumas modificações para que ele apresente um formato mais útil para a análise dos dados. Essas modificações serão feitas diretamente no gráfico. Vamos modificar o histograma fazendo exibir os limites de classe em vez dos pontos médios. Inicie a primeira classe com o limite de 2 mm e faça a última classe exibir o limite superior de 7,5 mm, com a largura de cada classe de 0,5 mm. Para isso, siga os passos: ... Definindo os limites de classe ... 1. Clique duas vezes nos valores do eixo X. Irá ser abrir uma caixa de diálogo Edit Scale; 2. Selecione Scale, e em Major Tick Positions selecione Positions of Ticks e digite 2:7,5/0,5 no quadro correspondente; 3. Selecione Binning, 4. Selecione Cutpoint.em Interval Type e dentre as opções de Intervals Definition, selecione Midpoint/cutpoint positions e digite 2:7,5/0,5 no quadro correspondente; 5. Selecione Ok. ... Nomeando os limites de especificação (limite inferior e limite superior de especificação)... 1. Clique duas vezes em cima da referência 3,5. Irá abrir a caixa de diálogo: Edit Reference Lines; 2. Selecione Text e digite LIE no quadro correspondente ao 3,5; 3. Selecione Alignment; custom em Positions e escolha a opção Below, to the right na seta de rolagemdo quadro habilitado; 4. Repita os processos acima para a referência 6,5 e digite LSE no quadro correspondente ao 6,5 e coloque-o na mesma posição em Alignment; 5. Selecione Ok. Responda: f1) O histograma possui agora _______ classes no lugar de 20 classes. f2) A classe com maior número de azulejos possui o limite inferior de ____ mm e o superior de ____ mm. f3) A primeira classe possui os limites: ______ e ______, enquanto que a última possui _____ e _____ mm. f4) Abaixo do limite inferior de especificação (LIE) temos _____ azulejos e acima do limite superior de especificação (LSE) temos _____. f5) A proporção de azulejos abaixo do limite inferior de especificação é de ____ % e a proporção de azulejos acima do limite superior de especificação é de ____ %. f6) A proporção de azulejos fora da especificação é de ____ %. f7) A proporção de azulejos fabricados de acordo com a especificação é de ____ %. f8) Você considera que a “espessura não adequada dos azulejos” pode ser considerada como uma causa influente dos problemas detectados? _____. f9) Justifique sua resposta. ______________________________________________________________________________ ________________________________________________________________ g) Separe as medidas de espessura que estão na coluna 1 (Espessura) de acordo com a turma, ou seja, coloque na coluna C3 os dados produzidos pela turma A e na coluna C4 os da turma B. Para isso, siga os passos: Criação das colunas C3 e C4 com os dados das Turmas A e B, respectivamente. 1. Selecione Data na barra de ferramentas; 2. Selecione Unstack Columns; 3. Para o quadro Unstack the data in, selecione C1 (Espessura); 4. Para o quadro Using subscripts, selecione C2 (Turma); 5. Assinale a opção: After last column in use em Store unstacked data; 6. Selecione Ok. © DME /2006-2 17 de 70 h) Calcule as medidas descritivas usuais para a espessura dos azulejos de cada turma. 1. Selecione Stat; 2. Selecione Basic Statistics; 3. Selecione Display Descriptive Statistics; 4. Selecione as variáveis Espessura_A e Espessura_B para o quadro Variables (3); 5. Selecione Statistics e escolha: Mean (Média), Standard deviation (Desvio-padrão), Coefficient of variation (coeficiente de variação), First quartile (primeiro quartil), Median (Mediana), Third quartile (terceiro quartil), Minimum (mínimo), Maximum (máximo), N nonmissing (no. válidos de observações);. 6. Selecione Ok, duas vezes. (3) Podemos também selecionar C1 em Variables e C2 em By Variables(optional) Complete o quadro abaixo: Quadro 3.1 Sumário das medidas de espessura para as turmas A e B Turmas Medidas A B Número de observações Menor valor Quartil Inferior Segundo quartil Quartil Superior Maior valor Média aritmética Desvio padrão Coeficiente de variação Qual turma produz azulejos mais homogêneos em torno da respectiva média? _______ i) Construa dois histogramas, para a Turma A e B separadamente. 1. Selecione Graph; 2. Selecione Histogram; 3. Selecione as variáveis C3 (Turma A) e C4 (Turma B) para o quadro Graph variables; 4. Selecione Ok. 5. Refaça os processos para ‘definir os limites das classes’ e nomear ‘os limites de especificação’. Com base em tudo que foi feito, responda: i1) Compare a espessura dos azulejos produzidos pelas duas turmas levando em consideração a proporção de azulejos fora de especificação produzidos por cada turma. A turma A produz ____% abaixo do limite inferior de especificação e a turma B produz ____% acima do limite superior de especificação. i2) Você considera que as duas turmas trabalham do mesmo modo ou existe diferença entre a qualidade dos azulejos produzidos pelas duas turmas? Justifique sua resposta. ________________________________________________________________________________ __________________________________________________________________ i3) O problema de quebra dos azulejos parece ser comum aos azulejos produzidos por ambas as turmas de trabalho da empresa ou parece estar associado a uma turma específica? Por quê? _______________________________________________________ © DME /2006-2 18 de 70 3.2 Exercitando o que você aprendeu EXERCÍCIO 3.2. Apresentamos a seguir as notas finas de uma turma de Estatística, do semestre passado, com 60 alunos. Os dados estão digitados no arquivo aula3ex2.mtw. 68 63 51 60 65 73 60 60 67 60 62 49 60 52 61 79 41 60 60 64 27 47 60 85 68 72 75 60 49 26 65 68 70 65 60 75 49 29 74 61 65 38 39 80 42 82 65 38 52 57 53 70 82 76 82 97 31 96 77 75 a) Abra o arquivo aula3ex2.mtw que contém os dados s sintetize as notas finais desta turma calculando as medidas descritivas usuais. Complete: A s notas finais dos ____ alunos variaram de ____ a ____, com média de ____, mediana de _____ e desvio padrão de ___ pontos. Os 25% melhores alunos ficaram com nota maior ou igual _____ e os 25% piores ficaram com nota menor ou igual a ____ pontos. b) Construa um gráfico de pontos. Comente. ____________________________________________________________________________________ ____________________________________________________________________ c) Construa um gráfico Ramo-e-folhas com um incremento de 10 pontos. Responda: c1) A mediana está localizada no __________ ramo e a média no ____ ramo; c2) ______ alunos ficaram com 57 pontos ou menos; c3) ______ alunos ficaram com 70 pontos ou mais; d4) ______ alunos ficaram com nota de 60 a 68 pontos; c5 ) ______ alunos ficaram com 39 pontos ou menos; c6) A forma da distribuição das notas é: ________________. Stem-and-Leaf Display: Notas Stem-and-leaf of Notas N = 60 Leaf Unit = 1,0 3 2 679 7 3 1889 13 4 127999 18 5 12237 (24) 6 000000000011234555557888 18 7 00234555679 7 8 02225 2 9 67 d) Construa um histograma com o limite inferior da primeira classe igual a 20, o limite superior da última igual a 100 e a amplitude da classe igual a 10 pontos. Considerando que a nota mínima de aprovação é 60, coloque este limite de especificação no gráfico e calcule a porcentagem de alunos reprovados nessa disciplina de Estatística (Caso você tenha concluído o histograma sem usar a opção Data Labels dentro de Labels, você pode clicar na barra de ferramentas em: Editor →→→→ Add →→→→ Data Labels →→→→ Ok). Bibliografia WERKEMA, M. C. C. As ferramentas estatísticas básicas para o gerenciamento de processos. Belo Horizonte: UFMG: Fundação Christiano Ottoni, 1995. (Ferramentas de Qualidade, 2). © DME /2006-2 19 de 70 LABORATÓRIO DE ESTATÍSTICA - AULA 4 ** Diagrama de Causa-e-Efeito e Gráfico de Pareto ** 4.1 Diagrama de Causa e Efeito “O Diagrama de Causa e Efeito é uma ferramenta utilizada para apresentar a relação existente entre um resultado de um processo (efeito) e os fatores (causas) do processo que, por razões técnicas, possam afetar o resultado considerado” (Werkema, 1995). O diagrama é utilizado para sumarizar e apresentar as possíveis causas do problema considerado, atuando como um guia para a identificação da causa fundamental deste problema e para a determinação das medidas corretivas que deverão ser adotadas. O diagrama, por lembrar, o esqueleto de um peixe é também denominado de Diagrama de Espinha de Peixe, ou Diagrama de Ishikawa (em homenagem ao professor Kaoru Ishikawa1). EXERCÍCIO 4.1 (WERKEMA, 1995, p. 97):Uma indústria automobilística verificou que,nos últimos meses, ocorreu um aumento do número de reclamações sobre a ocorrência de defeitos no suporte da lanterna traseira de um modelo de automóvel por ela fabricado. A empresa desejava eliminar esta situação indesejável. Na etapa de identificação do problema, os técnicos da indústria fizeram uma reunião com as pessoas envolvidas no processo, com o objetivo de levantar as possíveis causas de defeito no suporte da lanterna (brainstorming). Os principais tipos de defeitos sugeridos foram: moldagem solta, solda quebrada, centro da moldagem deslocado, lateral da moldagem deslocada, moldagem arranhada, moldagem dentada, plástico arranhado, limpeza incompleta, orifício deslocado e pino deslocado. Os defeitos foram classificados, no quadro abaixo, de acordo com sua causa. Por exemplo, o defeito Moldagem solta foi considerado como devido à Causa Humana. Quadro 4.1 - Principais tipos de defeitos levantados de acordo com suas causas Causas Tipos de defeitos Causa Humana Moldagem solta. Causa de Máquina Solda quebrada. Causa de Material Plástico arranhado. Causa do Método Centro da moldagem deslocado; Lateral da moldagem deslocada; Moldagem arranhada; Moldagem dentada. Causa da Medida Orifício deslocado; Pino deslocado. Causa do Ambiente Limpeza incompleta. a) Com os dados do quadro 4.1, veja a maneira de construir a planilha de trabalho. 1. Inicie o Minitab e abra a pasta de trabalho (worksheet) aula4ex1.mtw; 2. Observe que as causas: Humana, Máquina, Material, Método, Medida e Ambiente foram digitadas nos locais apropriados das colunas de C1 a C6, respectivamente; 3. Em cada coluna, foram digitados os tipos de defeitos, um em cada linha, de acordo com sua causa. 1 O professor Kaoru Ishikawa construiu o primeiro diagrama de causa e efeito para explicar a alguns engenheiros de uma indústria japonesa como vários fatores de um processo estavam interrelacionados. © DME /2006-2 20 de 70 b) Com os dados da planilha, construa um Diagrama de Causa e Efeito (Gráfico de Espinha de Peixe). Para isso, siga os passos: 1) Selecione Stat > Quality Tools > Cause-and-Effect 2) Em Causes, selecione as colunas C1 a C6, respectivamente, nas seis primeiras linhas; 3) Em Label, é preferível traduzir as identificações das causas. Digite Humana, Máquina, Material, Método, Medida e Ambiente, respectivamente, nas seis primeiras linhas; 4) Em Effect digite Defeitos no suporte da lanterna traseira. Em Titlle digite Diagrama de Causa e efeito para os Defeitos no suporte da lanterna traseira. 5) Clique Ok. 4.2 Gráfico de Pareto Este gráfico é usado nas aplicações de controle da qualidade para identificar a maioria das causas importantes de problemas. É um gráfico de colunas arranjadas em ordem descendente de altura, com a categoria que ocorre com maior freqüência aparecendo em primeiro lugar. O princípio de Pareto estabelece que um problema pode ser atribuído a um pequeno número de causas vitais. Logo, se forem identificadas as poucas causas vitais dos poucos problemas vitais enfrentados pela empresa, será possível eliminar quase todas as perdas por meio de um pequeno número de ações. Ou seja, em um primeiro momento, devemos concentrar nossa atenção sobre os poucos vitais, deixando de lado os muitos triviais, para que os problemas possam ser resolvidos da forma mais eficiente possível. O princípio de Pareto foi inicialmente estabelecido por J. M. Juran, que adaptou aos problemas da qualidade a teoria para modelar a distribuição de renda desenvolvida pelo sociólogo e economista italiano Vilfredo Pareto (1843-1923). Pareto mostrou, em 1897, que a distribuição de renda era muito desigual, com a maior parte da riqueza pertencendo a muito poucas pessoas. Juran foi o primeiro a notar que esta mesma idéia se aplicava aos problemas da qualidade – a distribuição dos problemas e de suas causas é desigual e, portanto as melhorias mais significativas poderão ser obtidas se nossa atenção for concentrada, primeiramente, na direção dos poucos problemas vitais e logo a seguir na direção das poucas causas vitais destes problemas. O Gráfico de Pareto dispõe a informação de forma a permitir a concentração dos esforços para melhoria nas áreas onde os maiores ganhos podem ser obtidos. (WERKEMA, 1995, p. 76) © DME /2006-2 21 de 70 EXERCÍCIO 4.2: Voltando ao exercício 4.1. Depois de criado o Diagrama de Causa e Efeito, os técnicos da indústria contaram o total de peças defeituosas encontradas em uma amostra de peças produzidas durante uma semana de trabalho, de acordo com os tipos de defeito que foram detectados. Os dados estão na tabela abaixo e se encontram no arquivo aula4ex2.mtw. Note que nesta tabela a segunda coluna representa a freqüência de ocorrência de cada tipo de defeito e a terceira coluna representa o prejuízo resultante da ocorrência de um defeito do tipo correspondente (prejuízo unitário). Tipo de defeito Quantidade de Defeitos Prejuízo Unitário (US$) Moldagem solta 14 0,25 Solda quebrada 01 0,10 Centro da moldagem deslocado 04 0,15 Lateral da moldagem deslocada 24 0,10 Moldagem arranhada 01 0,10 Moldagem dentada 44 0,75 Plástico arranhado 07 5,25 Limpeza incompleta 79 0,30 Orifício deslocado 01 0,10 Pino deslocado 05 0,35 a) Abra o arquivo aula4ex2.mtw. b) Crie uma coluna com os prejuízos totais correspondente a cada tipo de defeito. Para isso siga os passos: 1. Selecione Calc > Calculator. 2. No quadro Store result in variable, digite C4 e no quadro Expression, digite C3*C2. 3. Clique em Ok 4. Na planilha, digite um título apropriado para C4 (por exemplo: Prejuízo Total). Responda: b1) Qual o tipo de defeito que possui o maior prejuízo unitário? ____________ b2) Qual o tipo de defeito que possui o maior prejuízo total? ____________ c) Construa um Gráfico de Pareto onde o eixo vertical represente a quantidade de defeitos. Siga os passos: 1. Selecione Stat > Quality Tools > Pareto Chart. 2. Escolha Chart defects table (na segunda parte do quadro). 3. Para o quadro Labels in selecione a coluna C1 e para o quadro Frequencies in selecione a coluna C2. 4. Digite um título apropriado para o gráfico no quadro Title (por exemplo: Quantidade de defeitos). 5. Clique Ok. Responda: c1) Você tem na coluna 1 da planilha____ categorias de defeitos e no gráfico foram destacadas ____ categorias. c2) Quantas categorias de defeitos foram agrupadas na coluna “outros” do gráfico? ______. A categoria “outros” corresponde a ___ % do total de defeitos. © DME /2006-2 22 de 70 c3) Agrupe as categorias menos freqüentes criando uma nova categoria “outros” que englobe até 10% do total de defeitos. Para isso, siga os passos 1 a 3 do quadro acima e modifique 95 para 90 em: Combine defects after the first ______ % into one No novo gráfico: Quantas categorias de defeitos foram agrupadas na categoria “outros”? ______. A categoria “outros” corresponde a ___ % do total de defeitos. c4) Qual o principal defeito no suporte da lanterna? ________________. Quantas vezes este defeito ocorreu? _____________. Este defeito corresponde a ___ % do total de defeitos. c5) Os dois defeitos mais freqüentes contribuem com ___ % do total dos defeitos. Identifique os tipos de defeitos que os técnicos da empresa deveriam “atacar” em primeiro lugar, com o objetivo de melhorar os resultados que vinham sendo obtidos pela indústria. Justifique sua resposta. ______________________________________________________________________________ ______________________________________________________________________________d) Construa um Gráfico de Pareto onde o eixo vertical represente o prejuízo total associado a cada tipo de defeito. Siga os passos: 1. Selecione Stat > Quality Tools > Pareto Chart. 2. Escolha Chart defects table (na segunda parte do quadro). 3. Para o quadro Labels in selecione a coluna C1 e para o quadro Frequencies in selecione a coluna C4. 4. Digite um título apropriado para o gráfico no quadro Title (por exemplo: Prejuízo Total). 5. Clique Ok. d1) Qual categoria de defeito responde pelo maior prejuízo total? _______________. O prejuízo em dólares para este tipo de defeito é de ___________, que corresponde a ____ % do prejuízo total. d2) Quantas colunas há no gráfico? Foram aglomerados _____ categorias de prejuízo total na categoria “outros”. d3) Identifique os dois tipos de defeitos que os técnicos da empresa deveriam “atacar” em primeiro lugar, com o objetivo de melhorar os resultados que vinham sendo obtidos pela indústria. Justifique sua resposta. _________________________ ____________________________________________________________________ d4) Calcule a quantia em dólares que poderia ser economizada pela indústria, caso estes dois defeitos fossem eliminados (obs: posicione o cursor no segundo ponto da ogiva). © DME /2006-2 23 de 70 EXERCÍCIO 4.3 (WERKEMA, 1995, p. 77): Uma indústria fabricante de lentes classificou uma amostra retirada da produção de uma semana, de acordo com os tipos de defeitos detectados. Os resultados estão abaixo. Tipo de defeito Quantidade Arranhão 12 Trinca 41 Revestimento inadequado 55 Espessura inadequada 11 Não acabada 5 Outros 3 a) Abra o arquivo aula4ex3.mtw. b) Construa o Gráfico de Pareto onde o eixo vertical representa a quantidade de defeitos inicial (colunas C1 e C2). c) Identifique os dois tipos de defeitos que você "atacaria" em primeiro lugar, com o objetivo de melhorar os resultados que vêm sendo obtidos pela indústria. Justifique a sua resposta. _________________________________________________________________________________ _________________________________________________________________________________ d) Após a adoção das medidas corretivas propostas pelos funcionários, a indústria coletou uma nova amostra, constituída de 1200 lentes, obtendo os resultados apresentados na tabela a seguir. Tipo de defeito Quantidade após adoção de medidas corretivas Arranhão 14 Trinca 6 Revestimento inadequado 8 Espessura inadequada 12 Não acabada 7 Outros 4 d1) Construa o Gráfico de Pareto onde o eixo vertical representa a quantidade de defeitos após a implantação das melhorias (colunas C1 e C3). d2) Quais são os dois principais problemas agora? _______________ e ___________? Eles representam ____% do total de defeitos. e) Calcule a Melhoria Total usando a seguinte fórmula: %100 TDA TDD-TDA MT ×= onde: MT = Melhoria Total; TDA = Total de Defeitos Antes e TDD = Total de Defeitos Depois. © DME /2006-2 24 de 70 4.3 Desdobramento de Gráficos de Pareto O desdobramento de gráficos de Pareto consiste em tomar as categorias identificadas como prioritárias (“poucos vitais”) em um primeiro gráfico como novos problemas a serem analisados por meio de novos gráficos de Pareto. O desdobramento continua até que o nível de detalhamento desejado seja obtido. EXERCÍCIO 4.4: (WERKEMA,1995 p. 94). Uma indústria automobilística registrou a ocorrência de 161 defeitos em automóveis de um certo modelo. Os dados da tabela abaixo e os desdobramentos dos dois principais defeitos estão no projeto do Minitab projAula4ex4.mpj . Tipo de defeito Quantidade de defeitos Motor 20 Sistema elétrico 11 Carroceria 80 Acessórios 45 Outros 5 Defeitos em Carroceria Defeitos em Acessórios Tipo de defeito Quantidade de defeitos Tipo de defeito Quantidade de defeitos Pintura 45 Ar-condicionado 25 Pára-Brisa 20 Limp. pára-brisa 12 Estofamento 10 Rádio 5 Outros 5 Outros 3 Defeitos em Pintura Defeitos em Ar-condicionado Tipo de defeito Quantidade de defeitos Tipo de defeito Quantidade de defeitos Bolha 11 Muito quente 6 Mancha 4 Não funciona 14 Arranhão 28 Muito frio 3 Outros 2 Outros 2 a) Abra o arquivo: File → Open project →....→ projAula4ex4.mpj b) Construa os gráficos de Pareto para as tabelas acima. Selecione, usando o menu Window, cada uma das pastas de trabalho (worksheets) b1) Abra a planilha “defeitos nos automóveis”, construa o gráfico de Pareto e responda: Os defeitos mais frequentes são: ______________ e ______________. Eles respondem por ____ e ____% dos defeitos respectivamente. Juntos respondem por ___% dos defeitos. b2) Abra a planilha “defeitos na carroceria”, construa o gráfico de Pareto e responda: Os defeitos mais frequentes são: ______________ e ______________. Eles respondem por ____ e ____% dos defeitos respectivamente. Juntos respondem por ___% dos defeitos. b3) Abra a planilha “defeitos na pintura” , construa o gráfico de Pareto e responda: A categoria arranhão corresponde a ____% dos defeitos na pintura. b4) Abra a planilha “defeitos nos acessórios”, construa o gráfico de Pareto e responda: Os defeitos no ar condicionado respondem por ____% dos defeitos nos acessórios © DME /2006-2 25 de 70 b5) Abra a planilha “defeitos no ar condicionado”, construa o gráfico de Pareto e responda: O que mais causa reclamação é que o ar não funciona, correspondendo a ____% das reclamações. 4.4 Estratificação de Gráficos de Pareto A comparação de gráficos de Pareto construídos considerando diferentes níveis de fatores de estratificação de interesse pode ser muito útil para a identificação das causas fundamentais de um problema. A estratificação consiste agrupar os dados de acordo com fatores de forma a possibilitar uma melhor avaliação do problema. Os fatores de estratificação usuais são: região, turno, tempo (dia, semana, mês), operador, lote de matéria prima e máquina (tipo, fabricante). EXERCÍCIO 4.5: Uma companhia de seguros colocou como meta reduzir a ocorrências de erros no preenchimento de formulários de apólice de seguro. Nesta empresa, existiam dois modelos distintos de formulários (I e II), quatro operadores (Júnia, Júlia, Jorge e José) trabalhavam no preenchimento das apólices e cinco tipos de erros (A, B, C , D e E) poderiam ocorrer. Durante uma semana de trabalho foram registrados 557 erros de preenchimentos nos formulários. Os dados estão digitados no arquivo aula4ex5.mtw. (adaptado de WERKEMA,1995, p. 100). a) Construa um gráfico de Pareto para os Tipos de erro; 1. Abra o arquivo aula4ex5.mtw; 2. No menu, selecione Stat > Quality Tools > Pareto Chart; 3. Escolha Chart defects data in e selecione C1 (Tipo de erro). Clique em Ok. Observação: Note que estamos trabalhando com os dados brutos, ou seja, cada linha do arquivo corresponde a um erro de preenchimento do formulário. Por isto é que usamos “Chart defects data in” em vez de “Chart defects table”. Este último é usado quando já temos uma tabela já pronta com os tipo de erros e a freqüência de cada um. b) Repetir os passos do item a) para Operador, Dia da semana e Formulário. Quais são as suas conclusões? Complete: O tipo de erro mais freqüente no preenchimento das apólices é o tipo ____, que corresponde a _____ % do total de erros. O operador que mais comete erros é __________, que responde por ___% do total de erros dos operadores. O dia da semana não é um causador de problemas, pois a Quinta, a Terça, a Quarta, a Sexta e a Segunda feira respondem por _____, _____, _____, _____e _____% dos erros,respectivamente. Também não há grande diferença entre a quantidade de erros nos dois tipos de formulário, onde o formulário I responde por ___%dos preenchidos com erro e o do tipo II com o restante. c) Construa um gráfico de Pareto para os tipos de erros considerando: Operador, Dia da semana e Formulário. Analise os resultados. Siga os passos: 1. No menu, selecione Stat > Quality Tools > Pareto Chart; 2. Escolha Chart defects data in e selecione C1 (Tipo de erro); 3. Em BY variable in, selecione C2 (ou C3 ou C4). Clique em Ok 4. Deixe a opcao padrão: Default (all on one graph, same ordering of bars). Bibliografia WERKEMA, M. C. C. As ferramentas básicas para o gerenciamento de processos. Belo Horizonte: UFMG: Fundação Christiano Ottoni, 1995 (Ferramentas da Qualidade, 2). cap 4 e 5. © DME /2006-2 26 de 70 LABORATÓRIO DE ESTATÍSTICA - Aula 5 ** Correlação ** EXERCÍCIO 5.1 (Bussab & Morettin, cap. 4, pag. 96) Numa amostra de cinco operários de uma empresa foram observadas duas variáveis: anos de experiência num dado cargo e tempo, em minutos, gasto na execução de uma certa tarefa relacionada com esse cargo. Os dados estão digitados no arquivo aula5ex1.mtw. Experiência 1 2 4 4 5 Tempo 7 8 3 2 2 a) Abra o arquivo. b) Calcule a média e o desvio padrão de cada variável. Preencha o quadro abaixo. Estatísticas Experiência Tempo Média Desvio padrão c) Escolha adequadamente X (variável explicativa) e Y (variável resposta). X = ________________________________ Y = ________________________________ d) Construa o diagrama de dispersão. 1. escolha a opção Graph na barra de ferramentas; 2. escolha a opção Scatterplot; 3. escolha a opção Simple e selecione Ok; 4. em Y variables entre com a variável Tempo e em X variables entre com a variável Experiência; 5. selecione Ok. e) Algumas linhas de referência podem ser incluídas no gráfico para auxiliar na interpretação. Inclua no diagrama de dispersão as linhas de referência nas posições: 4,4 minutos ( y = 4,4) e 3,2 anos ( x = 3,2). Analise o gráfico. 1. selecione o gráfico clicando sobre ele com o mouse; 2. escolha a opção Editor na barra de ferramentas (ou use o botão direito do mouse); 3. escolha a opção Add e depois Reference Lines; 4. em Show reference lines for Y positions digite 4,4; 5. em Show reference lines for X positions digite 3,2. 6. selecione Ok. f) Calcule a covariância entre as variáveis X e Y. 1. escolha a opção Stat na barra de ferramentas; 2. escolha a opção Basic Statistics; 3. selecione a opção Covariance; 4. em Variables, entre com as variáveis Experiência e Tempo; 5. selecione Ok. © DME /2006-2 27 de 70 g) Calcule e interprete o coeficiente de correlação linear de Pearson. 1. escolha a opção Stat na barra de ferramentas; 2. escolha a opção Basic Statistics; 3. selecione a opção Correlation; 4. em Variables, entre com as variáveis X e Y e desmarque a seleção Display p-values; 5. selecione Ok. Para melhor entendimento a respeito do coeficiente de correlação abra o projeto projAula5ex1.mpj com alguns gráficos exibindo diversas formas de correlação. File → Open project → .... → projAula5ex1.mpj EXERCÍCIO 5.2 (Bussab & Morettin, cap. 4, pag. 81) Dados o tempo de serviço em anos de 10 funcionários de uma companhia de seguros e a quantidade de clientes que cada um possui, verifique se existe uma associação entre essas variáveis. Os dados estão digitados no arquivo aula5ex2.mtw. Tempo de serviço 2 3 4 5 4 6 7 8 8 10 Quantidade de clientes 48 50 56 52 43 60 62 58 64 72 a) Escolha adequadamente X e Y. b) Construa o diagrama de dispersão e descreva a relação que existe entre as variáveis. c) Calcule a média das duas variáveis e inclua no gráfico as linhas de referência d) Calcule e interprete o coeficiente de correlação linear de Pearson. EXERCÍCIO 5.3 (Bussab & Morettin, cap. 4, pag. 82) Numa pesquisa feita com 10 famílias com renda bruta mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis: Renda: renda bruta mensal (expressa em números de salários mínimos) e %R_Saúde: porcentagem da renda bruta anual gasta com assistência médica. Os dados estão digitados no arquivo aula5ex3.mtw. Renda 12 16 18 20 28 30 40 48 50 54 %R_Saúde 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5 a) Escolha adequadamente X e Y. b) Construa o diagrama de dispersão; c) Calcule e interprete o coeficiente de correlação linear de Pearson. EXERCÍCIO 5.4 (Farias et al, cap 13, pág. 232) Os quatro conjuntos de dados a seguir foram preparados pelo estatístico F. J. Anscombe e são usados com freqüência em aulas sobre correlação. Os dados estão digitados no arquivo aula5ex4.mtw. Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 1X 1Y 2X 2Y 3X 3Y 4X 4Y 10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,10 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,10 4 5,39 19 12,50 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89 © DME /2006-2 28 de 70 a) Calcule a média e o desvio padrão das variáveis 1 2 3 4, , eX X X X . b) Calcule a média e o desvio padrão das variáveis 1 2 3 4, , eY Y Y Y . c) Calcule o coeficiente de correlação linear de Pearson para cada conjunto de dados. d) Construa o diagrama de dispersão para cada conjunto de dados. 1. escolha a opção Graph na barra de ferramentas; 2. escolha a opção Scatterplot; 3. escolha a opção Simple e selecione Ok; 4. preencha o quadro: Y variables X variables 1 1Y 1X 2 2Y 2X 3 3Y 3X 4 4Y 4X 5. selecione a opção Múltiple graphs; 6. escolha a opção In separate panels of the same graph; 7. selecione Ok duas vezes. e) Analise os resultados. EXERCÍCIO 5.5 (Barbetta, cap. 13, p.275). Considere as variáveis nota na prova do vestibular de matemática e nota final na disciplina de cálculo. Estas variáveis foram observadas para 20 alunos, ao final do primeiro período letivo de um curso de engenharia. Os dados são apresentados logo abaixo e estão digitados no arquivo aula5ex5.mtw. Matemática 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32 65 47 28 67 Cálculo 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58 88 71 52 88 a) Escolha adequadamente X e Y. b) Construa um diagrama de dispersão e verifique se existe correlação entre os dados observados das duas variáveis. c) Calcule coeficiente de correlação entre a nota no vestibular de matemática e a nota na disciplina de cálculo. d) Existe algum aluno que foge ao comportamento geral dos demais (ponto discrepante)? e) Retire o valor discrepante detectado e calcule novamente o coeficiente de correlação. Interprete. EXERCÍCIO 5.6 (Bussab & Morettin, cap.4, p. 96) Muitas vezes a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um processo difícil e caro. Como alternativa, pode-se estimar a capacidade de produção através da escolha de uma outra variável de medida mais fácil e que esteja linearmente relacionada com ela. Suponha que foram observados os valores para as variáveis: capacidade de produção instalada (em toneladas), potência instalada (em 1000 kw) e área construída (em 100 m2). Com base em um critério estatístico qual das variáveis você escolheria para estimar a capacidade de produção instalada. Os dados estão digitados no arquivo aula5ex6.mtw. Cap. Prod. Inst. 4 5 4 5 8 9 10 11 12 12 Potência Inst. 1 1 2 3 3 5 5 6 6 6 Área construída 6 7 10 10 11 912 10 11 14 © DME /2006-2 29 de 70 a) Construa o diagrama de dispersão da capacidade de produção instalada com cada uma das possíveis variáveis explicativas. Qual variável parece estar mais correlacionada com a capacidade de produção instalada? b) Calcule o coeficiente de correlação nos dois casos. O coeficiente confirma a impressão visual dos diagramas? EXERCÍCIO 5.7 No arquivo aula5ex7.mtw são apresentados os dados de 100 profissionais da área gerencial referentes às seguintes variáveis: tempo de conclusão do curso de graduação, salário (em número de salários mínimos) e instituição em que se formou. a) Abra o arquivo de dados; b) Escolha adequadamente X e Y; c) Construa o diagrama de dispersão e calcule o coeficiente de correlação; d) Construa o diagrama de dispersão levando em consideração a instituição em que o aluno se formou; 1. escolha a opção Graph na barra de ferramentas; 2. escolha a opção Scatterplot; 3. escolha a opção With groups e selecione Ok; 4. em Y variables entre com a variável Salário e em X variables entre com a variável Tempo; 5. em Categorical variables entre com a variável Instituição; 6. selecione Ok. e) Separe os dados dos profissionais por instituição. 7. Selecione Data na barra de ferramentas; 8. Selecione Unstack Columns; 9. Para o quadro Unstack the data in, selecione C1 (Tempo) e C2 (Salário); 10. Para o quadro Using subscripts, selecione C3 (Instituição); 11. Assinale a opção: After last column in use em Store unstacked data; 12. Selecione Ok. f) Recalcule os coeficientes de correlação por instituição. BIBLIOGRAFIA BARBETTA, P. A. Estatística aplicada às ciências sociais. 5.ed. rev. Florianópolis: Ed. da UFSC, 2002. BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. 5. ed. rev. São Paulo: Saraiva, 2003. STEVENSON, W. J. Estatística aplicada à administração. São Paulo: Harper & Row do Brasil, 1981. SOARES, J. F., FARIAS, A. A, CESAR, C. C. Introdução à estatística. 2. ed. Rio de Janeiro: LTC, 2003. © DME /2006-2 30 de 70 ESTATÍSTICA LABORATÓRIO - AULA 6 ** Regressão Linear ** 6.1 INTRODUÇÃO Após a análise do diagrama de dispersão e do coeficiente de correlação, se concluirmos que existe uma correlação linear significativa entre duas variáveis, o próximo passo será tentar estimar uma equação que melhor descreva a relação entre essas variáveis. A relação mais simples que conhecemos é aquela descrita pela equação de uma reta. Considere que certo banco esteja interessado em estabelecer um critério objetivo para avaliar a eficiência de seus gerentes e para isso, levantou dados à respeito do depósito médio mensal por agência e a quantidade de estabelecimentos comerciais para uma amostra de 9 subdistritos onde o banco possuía agência. Pelo diagrama de dispersão mostrado na figura 1a fica evidente que o valor do depósito depende da quantidade de comércios e pela disposição dos pontos vemos que uma reta seria a melhor descrição. Na figura b1, é exibida a reta que melhor ajusta aos pontos e a equação que gerou a reta. ( a ) ( b ) Figura 1 – Relação observada entre depósito médio mensal nas agências bancárias e a quantidade de estabelecimentos comerciais A reta ajustada na figura 1b é denominada de reta de regressão e sua equação é denominada de equação de regressão. O termo regressão originou de um trabalho de Sir Francis Galton (1822-1911) sobre fenômeno de hereditariedade. Modelo de regressão linear simples Uma vez que assumimos uma relação linear entre as variáveis o modelo linear proposto será: ε+β+β= xy 10 Onde Y = Variável dependente (ou resposta) - é a variável que imaginamos depender de X X = Variável independente (ou preditora ou explanatória) ββββ0 = parâmetro que representa o coeficiente linear (ou intercepto) da reta ββββ1 = Parâmetros que representa o coeficiente angular (ou inclinação) da reta εεεε = Erro aleatório (vindo de erros de medidas e/ou de ausência de outras variáveis independentes (x) também consideradas importante para explicar a a variável resposta (y) ) Quantidade de estabelecimentos comerciais (x) D e p ó s it o m é d io m e n s a l (y ) 400350300250200150100500 500 450 400 350 300 250 200 Diagrama de dispersão Y = 207,7 + 0,8321 X Quantidade de estabelecimentos comerciais (x) D e p ó s it o m é d io m e n s a l (y ) 400350300250200150100500 500 450 400 350 300 250 200 Diagrama de dispersão © DME /2006-2 31 de 70 6.2 Suposições para o modelo linear Mesmo que ε+β+β= xy 10 seja um modelo simples, ainda assim devemos fazer algumas suposições à respeito do erro aleatório εεεε. As suposições são necessárias para que possamos fazer inferências sobre alguma previsão e parâmetros do modelo (teste de hipóteses e construção de intervalo de confiança). Suposições 1) Os erros se distribuem normalmente com média zero e variância constante σ2 2) Os erros não são correlacionados. Ou seja, o fato de um erro ser maior não tende a elevar o valor de um outro erro. 6.3 Critério dos Mínimos Quadrados Ordinais para ajustar a reta Usando apenas os dados amostrais não podemos obter os valores exatos dos parâmetros β0 e β1. Esses parâmetros deverão ser estimados com base nos dados amostrais. A equação de regressão com os parâmetros estimados é representada por XbbYˆ 10 += 0b é uma estimativa do 0β e representa o coeficiente linear (ou intercepto) da reta estimada 1b é uma estimativa do 1β e representa o coeficiente angular (ou inclinação) da reta estimada Como é impossível a reta passar por todos os pontos, sempre haverá diferença entre algum valor observado iy e o valor ajustado pela reta iyˆ para o i-ésimo ponto. Essa diferença ii yˆy − é denominada de resíduo (ou erro de estimação) . O Método dos Mínimos Quadrados é um critério que utiliza os dados da amostra para obter os valores de b0 e b1. O método procura os valores de b0 e b1 que minimiza a soma dos quadrados dos resíduos )b,b(L 10 . Com essas estimativas conseguimos tornar os resíduos tão menores quanto possível e ajustar a reta que chamamos de reta de regressão (ou reta ótima, ou reta de melhor ajuste ou reta de mínimos quadrados). )b,b(L 10 = ∑ = − n 1i 2 ii )yˆy( ∑ = −−= n 1i 2 1oi )xbby( O critério de mínimos quadrados procura nas seguintes estimativas: • ( ) ( ) ( ) ( ) ( )2i2i iiii 1 xxn yxyxn b ∑∑ ∑∑∑ − ⋅− = coeficiente angular ou inclinação da reta • xbyb 10 −= coeficiente linear ou intercepto da reta 6.4 Erro-padrão da estimativa es O erro-padrão da estimativa ( es ) representa uma estimativa da medida de dispersão dos pontos em torno da reta ajustada. Da mesma forma que desvio-padrão mede a variabilidade dos dados em torna da meda amostral, o erro-padrão da estimativa mede a variabilidade dos pontos em torno da reta ajustada. ( ) ( ) ( ) 2n yxbyby 2n )yˆy( s ii1i0 2 i 2 i e − −− = − − = ∑∑∑∑ © DME /2006-2 32 de 70 6.5 Intervalo de confiança e Intervalo de previsão • Estimativa pontual de Y quando X = x0 0100 xbbyˆ += • Intervalo de confiança para 0xX|Y =µ = média de Y quando X = xo ( ) ( )2i2i 2 0 e20 xxn )xx(n n 1 styˆ ∑∑ −⋅ −⋅ +⋅⋅± α • Intervalo de confiança para 0xXY = = valor individual de Y quando X = xo ( ) ( )2i2i 2 0 e20xxn )xx(n n 11styˆ ∑∑ −⋅ −⋅ ++⋅⋅± α 6.7 Coeficiente de Determinação (R2) O coeficiente de determinação (R2) mede a proporção da variação em Y que é explicada pela equação de regressão estimada. Quanto maior for o valor de R2, maior será a proporção da variação em Y explicada pela equação estimada. É freqüentemente usada para julgar a adequação de um modelo de regressão. ∑ ∑ − − === 2 i 2 i2 )yy( )yyˆ( Total Variação estimado regressão de modelo pelo Explicada Variação VT VER Note que: 0% ≤ R2 ≤ 100% EXERCÍCIO 6.1 (Bussab & Morettin, cap. 4, pag. 81) Um gerente de uma companhia de seguros selecionou uma amostra 10 funcionários e registrou para cada um deles o tempo de serviço (em anos) e a quantidade de clientes que cada um possui. O interesse do gerente é estabelecer um modelo para prever a quantidade de clientes de um funcionário com base no tempo de serviço. Os dados estão na tabela abaixo e digitados no arquivo aula6ex1.mtw. Func. Tempo Quantidade de clientes Beto 2 48 Nivia 3 50 Bina 4 56 Bob 5 52 João 4 43 Manoel 6 60 Pedro 7 62 José 8 58 Rui 8 64 Lucas 10 72 a) Estabeleça inicialmente a variável independente X e variável dependente Y. b) Construa o diagrama de dispersão e determine o coeficiente de correlação. Escreva uma frase descrevendo o tipo da relação entre as variáveis. c) Assumindo uma relação linear entre as variáveis, estime a equação de regressão que melhor descreve essa relação. Interprete os coeficientes de regressão b0 e b1. d) Faça uma previsão da quantidade de clientes para um funcionário com 8 anos de casa. e) Calcule e interprete o coeficiente de determinação (R2). © DME /2006-2 33 de 70 SOLUÇÃO a) Variável Dependente (Y) = Variável Independente (X) = b) Com o arquivo aula6ex1.mtw já aberto Diagrama de dispersão • Graph > Scatterplot > Simple > Ok; • Clientes em Y variables e Tempo em X variables > Ok. Coeficiente de correlação • Stat > Basics Statistics > Correlation; • Clientes e Tempo em Variables; desmarque a seleção Display p-values > Ok Descrição da relação entre as variáveis Pelo diagrama de dispersão e pelo coeficiente de correlação (rxy = 0,877) há evidência de uma ‘forte’ (rxy > 0,70) correlação positiva entre as variáveis Tempo e Clientes, indicando que funcionários com maior tempo de serviço tendem a ter uma maior quantidade de clientes. c) Ajustar a equação de regressão xbbyˆ 1o ⋅+= (veja GRÁFICO 1) • Stat > Regression > Fitted Line plot (gráfico com linha ajustada); • Clientes em Response (Y) e Tempo em Predictor (X); Type of Regression Model: Linear > Ok. Equação de regressão estimada: Clientes = 39,67 + 2,952 Tempo onde, b0 = 39,67 é o coeficiente linear ou intercepto da reta (valor de y para x = 0). Para funcionários iniciando hoje (tempo zero) ele teria cerca de 40 funcionários (39,67 arredondado). Isso tem sentido?. Note que a unidade de b0 é a mesma do y. b1 = 2,952 é o coeficiente angular ou inclinação da reta. Significa um acréscimo de quase de 3 clientes (2,952 arredondado) para cada uma ano a mais de tempo de serviço. Note que, para estes dados, uma unidade no X representa exatamente um ano e serviço. d) Clientes = 39,67 + 2,952 * (8) = 63,286 ≈ 63 clientes (quantidade prevista de clientes para um funcionário com 8 anos de casa) Note que devemos dar muita atenção às unidades das variáveis. Por exemplo, qual seria a previsão da quantidade de clientes para um funcionário com 60 meses de casa? e) Coeficiente de Determinação R2 = (Variação Explicada) / (Variação Total) = 76,9% 76,9% da variação total nos números de clientes pode ser explicada pela variação no tempo de serviço através da equação de regressão estimada. Os outros 23,1% restantes são explicados por outros fatores além do tempo de serviço e que não foram incluídos no modelo. © DME /2006-2 34 de 70 Tempo C lie n te s 10987654321 75 70 65 60 55 50 45 40 S 4,36270 R-Sq 76,9% R-Sq(adj) 74,0% Fitted Line Plot Clientes = 39,67 + 2,952 Tempo GRÁFICO 1 – Ajuste do Número de clientes em função do Tempo de serviços Continuando com o exemplo 1, a previsão feita na letra “d” do número de clientes para funcionário com 8 anos de casa é apenas uma estimativa pontual. Podemos melhorar essa estimativa incorporando a ela alguma medida de precisão e conseguimos isto ao construir uma estimativa de intervalo de confiança (para estimar a média populacional de Y) e de intervalo de predição (para estimar um valor individual de Y) . f) Construa o intervalo de confiança de 95% para o número médio de clientes dos [todos] funcionários com 8 anos de tempo de serviço. Queremos um intervalo de confiança IC para a média 0xX|Y =µ = 0Yµ = número médio de clientes dos [todos] funcionários com x0 = 8 anos de tempo de serviço. g) Construa o intervalo de previsão de 95% para o número de clientes para um único funcionário com 8 anos de tempo de serviço. Queremos um intervalo de previsão IP para a previsão 0xXY = = 0Y = previsão do número de clientes de um único funcionário com x0 = 8 anos de tempo de serviço. Estimar a equação de regressão, fazer previões da variável Y (Número de clientes) com base na variável X (Tempo de serviço) e construir intervalos de confiança e predição • Stat > Regression > Regression • Clientes em Response e Tempo em Predictors. • Entre em Options em prediction intervals for new observations digite 8 (valor de X para o qual você quer fazer previsão) em Confidence level, escolha o nível de confiança para o intervalo de confiança e intervalo de predição © DME /2006-2 35 de 70 Os resultados estão na janela Session The regression equation is Clientes = 39,7 + 2,95 Tempo ... (resultados omitidos) Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 63,29 1,91 (58,89; 67,69) (52,31; 74,27) Values of Predictors for New Observations New Obs Tempo 1 8,00 (Resposta da letra f) Estamos 95% confiantes de que 0Yµ , número médio de clientes dos funcionários com 8 anos de tempo de serviço, está dentro do intervalo de 58,89 a 67,69 clientes (arredondando para 59 a 68 clientes) (Resposta da letra g) Estamos 95% confiantes de que 0Y , número de clientes de um único funcionários com 8 anos de tempo de serviço, está dentro do intervalo de 52,31 a 74,27 clientes (arredondando para 52 a 74 clientes) EXERCÍCIO 6.2 Suponha os seguintes dados na tabela abaixo. Os dados estão digitados no arquivo aula6ex2.mtw. Despesas com Propaganda Vendas de Certo Produto (milhão de reais) (mil unidades) 2,5 120 6,5 190 11,0 240 4,0 140 8,5 180 14,0 280 6,0 150 5,0 115 10,0 215 13,5 220 16,0 320 a) Estabeleça inicialmente a variável independente X e variável dependente Y. b) Construa o diagrama de dispersão e determine o coeficiente de correlação. Escreva uma frase descrevendo o tipo da relação entre as variáveis. c) Assumindo uma relação linear entre as variáveis, estime a equação de regressão que melhor descreve essa relação. Interprete os coeficientes de regressão b0 e b1. d) Faça uma previsão das vendas do produto, para uma despesa com propaganda de 12 milhões de reais. e) Qual o acréscimo nas vendas para cada milhão a mais de despesas com propaganda? 0Yµ 0Y © DME /2006-2 36 de 70 EXERCÍCIO 6.3 (Toledo e Ovalle, 1995) A tabela abaixo fornece os resultados de uma pesquisa com 10 famílias de determinada
Compartilhar