Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Rio Grande do Norte Centro de Tecnologia - CT Departamento de Engenharia de Produção ESTATÍSTICA PARA ENGENHARIA DE PRODUÇÃO Prof. Luciano Queiroz Natal/RN 03/04/14 Sumário Qualidade do ajuste Suposições do Modelo O relacionamento entre y e a variável regressora é linear; Os termos de erro (e1, e2, ..., en) são variáveis aleatórias independentes; Média dos erros é igual a 0; Variância dos erros é igual a 2; Os erros tem distribuição normal (i = 1, 2, ..., n). • Modelo: yi = + xi + ei Qualidade do ajuste Ajustou-se uma equação de regressão entre X e Y. E a qualidade do ajuste? Análise de variância do modelo Coeficiente de determinação análise dos resíduos A reta obtida não explica os dados perfeitamente; Nem todos os valores da amostra estão contidos na reta e quanto mais afastados estiverem pior será a representação das amostras; A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela regressão e a não explicada (resíduos). Um valor elevado da variância indica que os pontos estão dispersos em relação a reta. Um valor pequeno indica que os pontos tendem a ficar próximos a reta. Análise da variância do modelo Análise da variância do modelo x yyr ii ˆ yi xi ei di bxay ˆ y yyd ii iii yye ˆ Desvio em relação à média aritmética: Desvio em relação à reta de regressão (resíduo da regressão): ri Desvio da equação ajustada em torno da média (regressão): yi ^ Somas de quadrados SQT variação total SQR variação explicada pela equação de regressão SQE variação não explicada pela equação 2 yyi = 2ˆ yyi + 2ˆ ii yy Somas de quadrados 1 28,80 99,00 2 27,90 101,10 3 27,00 102,70 4 25,20 103,00 5 22,80 105,40 6 21,50 107,00 7 20,90 108,70 8 19,60 110,80 9 17,10 112,10 10 18,90 112,40 11 16,00 113,60 12 16,70 113,80 13 13,00 115,10 14 13,60 115,40 15 10,80 120,00 Observação Porosidade Concreto (y) Peso Unitário Amostra (X) Observação Porosidade Concreto (y) Peso Unitário Amostra (X) 438,06 426,62 11,44 SQT SQR SQE Medida da qualidade do ajuste: Coeficiente de determinação (R2) R2 = Variação total Variação explicada = (yi - y) 2 (yi - y) 2^ O R2 é freqüentemente conhecido como a proporção da variação de y observada que pode ser explicada pela variável regressora X. Medida da qualidade do ajuste: Coeficiente de determinação (R2) R2 = Variação total Variação explicada = (yi - y) 2 (yi - y) 2^ = SQR SQT 0 R2 1 Quanto mais alto é o valor de R2, mais o modelo de regressão linear simples consegue explicar a variação de Y. Medida da qualidade do ajuste: R2= 0,974 438,06 426,62 11,44 R2 = Variação total = (yi - y) 2 (yi - y) 2^ = SQR SQT Variação explicada Coeficiente de determinação Se R2 for pequeno, não existe relação linear entre as variáveis X e Y Se R2 for pequeno, o pesquisador irá desejar encontrar um modelo alternativo (modelo não linear, de regressão múltipla, etc.) Análise dos resíduos: Valores preditos: ii bxay ˆ iii yye ˆ • Resíduos: yi xi ei iyˆ bxay ˆ Análise dos resíduos x y e x Gráfico dos dados: (xi, yi) Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Sim, os erros estão aleatoriamente distribuídos em torno do valor e = 0. Análise dos resíduos As suposições do modelo parecem satisfeitas? Não, existe um outlier. O que pode ser feito? Pode ser um erro, situação atípica (descartar ou corrigir). Fazer análise sem este(s) valor(es) e verificar se as estimativas dos coeficientes mudam muito. Fazer uma transformação nos dados, mudar o modelo, coletar mais dados. Gráfico dos dados: (xi, yi) x y Gráfico dos resíduos: (xi, ei) resídu o 0 x Análise dos resíduos Gráfico dos dados: (xi, yi) Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Não, variância aumentando. O que pode ser feito? Por exemplo, transformação logarítmica tanto nos valores de X como nos valores de Y. x y e 0 x Análise dos resíduos Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Não, modelo não adequado. O que pode ser feito? fazer transformações em X e/ou Y, por exemplo, fazer uma transformação logarítmica na variável X ou a transformação 1/X. resíduo 0 x Análise dos resíduos Gráfico dos dados: (xi, yi) Gráfico dos resíduos: (xi, ei) As suposições do modelo parecem satisfeitas? Não, modelo não está adequado e a variância está aumentando. O que pode ser feito? Por exemplo: transformação logarítmica em Y. x y e 0 x Exercício Exercício Exercício Exercício 24 Testando o coeficiente r Exemplo: Agora, vejamos um exemplo de um teste de hipóteses que estuda 15 pares ordenados selecionados aleatoriamente em que r = 0,548. Utilizando o processo de cinco passos, podemos determinar se esse coeficiente de correlação linear é significativamente diferente de zero no nível de significância 0,02. 25 Testando o coeficiente r H0: 𝛽 = 0 e H1: 𝛽 ≠ 0 Estatística do teste: r, com gl = n – 2 𝛼 = 0,02 26 Testando o coeficiente r 27 Análise dos Estimadores . yc = a + b.xi yc = 0,2825 – 0,3109xi REGRESSÃO DE PCCRÉDITO (Y) SOBRE PCTVM (X) Os estimadores a e b da equação: são estatisticamente significativos? são estatisticamente diferentes de zero? Teste de significância do modelo (Inferência estatística para ) Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição normal do estimador de mínimos quadrados ordinários. Na estatística, a confiabilidade de uma estimador é medida pelo seu erro padrão. Por isso, em vez de confiar apenas na estimativa do ponto, trabalhamos com a estimativa de intervalo. Este intervalo é conhecido como intervalo de confiança. 1 - = intervalo de confiança = nível de significância O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional com determinado grau de probabilidade. Isto é, se eu fizer o procedimento amostral 100 vezes, ao menos em 95 delas, o valor do parâmetro estará dentro do intervalo informado. A reta obtida na amostra é uma das muitas retas possíveis. Erro Padrão da Estimativa A estimativa de σ é chamada erro padrão da estimativa e é denotada por S. 22 ˆ 2 n SQE n yy S ii SQE = variação não explicada pela equação Erro Padrão O erro padrão de b indica, aproximadamente, quão distante o coeficiente b está do coeficiente da população ϐ devido à variabilidade amostral. 22 ˆ 2 n SQE n yy S ii 2~ ˆ n b statistic t s bb t Estima-se o intervalo de variação de b em torno do parâmetro populacional B Utiliza-se a distribuição t , que é a distribuição z ajustada para (n – k) graus de liberdade, tendo em vista que o desvio padrão populacional é desconhecido 2 2b bb t S B b t S Intervalo de Confiança para o coeficiente b Exemplo 1 28,80 99,00 2 27,90 101,10 3 27,00 102,70 4 25,20 103,00 5 22,80 105,40 6 21,50 107,00 7 20,90 108,70 8 19,60 110,80 9 17,10 112,10 10 18,90 112,40 11 16,00 113,60 12 16,70113,80 13 13,00 115,10 14 13,60 115,40 15 10,80 120,00 Observação Porosidade Concreto (y) Peso Unitário Amostra (X) Observação Porosidade Concreto (y) Peso Unitário Amostra (X) Exemplo 438,06 426,62 11,44 94,0 13 44,11 22 ˆ 2 n SQE n yy S ii 179.849,73 – 1.640,10/15 = 521,196 Raiz Sxx = 22,83 N = 15 = 0,94/22,83 = 0,041 Intervalo de Confiança para b • 2 2b bb t S B b t S O limite inferior será b – 2,16*Sb = -0,90 – 2,16*0,04 = -0,99 O limite superior será b + 2,16*Sb = -0,90 +2,16*0,04 = -0,82 Exemplo – Erro padrão para a 21 a e xx XS S n S 179.849,73 – 1.640,10/15 = 521,196 94,0 13 44,11 22 ˆ 2 n SQE n yy S ii Intervalo de confiança para a • O limite inferior será a -2,16*Sa = 118,91– 2,16*4,5 = 109,19 O limite superior será a +2,16*Sa = 118,91 +2,16*4,5 = 128,63 38 Testando o coeficiente b Será que o modelo de regressão linear obtido é útil para projetar valores de y? A hipótese nula estabelece que as variáveis x e y da população não são relacionadas, isto é, I H0: B = 0 H1: B 0 39 Testando o coeficiente b. Teste pelo nível de significância O teste consiste em comparar o t calculado com o t crítico a um dado nível de significância cálculo de t = b - B Sb b Sb Como não se conhece o parâmetro, faz-se B = 0 = então, t calculado = Se ltl calculado > ltl crítico: rejeita H0 e b é válido ≠ 0 Se ltl calculado < ltl crítico: aceita H0 e b não é válido = 0 Exemplo b Sb -0,90/0,04 = -22,02 O valor de t tabelado é -2,16. Logo, como o valor de |t| calc é maior que |t| tabelado, rejeita-se ho e conclui que b é diferente de zero. 41 Testando o coeficiente b Com a Região Crítica: Se o Intervalo estimado contiver o valor hipotético de B, aceita H0, que será, estatisticamente igual a zero. Com o P-VALUE: Se a probabilidade estimada for maior que α, aceita H0. 42 Análise da Regressão Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 90,0% Superior 90,0% Interseção 0,2825 0,0260 10,862 0,0000 0,2258 0,3391 0,2361 0,3288 pctvm -0,3109 0,0949 -3,278 0,0066 (0,5176) (0,1043) (0,4800) (0,1419) Valor p (p-value) Consiste em comparar valor p calculado (p-value) com o nível de significância requerido pelo pesquisador/consultor Caso o p-value seja menor que o nível de significância previamente estabelecido: Rejeita-se H0: B é válido, ou seja, diferente de zero 43 Testando a equação da reta A distribuição F representa uma análise de variância (ANOVA) Quanto maior, mais adequada a reta Em regressão simples, F = t2 Variação Explicada Variação não Explicada F 44 F = (yc – y) 2 i = 1 n K - 1 (yi – yc) 2 i = 1 n n - k Onde: n = nº de observações da amostra k = nº de amostras /nº de variáveis (k – 1) graus de liberdade (n – k) graus de liberdade Testando a equação da reta . 45 Testando a equação da reta . 46 Estatísticas ANOVA gl: graus de liberdade para a distribuição F SQ: soma dos quadrados dos desvios da regressão e dos resíduos MQ: média dos quadrados dos desvios (SQ/gl) MQ da regressão = variância explicada MQ dos resíduos = variância não explicada F: MQ da regressão / MQ dos resíduos F de significação: p-value da estatística F 47 Análise de Regressão Análise da Variância Notar que F = t2 ANOVA gl SQ MQ F F de significação Regressão 1 4.029053 4.029053 7.5247854 0.017827567 Resíduo 12 6.425251 0.535438 Total 13 10.4543 48Análise de Dados - Regressão (Excel) Ferramentas Análise de dados Regressão Caixa de diálogo: Intervalo Y de entrada: selecionar Intervalo X de entrada: selecionar Constante é zero: selecionar quando se quiser que a reta passe pela origem (a=0) Rótulos: marcar quando a seleção dos dados anteriores contiver o título da coluna Nível de confiança: informar o nível de significância (0,05; 0,025; etc.) Opções de saída: indicar a célula onde se deseja a resposta 49 Testando a equação da reta . 50 Testando a equação da reta . 51 Testando a equação da reta 52 Testando a equação da reta 53 Testando a equação da reta 54 Intervalo de confiança para a regressão 55 Intervalo de confiança para a regressão 56 Intervalo de confiança para a regressão 57 Testando a equação da reta Agora, vejamos como podemos usar todas essas informações para determinar a variância de y em relação a ̀ linha de regressão. Suponha que você̂ se mude para uma nova cidade e encontre um emprego. Natural- mente, você̂ estará ́ preocupado com os problemas que enfrentará para ir e voltar do trabalho. Por exemplo, você̂ gostaria de saber quanto tempo levará para ir de carro até seu trabalho todas as manhãs. Vamos usar “a distância de ida para o trabalho” como uma medida de onde você̂ mora. Você̂ vive a x milhas do trabalho e quer saber quanto tempo levara ́ para chegar lá ́ todos os dias. Quinze dos seus colegas de trabalho foram questiona- dos quanto ao tempo gasto e a distância percorrida para chegar ao trabalho. 58 Testando a equação da reta 59 Testando a equação da reta 60 Testando a equação da reta 61 Testando a equação da reta 62 Testando a equação da reta Pela abordagem do r: R = 0,878 Valor-P <<<< 0,01 Valor-P< 𝛼 (0,05) -> Rejeita-se H0. 63 Inferência Portanto, 12,44 a 21,30 e ́ o intervalo de confiança de 95% para μy|x = 7. Isto é, com 95% de confiança, o tempo médio de percurso para aqueles que viajam 7 milhas (11,27 km) está entre 12,44 minutos (12 min e 26 s) e 21,30 minutos (21 min e 18 s).
Compartilhar