Baixe o app para aproveitar ainda mais
Prévia do material em texto
Técnicas Estatísticas de Predição Otaviano Francisco Neves SLIDE CAPA Introdução SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Tópicos da Disciplina Introdução a Modelos Preditivos e tipos de análise e abordagens para análise preditiva; Regressão Linear simples e múltipla; Regressão logística; Séries Temporais; SLIDE PARA TÓPICOS Conceitos Básicos É uma parte da ciência estatística, que se ocupa de coletar, organizar, analisar e interpretar dados de determinado fenômeno (vendas, clientes, estoque..) que auxilie na tomada de decisões. SLIDE PARA TEXTO CORRIDO OBS: NÃO É ACONSELHÁVEL COLOCAR MUITO TEXTO NOS SLIDES Aplicações As empresas de crescimento rápido (Startup) utilizam modelagens estatísticas para realizar novos experimentos, testar novas ideias e validar hipóteses. Exemplos Empresas de tecnologia no setor de multimídias (“streaming”) criam modelos de negócios analisando o comportamento do consumidor, realizando modelagem estatística e testes de hipóteses. SLIDE PARA TEXTO CORRIDO OBS: NÃO É ACONSELHÁVEL COLOCAR MUITO TEXTO NOS SLIDES Exemplos Empresas de vendas pela internet (e-comerce) utilizam modelagens multivariadas para predizer a compra de determinados produtos. Conceitos Básicos SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Conceitos Básicos População O conjunto de todas as respostas, medidas ou contagens que sejam de interesse Amostra Uma parte ou subconjunto da população. . Conceitos Básicos Parâmetro Descrição numérica de uma característica da população. Estatística Descrição numérica de uma característica da amostra. Os dois ramos da estatística Estatística descritiva Trata da organização, resumo e análise dos dados. Estatística inferencial A partir de uma amostra, tira conclusões sobre a população. Tipos de Variáveis 1. Qualitativa Nominal 2. Qualitativa Ordinal 3. Quantitativa Discreta 4. Quantitativa Contínua Tipos de Coleta de dados Contagem ou medição de parte da população. Experimento: Aplica-se determinado tratamento a uma parte do grupo. Simulação: Usa-se um modelo matemático (em geral no computador) para reproduzir certa condição. Censo: Contagem ou medição de toda uma população. Amostragem: Abordagens Básicas de Modelagem Existe dependência entre as variáveis? Dependência (resposta vs. explicativa Interdependência (Entre as variáveis exploratórias) Resposta Quantitativa Resposta Qualitativa Quantitativa Qualitativa • Regressão Linear • Árvores de decisão •Regressão Logística • Análise Discriminante • Árvores de decisão • Redes Neurais •Componentes Principais • Análise Fatorial • Análise de Cluster • Análise de Correspondência • Análise de Cluster Abordagens Básicas de Modelagem Existe dependência entre as variáveis e o tempo? Dependência (resposta vs. Tempo) Interdependência (Entre as variáveis exploratórias no tempo) Resposta Quantitativa Resposta Qualitativa Quantitativa Qualitativa • Regressão Linear •Regressão Logística •Séries temporais univariada e multivariadas • Análise de dados categóricas SLIDE DE ENCERRAMENTO Técnicas Estatísticas de Predição Otaviano Francisco Neves SLIDE CAPA Correlação SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Correlação É uma medida adimensional que está entre -1 e 1 e mede a relação entre duas variáveis; Correlação Negativa indica relacionamento inversamente proporcional; Correlação Positiva indica relacionamento diretamente proporcional. Correlação Amostral (Pearson) 222222 ))( )()( ))(( ),( ynyxnx yxnxy yyxx yyxx yxCorr Gráficos de dispersão 1, yxCorr 1, yxCorr 0, yxCorr 1),(1 yxCorr Esquema da Análise de Correlação Estatística Descritiva Gráfico de Dispersão População Amostra Cálculo da Correlação Amostral Análise de Regressão Modelos de Predição Esquema da Análise de Correlação População: N Existe relação entre as duas variáveis? Amostra: n Questão: Altura vs. Peso Corr. (x,y) Qual modelo me descreve esta relação? Exemplo Os dados a seguir representam o tempo de serviço em anos de 10 funcionários de uma seguradora (X) e a quantidade de clientes que cada um possui (Y), verifique se existe uma associação entre as variáveis. Dados Gráfico de dispersão Cálculo x y x2 y2 x.y 2 48 4 2304 96 3 50 9 2500 150 4 56 16 3136 224 5 52 25 2704 260 4 43 16 1849 172 6 60 36 3600 360 7 62 49 3844 434 8 58 64 3364 464 8 64 64 4096 512 10 72 100 5184 720 57 565 383 32581 3392 Correlação Amostral 𝐶𝑜𝑟𝑟(𝑥, 𝑦) = (𝑥𝑦)−𝑛𝑥 𝑦 ) 𝑥2−𝑛𝑥 2 𝑦2−𝑛𝑦 2 = 3392−10.5,9.56.5 386−10. 5,9 2×32581−10. 56,5 2 = = 171,5 58,1×658,5 = 𝟎, 𝟖𝟕𝟔𝟖 Técnicas Estatísticas de Predição Otaviano Francisco Neves SLIDE CAPA Regressão Linear Simples SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Modelo Teórico xy 10 0 x y 1 y é a variável dependente ou resposta. x é a variável independente ou explicativa. Modelo de Regressão Linear Simples - Ajuste xy 10 0 x y Dados observados Reta de Regressão Estimada 0 1 Intercepto Inclinação Erro Aleatório Estimação : Regressão Linear Simples xy 10 2 1010 )(),( ii xyS xy 10 ˆˆ 221 )( ˆ xxn yxxyn Partições da variabilidade 222 ˆˆ yyyyyy ERT SSSSSS 0 x y Var. Total Var. Erro Var. Regressão ŷ y y Tabela Anova Variação Soma de quadrado Graus de Liberdade Erro Médio F Regressão SSR 1 MSR=SSR MSR/MSE Residual (error) SSE n-2 MSE=SSE/(n-2) Total SST n-1 P-value F Exemplo Dados o tempo de serviço em anos de 10 funcionários de uma seguradora (X) e a quantidade de clientes que cada um possui (Y), verifique se existe uma associação entre as variáveis. ID A B C D E F G H I J X 2 3 4 5 4 6 7 8 8 10 Y 48 50 56 52 43 60 62 58 64 72 Gráfico de dispersão Equação da Reta de Regressão Tabela Anova Variação Soma de quadrado Graus de Liberdade Erro Médio F Regressão SSR 1 MSR=SSR MSR/MSE Residual (error) SSE n-2 MSE=SSE/(n-2) Total SST n-1 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 506,23 506,235 26,60 0,001 X 1 506,23 506,235 26,60 0,001 Error 8 152,27 19,033 Lack-of-Fit 6 49,77 8,294 0,16 0,965 Pure Error 2 102,50 51,250 Total 9 658,50 Estimação dos Parâmetros xy 10 ˆˆ 221 )( ˆ xxn yxxyn 6747,397,5*9518,25,56ˆ0 9518,2 57383*10 565*573392*10ˆ 21 Coefficients Term Coef SE Coef T-Value P-Value Constant 39,67 3,54 11,20 0,000 X 2,952 0,572 5,16 0,001 Modelo de Regressão - Ajuste xy 95,267,39ˆ Modelo de Predição clientesy 63286,638*95,267,39ˆ Técnicas Estatísticas de Predição Otaviano Francisco Neves SLIDE CAPA Regressão Linear Múltipla SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Modelo de Regressão Linear Múltipla kk xxxy 22110 Matriz de Regressão Xy ny . . . y y y 2 1 nknn k k x...xx ..... ..... ..... x...xx x...xx X 21 22221 11211 1 1 1 k . . . 1 0 n . . . 2 1 Estimadores de Mínimos quadrados ̂Xŷ ŷye y'XX'Xˆ 1 Exemplo Esses dados representam a resistênciaà tração (y) de uma ligação de fio em um processo de fabricação de semicondutores, comprimento de fio (x1) e altura da matriz (x2) para ilustrar a construção de um modelo empírico. processo de fabricação de semicondutores, comprimento de fio (x1) e altura da matriz (x2) para ilustrar a construção de um modelo empírico. Dados 2 Esses dados representam a resistência à tração (y) de uma ligação de fio em um processo de fabricação de semicondutores, comprimento de fio (x1) e altura da matriz (x2) para ilustrar a construção de um modelo empírico. regress_ex2.mtw ID y x1 x2 1 9,95 2 50 2 24,45 8 110 3 31,75 11 120 . . . . . . . . . . . . 24 22,13 6 100 25 21,15 5 400 Tabela ANOVA Source of variation Sum of Square Degrees of Freedom Mean Square F Regression SSR k MSR=SSR/k MSR/MSE Residual (error) SSE n-(k+1) MSE=SSE/(n-(k+1)) Totals SST n-1 P-value F Tabela ANOVA Source of variation Sum of Square Degrees of Freedom Mean Square F Regression 2 5990,772 2995,39 572,1672 Residual (error) 22 115,1735 5,24 Totals 24 6105,9447 P-value<0,0001 F Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 5990,8 2995,39 572,17 0,000 x1 1 4507,5 4507,53 861,01 0,000 x2 1 104,9 104,92 20,04 0,000 Error 22 115,2 5,24 Total 24 6105,9 Estimação dos Parâmetros 0: 10 H 0: 11 H 34,29 0935,0 74,2 )ˆ( ˆ 1 1 0 Se t 0: 20 H 0: 21 H 48,4 002798,0 012528,0 )ˆ( ˆ 2 2 0 Se t P-value < 0,0001 P-value < 0,0001 Coefficients Term Coef SE Coef T-Value P-Value Constant 2,26 1,06 2,14 0,044 x1 2,7443 0,0935 29,34 0,000 x2 0,01253 0,00280 4,48 0,000 Modelo de Regressão Linear Múltipla 21 013,0744,226,2ˆ xxy Técnicas Estatísticas de Predição Otaviano Francisco Neves SLIDE CAPA Regressão Linear Múltipla - Exemplo SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Dados airbnb - IA https://www.kaggle.com ID da hospedagem Nome da hospedagem ID do Hóspede Nome do Hóspede Grupo de vizinhança Latitude Longitude Tipo de hospedagem Preço Locação mínima Número de avaliações Taxa mensal de avaliações Número máximo de hóspedes Disponibilidade anual Objetivo Modelar a taxa mensal de avaliações (ocupações) Análise de Variância Source DF Adj SS Adj MS F-Value P-Value Regression 7 10,3820 1,48315 494,95 0,000 Preço 1 0,0425 0,04253 14,19 0,000 locação mínima 1 0,0027 0,00270 0,90 0,344 Número de avaliações 1 0,3653 0,36528 121,90 0,000 Número máximo de hóspedes 1 0,0029 0,00286 0,95 0,330 Disponibilidade anual 1 0,0040 0,00395 1,32 0,252 Grupo de vizinhança 1 0,0023 0,00227 0,76 0,385 Tipo de hospedagem 1 0,0060 0,00603 2,01 0,157 Error 203 0,6083 0,00300 Total 210 10,9903 Novo Modelo – ANOVA Source DF Adj SS Adj MS F-Value P-Value Regression 2 10,3696 5,18481 1737,44 0,000 Preço 1 0,0480 0,04796 16,07 0,000 Número de avaliações 1 0,3563 0,35626 119,38 0,000 Error 208 0,6207 0,00298 Lack-of-Fit 100 0,3258 0,00326 1,19 0,184 Pure Error 108 0,2949 0,00273 Total 210 10,9903 Qualidade de Ajuste S = 0,0546275 - Desvio padrão do Erro R2 = SSR/SST = 94,35% - Coeficiente de determinação Análise de Resíduo Modelo Taxa mesal de avaliações = 0,3543 - 0,002405 Preço + 0,006712 Número de avaliações SLIDE DE ENCERRAMENTO Técnicas Estatísticas de Predição Otaviano Francisco Neves SLIDE CAPA Regressão logística SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Modelo de Regressão Logística O modelo de regressão logística é semelhante ao modelo de regressão linear. É um modelo de regressão múltipla em que a variável resposta (Y) é qualitativa e dicotômica: Exemplo: (sim/não) , (sucesso / fracasso), (0 ou 1); As variáveis explicativas podem ser quantitativas ou qualitativas. Probabilidade O modelo de regressão logístico é utilizado quando a variável resposta é qualitativa com dois resultados possíveis. (Sucesso e Fracasso) Probabilidade de sucesso = p Probabilidade de fracasso = 1 ̶ p Chance Chance = (prob. de sucesso) / (prob. de fracasso) Por exemplo, se a probabilidade de sucesso é 0,75, a chance é igual a: p / (1 ̶ p) = 0,75 / 0,25 = 3 Razão de Chance Considere Grupo A Chance A = (probabilidade de sucesso em A) / (probabilidade de fracasso em A) Considere Grupo B Chance B = (probabilidade de sucesso em B) / (probabilidade de fracasso em B) Razão de Chance (A/B) = Chance A / Chance B Cálculo Chance de Sucesso no Grupo A: p1 / (1-p1 ) = (52/91) / (39/91) = 0,57 / 0,43 = 1,33 Chance de Sucesso no Grupo B : p2 / (1-p2 ) = (43/87) / (44/87) = 0,49 / 0,51 = 0,96 Razão de chances de Sucesso entre o grupo A, em relação ao Grupo B : [p1 /(1- p1 )] / [p2 /(1- p2 )] = 1,33 / 0,96 = 1,39 Grupo Sucesso Fracasso Total A 52 39 91 B 43 44 87 Total 95 83 178 Modelo - logito Modelo – Coeficientes Para uma regressão logística, a razão de chances para a observação i é dada por 𝑟𝑖 = 𝑝𝑖 1 − 𝑝𝑖 = 𝑒𝛽0+𝛽1𝑥1𝑖+𝛽2𝑥2𝑖+ … +𝛽𝑘𝑥𝑘𝑖 Interpretação dos Coeficientes • Considerando uma variável 𝑥1𝑖 , 𝑒 𝛽1 indica o aumento (ou redução) da razão de chances quando aumentamos em uma unidade a variável 𝑥1𝑖; • Se 𝑥1𝑖 for uma variável “dummy” (categórica), o termo 𝑒𝛽1 indica o quanto a razão de chances se altera quando passa de uma categoria para outra. Classificação com Regressão Logística Classificação 0 observada Classificação 1 observada Classificação 0 predita Verdadeiro negativo Falso negativo Classificação 1 predita Falso positivo Verdadeiro positivo Exemplo Dados - Titanic Exemplo – Dados Titanic IA Titanic O naufrágio do Titanic é um dos acidentes mais trágicos da história. Em 15 de abril de 1912, em sua viagem inaugural, o Titanic afundou depois de colidir com um iceberg, matando 1502 de 2224 passageiros e tripulantes. Dados Passageiro : Sequencial Sobrevivente : (Sobreviveu?): 0 = Não 1 = Sim Classe: Tipo da passagem 1 = 1º Classe, 2 = 2º Classe 3 = 3º Classe Nome : Nome do passageiro Sexo: Sexo do passageiro Idade: Idade do passageiro Irmãos : Quantidade de irmãos / cônjuges a bordo do Titanic Pais : Quantidade de pais / crianças a bordo do Titanic Tarifa: Valor da passagem Informações retiradas do site do Kaggle (https://www.kaggle.com/c/titanic/data) Cálculo da “Odds” Chance de Sobrevivência no Grupo Feminino: p1 / (1-p1 ) = (197/64) = 3,0783 Chance de Sucesso no Grupo Masculino : p2 / (1-p2 ) = (93/360) = 0,2583 Razão de Chances (“odds”) de Sobrevivência entre o Grupo Feminino , em relação ao Grupo Masculino : [p1 /(1- p1 )] / [p2 /(1- p2 )] = 3,0783 / 0,2583 = 11,92 Grupo 1 0 Total Feminino 197 64 261 Masculino 93 360 453 Total 290 424 714 Aplicação do modelo logistico Questões Classifique cada variável; Faça uma análise descritiva; Faça uma análise de regressão logística com as variáveis; Interprete a tabela de Análise de Variancia Interprete os parâmetros Interprete a qualidade do modelo Calcule a predição para os indivíduos. determine o ponto de corte e calcule a taxa de acerto do modelo. Técnicas Estatísticas de PrediçãoOtaviano Francisco Neves SLIDE CAPA Séries Temporais SLIDE PARA SEPARAR CAPÍTULO/ TÓPICO Roteiro Introdução Séries Temporais Modelos Automáticos Séries temporais Uma série temporal é uma sequência de observações sobre uma variável de interesse. A variável é observada em pontos temporais discretos, usualmente equidistantes, e a análise de tal comportamento temporal envolve a descrição do processo ou fenômeno que gera a sequência. Padrões de Séries Temporais Processamentos que permanecem constantes sobre um certo nível todo o tempo, com variações de período a período devido a causas aleatórias. Padrões que ilustram tendências no nível dos processos, de maneira que a variação de um período ao outro é atribuída a uma tendência mais uma variação aleatória. Processos que variam ciclicamente no tempo, como em processos sazonais (exemplo: o clima, vendas de Natal, ). Padrões de Séries Temporais (Constante) Padrões de Séries Temporais (Tendência) Padrões de Séries Temporais (Constante) Modelos de Previsão de Séries Temporais Os procedimentos de previsão de séries temporais podem ser divididos, grosseiramente, em duas categorias: 1.Automáticos, que são aplicados diretamente, com a estilização de programas simples de computador; 2.Não-Automáticos, que exigem a intervenção de pessoal especializado, para serem aplicados Tipos Modelos Automáticos 1. Média Móvel Simples (MMS) 2. Alisamento Exponencial Simples (AES) 3. Alisamento Exponencial Duplo (AED) 4. Modelo Holt-Winters (sazonalidade) (HW) Sazonalidade Aditiva Sazonalidade Multiplicativa Abordagens Modelo SEM Sazonalidade COM Sazonalidade SEM Tendência Média Móvel Simples (MMS) Alisamento Exponencial Simples (AES) Modelo Sazonal (aditivo / multiplicativo) COM Tendência Alisamento Exponencial Duplo (AED) Modelos Holt – Winters (aditivo / multiplicativo) Médias Móveis Simples (MMS) r ZZZ M rtttt 11 Cálculo da média aritmética das r últimas observações Previsão tt MhZ Alisamento Exponencial Simples (AES) Com 0 < <1, constante de alisamento Alisamento Exponencial Duplo (AED) Modelos Holt - Winters Previsão de Séries com Tendência Modelos Holt – Winters - Aditivo Modelos Holt – Winters - Multiplicativo Qualidade dos Ajustes • MAPE - Erro Médio Percentual • MAD - Erro Médio Absoluto • MSD - Erro Quadrático Médio 𝑀𝐴𝐷 = 1 𝑛 𝑦𝑡 − 𝑦𝑡 𝑛 𝑖=1 𝑀𝐴𝑃𝐸 = 1 𝑛 𝑦𝑡 − 𝑦𝑡 𝑦𝑡 × 100 𝑛 𝑖=1 𝑀𝑆𝐷 = 1 𝑛 𝑦𝑡 − 𝑦𝑡 2 𝑛 𝑖=1 Exemplo – Séries Temporais Exemplo Você deseja prever o emprego nos próximos 6 meses em 3 segmentos (comercio, alimentos, metelugia). Foram coletados dados ao longo de 60 meses de jan 2003 a dez 2007. Dados Emprego - IA.xls Metalurgia dez/07jun/07dez/06jun/06dez/05jun/05dez/04jun/04dez/03jun/03jan/03 52 50 48 46 44 42 40 Mês M e ta lu rg ia Metalurgia Previsão Média Móvel – Tamanho 3 Alisamento exponencial Simples Alisamento exponencial Duplo Alimento dez/07jun/07dez/06jun/06dez/05jun/05dez/04jun/04dez/03jun/03jan/03 75 70 65 60 55 50 Mês A li m e n to Alimento Modelo Holt Winters - Aditivo Comércio dez/07jun/07dez/06jun/06dez/05jun/05dez/04jun/04dez/03jun/03jan/03 400 390 380 370 360 350 340 330 320 310 Mês C o m e rc io Comércio Modelo Holt Winters - Aditivo
Compartilhar