Buscar

Resumo da Prova

Prévia do material em texto

Técnicas Estatísticas 
de Predição 
 Otaviano Francisco Neves 
SLIDE CAPA 
Introdução 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Tópicos da Disciplina 
 Introdução a Modelos Preditivos e tipos de 
análise e abordagens para análise preditiva; 
 Regressão Linear simples e múltipla; 
 Regressão logística; 
 Séries Temporais; 
 
SLIDE PARA TÓPICOS 
Conceitos Básicos 
 
É uma parte da ciência estatística, que se 
ocupa de coletar, organizar, analisar e 
interpretar dados de determinado 
fenômeno (vendas, clientes, estoque..) que 
auxilie na tomada de decisões. 
 
SLIDE PARA TEXTO CORRIDO 
OBS: NÃO É ACONSELHÁVEL COLOCAR 
MUITO TEXTO NOS SLIDES 
Aplicações 
As empresas de crescimento rápido (Startup) 
utilizam modelagens estatísticas para realizar 
novos experimentos, testar novas ideias e 
validar hipóteses. 
 
Exemplos 
Empresas de tecnologia no setor de multimídias 
(“streaming”) criam modelos de negócios 
analisando o comportamento do consumidor, 
realizando modelagem estatística e testes de 
hipóteses. 
 
SLIDE PARA TEXTO CORRIDO 
OBS: NÃO É ACONSELHÁVEL COLOCAR 
MUITO TEXTO NOS SLIDES 
Exemplos 
 Empresas de vendas pela internet (e-comerce) 
utilizam modelagens multivariadas para predizer 
a compra de determinados produtos. 
Conceitos Básicos 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Conceitos Básicos 
 População 
O conjunto de todas as respostas, medidas ou 
contagens que sejam de interesse 
 Amostra 
Uma parte ou subconjunto da população. 
 
 
. 
Conceitos Básicos 
Parâmetro 
Descrição numérica de uma 
característica da população. 
Estatística 
Descrição numérica de uma 
 característica da amostra. 
Os dois ramos da estatística 
Estatística descritiva 
Trata da organização, resumo e análise dos 
dados. 
Estatística inferencial 
A partir de uma amostra, tira conclusões 
sobre a população. 
 
Tipos de Variáveis 
1. Qualitativa Nominal 
2. Qualitativa Ordinal 
3. Quantitativa Discreta 
4. Quantitativa Contínua 
Tipos de Coleta de dados 
Contagem ou medição de parte da população. 
 
Experimento: 
Aplica-se determinado tratamento a uma parte do 
 grupo. 
Simulação: 
Usa-se um modelo matemático (em geral no 
computador) para reproduzir certa condição. 
Censo: 
Contagem ou medição de toda uma população. 
Amostragem: 
Abordagens Básicas de Modelagem 
Existe dependência entre as variáveis? 
Dependência 
(resposta vs. explicativa 
Interdependência 
(Entre as variáveis exploratórias) 
Resposta 
Quantitativa 
Resposta 
Qualitativa 
 
Quantitativa Qualitativa 
• Regressão Linear 
• Árvores de 
decisão 
•Regressão 
Logística 
• Análise 
Discriminante 
• Árvores de 
decisão 
• Redes Neurais 
•Componentes 
Principais 
• Análise Fatorial 
• Análise de Cluster 
• Análise de 
Correspondência 
• Análise de Cluster 
Abordagens Básicas de Modelagem 
Existe dependência entre as variáveis e o tempo? 
Dependência 
(resposta vs. Tempo) 
Interdependência 
(Entre as variáveis exploratórias no tempo) 
Resposta 
Quantitativa 
Resposta 
Qualitativa 
 
Quantitativa Qualitativa 
• Regressão 
Linear 
 
•Regressão 
Logística 
 
•Séries 
temporais 
univariada e 
multivariadas 
• Análise de 
dados 
categóricas 
SLIDE DE ENCERRAMENTO 
Técnicas Estatísticas 
de Predição 
 Otaviano Francisco Neves 
SLIDE CAPA 
Correlação 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Correlação 
 É uma medida adimensional que está entre -1 e 1 e 
mede a relação entre duas variáveis; 
 Correlação Negativa indica relacionamento 
inversamente proporcional; 
 Correlação Positiva indica relacionamento 
diretamente proporcional. 
 
 
Correlação Amostral (Pearson) 










222222
))(
)()(
))((
),(
ynyxnx
yxnxy
yyxx
yyxx
yxCorr
Gráficos de dispersão 
  1, yxCorr   1, yxCorr   0, yxCorr
1),(1  yxCorr
Esquema da Análise de Correlação 
Estatística Descritiva 
Gráfico de Dispersão 
População Amostra 
Cálculo da 
Correlação Amostral 
Análise de 
Regressão 
Modelos de Predição 
Esquema da Análise de Correlação 
População: N Existe relação entre 
as duas variáveis? 
Amostra: n 
Questão: 
Altura vs. Peso 
Corr. (x,y) 
Qual modelo me 
descreve esta relação? 
Exemplo 
Os dados a seguir representam o tempo de 
serviço em anos de 10 funcionários de uma 
seguradora (X) e a quantidade de clientes 
que cada um possui (Y), verifique se existe 
uma associação entre as variáveis. 
Dados 
Gráfico de dispersão 
Cálculo 
x y x2 y2 x.y 
2 48 4 2304 96 
3 50 9 2500 150 
4 56 16 3136 224 
5 52 25 2704 260 
4 43 16 1849 172 
6 60 36 3600 360 
7 62 49 3844 434 
8 58 64 3364 464 
8 64 64 4096 512 
10 72 100 5184 720 
57 565 383 32581 3392 
Correlação Amostral 
𝐶𝑜𝑟𝑟(𝑥, 𝑦) =
 (𝑥𝑦)−𝑛𝑥 𝑦 )
 𝑥2−𝑛𝑥 2 𝑦2−𝑛𝑦 2
= 
 
 
3392−10.5,9.56.5
386−10. 5,9 2×32581−10. 56,5 2 
= 
 
= 
171,5
58,1×658,5
= 𝟎, 𝟖𝟕𝟔𝟖 
Técnicas Estatísticas 
de Predição 
 Otaviano Francisco Neves 
SLIDE CAPA 
Regressão Linear 
Simples 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Modelo Teórico 
  xy 10
0
x 
y 
1
y é a variável dependente ou resposta. 
x é a variável independente ou explicativa. 
 
Modelo de Regressão Linear Simples - Ajuste 
 
  xy 10
0
x 
y 
Dados observados 
Reta de Regressão Estimada 
0
1

Intercepto 
Inclinação 
Erro Aleatório 
Estimação : Regressão Linear Simples 
 
  xy 10
2
1010 )(),( ii xyS   
xy 10
ˆˆ  

  



221 )(
ˆ
xxn
yxxyn

Partições da variabilidade 
     
222
ˆˆ   yyyyyy
ERT SSSSSS 
0
x 
y 
Var. Total 
Var. Erro 
Var. Regressão 
ŷ
y
y
Tabela Anova 
Variação 
 
Soma de 
quadrado 
Graus de 
Liberdade 
Erro Médio F 
Regressão SSR 
 
1 MSR=SSR MSR/MSE 
Residual (error) SSE 
 
n-2 MSE=SSE/(n-2) 
Total SST 
 
n-1 
P-value 
F 
Exemplo 
Dados o tempo de serviço em anos de 10 
funcionários de uma seguradora (X) e a quantidade 
de clientes que cada um possui (Y), verifique se 
existe uma associação entre as variáveis. 
ID A B C D E F G H I J 
X 2 3 4 5 4 6 7 8 8 10 
Y 48 50 56 52 43 60 62 58 64 72 
Gráfico de dispersão 
 
Equação da Reta de Regressão 
 
Tabela Anova 
Variação 
 
Soma de 
quadrado 
Graus de 
Liberdade 
Erro Médio F 
Regressão SSR 
 
1 MSR=SSR MSR/MSE 
Residual (error) SSE 
 
n-2 MSE=SSE/(n-2) 
Total SST 
 
n-1 
Analysis of Variance 
 
Source DF Adj SS Adj MS F-Value P-Value 
Regression 1 506,23 506,235 26,60 0,001 
 X 1 506,23 506,235 26,60 0,001 
Error 8 152,27 19,033 
 Lack-of-Fit 6 49,77 8,294 0,16 0,965 
 Pure Error 2 102,50 51,250 
Total 9 658,50 
 
 
Estimação dos Parâmetros 
 
xy 10
ˆˆ  

  



221 )(
ˆ
xxn
yxxyn

6747,397,5*9518,25,56ˆ0 
9518,2
57383*10
565*573392*10ˆ
21




Coefficients 
 
Term Coef SE Coef T-Value P-Value 
Constant 39,67 3,54 11,20 0,000 
X 2,952 0,572 5,16 0,001 
 
 
Modelo de Regressão - Ajuste 
  xy 95,267,39ˆ
Modelo de Predição 
clientesy 63286,638*95,267,39ˆ 
Técnicas Estatísticas 
de Predição 
 Otaviano Francisco Neves 
SLIDE CAPA 
Regressão Linear 
Múltipla 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Modelo de Regressão Linear Múltipla 
  kk xxxy 22110
Matriz de Regressão 
  Xy





















ny
.
.
.
y
y
y
2
1





















nknn
k
k
x...xx
.....
.....
.....
x...xx
x...xx
X
21
22221
11211
1
1
1





















k
.
.
.




1
0





















n
.
.
.




2
1
Estimadores de Mínimos quadrados 
̂Xŷ 
ŷye 
  y'XX'Xˆ 1
Exemplo 
Esses dados representam a resistênciaà 
tração (y) de uma ligação de fio em um 
processo de fabricação de semicondutores, 
comprimento de fio (x1) e altura da matriz 
(x2) para ilustrar a construção de um 
modelo empírico. processo de fabricação 
de semicondutores, comprimento de fio (x1) 
e altura da matriz (x2) para ilustrar a 
construção de um modelo empírico. 
Dados 2 
Esses dados representam a resistência à tração (y) de uma 
ligação de fio em um processo de fabricação de semicondutores, 
comprimento de fio (x1) e altura da matriz (x2) para ilustrar a 
construção de um modelo empírico. regress_ex2.mtw 
 
ID y x1 x2 
1 9,95 2 50 
2 24,45 8 110 
3 31,75 11 120 
. . . . 
. . . . 
. . . . 
24 22,13 6 100 
25 21,15 5 400 
Tabela ANOVA 
Source of 
variation 
 
Sum of Square Degrees of 
Freedom 
Mean Square F 
Regression SSR 
 
k MSR=SSR/k MSR/MSE 
Residual (error) SSE 
 
n-(k+1) MSE=SSE/(n-(k+1)) 
Totals SST 
 
n-1 
P-value 
F 
Tabela ANOVA 
Source of 
variation 
 
Sum of Square Degrees of 
Freedom 
Mean Square F 
Regression 2 5990,772 2995,39 572,1672 
Residual (error) 22 115,1735 5,24 
Totals 24 6105,9447 
P-value<0,0001 
F 
Analysis of Variance 
 
Source DF Adj SS Adj MS F-Value P-Value 
Regression 2 5990,8 2995,39 572,17 0,000 
 x1 1 4507,5 4507,53 861,01 0,000 
 x2 1 104,9 104,92 20,04 0,000 
Error 22 115,2 5,24 
Total 24 6105,9 
Estimação dos Parâmetros 
0: 10 H
0: 11 H
34,29
0935,0
74,2
)ˆ(
ˆ
1
1
0 


Se
t
0: 20 H
0: 21 H
48,4
002798,0
012528,0
)ˆ(
ˆ
2
2
0 


Se
t
P-value < 0,0001 P-value < 0,0001 
Coefficients 
 
Term Coef SE Coef T-Value P-Value 
Constant 2,26 1,06 2,14 0,044 
x1 2,7443 0,0935 29,34 0,000 
x2 0,01253 0,00280 4,48 0,000 
Modelo de Regressão Linear Múltipla 
 21 013,0744,226,2ˆ xxy
Técnicas Estatísticas 
de Predição 
 Otaviano Francisco Neves 
SLIDE CAPA 
Regressão Linear 
Múltipla - Exemplo 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Dados airbnb - IA 
https://www.kaggle.com 
ID da hospedagem 
Nome da hospedagem 
ID do Hóspede 
Nome do Hóspede 
Grupo de vizinhança 
Latitude 
Longitude 
Tipo de hospedagem 
Preço 
Locação mínima 
Número de avaliações 
Taxa mensal de avaliações 
Número máximo de hóspedes 
Disponibilidade anual 
Objetivo 
Modelar a taxa mensal de avaliações (ocupações) 
Análise de Variância 
Source DF Adj SS Adj MS F-Value P-Value 
Regression 7 10,3820 1,48315 494,95 0,000 
 Preço 1 0,0425 0,04253 14,19 0,000 
 locação mínima 1 0,0027 0,00270 0,90 0,344 
 Número de avaliações 1 0,3653 0,36528 121,90 0,000 
 Número máximo de hóspedes 1 0,0029 0,00286 0,95 0,330 
 Disponibilidade anual 1 0,0040 0,00395 1,32 0,252 
 Grupo de vizinhança 1 0,0023 0,00227 0,76 0,385 
 Tipo de hospedagem 1 0,0060 0,00603 2,01 0,157 
Error 203 0,6083 0,00300 
Total 210 10,9903 
Novo Modelo – ANOVA 
 
Source DF Adj SS Adj MS F-Value P-Value 
Regression 2 10,3696 5,18481 1737,44 0,000 
 Preço 1 0,0480 0,04796 16,07 0,000 
 Número de avaliações 1 0,3563 0,35626 119,38 0,000 
Error 208 0,6207 0,00298 
 Lack-of-Fit 100 0,3258 0,00326 1,19 0,184 
 Pure Error 108 0,2949 0,00273 
Total 210 10,9903 
 
Qualidade de Ajuste 
 
S = 0,0546275 - Desvio padrão do Erro 
R2 = SSR/SST = 94,35% - Coeficiente de determinação 
 
Análise de Resíduo 
Modelo 
Taxa mesal de avaliações = 0,3543 - 0,002405 Preço 
+ 0,006712 Número de avaliações 
 
SLIDE DE ENCERRAMENTO 
Técnicas Estatísticas 
de Predição 
 Otaviano Francisco Neves 
SLIDE CAPA 
Regressão logística 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Modelo de Regressão Logística 
 O modelo de regressão logística é semelhante 
ao modelo de regressão linear. 
 É um modelo de regressão múltipla em que a 
variável resposta (Y) é qualitativa e dicotômica: 
Exemplo: (sim/não) , (sucesso / fracasso), (0 ou 
1); 
 As variáveis explicativas podem ser quantitativas 
ou qualitativas. 
Probabilidade 
 O modelo de regressão logístico é utilizado 
quando a variável resposta é qualitativa com dois 
resultados possíveis. (Sucesso e Fracasso) 
 Probabilidade de sucesso = p 
 Probabilidade de fracasso = 1 ̶ p 
 
Chance 
 Chance = (prob. de sucesso) / (prob. de fracasso) 
 Por exemplo, se a probabilidade de sucesso é 
0,75, a chance é igual a: 
 p / (1 ̶ p) = 0,75 / 0,25 = 3 
 
Razão de Chance 
 Considere Grupo A 
 Chance A = (probabilidade de sucesso em A) / 
(probabilidade de fracasso em A) 
 Considere Grupo B 
 Chance B = (probabilidade de sucesso em B) / 
(probabilidade de fracasso em B) 
 Razão de Chance (A/B) = Chance A / Chance B 
 
Cálculo 
 Chance de Sucesso no Grupo A: p1 / (1-p1 ) = 
(52/91) / (39/91) = 0,57 / 0,43 = 1,33 
 Chance de Sucesso no Grupo B : p2 / (1-p2 ) = 
(43/87) / (44/87) = 0,49 / 0,51 = 0,96 
 Razão de chances de Sucesso entre o grupo A, em 
relação ao Grupo B : [p1 /(1- p1 )] / [p2 /(1- p2 )] = 
1,33 / 0,96 = 1,39 
Grupo Sucesso Fracasso Total 
A 52 39 91 
B 43 44 87 
Total 95 83 178 
Modelo - logito 
Modelo – Coeficientes 
Para uma regressão logística, a razão de chances 
para a observação i é dada por 
𝑟𝑖 =
𝑝𝑖
1 − 𝑝𝑖
= 𝑒𝛽0+𝛽1𝑥1𝑖+𝛽2𝑥2𝑖+ … +𝛽𝑘𝑥𝑘𝑖 
 
Interpretação dos Coeficientes 
• Considerando uma variável 𝑥1𝑖 , 𝑒
𝛽1 indica o 
aumento (ou redução) da razão de chances 
quando aumentamos em uma unidade a 
variável 𝑥1𝑖; 
• Se 𝑥1𝑖 for uma variável “dummy” (categórica), o 
termo 𝑒𝛽1 indica o quanto a razão de chances se 
altera quando passa de uma categoria para 
outra. 
Classificação com Regressão Logística 
Classificação 0 
observada 
Classificação 1 
observada 
Classificação 0 
predita 
Verdadeiro 
negativo 
Falso negativo 
Classificação 1 
predita 
Falso positivo Verdadeiro 
positivo 
Exemplo 
Dados - Titanic 
Exemplo – Dados Titanic IA 
Titanic 
 O naufrágio do Titanic é um dos acidentes mais 
trágicos da história. Em 15 de abril de 1912, em 
sua viagem inaugural, o Titanic afundou depois 
de colidir com um iceberg, matando 1502 de 
2224 passageiros e tripulantes. 
Dados 
 
 Passageiro : Sequencial 
 Sobrevivente : (Sobreviveu?): 0 = Não 1 = Sim 
 Classe: Tipo da passagem 1 = 1º Classe, 2 = 2º Classe 3 = 3º Classe 
 Nome : Nome do passageiro 
 Sexo: Sexo do passageiro 
 Idade: Idade do passageiro 
 Irmãos : Quantidade de irmãos / cônjuges a bordo do Titanic 
 Pais : Quantidade de pais / crianças a bordo do Titanic 
 Tarifa: Valor da passagem 
 
 Informações retiradas do site do Kaggle (https://www.kaggle.com/c/titanic/data) 
 
Cálculo 
da 
“Odds” 
 Chance de Sobrevivência no Grupo Feminino: 
 p1 / (1-p1 ) = (197/64) = 3,0783 
 Chance de Sucesso no Grupo Masculino : 
 p2 / (1-p2 ) = (93/360) = 0,2583 
 Razão de Chances (“odds”) de Sobrevivência entre o Grupo 
Feminino , em relação ao Grupo Masculino : 
[p1 /(1- p1 )] / [p2 /(1- p2 )] = 3,0783 / 0,2583 = 11,92 
Grupo 1 0 Total 
Feminino 197 64 261 
Masculino 93 360 453 
Total 290 424 714 
Aplicação do modelo logistico 
 
Questões 
Classifique cada variável; 
Faça uma análise descritiva; 
Faça uma análise de 
regressão logística com as 
variáveis; 
Interprete a tabela de Análise de 
Variancia 
Interprete os parâmetros 
Interprete a qualidade do modelo 
Calcule a predição para os indivíduos. determine o 
ponto de corte e calcule a taxa de acerto do modelo. 
Técnicas Estatísticas 
de PrediçãoOtaviano Francisco Neves 
SLIDE CAPA 
Séries Temporais 
SLIDE PARA SEPARAR 
CAPÍTULO/ TÓPICO 
Roteiro 
 Introdução 
 Séries Temporais 
 Modelos Automáticos 
Séries temporais 
 Uma série temporal é uma sequência de 
observações sobre uma variável de interesse. A 
variável é observada em pontos temporais 
discretos, usualmente equidistantes, e a 
análise de tal comportamento temporal 
envolve a descrição do processo ou fenômeno 
que gera a sequência. 
Padrões de Séries Temporais 
Processamentos que permanecem constantes sobre um certo nível 
todo o tempo, com variações de período a período devido a causas 
aleatórias. 
Padrões que ilustram tendências no nível dos processos, de 
maneira que a variação de um período ao outro é atribuída a uma 
tendência mais uma variação aleatória. 
Processos que variam ciclicamente no tempo, como em processos 
sazonais (exemplo: o clima, vendas de Natal, ). 
Padrões de 
Séries 
Temporais 
(Constante) 
Padrões de 
Séries 
Temporais 
(Tendência) 
Padrões de 
Séries 
Temporais 
(Constante) 
Modelos de Previsão de Séries Temporais 
Os procedimentos de previsão de séries temporais 
podem ser divididos, grosseiramente, em duas 
categorias: 
1.Automáticos, que são aplicados diretamente, com a 
estilização de programas simples de computador; 
2.Não-Automáticos, que exigem a intervenção de 
pessoal especializado, para serem aplicados 
 
Tipos Modelos Automáticos 
1. Média Móvel Simples (MMS) 
2. Alisamento Exponencial Simples (AES) 
3. Alisamento Exponencial Duplo (AED) 
4. Modelo Holt-Winters (sazonalidade) (HW) 
 Sazonalidade Aditiva 
 Sazonalidade Multiplicativa 
 
Abordagens 
Modelo SEM Sazonalidade COM Sazonalidade 
SEM Tendência Média Móvel Simples 
(MMS) 
Alisamento 
Exponencial Simples 
(AES) 
Modelo Sazonal 
(aditivo / 
multiplicativo) 
COM Tendência 
 
Alisamento 
Exponencial Duplo 
(AED) 
 
Modelos Holt – 
Winters (aditivo / 
multiplicativo) 
Médias Móveis Simples (MMS) 
 
r
ZZZ
M rtttt
11  

Cálculo da média aritmética das r últimas observações 
Previsão 
  tt MhZ 

Alisamento Exponencial Simples (AES) 
Com 0 <  <1, constante de alisamento 
Alisamento Exponencial Duplo (AED) 
Modelos Holt - Winters 
Previsão de Séries com Tendência 
Modelos Holt – Winters - Aditivo 
Modelos Holt – Winters - Multiplicativo 
 
Qualidade dos Ajustes 
• MAPE - Erro Médio 
Percentual 
• MAD - Erro Médio 
Absoluto 
• MSD - Erro 
Quadrático Médio 
𝑀𝐴𝐷 = 
1
𝑛
 𝑦𝑡 − 𝑦𝑡 
𝑛
𝑖=1
 
𝑀𝐴𝑃𝐸 = 
1
𝑛
 
𝑦𝑡 − 𝑦𝑡 
𝑦𝑡
× 100
𝑛
𝑖=1
 
𝑀𝑆𝐷 = 
1
𝑛
 𝑦𝑡 − 𝑦𝑡 
2
𝑛
𝑖=1
 
Exemplo – Séries 
Temporais 
Exemplo 
Você deseja prever o emprego nos próximos 6 
meses em 3 segmentos (comercio, alimentos, 
metelugia). Foram coletados dados ao longo de 60 
meses de jan 2003 a dez 2007. Dados Emprego - 
IA.xls 
Metalurgia 
dez/07jun/07dez/06jun/06dez/05jun/05dez/04jun/04dez/03jun/03jan/03
52
50
48
46
44
42
40
Mês
M
e
ta
lu
rg
ia
Metalurgia
Previsão Média Móvel – Tamanho 3 
Alisamento exponencial Simples 
Alisamento exponencial Duplo 
Alimento 
dez/07jun/07dez/06jun/06dez/05jun/05dez/04jun/04dez/03jun/03jan/03
75
70
65
60
55
50
Mês
A
li
m
e
n
to
 Alimento
Modelo Holt Winters - Aditivo 
Comércio 
dez/07jun/07dez/06jun/06dez/05jun/05dez/04jun/04dez/03jun/03jan/03
400
390
380
370
360
350
340
330
320
310
Mês
C
o
m
e
rc
io
Comércio
Modelo Holt Winters - Aditivo

Continue navegando