Buscar

RESUMO P1 - MARCELA COHEN

Prévia do material em texto

RESUMO PARA P1 – REGRESSÃO LINEAR MÚLTIPLA E ANÁLISE FATORIAL
RESUMO – REGRESSÃO LINEAR MÚLTIPLA
O QUE É: É um ramo da Estatística que procura relacionar uma variável, chamada de dependente ou resposta, com um conjunto (uma ou mais de uma) de outras variáveis, chamadas de independentes ou regressoras. Cada modelo de regressão comporta uma e somente uma variável resposta.
OBJETIVO: Montar um modelo matemático (uma função de regressão) de tal forma que, dado um conjunto de valores das variáveis regressoras, obtenha-se um valor estimado para a variável resposta. Esse modelo poderá ser usado como apoio à decisão e/ou planejamento. 
COEFICIENTE DE CORRELAÇÃO
	A correlação (r) mede a força do relacionamento ou grau de associação entre duas variáveis. Varia de 1 a -1 e quanto mais próxima de 1 ou -1 maior o grau de correlação e quanto mais próximo de 0 , menor. -1 é correlação negativa perfeita e +1 e correlação positiva perfeita e 0 significa que não tem existe correlação entre elas.
	SPSS -> Tabela MODEL SUMMARY -> Coluna “R”
	No quadro de correlações, escolher a variável que possui maior correlação com a variável dependente Y (PEARSON CORRELATION) OLHANDO APENAS O PRIMEIRO QUADRO (LINHA E COLUNA), qual variável independente é maior em relação a dependente (gastos).
COEFICIENTE DE DETERMINAÇÃO
R-square é a capacidade preditiva do modelo. Indica o quanto da variação na variável dependente Y é explicado pelas variações na variável independente X² HORAS DE MOD (que no nosso exemplo é a variável com maior correlação linear em relação a Y.
Olhando o quadro do SPSS MODEL SUMMARY podemos ver a correlação “R” e o “ADJUSTED R SQUARE”, permitindo concluir que 91,1% da variação nos gastos gerais da academia são explicados pelas variações nas HORAS DE MOD. 
erro padrão da estimativa
É uma outra medida de precisão da previsão, é um desvio padrão em torno da reta de regressão, QUANTO MENOR MELHOR O MODELO ESTIMADO. No quadro acima ele se encontra na coluna STD. ERROR OF THE ESTIMATE.
TESTE F-ANOVA
Tem por finalidade testar o efeito do conjunto de variáveis independentes sobre a variável dependente, ou seja, se a combinação linear das variáveis independentes exerce influência significativa ou não sobre a variável dependente.
H0: R² = 0 
H1: R² > 0
Para que a regressão seja significativa, a H0 tem que ser rejeitada, ou seja, R² tem que ser significativamente maior que 0. Pelo valor Sig < α
H0: βi = 0 (devo retirar a variável)
H1: βi ≠ 0 (tem relação linear com Y) i = 1,2,3
α = 5%
Valores p de cada variável independente vão estar no quadro Coeficientes na coluna Sig. (x100)
Então: 
B¹ (consumo de KW) = 1,2% < 5% -> Rejeita H0
Β² (HORAS MOD) = 0,000% < 5% -> Rejeita H0
B³ (Número de alunos) = 3,4% < 5% -> Rejeita H0
Concluindo que, a hipótese nula (H0) é p/ b1, b2 e b3. Logo as variáveis X¹, X² e X³ devem permanecer no modelo, por apresentar relação linear significativa com Y.
pressupostos da análise de regressão (premissas)
Normalidade dos resíduos
Homoscedasticidade dos resíduos
Linearidade dos coeficientes
Mulicolinearidade entre as variáveis independentes
Explicando...
Normalidade dos resíduos: Analisando no gráfico NORMAL P-P PLOT, o ideal é que os pontos estejam próximos da reta.
Homocedasticidade dos resíduos: Variância constante, é analisado no gráfico de DIAGRAMA DE DISPERSÃO DOS RESÍDUOS ou SCATTERPLOT – DEPENDENT VARIABLE: GASTOS. O ideal é não ter padrões nos dados
Linearidade dos coeficientes: A melhor relação das variáveis é uma reta, analisado nos dois gráficos, um não deve ter padrão e o outro deve ter uma reta (P-P Plot)!
 Multicolinearidade entre as variáveis independentes ou INDEPENDENCIA: Analisado no gráfico de DIAGRAMA DE DISPERSÃO DOS RESÍDUOS ou SCATTERPLOT – DEPENDENT VARIABLE: GASTOS. Os pontos não devem ter um padrão.
ORDEM DA PROFESSORA: LINEARIDADE, NORMALIDADE, HOMOCEDASTICIDADE E INDEPENDÊNCIA.
(PERGUNTA: SE UMA PREMISSA NÃO FOR ATENDIDA OQ FAZER)
Concluindo então que como não foi observado um padrão nos resíduos, as premissas de linearidade, Homocedasticidade e a independência foram atendidas. E Analisando o P-P Plot, a premissa de normalidade foi atendida.
existência de outlier
Analisa os dois gráficos, se algum ponto estiver acima de 3 ou abaixo de -3 tem outliers. (PERGUNTA: SE TIVER OUTLIER OQ FAZER)
Concluindo então que como todos os resíduos padronizados estão dentro do intervalo (-3;+3), não foram observados Outliers.
PROBLEMAS DE MULTICOLINEARIDADE
Multicolinearidade é uma forte relação linear entre variáveis independentes e isso é um problema, por exemplo, se um aluno estudando hora e minuto e outro real ou dólar você multiplica por uma constante e não vai mudar muito)
Vê se tem problema olhando o quadro dos coeficientes, a coluna VIF. O VIF tem que ser menor que 5. Uma das variáveis vai sair, a que tem que sair é a de maior SIG.
Concluindo então que nesse caso não há problemas de Multicolinearidade, pois todos os VIF estão abaixo de 5. Caso houvesse problema, a variável com menor relação linear com Y, ou seja, maior SIG, deve ser retirada do modelo.
EQUAÇÃO:
Y^= β0 +(β1X¹) + (β2X²)+....
Exemplo:
Y^= -28,4 +10,92X¹ + 11,5X² + 1,758X³ É o β do quadro de correlações:
PREVISÃO - RESÍDUO E SE É OUTLIER
Exemplo, previsão dos gastos com 100 alunos, 10 horas MOD e consumo de 6 kWh.
Y^= -28,4+10,92(6) +11,5(10) +1,758(100) = 327,92
Y= 350
RESÍDUO (e) = Y^-Y = 327,92-350= -22,08 u.m
e/s = -22,08/29,9 = -0,7 (não é um Outliers, pois o valor está muito baixo)
O valor 29,9 é o desvio padrão do modelo que é achado no quadro Model Summary na última coluna:
RESUMO ANÁLISE FATORIAL:
 
OBJETIVO: A Análise Fatorial é uma técnica de análise multivariada que tem como principal objetivo descrever um conjunto de variáveis originais por meio da criação de um número menor de variáveis (ou melhor, fatores). 
PREMISSAS:
KMO:
Índice utilizado para avaliar se o uso da análise fatorial é adequado.
A estatística KMO verifica a adequação da utilização da Análise Fatorial, com base nas correlações parciais. Se o valor do KMO for abaixo de 0,5, a utilização da Análise Fatorial é inadequada para o conjunto de dados analisados. 
Quanto mais próximo de 1, mais indicado será a utilização da Análise Fatorial. 
TESTE DE BARTLETT
Bartlett analisa a matriz de correlação das variáveis originais.
A hipótese nula afirma que a matriz de correlação é igual à matriz identidade, ou seja, nenhum par de variáveis possui correlação significativamente diferente de zero. Nesse caso não é possível trabalhar com a Análise Fatorial. Ou seja, nesse caso queremos que H0 seja rejeitada. 
H0: a matriz de correlação é a matriz identidade (em outras palavras: TODOS OS PARES DE VARIÁVEIS TÊM CORRELAÇÃO IGUAL A ZERO, logo, não podemos utilizar a AF) 
H1: pelo menos um par de variáveis possui correlação diferente de zero 
α (nível de significância = prob. de rejeitar H0 sendo ela verdadeira) = 5% Sig (valor-p) = ...... 
Conclusão: se Sig < α, rejeitamos H0. Concluímos assim, que pelo menos um par de variáveis possui correlação diferente de zero, logo, podemos utilizar a Análise Fatorial. 
EXEMPLO:
MATRIZ ANTI-IMAGEM:
Devemos analisar principalmente a diagonal principal da matriz anti-imagem (relacionada à correlação). 
Caso algum valor seja menor do que 0,5, a variável deve ser retirada da análise, pois a correlação dela com as demais não é significativa o suficiente para ela permanecer na Análise Fatorial.
DETERMINAÇÃO DO NÚMERO DE FATORES A SEREM EXTRAÍDOS:
SCREE PLOT (GRÁFICO DE SEDIMENTAÇÃO OU DE DECLIVE):
O Scree Plot é um gráfico dos fatores VS os autovalores. (AUTOVALORES: variância total explicada por cada fator do estudo).
Observar onde há a ‘quebra do cotovelo’. 
A decisão em relação ao número de fatores a serem retidos corresponde ao número de fatores antes dessa ‘quebra’. (SCREE PLOT é o gráfico que mostra a relação entre os autovalores e o número de fatores).
KAISER:
O critério de Kaiser determina que sejam retidos os fatores que possuírem autovalor acima de 1.
Pode ser usado quando perguntarem paradeterminar o número de fatores que compõe as variáveis.
PERCENTUAL DA VARIAÇÃO EXPLICADA 
Geralmente usa o mais próximo de 80%.
O percentual de variação explicada é a soma dos autovalores (dos fatores retidos) dividida pelo total de variáveis na análise. 
Quanto mais próximo de 100%, melhor. 
Os autovalores representam a variância explicada por cada fator. 
Como trabalhamos com a matriz de correlação (para extrair os fatores) a soma dos autovalores é igual ao número total de variáveis.
análise dos fatores: cargas fatoriais e comunalidades
CARGAS FATORIAIS:
É a correlação entre cada variável e o fator. 
Indicam a importância dos fatores na composição de cada variável. 
O seu cálculo tem como base os autovalores e os autovetores. 
As cargas fatoriais variam de -1 a 1. Quanto mais próximo de 1, ou -1, maior é a correlação entre a variável e o fator, ou seja, quanto mais próximade +/- mais CARREGADA a variável vai estar no fator.
O mínimo aceitável é carga fatorial entre 0,30 e 0,40. 
Carga fatorial acima de 0,50 é necessária para aplicações práticas. 
MATRIZ FATORIAL ROTACIONADA:
A escolha das variáveis mais significativas que devem fazer parte de um fator é feita com base na magnitude da carga fatorial dos fatores rotacionados. 
A rotação é uma forma de aumentar a ‘explicação’ dos fatores. 
Analisando as cargas fatoriais dos fatores rotacionados, verificamos com mais facilidade em qual fator cada variável está mais ‘carregada’. 
Os valores variam de -1 a 1. Quanto mais próximo de 1, ou -1, maior é a correlação entre a variável e o fator. 
MOSTRA A CARGA FATORIAL - Correlação entre a variável e o fator.
COMUNALIDADES:
O quanto da variância (de uma variável) é explicada pelos fatores retidos.
Quanto mais próximo de 100%, melhor. 
Variáveis com comunalidade abaixo de 0, devem ser excluídas da análise
São calculadas elevando ao quadrado as cargas fatoriais de cada variável e somando-as.

Continue navegando