Logo Passei Direto

A maior rede de estudos do Brasil

Grátis
12 pág.
RESUMO P1 - MARCELA COHEN

Pré-visualização | Página 1 de 2

RESUMO PARA P1 – REGRESSÃO LINEAR MÚLTIPLA E ANÁLISE FATORIAL
RESUMO – REGRESSÃO LINEAR MÚLTIPLA
O QUE É: É um ramo da Estatística que procura relacionar uma variável, chamada de dependente ou resposta, com um conjunto (uma ou mais de uma) de outras variáveis, chamadas de independentes ou regressoras. Cada modelo de regressão comporta uma e somente uma variável resposta.
OBJETIVO: Montar um modelo matemático (uma função de regressão) de tal forma que, dado um conjunto de valores das variáveis regressoras, obtenha-se um valor estimado para a variável resposta. Esse modelo poderá ser usado como apoio à decisão e/ou planejamento. 
COEFICIENTE DE CORRELAÇÃO
	A correlação (r) mede a força do relacionamento ou grau de associação entre duas variáveis. Varia de 1 a -1 e quanto mais próxima de 1 ou -1 maior o grau de correlação e quanto mais próximo de 0 , menor. -1 é correlação negativa perfeita e +1 e correlação positiva perfeita e 0 significa que não tem existe correlação entre elas.
	SPSS -> Tabela MODEL SUMMARY -> Coluna “R”
	No quadro de correlações, escolher a variável que possui maior correlação com a variável dependente Y (PEARSON CORRELATION) OLHANDO APENAS O PRIMEIRO QUADRO (LINHA E COLUNA), qual variável independente é maior em relação a dependente (gastos).
COEFICIENTE DE DETERMINAÇÃO
R-square é a capacidade preditiva do modelo. Indica o quanto da variação na variável dependente Y é explicado pelas variações na variável independente X² HORAS DE MOD (que no nosso exemplo é a variável com maior correlação linear em relação a Y.
Olhando o quadro do SPSS MODEL SUMMARY podemos ver a correlação “R” e o “ADJUSTED R SQUARE”, permitindo concluir que 91,1% da variação nos gastos gerais da academia são explicados pelas variações nas HORAS DE MOD. 
erro padrão da estimativa
É uma outra medida de precisão da previsão, é um desvio padrão em torno da reta de regressão, QUANTO MENOR MELHOR O MODELO ESTIMADO. No quadro acima ele se encontra na coluna STD. ERROR OF THE ESTIMATE.
TESTE F-ANOVA
Tem por finalidade testar o efeito do conjunto de variáveis independentes sobre a variável dependente, ou seja, se a combinação linear das variáveis independentes exerce influência significativa ou não sobre a variável dependente.
H0: R² = 0 
H1: R² > 0
Para que a regressão seja significativa, a H0 tem que ser rejeitada, ou seja, R² tem que ser significativamente maior que 0. Pelo valor Sig < α
H0: βi = 0 (devo retirar a variável)
H1: βi ≠ 0 (tem relação linear com Y) i = 1,2,3
α = 5%
Valores p de cada variável independente vão estar no quadro Coeficientes na coluna Sig. (x100)
Então: 
B¹ (consumo de KW) = 1,2% < 5% -> Rejeita H0
Β² (HORAS MOD) = 0,000% < 5% -> Rejeita H0
B³ (Número de alunos) = 3,4% < 5% -> Rejeita H0
Concluindo que, a hipótese nula (H0) é p/ b1, b2 e b3. Logo as variáveis X¹, X² e X³ devem permanecer no modelo, por apresentar relação linear significativa com Y.
pressupostos da análise de regressão (premissas)
Normalidade dos resíduos
Homoscedasticidade dos resíduos
Linearidade dos coeficientes
Mulicolinearidade entre as variáveis independentes
Explicando...
Normalidade dos resíduos: Analisando no gráfico NORMAL P-P PLOT, o ideal é que os pontos estejam próximos da reta.
Homocedasticidade dos resíduos: Variância constante, é analisado no gráfico de DIAGRAMA DE DISPERSÃO DOS RESÍDUOS ou SCATTERPLOT – DEPENDENT VARIABLE: GASTOS. O ideal é não ter padrões nos dados
Linearidade dos coeficientes: A melhor relação das variáveis é uma reta, analisado nos dois gráficos, um não deve ter padrão e o outro deve ter uma reta (P-P Plot)!
 Multicolinearidade entre as variáveis independentes ou INDEPENDENCIA: Analisado no gráfico de DIAGRAMA DE DISPERSÃO DOS RESÍDUOS ou SCATTERPLOT – DEPENDENT VARIABLE: GASTOS. Os pontos não devem ter um padrão.
ORDEM DA PROFESSORA: LINEARIDADE, NORMALIDADE, HOMOCEDASTICIDADE E INDEPENDÊNCIA.
(PERGUNTA: SE UMA PREMISSA NÃO FOR ATENDIDA OQ FAZER)
Concluindo então que como não foi observado um padrão nos resíduos, as premissas de linearidade, Homocedasticidade e a independência foram atendidas. E Analisando o P-P Plot, a premissa de normalidade foi atendida.
existência de outlier
Analisa os dois gráficos, se algum ponto estiver acima de 3 ou abaixo de -3 tem outliers. (PERGUNTA: SE TIVER OUTLIER OQ FAZER)
Concluindo então que como todos os resíduos padronizados estão dentro do intervalo (-3;+3), não foram observados Outliers.
PROBLEMAS DE MULTICOLINEARIDADE
Multicolinearidade é uma forte relação linear entre variáveis independentes e isso é um problema, por exemplo, se um aluno estudando hora e minuto e outro real ou dólar você multiplica por uma constante e não vai mudar muito)
Vê se tem problema olhando o quadro dos coeficientes, a coluna VIF. O VIF tem que ser menor que 5. Uma das variáveis vai sair, a que tem que sair é a de maior SIG.
Concluindo então que nesse caso não há problemas de Multicolinearidade, pois todos os VIF estão abaixo de 5. Caso houvesse problema, a variável com menor relação linear com Y, ou seja, maior SIG, deve ser retirada do modelo.
EQUAÇÃO:
Y^= β0 +(β1X¹) + (β2X²)+....
Exemplo:
Y^= -28,4 +10,92X¹ + 11,5X² + 1,758X³ É o β do quadro de correlações:
PREVISÃO - RESÍDUO E SE É OUTLIER
Exemplo, previsão dos gastos com 100 alunos, 10 horas MOD e consumo de 6 kWh.
Y^= -28,4+10,92(6) +11,5(10) +1,758(100) = 327,92
Y= 350
RESÍDUO (e) = Y^-Y = 327,92-350= -22,08 u.m
e/s = -22,08/29,9 = -0,7 (não é um Outliers, pois o valor está muito baixo)
O valor 29,9 é o desvio padrão do modelo que é achado no quadro Model Summary na última coluna:
RESUMO ANÁLISE FATORIAL:
 
OBJETIVO: A Análise Fatorial é uma técnica de análise multivariada que tem como principal objetivo descrever um conjunto de variáveis originais por meio da criação de um número menor de variáveis (ou melhor, fatores). 
PREMISSAS:
KMO:
Índice utilizado para avaliar se o uso da análise fatorial é adequado.
A estatística KMO verifica a adequação da utilização da Análise Fatorial, com base nas correlações parciais. Se o valor do KMO for abaixo de 0,5, a utilização da Análise Fatorial é inadequada para o conjunto de dados analisados. 
Quanto mais próximo de 1, mais indicado será a utilização da Análise Fatorial. 
TESTE DE BARTLETT
Bartlett analisa a matriz de correlação das variáveis originais.
A hipótese nula afirma que a matriz de correlação é igual à matriz identidade, ou seja, nenhum par de variáveis possui correlação significativamente diferente de zero. Nesse caso não é possível trabalhar com a Análise Fatorial. Ou seja, nesse caso queremos que H0 seja rejeitada. 
H0: a matriz de correlação é a matriz identidade (em outras palavras: TODOS OS PARES DE VARIÁVEIS TÊM CORRELAÇÃO IGUAL A ZERO, logo, não podemos utilizar a AF) 
H1: pelo menos um par de variáveis possui correlação diferente de zero 
α (nível de significância = prob. de rejeitar H0 sendo ela verdadeira) = 5% Sig (valor-p) = ...... 
Conclusão: se Sig < α, rejeitamos H0. Concluímos assim, que pelo menos um par de variáveis possui correlação diferente de zero, logo, podemos utilizar a Análise Fatorial. 
EXEMPLO:
MATRIZ ANTI-IMAGEM:
Devemos analisar principalmente a diagonal principal da matriz anti-imagem (relacionada à correlação). 
Caso algum valor seja menor do que 0,5, a variável deve ser retirada da análise, pois a correlação dela com as demais não é significativa o suficiente para ela permanecer na Análise Fatorial.
DETERMINAÇÃO DO NÚMERO DE FATORES A SEREM EXTRAÍDOS:
SCREE PLOT (GRÁFICO DE SEDIMENTAÇÃO OU DE DECLIVE):
O Scree Plot é um gráfico dos fatores VS os autovalores. (AUTOVALORES: variância total explicada por cada fator do estudo).
Observar onde há a ‘quebra do cotovelo’. 
A decisão em relação ao número de fatores a serem retidos corresponde ao número de fatores antes dessa ‘quebra’. (SCREE PLOT é o gráfico que mostra a relação entre os autovalores e o número de fatores).
KAISER:
O critério de Kaiser determina que sejam retidos os fatores que possuírem autovalor acima de 1.
Pode ser usado quando perguntarem para
Página12