Resumo da G1 - Análise multivariada

•

PUC-RIO

0

Mariana Moura

27.06.2016

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Multivariada

332 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Valor-p e sig 
P valor menor que o nível de significância (0,05) -> rejeita H0
P valor maior que o nível de significância (0,05) -> não rejeita H0
Distribuição Normal
Tabela de normalidade mostra o resultado de 2 testes de normalidade
Nível de significância menor que 0,05 -> não tem distribuição normal
Nível de significância maior que 0,05 ->tem distribuição normal (naquela variável maior)
Shapiro-> amostra menor que 30 ; Kolmogorov-> amostra maior que 30
Ramo e Folha
Extremes em cima -> possui outlier INFERIOR
Extremes em baixo ->possui outlier SUPERIOR
Para achar maior e menor valor -> Olhar STEM WIDTH
 Se for decimal divide o maior e menor valor ex: 0,10 : 10,1=1,01 (menor valor) 0,10 : 24= 2,4(menor valor)
Se for inteiro multiplica o maior e menor valor ex: 10,00 x 20=200 (menor valor) 10,00 x 30,1= 301 (maior valor)
Q1=25% Q2=mediana Q3=75% 
Box Plot
Media -> metade da caixa; Mediana-> traço preto 
Média acima da mediana-> assimetria positiva
Média abaixo da mediana-> assimetria negativa
Quando há proximidade entre a média e a mediana indica que são simétricas visualmente
°: outlier / *: extremos
Outlier acima da caixa-> outlier SUPERIOR
Outlier abaixo da caixa -> outlier INFERIOR
Análise fatorial
KMO: grau de associação dos fatores, varia entre 0 e 1, quanto mais perto de 1, maior será a qualidade da análise. (mede a qualidade)
KMO menor que 0,5 -> A.F não aceita, não tem qualidade.
KMO maior ou igual a 0,6 -> A.F aceita, boa qualidade.
Entre 0,5 e 0,6 é razoável , não tem qualidade.
Bartllet: Sig tem que ser menor que 0,05 para que rejeite a hipótese da matriz de correlações seja a identidade.
OBS correlação/identidade/independente:
O que eu não quero é que a minha matriz seja identidade.
Rejeitar H0 -> quer dizer que a matriz de correlação é independente, isto é, as variáveis tem correlação
SIG : TESTA SE A A.F. É VALIDA./ KMO: TESTA A QUALIDADE 
Matriz anti - imagem 
A diagonal principal calcula o MAS (medida de adequação da amostra).Se houver algum valor MENOR que 0,5 informará que essa variável pode não se ajustar a estrutura das outras variáveis e deve ser eliminada ou formar um novo fator. 
MSA: varia entre 0 e 1 quanto mais perto de 1 melhor, o corte é 0,5.
MSA maior que 0,5-> mantem a variável 
MSA menor que 0,5 -> confere na comunalidade para ver se exclui a variável ou forma um novo fator
Comunalidade: Initial -> sempre igual a 1; Extration->varia entre 0 e 1. 
A extração tem que ser maior que 0,5 para que se garanta forte relação com os valores retidos, quanto mais próximo de 1 melhor é a relação. (DEVE SE ANALISAR DE FORMA COMPARATIVA )
600 e pouco indica relação razoável, possuem pouca relação com os fatores. Mas não necessariamente devem ser excluídos. 
Relação ruim menor q 500
Variância
Cumulative: indica em quantos % o modelo consegue explicar da variância dos dados originais. 
Component: indica quantos fatores foram retidos
Total: representa os autovalores 
Ex: Foram retidos 2 fatores com auto valores 3,632,1030 que conseguem explicar 93 % da variância dos dados originais.
Matriz de componente
Soma dos quadrados por linha (variáveis: vendas,ll) -> forma a comunalidade nova
Vendas= ( x )²+ (y²)+ (z²)= comunalidade [calcular por linha]
Valor próprio dos componentes ou auto valor-> soma dos quadrados por coluna (por fator, f1,f2)-> conferir o resultado na tabela de variância coluna total.
Fator 1= ( x )²+ (y²)+ (z²) = auto valor [calcular por coluna]
Matriz de componente ROTACIONADA
Olhar por linha o maior valor em modulo e circular (variáveis)
Depois escreva a resposta dos maiores valores por fator (coluna)
Ex: fator 1: V4, V7, V8 / fator 2: V1, V2
Regressão Linear
Variável independente (x)
Variável dependente (y) [é o que eu quero prever]
R múltiplo = coeficiente de correlação -> varia entre 0 e 1 quanto mais perto de 1 a relação é mais forte
R quadrado= coeficiente de determinação (%) -> mede a qualidade do modelo, para ter qualidade tem que ser maior que 0,5
Tabela ANOVA
SQT-> olha o total : x é o erro que se comete ao utilizar a media para fazer previsão
SQR-> olha o residual : o erro SQT cai para SQR quando se prevê utilizando a equação do modelo
SIG-> tem que ser abaixo de 0,05 para que valide o modelo, ou seja, que a variável X influencia a variável Y
F de significação = valor p -> menor que 0,05 valida o modelo, isto é, x influencia y.
F de significação = valor p -> maior que 0,05 o modelo não é valido, isto é, x não influencia y.
Equação do modelo: Z= soma dos coeficientes vezes x
Regressão linear múltipla 
3 pressupostos de regressão:
Durbin-Watson:
Valores de estatística DW próximos a 2 atendem o pressuposto (de 1,5 a 2,5 = excelente, pressuposto atendido)
Pressuposto atendido-> garante que os erros são independentes
VIF
Até 1 = sem multicolinearidade
De 1 até 10 = com multicolinearidade aceitável
Acima de 10 = com multicolinearidade problemática
Tolerance 
Acima de 1 = sem multicolinearidade
De 0,1 até 1 = com multicolinearidade aceitável
 Abaixo de 0,1 = com multicolinearidade problemática