Buscar

Resumo Análise Multivariada G1

Prévia do material em texto

Resumo Análise Multivariada G1
Termos e definições:
Análise multivariada = método que permita a análise simultânea de duas ou mais variáveis pode ser considerado como multivariado. 
Análise fatorial = técnica que cria novas tabelas apenas com variáveis que possuem maior influência sobre a variável dependente. Os fatores são extraídos na ordem do mais explicativo para o menos explicativo. Depois de fazer AF, você busca de cara ver a qualidade (KMO) e significância (SIG do TESTE BARTLETT) da nova tabela. 
Os fatores são variáveis hipotéticas que explicam partes da variabilidade dos dados.
X fatores explicam % da variância total.
Boxplot = Max, Min, Q1, Q3, Média, Mediana 
Simetria (boxplot) = 
Positiva = média maior que mediana
Simétrica = média igual à mediana 
Negativa = média menor que mediana 
Ramo e folha = 
Ver unidades (stem width)
Ver min e max (sempre o menor número para min e o maior para max)
Ver número de outliers e a partir de que número eles são outliers
Valor real é sempre o número x o stem width 
Correlação (Pearson Correlation) = grau de influência entre variáveis 
KMO (Kaiser-Meyer-Olink MEasure of Sampling Adequacy) = Ele descreve a qualidade da Análise Fatorial que foi realizada. Se ele for abaixo de 0,05 isso significa que a AF não descreve satisfatoriamente a variação dentro os dados. 
Abaixo de 0,5 = não dá para fazer análise 
Entre 0,5 e 0,6 = razoável qualidade
Acima de 0,6 = boa qualidade (Quanto maior de “1”, melhor a qualidade) 
Teste Bartlett (Bartlett’s Test of Sphericity) = Indica se existe RELAÇÃO suficiente entre as variáveis para fazer-se a AF. Se chama Teste Bartlett, mas você está buscando o SIG. SIG tem que ser menor que 0,05 se rejeitar a hipótese nula (Você quer provar que matriz de correlações não é a matriz de identidade... uma matriz de identidade prova que duas matrizes são inversas uma da outra e você quer provar exatamente o oposto. Você quer provar que elas são correlacionadas positivamente.) 
MSA (Tabela Measure of Sampling Adequacy Anti-image CORRELATION) = adequação da amostra 
Abaixo de 0,5 = não é adequada e deve ser eliminada
Acima de 0,5 = é adequada e deve ser mantida
Igual a 0,5 = ver se a comunalidade é alta para mantê-la. 
Comunalidade (Communalities) =são quantidades das variâncias (correlações) de cada variável explicada pelos fatores. Quanto maior a comunalidade, maior será o poder de explicação daquela variável pelo fator. sempre começa em 1 e depois o 2º valor mostrará a correlação com os demais fatores retidos. Tem que ser acima de 0,5 para ser RAZOÁVEL e acima de 0,7 para ser BOA. . 
Teste de normalidade = determina se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não. Estamos predispostos a querer que ela seja normal.
Shapiro = tamanho da amostra (df) menor de 30 para escolher a tabela Shapiro no teste de normalidade 
Regressão = estuda o relacionamento entre uma variável chamada a variável dependente e outras variáveis chamadas variáveis independentes.
Variável dep + 1 variável independente = regressão simples
Variável dep + 2 ou mais variáveis independentes = regressão múltipla
Coef correlação (R) = mede o grau da correlação entre duas variáveis 
Coef determinação (R Square) = varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Quanto maior o R², mais explicativo é modelo, melhor ele se ajusta à amostra. Por exemplo, se o R² de um modelo é 0,8234, isto significa que 82,34% da variável dependente consegue ser explicada pelos regressores presentes no modelo. 
Soma dos quadrados total (SQT ou Total Sum of Squares) = é o resíduo quadrado que ocorreria se utilizasse apenas a média (da variável) para fazer a previsão. 
SQR = Regression = soma do quadrado da regressão (do modelo)
SQE = Residual = soma do quadrado dos resíduos (utilizando a variável independente)
SQT = SQR + SQE
Total = Regression + Residual
“Pegadinhas” = 
KMO = queremos que seja acima de 0,5 para ser BOM... SIG = queremos que seja abaixo de 0,05 para ser BOM (na maioria dos casos), pois na maioria dos casos queremos REJEITAR a Hipótese Nula. 
3 motivos pelos quais a regressão múltipla apresenta resultados melhores que a simples: 
Aumenta r2... que é o coeficiente de determinação
Abaixa o erro padrão (Std Error of the Estimate de uma tabela para outra)
Abaixa a soma dos quadrados dos resíduos (Residual)
Achar “x” fatores que explicam “%” da variância total = “Extractions sums of Squarod” Somar “% of Varianco” OU último dado do “Cumulativo%”
Em Regressão, o R Square também fala o % da variância na variável independente que são explicadas. 
Regressão equação quer tirar? sim, as que tem sig abaixo de 0,05. 
A anti-imagem mostra o MSA e ajuda ajuda a retirar algumas variáveis para obter-se uma AF mais precisa. Tira-se eles indo diagonalmente a partir da primeira variável. MAS abaixo de 0,5... rodou! Ao menos que...
Se comunalidade for alta formar novo fator só da variável
Se comunalidade for baixa excluir 
Na matriz de componente a soma dos quadrados por linha dará a comunalidade e por coluna dará a ordenada (y) do valor próprio no gráfico de sedimentação. Tipo de pergunta que pode rolar: dar o gráfico de sedimentação, uma matriz e perguntar para botar quais são os valores dos pontos no gráfico. Eleva ao quadrado, soma os valores na vertical e diz os valores.
Dúvida = como determinar a variável dependente?
 
- os fatores são conjuntos de variáveis... juntar variáveis parecidas.
- KMO entre 0,5 - 0,6 pode-ser fazer uma análise, mas ela apenas é considerada de boa qualidade acima de 0,6
- Checar no anti-image correlation e fazer a diagonal principal. Todos os números abaixo de 0,5 devem ser excluídos. Se o KMO subir, fizemos bem. Se o KMO descer, fizemos mal.
obs: Na prova não precisa tirar, apenas explicar se deve retirar e porque. O porque será sempre porque aumentou o KMO.
 
Lista 5:
- #2 as variáveis possuem MSA abaixo de 0,5 o que as tornam candidatas a serem excluídas ou formarem um novo fator.
- #3 KMO virou de boa qualidade
- #4 - extração: o quanto ela está sendo explicada pelos fatores. As variáveis com comunalidade abaixo de 0,5 significa que ela não estão sendo bem explicadas pelos fatores retidos. Nenhum grupo quer ela, nenhum fator explica bem a variável.
- #5 diferença entre aas tabelas matriz de componente e matriz de componente rotativa. A matriz de componente rotativa serve apenas para que se escolha os variáveis que compoem cada fator. Para essa escolha, observem em cada linha em módulo. Na matriz de componente a soma dos quadrados por linha dará a comunalidade e por coluna dará a ordenada (y) do valor próprio no gráfico de sedimentação. Tipo de pergunta que pode rolar: dar o gráfico de sedimentação, uma matriz e perguntar para botar quais são os valores dos pontos no gráfico. Eleva ao quadrado, soma os valores na vertical e diz os valores.

Outros materiais