Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 1 – GRÁFICOS E TESTES DE NORMALIDADE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ TESTES DE NORMALIDADE: A tabela Test of Normality mostra o resultado de dois testes de normalidade: Kolmogorov-Smirnov e o Shapiro- Wilk. Os dois testes testam a hipótese de que os dados apresentam uma distribuição normal. No caso de amostras menores (<30 casos), o teste Shapiro-Wilk é mais poderoso. Um valor abaixo da significância indica um desvio na distribuição dos dados em relação à Curva Normal (de preferência deve estar abaixo de 0,05 ou mesmo 0,01) GRÁFICO DE BOXPLOT Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo um eficiente método para mostrar cinco número que sumarizam qualquer conjunto de dados. O gráfico proposto é chamado de boxplot (também conhecido como box and whisker plot) e resume as seguintes medidas estatísticas: • mediana • quantis superior e inferior • os valores mínimos e máximos O gráfico de boxplot interpreta-se da seguinte forma: • A caixa (box) propriamente contém a metade 50% dos data. O limite superior da caixa indica o percentil de 75% dos dados e o limite inferior da caixa indica o percentil de 25%. A distancia entre esses dois quantis é conhecida como interquartil. • A linha na caixa indica o valor de mediana dos dados. • Se a linha mediana dentro da caixa não é eqüidistante dos extremos, diz-se então que os dados são assimétricos. • Os extremos do gráfico indicam os valores mínimo e máximo, a menos que valores outliers estejam presentes, nesse caso o gráfico de estende ao máximo de 1.5 vezes da distância inter-quartil. • Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers. 2 EXERCÍCIOS: 1) Observe a tabela abaixo, comente sobre as variáveis que apresentam distribuição normal: Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Salário Mínimo ,138 120 ,000 ,937 120 ,000 Saldo Balança Comercial ,202 120 ,000 ,909 120 ,000 Taxa de Desemprego ,064 120 ,200 * ,987 120 ,329 Taxa de Inflação ,118 120 ,000 ,861 120 ,000 Taxa de Juros ,166 120 ,000 ,864 120 ,000 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. 2) Observando os Ramo-e-folhas, identifique os outlies e interprete a 3ª linha de cada gráfico: Salário Mínimo Stem-and-Leaf Plot Frequency Stem & Leaf 7,00 20 . 0224789 15,00 21 . 023334445568899 21,00 22 . 000011111223466899999 18,00 23 . 000011112224466788 6,00 24 . 114557 6,00 25 . 023457 14,00 26 . 02334456677999 22,00 27 . 0011122234445556678889 3,00 28 . 024 ,00 29 . 8,00 30 . 13466666 Stem width: 10,00 Each leaf: 1 case(s) Saldo Balança Comercial Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 -1 . 8 6,00 -1 . 011234 15,00 -0 . 555566677888899 23,00 -0 . 00001111112222223333444 26,00 0 . 00000001111111122222222333 6,00 0 . 555668 5,00 1 . 11122 8,00 1 . 55577899 6,00 2 . 001134 7,00 2 . 5556677 7,00 3 . 0113444 5,00 3 . 56678 4,00 4 . 0033 ,00 4 . 1,00 5 . 0 Stem width: 1000 Each leaf: 1 case(s) Taxa de Desemprego Stem-and-Leaf Plot Frequency Stem & Leaf ,00 8 . 2,00 8 . 59 3,00 9 . 112 6,00 9 . 677999 16,00 10 . 0011222233334444 21,00 10 . 555555666777777888899 17,00 11 . 00000112223333444 20,00 11 . 55566666777778888999 14,00 12 . 00000012233344 12,00 12 . 556667788999 8,00 13 . 22223344 1,00 13 . 6 Stem width: 1,0 Each leaf: 1 case(s) Taxa de Inflação Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 -0 . 677 2,00 -0 . 44 4,00 -0 . 2233 7,00 -0 . 0001111 13,00 0 . 0000011111111 14,00 0 . 22222233333333 13,00 0 . 4444444455555 12,00 0 . 666666777777 11,00 0 . 88888899999 11,00 1 . 00000111111 4,00 1 . 2223 8,00 1 . 44444555 5,00 1 . 66677 3,00 1 . 889 2,00 2 . 01 2,00 2 . 23 1,00 2 . 5 1,00 2 . 6 4,00 Extremes (>=2,7) Stem width: 1,00 Each leaf: 1 case(s) 3 Taxa de Juros Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 10 . 18 3,00 11 . 889 17,00 12 . 11122245556678899 16,00 13 . 0223477788888999 15,00 14 . 001144557788899 14,00 15 . 00123334688899 15,00 16 . 000034445557777 6,00 17 . 003477 6,00 18 . 003557 6,00 19 . 026677 4,00 20 . 1168 2,00 21 . 27 2,00 22 . 02 3,00 23 . 557 1,00 24 . 0 8,00 Extremes (>=2,49) Stem width: ,10 Each leaf: 1 case(s) 3) Observando os Box-plots a seguir, identifique os outlies e as distribuições quanto a assimetria: 4 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 2 – ESTATÍSTICA DESCRITIVA PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ EM SALA: Os dados foram extraídos do banco de dados da economatica.sav, totalizando 264 observações das 9 variáveis: Setor; Ano; Vendas; Lucro Líquido; Variação do LL; Ativo Total; Exigível Total; Disponível e LL / AT. Com base nos relatórios extraídos do SPSS apresentados responda as perguntas que se seguem: 1. Quais variáveis deste caso são qualitativas? Elas são nominais ou ordinais? 2. Quais variáveis deste caso são quantitativas? Elas são discretas ou contínuas? 3. Foram apresentados os histogramas de duas variáveis (Lucro Líquido e LL/AT). Qual das duas variáveis demonstra uma distribuição mais próxima da normal? 4. Foram apresentados os resultados do teste de normalidade de duas variáveis (Lucro Líquido e LL/AT). Alguma das duas variáveis apresenta uma distribuição normal? 5. Com base no diagrama Ramo-e-folha aponte o número de observações e seus respectivos valores, para a 1ª e a 4ª linha da variável LL/AT. 6. Observe o diagrama Ramo-e-folha da variável Lucro Líquido. Há presença de outlies? Quantos e que valores? 7. O diagrama de dispersão está apresentando a relação de quatro variáveis. Diante desse gráfico, responda: a) Qual setor está contribuindo para uma maior dispersão? b) Qual setor está contribuindo para uma menor dispersão? c) O que significa ter maior ou menor dispersão numa relação bivariada? 8. O boxplot (ou gráfico de caixas) está apresentando a variável LL/AT segregada em quatro grupos (2001, 2002, 2003 e 2004). Diante desse gráfico, responda: a) Qual ano apresenta maior dispersão para a variável em questão? b) Qual ano apresenta menor dispersão para a variável em questão? c) Qual apresenta uma distribuição da variável mais simétrica? d) Quais observações podem ser classificadas como outlies em cada ano? 9. Em relação à média e ao desvio padrão, responda: a) Qual dos três setores (siderurgia, telecomunicaçõese energia elétrica) apresentou maior média para a variável Lucro Líquido? b) Qual dos três setores (siderurgia, telecomunicações e energia elétrica) apresentou menor desvio padrão para a variável Lucro Líquido? 5 EXERCÍCIO 1: Sejam as variáveis relacionadas ao faturamento bruto em 2005(R$), à área de vendas (m2) e ao número de funcionários de 30 grupos supermercadistas do Brasil. Os dados encontram-se no arquivo SupermercadosBrasileiros.sav. (Fonte: Associação Brasileira de Supermercados). a) Elabore um gráfico de dispersão para avaliar uma possível relação entre as variáveis referentes à área de vendas (eixo x) e ao faturamento bruto (eixo y). Idem entre o número de funcionários (eixo x) e o faturamento bruto (eixo y). b) Através do Box-plot e do ramo e folhas identifique a presença de outlies. EXERCÍCIO 2: Em um determinado banco, coletou-se o tempo médio de atendimento (em minutos) de uma amostra de 48 clientes para três tipos de serviços. Os dados encontram-se no arquivo Banco.sav. Compare os resultados dos serviços com base nas seguintes medidas: a) Foram apresentados os histogramas das três variáveis. Qual das variáveis demonstra uma distribuição mais próxima da normal? b) Foram apresentados os resultados do teste de normalidade das variáveis. Alguma das variáveis apresenta uma distribuição normal? c) Com base no diagrama Ramo-e-folha aponte o número de observações e seus respectivos valores, para a 1ª e a 4ª linha da variável tempo_serviço1. d) Observe o diagrama Ramo-e-folha da variável tempo_serviço2. Há presença de outlies? Quantos e que valores? e) O diagrama de dispersão está apresentando a relação das variáveis. Diante desse gráfico, responda: Qual variável está contribuindo para uma maior dispersão? 6 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 3 – ESTATÍSTICA DESCRITIVA PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ 1) Uma empresa do ramo de calçados populares gostaria de entender melhor a forma de relacionamento de algumas variáveis e como este relacionamento pode interferir na condução de seu negócio. Para isso, resolveu encomendar uma pesquisa com outras empresas do ramo para identificar a importância de algumas variáveis. As variáveis que fizeram parte da pesquisa foram: V1: automação; V2: crescimento do PIB; V3: parceria com os fornecedores; V4: novos concorrentes; V5: diversidade de produtos; V6: controle de despesas; V7: câmbio; V8: estabilidade econômica. Verifique a presença de outliers em cada uma das oito variáveis. Identifique-os. V1 Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 2 . 00 ,00 2 . 10,00 3 . 0000000000 ,00 3 . 11,00 4 . 00000000000 ,00 4 . 7,00 5 . 0000000 Stem width: 1 Each leaf: 1 case(s) 7 V2 Stem-and-Leaf Plot Frequency Stem & Leaf 4,00 1 . 0000 ,00 1 . 11,00 2 . 00000000000 ,00 2 . 13,00 3 . 0000000000000 ,00 3 . 1,00 4 . 0 1,00 Extremes (>=5,0) Stem width: 1 Each leaf: 1 case(s) V3 Stem-and-Leaf Plot Frequency Stem & Leaf 12,00 1 . 000000000000 ,00 1 . 10,00 2 . 0000000000 ,00 2 . 8,00 3 . 00000000 Stem width: 1 Each leaf: 1 case(s) V4 Stem-and-Leaf Plot Frequency Stem & Leaf 4,00 2 . 0000 ,00 2 . 12,00 3 . 000000000000 ,00 3 . 14,00 4 . 00000000000000 Stem width: 1 Each leaf: 1 case(s) 8 V5 Stem-and-Leaf Plot Frequency Stem & Leaf 8,00 1 . 00000000 12,00 2 . 000000000000 8,00 3 . 00000000 ,00 4 . 1,00 5 . 0 1,00 6 . 0 Stem width: 1 Each leaf: 1 case(s) V6 Stem-and-Leaf Plot Frequency Stem & Leaf 9,00 3 . 000000000 ,00 3 . 13,00 4 . 0000000000000 ,00 4 . 8,00 5 . 00000000 Stem width: 1 Each leaf: 1 case(s) V7 Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 1 . 000 ,00 1 . 11,00 2 . 00000000000 ,00 2 . 13,00 3 . 0000000000000 ,00 3 . 1,00 4 . 0 2,00 Extremes (>=5,0) Stem width: 1 Each leaf: 1 case(s) 9 V8 Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 Extremes (=<2,0) 4,00 3 . 0000 ,00 3 . 11,00 4 . 00000000000 ,00 4 . 14,00 5 . 00000000000000 Stem width: 1 Each leaf: 1 case(s) 2) Comente sobre o teste de normalidade a seguir: 10 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 4 – ANÁLISE FATORIAL – 1ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ ANÁLISE FATORIAL: Define a estrutura que existe por trás das variáveis sendo analisada. Avalia inter-relações entre as variáveis (correlações) Não diferencia variáveis dependentes e independentes Identifica dimensões (fatores) que possam explicar tais inter-relações Resumo de características essenciais: explica a variação presente nos dados em termos de um menor numero de conceitos (fatores) Redução de dados: seleciona variáveis essenciais ou gera variáveis compostas PREMISSAS: Correlações razoáveis (≥ 0,40) Correlações parciais reduzidas Teste Bartlett de esfericidade (não significante) Medida de adequação da amostra total e variáveis individuais (KMO e MSA ≥ 0,50) Homogeneidade da estrutura de fatores FATORES E AJUSTE GERAL: Carga dos fatores. Importância dos fatores na composição de cada variável. 0,30 a 0,40 → minimamente aceitável; 0,50 → necessário para aplicações práticas. Carga menor → amostra maior ou grande numero de variáveis Carga maior → maior número de fatores, especialmente para fatores subseqüentes. 11 1. Verificar a existência de outlies e se os dados apresentam distribuição viesada. OBS: Apesar do SPSS só realizar a normalidade de uma variável, se todas as variáveis atenderem a essa condição, os erros serão desprezíveis. SPSS: Analyze; Descriptive Statistics; Explore. Insira as variáveis em Dependent List. Em Plots, marque Normality plots with tests. OBS: Já que a amostra é maior que 30, utilize-se o teste Kolmogorov-Smirnov. Observa-se que todas as variáveis têm distribuição normal para p-value = 1%. 1.1. Padronizar as variáveis, para que, ao gerar os blox-plots, obter indícios de normalidade multivariada: SPSS: Análise; Descriptive Statistics; Descripties. 1.2. Gerar os blox-plots: SPSS: Graphs; Legacy Dialogs; Boxplot; Simple; Summaries of separate variables e selecione as variáveis padronizadas. 1.3. Gerar a matriz de correlações que devem constar com os coeficentes de Pearson (a maioria) superiores a 0,30. SPSS: Analyze; Correlate; Bivariate e selecione as variáveis originais e o coeficiente de Pearson. 2. Realizar a Análise Fatorial: A tabela anexada mostra todos os comandos no SPSS e as respectivasinterpretações no output de cada resultado. OBS: Todos os comandos a partir de agora podem ser pedidos de uma vez só. EXEMPLO DE ANÁLISE FATORIAL: As seguradoras são agentes que possuem uma forte influência na economia dos países, na medida em que atenuam os impactos negativos das fatalidades sofridos por indivíduos ou empresas. No arquivo Cap 02 – Exemplo.sav foram calculados 15 indicadores financeiros para 107 empresas seguradoras designadas pelas siglas S1 até S107, tomando-se como base o ano de 2001. Como decidir os pesos para cada indicador? Como avaliar todos os indicadores conjuntamente e definir qual ou quais deles influenciaram o resultado da empresa? São eles: ÍNDICES DE ESTRUTURA DE CAPITAL: ICAP: Índice de Captações; IEND: Índice de Endividamento; IRPG: Índice de Recursos Próprios em Giro; IIMR: Índice de Imobilização de Recursos; ÍNDICES DE RENTABILIDADE: ISIN: Índice de Sinistralidade; ICOL: Índice de Colocação de Seguros; IDAD: Índice de Despesas Administrativas; ILPG: Índice de Lucratividade sobre Prêmio Ganho; IRPL: Índice de Retorno sobre o PL; 12 ÍNDICES DE ALAVANCAGEM: PRPL: Índice de Solvência Prêmios; IALI: Índice de Alavancagem Líquida; ÍNDICES DE LIQUIDEZ: ILCO: Índice de Liquidez Corrente; ILGE: Índice de Liquidez Geral; ÍNDICES OPERACIONAIS: ICOM: Índice Combinado; ICOA: Índice Combinado Ampliado; O Método escolhido foi a análise dos componentes principais, porque a nossa intenção é de identificar um número mínimo de fatores que venha a explicar a parcela máxima da variância existente nas variáveis originais. A Análise Fatorial criará agrupamentos de variáveis com base em sua estrutura de relacionamento. Para aumentar o poder de explicação da AF foi escolhido o método de rotação varimax, pois a intenção é facilitar ao máximo o entendimento dos relacionamentos subjacentes entre as variáveis (fatores). Inicialmente, imaginou-se estabelecer os fatores utilizando todos os indicadores ao mesmo tempo. Como alguns indicadores possuem um pequeno (ou nenhum) relacionamento com os demais fez com que a AF atingisse resultados que não foram satisfatórios. Os resultados foram os seguintes: A matriz de correlação demonstra um baixo índice de correlação entre os indicadores (diversos índices abaixo de ______ ). Na parte inferior da matriz de correlação está uma tabela de significância (sig ou p-teste). Os valores dessa tabela devem ser próximos de ________ para se obter uma boa AF. 13 KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,569 Bartlett's Test of Sphericity Approx. Chi-Square 1631,347 df 105 Sig. ,000 Além da matriz de correlação, observou-se outro teste que nos permite avaliar se os dados originais viabilizam a utilização da AF de forma satisfatória. O teste de KMO indica o grau de _________________ dos dados a partir dos _______________ encontrados na AF. Caso indique um grau menor que ________, significa que os fatores encontrados na AF não conseguem descrever satisfatoriamente as __________________ dos dados originais. Outro teste nessa mesma tabela é o de esfericidade de Bartlett, que indica se existe ______________ suficente entre os indicadores para a aplicação da AF. Para que seja possível a aplicação da análise recomenda-se que o valor de sig não ultrapasse ________ . Apesar de o teste de esfericidade indicar a possibilidade de aplicação da AF, preferiu-se aumentar o poder de explicação dos fatores _______________ algumas variáveis da análise. A escolha dos indicadores que ficariam fora da AF foi facilitada pela matriz de __________________ . A parte inferior (__________________) indica o MSA para cada uma das variáveis. Esses valores encontram-se na ___________ ______________ e os valores inferiores a _______ indicam variáveis que podem ser ______________. Segundo esse critério, devem ser retirados da análise os indicadores: ________, ________, ________ e ________ . 14 Communalities Initial Extraction ICOM 1,000 ,971 ICOA 1,000 ,748 ICAP 1,000 ,853 IEND 1,000 ,736 IRPG 1,000 ,743 IIMR 1,000 ,750 ISIN 1,000 ,690 ICOL 1,000 ,688 IDAD 1,000 ,945 ILPG 1,000 ,990 IRPL 1,000 ,832 PRPL 1,000 ,765 IALI 1,000 ,908 ILCO 1,000 ,984 ILGE 1,000 ,977 Apesar de algumas variáveis possuírem pouca relação com os fatores, a maioria conseguiu um poder de explicação _________ que se chama _____________________ . Os indicadores que obtiveram explicações razoáveis (abaixo de 0,7) foram ________ e _________ . Uma última análise que pode ser feita antes de se realizarem outros testes é o grau de _____________ atingido pelos _____ fatores. Apesar de __________ relação entre os fatores e algumas variáveis, o modelo consegue explicar aproximadamente ____ % da _______________ dos dados originais. Retirados os indicadores ________, ________, ________ e ________ foi realizada uma segunda tentativa para se obter uma AF satisfatória. Observando as tabelas a seguir, responda as perguntas: KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,673 Bartlett's Test of Sphericity Approx. Chi-Square 1444,317 df 55 Sig. ,000 15 Communalities Initial Extraction ICOM 1,000 ,968 ICAP 1,000 ,794 IEND 1,000 ,628 IRPG 1,000 ,085 ICOL 1,000 ,119 IDAD 1,000 ,939 ILPG 1,000 ,984 PRPL 1,000 ,750 IALI 1,000 ,905 ILCO 1,000 ,978 ILGE 1,000 ,973 16 1. O que aconteceu com o KMO e com o teste de Bartlett? 2. O que a tabela de comunalidades está informando? 3. O que ocorreu com o número de fatores e a explicação do modelo? 4. Como conseqüência das alterações do modelo, fez-se uma nova análise para verificar se existiam variáveis que poderiam estar prejudicando a análise. Qual tabela você observou? Qual(is) indicador(es) deve(m) ser retirado(s) da análise? Após ser retirado mais um indicador ocorreu um problema. Identifique nas tabelas a seguir e informe a solução para o problema. KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,677 Bartlett's Test of Sphericity Approx. Chi-Square 1427,835 df 45 Sig. ,000 Communalities Initial Extraction ICOM 1,000 ,968 ICAP 1,000 ,825 IEND 1,000 ,652 IRPG 1,000 ,085 IDAD 1,000 ,939 ILPG 1,000 ,984 PRPL 1,000 ,737 IALI 1,000 ,900 ILCO 1,000 ,980 ILGE 1,000 ,975 Depois de extrair o indicador IRPG chegou a um grau de relacionamento e explicação das variáveis capaz de ser útil na avaliação das seguradoras. Interprete as tabelas a seguir que representam o resultado da AF: KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,678 Bartlett's Test of Sphericity Approx. Chi-Square 1418,574 df 36 Sig. ,000 17 Communalities Initial Extraction ICOM 1,000 ,973 ICAP 1,000 ,823 IEND 1,000 ,651 IDAD 1,000 ,946 ILPG 1,000 ,988 PRPL 1,000 ,738 IALI 1,000 ,898 ILCO 1,000 ,984 ILGE 1,000 ,978 18 Rotated Component Matrix a Component 1 2 3 ICOM ,970 -,080 ,159 ICAP ,303 -,830 -,206 IEND -,005 ,760 -,271 IDAD ,941 -,127 ,213 ILPG ,978 -,083 ,156 PRPL -,022 ,833 -,207 IALI -,068 ,929 ,175 ILCO ,217 -,035 ,967 ILGE ,232 -,044 ,960 19 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 5 – ANÁLISE FATORIAL – 2ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ Um pesquisador está interessado em definir que aspectos da formação do pós-graduando são priorizados pelos cursos de pós-graduação. Para isso realizou uma pesquisa com os alunos matriculados nos cursos de Mestrado e Doutorado de sua universidade. A pesquisa foi composta pelas seguintesquestões: Q 01: Adquiri responsabilidade em relação ao meu próprio aprendizado. Q 02: Passei a freqüentar outros espaços culturais como exposições, museus e teatros. Q 03: Aprendi a administrar meu tempo, dividindo-o entre as atividades de lazer, de trabalho e de estudo. Q 04: Adquiri postura, comportamento e habilidades necessárias ao desempenho da profissão que escolhi. Q 05: Tornei-me uma pessoa crítica com capacidade para analisar e contrapor diferentes pontos de vista e opiniões. Q 06: Passei a entender e a lidar com sistemas administrativos e burocráticos. Q 07: Passei a ler mais livros de assuntos genéricos. Q 08: Passei a ler mais livros de assuntos relacionados ao curso escolhido. Q 09: Aprendi a examinar e sintetizar vários tipos de informações e experiências. Q 10: Passei a freqüentar bibliotecas e livrarias. Q 11: Desenvolvi a capacidade de me relacionar com outras pessoas e trabalhar em equipe. Q 12: Passei a aplicar na vida prática aquilo que aprendi em sala de aula. Q 13: Aprendi a analisar situações e a tomar decisões. Q 14: Tornei-me uma pessoa autônoma, com pensamentos próprios. Q 15: Ampliei o meu conhecimento sobre as matérias ensinadas. Q 16: Desenvolvi habilidades de oratória e fluência verbal que facilitam minha comunicação com outras pessoas. Q 17: Aprendi a estudar e pesquisar de maneira independente. O pesquisador está interessado em avaliar se os cursos se preocupam apenas em formar um profissional da área acadêmica focado apenas em aspectos técnicos ligados à sua área de estudo, ou se os cursos primam pela formação de profissionais capazes de entender um problema sob diversas perspectivas. Os dados se encontram no arquivo Aluno- pos.sav, os resultados da pesquisa foram feitos no SPSS e se encontram nas tabelas a seguir. Responda as questões. 20 QUESTÕES PROPOSTAS: 1. A princípio, as questões que compõem o questionário foram analisadas em sua totalidade. Observando a tabela a seguir, o que tem a dizer sobre o teste de Bartlett e o resultado de KMO? KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,521 Bartlett's Test of Sphericity Approx. Chi-Square 209,040 df 136 Sig. ,000 2. Observando o MSA individual na antiimagem o que você percebe sobre os valores para as variáveis Q2, Q6, Q10, Q11, Q16 e Q17? 3. Desta forma, optou-se por retirar da análise as questões citadas no item anterior. Com essa nova avaliação, observando a tabela a seguir, o que tem a dizer sobre o teste de Bartlett e o resultado de KMO? KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,687 Bartlett's Test of Sphericity Approx. Chi-Square 84,682 df 55 Sig. ,006 21 4. Porém, com essa nova avaliação novos problemas foram encontrados. Observe as tabelas de comunalidades e percentual de variância explicada para explicar esse problema. Communalities Initial Extraction Q1 1,000 ,762 Q3 1,000 ,679 Q4 1,000 ,564 Q5 1,000 ,553 Q7 1,000 ,247 Q8 1,000 ,384 Q9 1,000 ,370 Q12 1,000 ,529 Q13 1,000 ,566 Q14 1,000 ,618 Q15 1,000 ,336 5. No entanto, vamos supor que o pesquisador decida por continuar sua pesquisa apesar dos resultados. A AF produziu 3 fatores: Fator 1: Valorização do comportamento crítico; Fator 2: Preocupação com a especialização e Fator 3: Estímulo à formação cultural. Identifique quais as questões que formam cada um desses fatores. Rotated Component Matrix a Component 1 2 3 Q1 ,158 ,834 -,202 Q3 -,205 ,021 ,798 Q4 ,051 ,635 ,397 Q5 ,733 ,111 -,056 Q7 ,261 ,278 ,318 Q8 ,391 ,480 ,003 Q9 ,531 ,047 ,293 Q12 ,252 ,148 ,666 Q13 ,713 ,085 ,226 Q14 ,731 ,097 -,273 Q15 -,037 ,514 ,266 22 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 6 – ANÁLISE FATORIAL – 3ª PARTE – output PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ EXERCÍCIO 02: Correlation Matrix a PMRV Endividamento Vendas margem_liquida Correlation PMRV 1,000 ,235 ,625 ,598 Endividamento ,235 1,000 ,238 -,098 Vendas ,625 ,238 1,000 ,580 margem_liquida ,598 -,098 ,580 1,000 Sig. (1-tailed) PMRV ,060 ,000 ,000 Endividamento ,060 ,057 ,261 Vendas ,000 ,057 ,000 margem_liquida ,000 ,261 ,000 a. Determinant = ,281 KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,631 Bartlett's Test of Sphericity Approx. Chi-Square 53,165 df 6 Sig. ,000 Anti-image Matrices PMRV Endividamento Vendas margem_liquida Anti-image Covariance PMRV ,492 -,159 -,169 -,210 Endividamento -,159 ,805 -,158 ,233 Vendas -,169 -,158 ,510 -,194 margem_liquida -,210 ,233 -,194 ,495 Anti-image Correlation PMRV ,691 a -,252 -,338 -,427 Endividamento -,252 ,318 a -,246 ,369 Vendas -,338 -,246 ,707 a -,387 margem_liquida -,427 ,369 -,387 ,601 a a. Measures of Sampling Adequacy(MSA) 23 Communalities Initial Extraction PMRV 1,000 ,769 Endividamento 1,000 ,955 Vendas 1,000 ,758 margem_liquida 1,000 ,831 Extraction Method: Principal Component Analysis. Rotated Component Matrix a Component 1 2 PMRV ,850 ,215 Endividamento ,079 ,974 Vendas ,840 ,230 margem_liquida ,874 -,261 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. 24 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 6 – ANÁLISE FATORIAL – 3ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ PARA OS EXERCÍCIOS A SEGUIR, RESPONDA: a) Por meio de uma análise fatorial (método de Componentes Principais e Rotação Varimax), determine o número de fatores que compõem as variáveis originais. b) A estatística KMO e o teste de esfericidade de Bartlett indicam que a aplicação da AF foi adequada? c) Qual o percentual de variância total explicada pelo(s) fator(es) gerado(s)? d) Qual variável mais contribui positivamente para a formação de cada fator? 1) O arquivo Indicadores_Financeiros.sav contém dados relativos a 100 empresas listadas na Revista Exame (Melhores e Maiores) de 2005. As variáveis disponíveis referem-se a: Vendas: em US$ mil; LL: lucro líquido em US$ mil; PL: patrimônio líquido em US$ mil; Rentabilidade: em %; CCL: capital circulante líquido em US$ mil; Liquidez geral: em %; Endividamento geral: em %. 2) Um analista de mercado quer estudar as relações estruturais entre quatro indicadores financeiros provenientes de 45 empresas e se encontram no arquivo Fatorial.sav. Os indicadores selecionados foram: Cód_Emp: código da empresa; PMRV: prazo médio de recebimento das vendas em dias; Endividamento: em %; Margem líquida das vendas: em %. 25 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 7 – ANÁLISE FATORIAL – 4ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ 1) A pesquisa foi desenvolvida com a coleta de indicadores econômico-financeiros das 43 distribuidoras de energia elétrica disponíveis na base de dados Séries Econômico-Financeiras das Empresas do Setor de Energia Elétrica do ano de 2009. Assim, os indicadores utilizados na análise fatorial são os seguintes: Índice de liquidez imediata (ILI): DISP / PC Índice de liquidez corrente (ILC): AC / PC Índice de perfil do endividamento (IPE): PC / (PC + PNC) Índice de cobertura de dívidas (ICD): FCO / PC Índice de cobertura dejuros (ICJ): EBIT / (DF – JSCP) Índice de capital circulante líquido (ICCL): CCL / AT Índice de necessidade de investimento em capital de giro (INIG): NIG/AT Índice de eficiência operacional (IEO): FCO / AT Índice de eficiência econômica (IEE): FCO / EBIT Índice de tesouraria (IT): ACF – PCF / RL Interprete as tabelas abaixo: 26 27 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 8 – REGRESSÃO LINEAR – 1ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ A base de dados utilizada é oriunda da revista EXAME – 500 Melhores & Maiores relativa ao ano de 2001, contendo indicadores financeiros selecionados referentes a empresas brasileiras de diversos setores econômicos e se encontra no arquivo MelhoresMaiores.sav. Foram selecionadas as seguintes variáveis: RENTAT: Rentabilidade do Ativo; RENTPL: Rentabilidade do Patrimônio Líquido; ALOPER: Alavancagem Operacional; MARVEN: Margem Líquida de Vendas; ALFIN: Alavancagem Financeira; O modelo consistirá em testar essas relações de análise de rentabilidade utilizando as informações coletadas. Ele é um exemplo que caracteriza uma Regressão Linear Múltipla, pois se estabelecem várias variáveis independentes no sentido de predizer e explanar o comportamento de uma única variável dependente. 1ª ETAPA: Estimação e avaliação do modelo de regressão simples: A 1ª etapa consiste em analisar a matriz de correlação. COMANDO: Analyze – Correlate – Bivariate – Selecionar as variáveis – Correlation Coeficients: Pearson – OK. Com a tabela a seguir podemos identificar as variáveis independentes de maior relação tanto com a variável dependente quanto entre si. As variáveis ____________ , ____________ e _____________ são, nesta ordem, as mais correlacionadas com ____________ , com significância estatística. A maior correlação se dá com a variável ____________ (r = _________ ), com alta significância estatística. Assim, esta será selecionada para a construção da equação de regressão usando a melhor variável independente. 28 Correlations RENTPL ALOPER MARVEN RENTAT ALFIN RENTPL Pearson Correlation 1 -,143 * ,303 ** ,859 ** ,003 Sig. (2-tailed) ,014 ,000 ,000 ,964 N 297 297 297 297 297 ALOPER Pearson Correlation -,143 * 1 -,012 -,139 * -,115 * Sig. (2-tailed) ,014 ,840 ,017 ,048 N 297 297 297 297 297 MARVEN Pearson Correlation ,303 ** -,012 1 ,580 ** ,025 Sig. (2-tailed) ,000 ,840 ,000 ,664 N 297 297 297 297 297 RENTAT Pearson Correlation ,859 ** -,139 * ,580 ** 1 ,012 Sig. (2-tailed) ,000 ,017 ,000 ,840 N 297 297 297 297 297 ALFIN Pearson Correlation ,003 -,115 * ,025 ,012 1 Sig. (2-tailed) ,964 ,048 ,664 ,840 N 297 297 297 297 297 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). COMANDO: Analyze – Regression – Linear – Selecionar as variáveis – dependente: ____________ e independente: _______________ – OK. Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate dimension0 1 ,859 a ,739 ,738 9,67461 a. Predictors: (Constant), RENTAT R (coeficiente de correlação): reflete apenas o grau de __________________ entre as variáveis envolvidas. R2 (coeficiente de determinação): indica que ______ % da variação na variável dependente ___________ é explicada pelas variações ocorridas na variável independente _____________ . ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 78023,268 1 78023,268 833,599 ,000 a Residual 27611,438 295 93,598 Total 105634,706 296 a. Predictors: (Constant), RENTAT b. Dependent Variable: RENTPL Soma dos quadrados: A soma total dos quadrados _________________ é o resíduo quadrado que ocorreria se utilizássemos apenas a média da variável dependente para predição. Utilizando a variável independente __________, esse resíduo cai para __________________ . 29 Teste F – ANOVA: Como o Sig _______ é menor que = _______, ________________ a hipótese de que R2 é igual a zero, ou seja, a variável independente exerce influência sobre a variável dependente e o modelo é ____________________ . Coefficients a Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) -,704 ,562 -1,254 ,211 RENTAT 23,379 ,810 ,859 28,872 ,000 a. Dependent Variable: RENTPL Equação de regressão: O modelo de regressão simples estimado indica que a cada 1 ponto percentual de aumento na rentabilidade do ativo, a rentabilidade do PL sofre, em média, um aumento de ______________ pontos percentuais. O valor previsto para cada observação é RENTPL = ____________ + ___________ * RENTAT. Teste t: Em termos práticos, não é necessário testar o termo constante, porém, o coeficiente de regressão da variável independente, por sua vez, difere significamente de zero, porque Sig < ________ = . 30 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 9 – REGRESSÃO LINEAR – 2ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ A base de dados utilizada é oriunda da revista EXAME – 500 Melhores & Maiores relativa ao ano de 2001, contendo indicadores financeiros selecionados referentes a empresas brasileiras de diversos setores econômicos e se encontra no arquivo MelhoresMaiores.sav. Foram selecionadas as seguintes variáveis: RENTAT: Rentabilidade do Ativo; RENTPL: Rentabilidade do Patrimônio Líquido; ALOPER: Alavancagem Operacional; MARVEN: Margem Líquida de Vendas; ALFIN: Alavancagem Financeira; O modelo consistirá em testar essas relações de análise de rentabilidade utilizando as informações coletadas. Ele é um exemplo que caracteriza uma Regressão Linear Múltipla, pois se estabelecem várias variáveis independentes no sentido de predizer e explanar o comportamento de uma única variável dependente. 2ª ETAPA: Estimação e avaliação do modelo de regressão múltipla com todas as variáveis: COMANDO: Analyze – Regression – Linear – Selecionar as variáveis – independentes: ___________, ___________, ___________, ___________, dependente: _______________ – OK. Method: Enter: todas as variáveis serão incluídas no modelo, mesmo que algumas não sejam significantes. Statistics: Estimates; Confidence intervals; Model fit; Colinearity diagnostics: para calcular as estatísticas VIF e Tolerance de cada variável; Residuals: Durbin-Watson: para elaborar o teste de auto-correlação dos resíduos – base de dados com variação temporal, deve estar mais próximo de 2 do que de 1. Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson dimension0 1 ,892 a ,796 ,794 8,58348 1,977 a. Predictors: (Constant), ALFIN, RENTAT, ALOPER, MARVEN b. Dependent Variable: RENTPL 31 R2 (coeficiente de determinação): indica que ______ % da variação na variável dependente ___________ é explicada pelas variações ocorridas na variáveis _____________________ . Erro padrão da estimativa: é uma medida de precisão das nossas previsões, sua diminuição de ____________ para _____________ demonstra o maior ajustamento do modelo de regressão ____________. Durbin-Watson = __________: não há problemas de multicolinearidade dos resíduos. ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 84121,269 4 21030,317 285,443 ,000 a Residual 21513,437 292 73,676 Total 105634,706 296 a. Predictors: (Constant), ALFIN,RENTAT, ALOPER, MARVEN b. Dependent Variable: RENTPL Soma dos quadrados: A soma dos quadrados dos resíduos desse modelo _________________ são menores que os da regressão simples _____________. Nosso modelo de regressão múltipla é, portanto, mais preciso que a equação com uma única ______________. Teste F – ANOVA: Como o Sig _______ é menor que = _______, ________________ a hipótese de que R2 é igual a zero, ou seja, O MODELO É SIGNIFCANTE. Isso significa que pelo menos uma variável é significante, isto é, exerce _______________ sobre a RENTPL. Equação de regressão: O modelo de regressão múltipla estimado indica que a cada 1 ponto percentual de aumento na RENTAT provoca uma variação positiva de _________ pontos percentuais, em média, na variável ___________. Indica também que a cada 1 ponto percentual de aumento na ALOPER provoca uma variação _______________ de _________ pontos percentuais, em média, na variável ___________. Indica também que a cada 1 ponto percentual de aumento na MARVEN provoca uma variação _______________ de _________ pontos percentuais, em média, na variável ___________. Por último, indica que a cada 1 ponto percentual de aumento na ALFIN provoca uma variação _______________ de _________ pontos percentuais, em média, na variável ___________. O valor previsto para cada observação é: RENTPL = __________ + _________ * RENTAT – _________ * ALOPER –_________ * MARVEN –_________ * ALFIN. Teste t: Como Sig. t NÃO são _______________ que 0,05 para todas as variáveis, deve-se tentar um novo modelo excluindo-as. 32 3ª ETAPA: Estimação e avaliação do modelo de regressão múltipla excluindo variáveis: COMANDO: Analyze – Regression – Linear – Selecionar as variáveis – independentes: ___________ e ___________, dependente: _______________ – OK. Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson dimension0 1 ,892 a ,796 ,795 8,55463 1,977 a. Predictors: (Constant), MARVEN, RENTAT b. Dependent Variable: RENTPL R2 (coeficiente de determinação): indica que ______ % da variação na variável dependente ___________ é explicada pelas variações ocorridas na variáveis _____________________ . Erro padrão da estimativa: é uma medida de precisão das nossas previsões, sua diminuição de ____________ para _____________ demonstra o maior ajustamento do modelo de regressão ____________. Durbin-Watson = __________: não há problemas de multicolinearidade dos resíduos. ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 84119,270 2 42059,635 574,728 ,000 a Residual 21515,437 294 73,182 Total 105634,706 296 a. Predictors: (Constant), MARVEN, RENTAT b. Dependent Variable: RENTPL Soma dos quadrados: A soma dos quadrados dos resíduos desse modelo _________________ é ____________ que o da regressão anterior _____________. Nosso modelo de regressão múltipla é, portanto, um pouco ___________ preciso que a equação anterior. Teste F – ANOVA: Como o Sig _______ é menor que = _______, ________________ a hipótese de que R2 é igual a zero, ou seja, O MODELO É SIGNIFCANTE. Isso significa que pelo menos uma variável é significante, isto é, exerce _______________ sobre a RENTPL. Equação de regressão: O modelo de regressão múltipla estimado indica que a cada 1 ponto percentual de aumento na RENTAT provoca uma variação positiva de _________ pontos percentuais, em média, na variável ___________. Indica também que a cada 1 ponto percentual de aumento na MARVEN provoca uma variação 33 _______________ de _________ pontos percentuais, em média, na variável ___________. O valor previsto para cada observação é: RENTPL = __________ + _________ * RENTAT –_________ * MARVEN. Teste t: Como Sig. t (constante) é menor que 0,05 para todas as variáveis, isso significa que pelo menos uma variável é significante, isto é, exerce _______________ sobre a RENTPL. Considerando a significância estatística dos estimadores, estes podem ser usados para predizer o nível de rentabilidade do patrimônio líquido de empresas da natureza das estudadas na amostra, dado o nível de rentabilidade do ativo total e a margem de vendas. Exemplificando, tomemos a observação 238 com o número de identificação 1580, que nos dá as informações: RENTAT = 5,35% (0,0535) e MARVEN = 8,16% (0,0816). Podemos então estimar RENTPL por meio da equação: RENTPL = __________ + _________ * RENTAT –_________ * MARVEN. Substituindo-se na equação os valores observados e os coeficientes estimados, obtemos a seguinte relação: RENTPL = __________ + 28,034 * _________ – 6,114 * _________. Encontrando, RENTPL = __________ = _________ %. Escolha do modelo: ENTER, BACKWARD e STEPWISE: MODELO BACKWARD: Utilizando o método backward: esse método exclui uma variável de cada vez em cada etapa. Na janela Linear Regression, marque-o em Method. Coefficients a Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) -,879 ,644 -1,365 ,173 RENTAT 28,012 ,894 1,030 31,331 ,000 MARVEN -6,104 ,675 -,294 -9,044 ,000 ALOPER -,007 ,047 -,004 -,147 ,883 ALFIN -,008 ,090 -,002 -,091 ,927 2 (Constant) -,904 ,579 -1,562 ,119 RENTAT 28,014 ,892 1,030 31,394 ,000 MARVEN -6,106 ,673 -,295 -9,067 ,000 ALOPER -,006 ,046 -,004 -,137 ,891 3 (Constant) -,945 ,497 -1,900 ,058 RENTAT 28,034 ,879 1,031 31,890 ,000 MARVEN -6,114 ,670 -,295 -9,127 ,000 a. Dependent Variable: RENTPL 34 Quantas etapas foram realizadas? _______________ . Em cada etapa, identifique a variável excluída, e complete o quadro com os valores que ela possuía na etapa que foi excluída: etapa Variável excluída Valor-p (Sig) 1 para 2 2 para 3 A exclusão das variáveis foi feita elegendo, em cada etapa, a variável que possuía: ___________________ Para escolher o melhor modelo: (marque uma opção em cada linha) ( ) mais simples possível ( ) mais sofisticado possível ( ) variáveis com valor-p > 0,05 ( ) variáveis com valor-p < 0,05 ( ) r2 maior ( ) r2 menor MODELO STEPWISE: Utilizando o método stepwise: esse método inclui uma variável de cada vez em cada etapa. Na janela Linear Regression, marque-o em Method. OBSERVAÇÃO: Os resultados do modelo final são exatamente os mesmos dos obtidos por qualquer procedimento. Utilize o método Stepwise e complete os quadros abaixo: Coefficients a Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) -,704 ,562 -1,254 ,211 RENTAT 23,379 ,810 ,859 28,872 ,000 2 (Constant) -,945 ,497 -1,900 ,058 RENTAT 28,034 ,879 1,031 31,890 ,000 MARVEN -6,114 ,670 -,295 -9,127 ,000 a. Dependent Variable: RENTPL Model Summary c Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson dimension0 1 ,859 a ,739 ,738 9,6746109 2 ,892 b ,796 ,795 8,5546337 1,977 a. Predictors: (Constant), RENTAT b. Predictors: (Constant), RENTAT, MARVEN c. Dependent Variable: RENTPL 35 MODELO 1 MODELO 2 Coeficiente de determinação: r2 = __________ Coeficiente de determinação: r2 = __________ VARIÁVEIS INCLUÍDAS ( ) ALOPER ( ) ALFIN ( ) MARVEN ( ) RENTAT VARIÁVEIS INCLUÍDAS ( ) ALOPER ( ) ALFIN ( ) MARVEN ( ) RENTAT Qual o modelo mais adequado? Modelo n0______ Logo, a equação do modelo mais adequado é: Interpretação das tabelas do Método Stepwise: Resumo dos Modelos: note que o R2 do primeiro modelo para o segundo apresentou um acréscimo significativo ________ para _______, oferecendo a informação que o 2º é mais adequado. ANOVA: Sig. F = _____ < ______ para ambos os modelos: rejeita-se a hipótese nula que, no caso, afirmava a não significância conjunta dos parâmetros, conclui-se que: O MODELO É SIGNIFCANTE. Isso significa que pelo menos umavariável é significante. ANOVA c Model Sum of Squares df Mean Square F Sig. 1 Regression 78023,268 1 78023,268 833,599 ,000 a Residual 27611,438 295 93,598 Total 105634,706 296 2 Regression 84119,270 2 42059,635 574,728 ,000 b Residual 21515,437 294 73,182 Total 105634,706 296 a. Predictors: (Constant), RENTAT b. Predictors: (Constant), RENTAT, MARVEN c. Dependent Variable: RENTPL PRESSUPOSTOS DA REGRESSÃO: Os quatro pressupostos da regressão (conhecidos como LINI) são: Linearidade Independência de erros Normalidade de erros Igualdade de variâncias 36 Linearidade: Afirma que a relação entre as variáveis é linear. Para avaliar a linearidade, você insere os resíduos no eixo vertical de um gráfico em relação aos valores correspondentes da variável Xi no eixo horizontal. Caso o modelo linear seja apropriado para os dados, não existirá nenhum padrão aparente nesse gráfico. Caso o modelo linear não seja apropriado, existirá uma relação entre os valores de Xi e os resíduos, ei. ESTATÍSTICAS: O estudo dessa questão passa pelo exame das variâncias, já que estas é que indicam a correlação entre as variáveis. São apresentadas as estatísticas Tolerance e VIF que são medidas recíprocas, tendo, portanto, a mesma interpretação: VIF: de 1 até 10; Tolerance: de 0,1 até 1. COMANDOS PARA AS ESTATÍSTICAS: Analyze – Regression – Linear – Statistics – Collinearity diagnostics. COMANDOS PARA OS GRÁFICOS: Gráficos – Dispersão Simples – cada uma das independentes com a dependente. Independência de erros: Requer que os erros (i) sejam independentes entre si. Esse pressuposto é particularmente importante quando os dados são coletados ao longo de um período de tempo. Em tais tipos de situação, os erros para um determinado período de tempo são, algumas vezes, correlacionados com os erros do período de tempo anterior. Você pode avaliar o pressuposto da independência de erros desenhando um gráfico de resíduos na ordem ou na sequência em que foram coletados. Um padrão aparente nesse gráfico significa uma forte causa de preocupação quanto à correlação dos resíduos. 37 ESTATÍSTICA DE DURBIN-WATSON: Essa estatística mede a correlação entre cada resíduo e o resíduo para o período de tempo imediatamente antecedente ao resíduo de interesse. Quando os resíduos sucessivos são positivamente autocorrelacionados, o valor de D se aproxima de 0. Se os resíduos não forem correlacionados, que é o pressuposto da regressão, o valor de D estará próximo de 2. COMANDOS PARA A ESTATÍSTICA: Analyze – Regression – Linear – Statistics – Durbin-Watson. Normalidade de erros: Requer que os erros (i) sejam normalmente distribuídos para cada valor de X. Quando a distribuição dos erros em cada um dos níveis de X não for extremamente diferente de uma distribuição normal, inferências em relação a β0 e β1 não serão seriamente afetadas. Você pode avaliar o pressuposto da normalidade nos erros posicionando os resíduos em uma distribuição de frequências e exibindo os resultados em um histograma ou construindo um gráfico da probabilidade normal para os resíduos. No nosso exemplo, esse pressuposto foi violado. COMANDOS PARA A ESTATÍSTICA: Analyze – Explore – Plots – Marque teste de normalidade. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Standardized Residual ,289 297 ,000 ,360 297 ,000 a. Lilliefors Significance Correction Igualdade de variâncias: Requer que a variância dos erros (i) seja constante para todos os valores de X. Você pode avaliar o pressuposto de igualdade de variâncias a partir de um gráfico de resíduos em relação a Xi. 38 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 10 – REGRESSÃO LINEAR – 3ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ EXERCÍCIO 1: O basquete profissional tornou-se um esporte que gera interesse entre fãs no mundo todo. Um número cada vez maior de jogadores vem de fora dos EUA para jogar na National Basketball Association (NBA). Muitos fatores podem impactar o número de vitórias conquistadas por cada time da NBA. O arquivo de dados nba2006.sav contém informações relativas a: Time: nome do time; Vitórias: número de vitórias; PM: pontos marcados por partida; PP: pontos permitidos por partida; DP: diferença de pontos por partida; CC: % de cestas de campo – arremessos feitos; PCC: % de cestas de campo permitidas – arremessos sofridos; DCC: % da diferença cestas de campo– arremessos feitos e sofridos; TBPT: tomadas de bola do próprio time – perda de bola antes que haja o arremesso; TBTA: tomadas de bola do time adversário – perda de bola antes que haja o arremesso; DR: diferença de rebotes; RO: percentual de rebotes ofensivos; RD: percentual de rebotes defensivos; Desenvolva o modelo de regressão múltipla mais apropriado para prever o número de vitórias de um time qualquer. EXERCÍCIO 2: Nos últimos anos, grande atenção tem sido dedicada à disparidade entre a receita e a remuneração de jogadores dos 30 times da Major League Baseball. Admite-se amplamente que os times com altos índices de remuneração de jogadores e de receitas vencem a maior parte das partidas. 39 O arquivo de dados bb2001.sav contém informações relativas a: Time: nome do time; Liga: Se o time pertence a American League (0) ou a National League(1); Vitórias: número de vitórias; ERA: média de voltas percorridas; VM: voltas marcadas; RV: rebatidas válidas; CP: caminhadas permitidas; Salvos; Erros; MPI: média de preço do ingresso; IC: índice de custos para fãs; RBTR: receita de bilheteria para temporada regular ($ milhões); RTV: receitas de emissoras de TV local, rádio e cabo ($ milhões); Outras: outras receitas operacionais locais; RBJ: remuneração e benefícios de jogadores; DAN: despesas de âmbito nacional e outras despesas locais; ROL: renda de operações ligadas ao Beisebol. Desenvolva o modelo de regressão múltipla mais apropriado para prever o número de vitórias de um time qualquer. 40 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 11 – REGRESSÃO LINEAR – 4ª PARTE PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ EXERCÍCIO 1: Uma academia está preocupada em identificar quais fatores afetavam seus gastos gerais. Foram identificados três fatores principais: X1: gastos com energia expressos em kilowatts consumidos; X2: gastos com pessoal expressos em horas de mão-de-obra direta; X3: número de alunos matriculados. Os dados se encontram no arquivo Academia.sav. Correlations y x1 x2 x3 y Pearson Correlation 1 ,762 ** ,892 ** ,665 ** Sig. (2-tailed) ,001 ,000 ,007 N 15 15 15 15 x1 Pearson Correlation ,762 ** 1 ,566 * ,486 Sig. (2-tailed) ,001 ,028 ,066 N 15 15 15 15 x2 Pearson Correlation ,892 ** ,566 * 1 ,471 Sig. (2-tailed) ,000 ,028 ,076 N 15 15 15 15 x3 Pearson Correlation ,665 ** ,486 ,471 1 Sig. (2-tailed) ,007 ,066 ,076 N 15 15 15 15 **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). COMANDO: Analyze – Correlate – Bivariate – Selecionar as variáveis – Correlation Coeficients: Pearson – OK. A maior correlação se dá com a variável _____ (r = _________ ), com alta significância estatística. Assim, esta será selecionada para a construção da equação de regressão usando a melhor variável independente.COMANDO: Analyze – Regression – Linear – Selecionar as variáveis – dependente: ____ e independente: _____ – OK. 41 R (coeficiente de correlação): reflete apenas o grau de __________________ entre as variáveis envolvidas. R2 (coeficiente de determinação): indica que ______ % da variação na variável dependente ____ é explicada pelas variações ocorridas na variável independente ____ . ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 112689,633 1 112689,633 50,860 ,000 a Residual 28803,700 13 2215,669 Total 141493,333 14 a. Predictors: (Constant), x2 b. Dependent Variable: y Soma dos quadrados: A soma total dos quadrados _________________ é o resíduo quadrado que ocorreria se utilizássemos apenas a média da variável dependente para predição. Utilizando a variável independente _____, esse resíduo cai para __________________ . Teste F – ANOVA: Como o Sig _______ é menor que = _______, ________________ a hipótese de que R2 é igual a zero, ou seja, a variável independente exerce influência sobre a variável dependente e o modelo é ____________________ . Equação de regressão: O modelo de regressão simples estimado indica que a cada 1 hora de aumento nos gastos com pessoal, o gasto geral da academia sofre, em média, um aumento de ______________ u.m.. O valor previsto para cada observação é Y = ____________ + ___________ * X2. Teste t: Em termos práticos, não é necessário testar o termo constante, porém, o coeficiente de regressão da variável independente, por sua vez, difere significamente de zero, porque Sig < ________ = . Agora, utilizando o método ENTER, com todas as variáveis COMANDO: Analyze – Regression – Linear – Selecionar as variáveis – independentes: ____, ____, ____ e dependente: ___ – OK. 42 R2 (coeficiente de determinação): indica que ______ % da variação na variável dependente ____ é explicada pelas variações ocorridas na variáveis _____________________ . Erro padrão da estimativa: é uma medida de precisão das nossas previsões, sua diminuição de ____________ para _____________ demonstra o maior ajustamento do modelo de regressão ____________. Durbin-Watson = __________: não há problemas de multicolinearidade dos resíduos. ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 131639,238 3 43879,746 48,982 ,000 a Residual 9854,096 11 895,827 Total 141493,333 14 a. Predictors: (Constant), x3, x2, x1 b. Dependent Variable: y Soma dos quadrados: A soma dos quadrados dos resíduos desse modelo _________________ são menores que os da regressão simples _____________. Nosso modelo de regressão múltipla é, portanto, mais preciso que a equação com uma única ______________. Teste F – ANOVA: Como o Sig _______ é menor que = _______, ________________ a hipótese de que R2 é igual a zero, ou seja, O MODELO É SIGNIFCANTE. Isso significa que pelo menos uma variável é significante, isto é, exerce _______________ sobre Y. Equação de regressão: O modelo de regressão múltipla estimado indica que a cada cada 1 hora de aumento nos gastos com pessoal, o gasto geral da academia sofre, em média, um aumento de ______________ u.m. Indica também que a cada 1 kilowatts de aumento no gasto com energia provoca uma variação _______________ de _________ u.m., em média, na variável _____. Indica também que a cada aluno novo matriculado provoca uma variação _______________ de _________ u.m., em média, na variável _____. O valor previsto para cada observação é: Y = __________ + _________ * X2 + _________ * X1 + _________ * X3 Teste t: Mesmo sendo todos os Sig. t _______________ que 0,05 para todas as variáveis, tentaremos um novo modelo. Aplicando os outros métodos _______________ e _______________ comprovamos que se trata do modelo mais ____________ . PRESSUPOSTOS DA REGRESSÃO: Pelos valores de VIF e Tolerance encontrados na tabela ___________________, podemos concluir que o pressuposto __________________ não foi violado. VIF: de 1 até 10; 43 Tolerance: de 0,1 até 1. Pelo valor da estatística ________________________ encontrado na tabela ____________________________ e estar próximo de 2, podemos concluir que os resíduos (ou _________ ) não estão ____________________ . Para verificar a normalidade dos erros: COMANDOS PARA A ESTATÍSTICA: Analyze – Explore – Plots – Marque teste de normalidade. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Standardized Residual ,159 15 ,200 * ,951 15 ,536 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. Verificamos pelo teste de normalidade de _________________ , como o sig = __________ > _________, ________________ a hipótese nula, logo, os resíduos são _______________________ distribuídos. Foi escolhido este teste, pois, o tamanho da amostra é menor que _____ . 44 EXERCÍCIO 2: O exercício dos custos indiretos da fábrica de chocolates será aplicado no SPSS como forma de ilustrar uma modelagem de regressão múltipla por meio dos procedimentos simultâneo (Enter), Stepwise e Backward. Os dados estão no arquivo: FábricaChocolates.sav. Interprete as tabelas a seguir e compare os dois métodos. MÉTODO ENTER: ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2,359E10 8 2,949E9 79,206 ,000 a Residual 7,819E8 21 3,723E7 Total 2,437E10 29 a. Predictors: (Constant), int2008, intférias, emb, ton, int2007, férias, ano2007, ano2008 b. Dependent Variable: ci 45 MÉTODO STEPWISE: ANOVA c Model Sum of Squares df Mean Square F Sig. 1 Regression 1,807E10 1 1,807E10 80,178 ,000 a Residual 6,309E9 28 2,253E8 Total 2,437E10 29 2 Regression 2,318E10 2 1,159E10 262,500 ,000 b Residual 1,192E9 27 4,416E7 Total 2,437E10 29 a. Predictors: (Constant), emb b. Predictors: (Constant), emb, ton c. Dependent Variable: ci 46 MÉTODO BACKWARD: ANOVA h Model Sum of Squares df Mean Square F Sig. 1 Regression 2,359E10 8 2,949E9 79,206 ,000 a Residual 7,819E8 21 3,723E7 Total 2,437E10 29 2 Regression 2,351E10 7 3,358E9 85,252 ,000 b Residual 8,666E8 22 3,939E7 Total 2,437E10 29 3 Regression 2,347E10 6 3,911E9 98,923 ,000 c Residual 9,093E8 23 3,953E7 Total 2,437E10 29 4 Regression 2,338E10 5 4,676E9 112,961 ,000 d Residual 9,935E8 24 4,140E7 Total 2,437E10 29 5 Regression 2,333E10 4 5,833E9 140,126 ,000 e Residual 1,041E9 25 4,163E7 Total 2,437E10 29 6 Regression 2,322E10 3 7,739E9 174,022 ,000 f Residual 1,156E9 26 4,447E7 Total 2,437E10 29 7 Regression 2,318E10 2 1,159E10 262,500 ,000 g Residual 1,192E9 27 4,416E7 Total 2,437E10 29 47 48 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 12 – REVISÃO PARA A G1 PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ QUESTÃO 01: As tabelas 02 e 03 mostram uma Regressão Linear Simples. Quais são as variáveis que compõem este modelo? Justifique a escolha desta variável independente. Qual tabela você usaria para ter feito a escolha desta variável independente? RESPOSTA: Variáveis: DEPENDENTE: ___________________ INDEPENDENTE: _____________________ Justificativa da escolha da variável independente: Número da tabela utilizada na escolha: ______ QUESTÃO 02: As tabelas 04 a 06 mostram uma Regressão Linear Múltipla. Utilizando estas tabelas e as anteriores, justifique porque a Regressão Múltipla é mais adequada do que a Regressão Simples com 3 motivos: RESPOSTA: 1º MOTIVO: 2º MOTIVO: 3º MOTIVO: QUESTÃO 03: Determine a equação do modelo de Regressão Linear Múltipla e interprete seus coeficientes: RESPOSTA: EQUAÇÃO: _________________________________________________ INTERPRETAÇÃO DOS COEFICIENTES: 49 ENUNCIADO PARA AS QUESTÕES 04, 05 E 06: Foi realizada uma AF incluindo algumas variáveis do arquivo distritos.sav. As variáveis incluídas no modelo foram: Renda familiar, Quota residencial, Anos de estudo, Idade mediana e Densidade populacional. QUESTÃO 04: O que você tem a dizer sobre a qualidade e a significância da AF realizada? Qual tabela você utilizou para encontrar esses dados? RESPOSTA: Número da tabela utilizada na questão: ______ QUESTÃO 05: O que você tem a comentar sobre a variável ‘Densidade Populacional’? Quais tabelas você utilizou para encontrar esses dados? RESPOSTA: Número das tabelas utilizada na questão: _____ e _____ QUESTÃO 06: Quantos fatores foram formados e o que eles explicam? Quais variáveis compõem cada um deles? RESPOSTA: Variáveis que compõem cada fator: QUESTÃO 07: Foi realizado o teste de normalidade com todas as variáveis do arquivo distritos.sav. Quais delas apresentam distribuição normal? Justifique sua resposta. Qual teste você utilizou para concluir? Justifique sua resposta. RESPOSTA: Variáveis que apresentam distribuição normal: Justificativa: Teste utilizado: Justificativa: 50 QUESTÃO 08: Para finalizar esta prova, observe a tabela 13. Ela apresenta os ramo-e-folhas e Box-plot relativos a algumas variáveis. Em cada uma, observe a presença de outlies. Em caso afirmativo, indique a quantidade, os valores que foram considerados outlies e as posições que ocuparam no arquivo de dados distritos.sav. RESPOSTAS: Complete a tabela a seguir: VARIÁVEL QUANTIDADE VALOR POSIÇÕES Renda familiar Quota residencial Anos de estudo Idade mediana Morte por Causas Externas 51 DISCIPLINA: ANÁLISE MULTIVARIADA CURSO: ADMINISTRAÇÃO – PUC LISTA 12 – REVISÃO PARA A G1 – OUTPUTS PROFESSORA: MARCELA MELO AMORIM DATA: _____ / _____ / 2013 ALUNO(A): ________________________________________________________________ Um grande supermercado que atua em diversos estados brasileiros gostaria de prever a receita em novas filiais, tendo em vista as informações sobre a área destinada às gôndolas e o número de funcionários reunidas no arquivo Supermercados.sav. Veja o output abaixo: TABELA 01: TABELA 02: TABELA 03: 52 TABELA 04: TABELA 05: TABELA 06: O arquivo Distritos.sav contém dados sociodemográficos dos distritos de um grande município brasileiro. As variáveis incluídas no arquivo são: Renda familiar: renda média familiar em Reais Quota residencial: área construída residencial (m2) por habitante Anos de estudo: média de anos de estudo da população de 4 anos ou mais Idade mediana: mediana das idades dos entrevistados Mortalidade infantil: taxa de mortalidade por 1.000 nascidos vivos Taxa de Crescimento: taxa anual de crescimento populacional Mortes Causas Internas: taxa de mortalidade por causas externas por 100.000 habitantes População favelada: percentagem da população que vive em favelas com mais de 50 barracos Densidade populacional: número de habitantes por hectare Veja o output abaixo: 53 TABELA 07: TABELA 08: TABELA 09: TABELA 10: 54 TABELA 11: TABELA 12: 55 TABELA 13: RAMO-E-FOLHAS BOX-PLOT Renda Familiar Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 0 . 11 13,00 0 . 7888888999999 29,00 1 . 00000001111122222222333334444 19,00 1 . 5566677788889999999 15,00 2 . 000111223333444 6,00 2 . 567799 5,00 3 . 12334 3,00 3 . 788 4,00 Extremes (>=4180) Stem width: 1000 Each leaf: 1 case(s) Quota Res Stem-and-Leaf Plot Frequency Stem & Leaf 16,00 0 . 0144446888999999 24,00 1 . 001112222234455566677899 16,00 2 . 0111234445678899 15,00 3 . 012222233446677 9,00 4 . 012478999 5,00 5 . 00237 3,00 6 . 136 2,00 7 . 58 3,00 8 . 033 3,00 Extremes (>=85) Stem width: 10,00 Each leaf: 1 case(s) Anos de Estudo Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 4 . 8 13,00 5 . 2444567888889 30,00 6 . 001111222334444455566888888889 28,00 7 . 0000011111124444444666667778 23,00 8 . 00022223333444466667788 1,00 9 . 2 Stem width: 1,0 Each leaf: 1 case(s) 56 Idade Mediana Stem-and-Leaf Plot Frequency Stem & Leaf 10,00 2 . 0111111111 15,00 2 . 222333333333333 11,00 2 . 44444444455 15,00 2 . 666666667777777 10,00 2 . 8889999999 14,00 3 . 00000001111111 10,00 3 . 2222222333 10,00 3 . 4444444555 1,00 3 . 6 Stem width: 10 Each leaf: 1 case(s) Mort. Causas Externas Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 2 . 229 6,00 3 . 035678 8,00 4 . 03344678 12,00 5 . 001222667899 19,00 6 . 1122223334567778889 19,00 7 . 1112224455666777899 12,00 8 . 011222345679 4,00 9 . 0799 7,00 10 . 0234455 2,00 11 . 57 2,00 12 . 00 2,00 Extremes (>=125) Stem width: 10,00 Each leaf: 1 case(s)
Compartilhar