Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE POTIGUAR CURSO: BACHARELADO EM ESTATÍSTICA ALUNO: EBERSON COSTA DELAS DISCIPLINA: ANÁLISE MULTIVARIADA DE DADOS UNIDADE 2 - TÉCNICAS MULTIVARIADAS E ANÁLISE DE CONGLOMERADOS ATIVIDADE 2 – N2 01 - Leia o trecho a seguir: “Pesquisadores mineiros criaram um artigo cujo objetivo era propor um modelo econométrico para estimar o risco de inadimplência em financiamentos concedidos por uma instituição financeira pública do Estado de Minas Gerais. Na construção desse modelo foram utilizados dados contratuais, socioeconômicos dos sócios e avalistas e econômico-financeiros de uma amostra de 9.232 empresas, extraída de um total de 25.616 processos de financiamento a micro e pequenas empresas, concedidos entre junho de 1997 e dezembro de 2005. O foco do modelo criado era prever a adimplência ou inadimplência da operação de empréstimo e para isso, foram utilizadas 22 variáveis referentes ao contrato, à empresa e aos sócios/avalistas, das quais cinco se mostraram importantes na predição da inadimplência. O estudo conseguiu classificar corretamente 88,5% das empresas avaliadas”. CAMARGOS, M. A. de; ARAÚJO, E. A. T.; CAMARGOS, M. C. S. A inadimplência em um programa de crédito de uma instituição financeira pública de Minas Gerais. REGE — Revista de Gestão, [S. l.], v. 19, n. 3, p. 473-492, 2012. p. 1. Com base no excerto apresentado, avalie as afirmações a seguir. I. Foi utilizada, para a construção do artigo, uma técnica de dependência, pois temos uma variável dependente e várias variáveis independentes. II. O artigo foi construído usando uma técnica estatística de independência, pois todas as variáveis do modelo se relacionam em conjunto para produzir o resultado. III. Podemos classificar a variável “inadimplência” como variável independente, pois é ela que gostaríamos de prever. IV. Podemos classificar as 22 variáveis referentes ao contrato, à empresa e aos sócios/avalistas como dependentes, pois são usadas para prever a inadimplência. É correto o que se afirma em: I, apenas. 02 - Leia o trecho a seguir: “Como medimos similaridade entre agrupamentos quando um deles ou ambos apresentam múltiplos membros? Selecionamos um membro para atuar como elemento típico e medimos similaridade entre esses membros de cada agrupamento, criamos algum membro composto para representar o agrupamento, combinamos similaridades entre todos os membros de cada agrupamento? Poderíamos empregar qualquer uma dessas abordagens, ou até mesmo estabelecer outras maneiras de medir similaridade entre agrupamentos de múltiplos membros. Entre numerosas metodologias, os cinco algoritmos aglomerativos mais populares são ligação individual, ligação completa, ligação média, método centróide e método de Ward”. HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 450. Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. I. O método do vizinho mais próximo, também conhecido como método de ligação simples, é aplicável quando existe uma variável dependente e uma ou várias variáveis independentes. PORQUE: II. Esse método tem como princípio estabelecer a semelhança entre os pares com maior distância dos conglomerados. A respeito dessas asserções, assinale a opção correta. As asserções I e II são proposições falsas. 03 - Leia o trecho a seguir: “A palavra estatística vem do termo status, que significa Estado em latim, O termo era usado para descrever e designar um conjunto de dados relativos aos Estados. Atualmente a estatística pode ser definida como a ciência que tem por objetivo a coleta, análise e interpretação de dados qualitativo e quantitativo. Ou ainda, como um conjunto de métodos para coleta, organização, resumo, análise e interpretação de dados para tomada de decisão. Dessa forma, podemos classificar estes métodos em dois grupos: as técnicas de dependência e as técnicas de independência”. FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier Brasil, 2017. p. 3. Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. I. A técnica de dependência utiliza dois tipos de variáveis: a variável dependente, que é o valor que buscamos prever, e a variável independente, que é a variável que explica e que é utilizada em cálculos para prever a variável dependente. PORQUE: II. A técnica de independência não distingue as variáveis em dependente e independente, e todas as variáveis são utilizadas no cálculo para atingir o objetivo de pesquisa. A respeito dessas asserções, assinale a opção correta. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. 04 - Considere um modelo de regressão linear múltiplo que foi estruturado com objetivo de tentar prever o valor da dívida de uma pessoa com base no valor do salário e na quantidade de anos de escolaridade que ela possui. Esse modelo é descrito pela seguinte fórmula: dívida = 300 + 0,01xsalário - 1,5AnosxEscolaridade onde: dívida é o valor da dívida de uma determinada pessoa; salário é o valor em R$ do salário; AnosEscolaridade é a quantidade de anos que a pessoa teve na sua vida. Considerando a característica da regressão linear múltipla e a situação apresentada anteriormente, analise as afirmativas a seguir. I. O valor 300 é o intercepto da regressão linear. II. A cada 1 ano a mais de escolaridade, existe aumento de R$ 1,50 no valor previsto da dívida, quando o salário é constante. III. A cada R$ 100,00 a mais de salário, existe aumento de R$ 1,00 no valor previsto da dívida, quando AnosEscolaridade é constante. IV. A cada 1,5 anos de escolaridade, é aumentado R$ 0,01 no salário. É correto o que se afirma em: I e III, apenas. 05 - Leia o trecho a seguir: “O estudo das distribuições estatísticas não é recente, e desde o início do século XIX, até aproximadamente o início do século XX, os modelos lineares que envolvem a distribuição normal praticamente dominaram o cenário da modelagem de dados. Entretanto, a partir do período entre guerras, começam a surgir modelos para fazer frente a situações em que as modelagens lineares normais não se adequavam satisfatoriamente”. FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier Brasil, 2017. p. 19. Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Para resolver os casos em que os modelos lineares normais não eram adequados, foram desenvolvidos os Modelos Lineares Generalizados (Generalized Linear Models). PORQUE: II. Os Modelos Lineares Generalizados representam um grupo de modelos de regressão lineares em que a variável dependente deve possuir distribuição normal. A respeito dessas asserções, assinale a opção correta. A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 06 - Leia o trecho a seguir: “As medidas de distância representam similaridade como proximidade de observações umas com as outras ao longo de variáveis na variável estatística de agrupamento. As medidas de distância são, na verdade, uma medida de dissimilaridade, com valores maiores denotando menor similaridade. A distância é convertida em uma medida de similaridade pelo uso de uma relação inversa”. HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 442. Com base no trecho apresentado anteriormente, analise a imagem a seguir, que representa a distância entre dois pontos em plano cartesiano. Figura — Gráfico de distância e fórmula usada para cálculo Fonte: Hair et al. (2009, p. 442). #PraCegoVer: a figura apresenta um gráfico em um plano cartesiano, com o eixo x na horizontal e o eixo y na vertical, ambos sem marcaçãode valores. Dentro do plano cartesiano, existem dois pontos: o objeto 1, que está na coordenada ( , ), e o objeto 2, que está na coordenada ( , ). Existe uma linha (com, aproximadamente, 45 graus de inclinação) ligando os dois pontos. Existem mais duas linhas tracejadas que completam, juntamente com a outra, um triângulo retângulo. Abaixo do plano cartesiano, existe a fórmula da distância usada: distância é igual à raiz quadrada de abre parênteses , menos , fecha parênteses ao quadrado, mais, abre parênteses , menos , fecha parênteses ao quadrado. Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. I. O método de cálculo da distância dos dois objetos foi o euclidiano. PORQUE: II. A distância euclidiana entre dois objetos é calculada pelo comprimento da hipotenusa de um triângulo retângulo. A respeito dessas asserções, assinale a opção correta: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 07 - Leia o trecho a seguir: “Análise de agrupamentos é um grupo de técnicas multivariadas cuja finalidade principal é agregar objetos com base nas características que eles possuem. Ela tem sido chamada de análise Q, construção de tipologia, análise de classificação e taxonomia numérica. Essa variedade de nomes se deve ao uso de métodos de agrupamento nas mais diversas áreas, como psicologia, biologia, sociologia, economia, engenharia e administração. Apesar de os nomes diferem nas disciplinas, os métodos têm uma dimensão em comum: classificação de acordo com relações entre os objetos sendo agrupados”. HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 430. Para construir agrupamentos, primeiramente, defina a distância dos objetos analisados que pode ter a distância euclidiana: , a distância de Manhattan: , ou a distância de Chebyshev: Após calcular a distância entre um ponto A(3,2) e um ponto B(5,4), usando os três métodos citados anteriormente, analise as afirmativas a seguir. I. A distância euclidiana é menor que a distância de Manhattan para esses pontos. II. A distância de Chebyshev é menor que a distância de euclidiana para esses pontos. III. A distância de Chebyshev é menor que a distância de Manhattan para esses pontos. IV. A menor medida dessas três é a de Chebyshev. É correto o que se afirma em: I, II, III e IV. 08 - Leia o trecho a seguir: “A distância do táxi ou distância de Manhattan, não se baseia na distância euclidiana. Nessa distância, cada ponto do plano corresponde ao cruzamento de duas retas perpendiculares – às ruas de uma cidade ideal. Esta distância simula o percurso de um táxi (ou pedestre, por exemplo) por ruas e quarteirões de uma cidade. A distância entre dois pontos não é dada mais pelo comprimento da linha reta que liga esses pontos e sim pela distância percorrida no trajeto feito por ele para ir de um ponto a outro, simulando o andando pelas ruas”. FABRIN, F. G. Geometria do táxi: algumas discussões com vistas à formação do professor de matemática. In: MOSTRA INTERATIVA DA PRODUÇÃO ESTUDANTIL EM EDUCAÇÃO CIENTÍFICA E TECNOLÓGICA, 2017, Ijuí. Anais eletrônicos [...]. Ijuí: Unijuí, 2017. p. 3. Disponível em: https://www.publicacoeseventos.unijui.edu.br/index.php/moeducitec/article/view/8391. Acesso em: 23 maio 2022. Sabendo que a fórmula da distância de Manhattan é e considerando os seguintes pontos A (5,3), B (4,2) e C (6,7), analise as afirmativas a seguir. I. A distância de Manhattan entre os pontos A e B é igual a 2. II. A distância de Manhattan entre os pontos A e C é igual a 5. III. A distância de Manhattan entre os pontos B e C é igual a 8. IV. A distância de Manhattan entre os pontos B e A é igual a 7. https://www.publicacoeseventos.unijui.edu.br/index.php/moeducitec/article/view/8391#_blank É correto o que se afirma em: I e II, apenas. 09 - Um analista de dados de um determinado e-commerce está investigando a relação entre duas variáveis: o ticket médio de compras e o número de acessos ao site. Para realizar esse estudo, foi selecionada uma amostra aleatória de 20 clientes. Para facilitar a análise, ele utilizou um gráfico para verificar a relação entre essas duas variáveis: Figura — Gráfico de dispersão dos valores de ticket médio e acesso ao site Fonte: Elaborada pelo autor. #PraCegoVer: a figura apresenta um gráfico de dispersão com 20 observações marcadas como pontos e uma linha reta inclinada passando pelo meio dos pontos. No eixo x, da horizontal, está a medida “Acesso”, distribuída em faixas de 250. No eixo y, da vertical, está a medida “Ticket médio”, distribuída em faixas de 25 unidades. Após verificar o gráfico, o analista de dados teve uma boa ideia de qual seria a melhor técnica para analisar a relação entre as duas variáveis. Considerando a situação apresentada e a imagem acima, podemos afirmar que o método que o analista de dados utilizou foi a regressão: linear simples, pois ele tentou prever o comportamento da variável ticket médio com base na variável acesso. 10 - Leia o trecho a seguir: “Nas ciências sociais, normalmente estamos interessados em descobrir algo sobre um fenômeno que acreditamos que realmente exista (um fenômeno do mundo real). Qualquer que seja o fenômeno que desejamos explicar, procuramos explicá-lo coletando dados do mundo real e então utilizando esses dados para tirar conclusões sobre o que está sendo estudado. Na maioria das vezes para realizar esse processo construir modelos estatísticos”. FIELD, A. Descobrindo a estatística usando o SPSS. Porto Alegre: Penso Editora, 2009. p. 31. Existem vários modelos estatísticos, e, dentre eles, está a análise fatorial. Dessa forma, o objetivo da análise fatorial é: simplificar as relações existentes entre múltiplas variáveis em um conjunto de dados observados.
Compartilhar