Buscar

ATIVIDADE 2 - A2 - ANÁLISE MULTIVARIADA DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE POTIGUAR 
CURSO: BACHARELADO EM ESTATÍSTICA 
ALUNO: EBERSON COSTA DELAS 
DISCIPLINA: ANÁLISE MULTIVARIADA DE DADOS 
UNIDADE 2 - TÉCNICAS MULTIVARIADAS E ANÁLISE DE CONGLOMERADOS 
 
ATIVIDADE 2 – N2 
01 - Leia o trecho a seguir: 
 
“Pesquisadores mineiros criaram um artigo cujo objetivo era propor um modelo econométrico para estimar 
o risco de inadimplência em financiamentos concedidos por uma instituição financeira pública do Estado de 
Minas Gerais. Na construção desse modelo foram utilizados dados contratuais, socioeconômicos dos 
sócios e avalistas e econômico-financeiros de uma amostra de 9.232 empresas, extraída de um total de 
25.616 processos de financiamento a micro e pequenas empresas, concedidos entre junho de 1997 e 
dezembro de 2005. O foco do modelo criado era prever a adimplência ou inadimplência da operação de 
empréstimo e para isso, foram utilizadas 22 variáveis referentes ao contrato, à empresa e aos 
sócios/avalistas, das quais cinco se mostraram importantes na predição da inadimplência. O estudo 
conseguiu classificar corretamente 88,5% das empresas avaliadas”. 
 
CAMARGOS, M. A. de; ARAÚJO, E. A. T.; CAMARGOS, M. C. S. A inadimplência em um programa de crédito de uma instituição financeira pública 
de Minas Gerais. REGE — Revista de Gestão, [S. l.], v. 19, n. 3, p. 473-492, 2012. p. 1. 
 
Com base no excerto apresentado, avalie as afirmações a seguir. 
 
I. Foi utilizada, para a construção do artigo, uma técnica de dependência, pois temos uma variável 
dependente e várias variáveis independentes. 
II. O artigo foi construído usando uma técnica estatística de independência, pois todas as variáveis do 
modelo se relacionam em conjunto para produzir o resultado. 
III. Podemos classificar a variável “inadimplência” como variável independente, pois é ela que gostaríamos 
de prever. 
IV. Podemos classificar as 22 variáveis referentes ao contrato, à empresa e aos sócios/avalistas como 
dependentes, pois são usadas para prever a inadimplência. 
 
É correto o que se afirma em: 
 
I, apenas. 
 
02 - Leia o trecho a seguir: 
 
“Como medimos similaridade entre agrupamentos quando um deles ou ambos apresentam múltiplos 
membros? Selecionamos um membro para atuar como elemento típico e medimos similaridade entre 
esses membros de cada agrupamento, criamos algum membro composto para representar o agrupamento, 
combinamos similaridades entre todos os membros de cada agrupamento? Poderíamos empregar 
qualquer uma dessas abordagens, ou até mesmo estabelecer outras maneiras de medir similaridade entre 
agrupamentos de múltiplos membros. Entre numerosas metodologias, os cinco algoritmos aglomerativos 
mais populares são ligação individual, ligação completa, ligação média, método centróide e método de 
Ward”. 
 
HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 450. 
 
Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. O método do vizinho mais próximo, também conhecido como método de ligação simples, é aplicável 
quando existe uma variável dependente e uma ou várias variáveis independentes. 
PORQUE: 
II. Esse método tem como princípio estabelecer a semelhança entre os pares com maior distância dos 
conglomerados. 
 
A respeito dessas asserções, assinale a opção correta. 
 
As asserções I e II são proposições falsas. 
 
03 - Leia o trecho a seguir: 
 
“A palavra estatística vem do termo status, que significa Estado em latim, O termo era usado para 
descrever e designar um conjunto de dados relativos aos Estados. Atualmente a estatística pode ser 
definida como a ciência que tem por objetivo a coleta, análise e interpretação de dados qualitativo e 
quantitativo. Ou ainda, como um conjunto de métodos para coleta, organização, resumo, análise e 
interpretação de dados para tomada de decisão. Dessa forma, podemos classificar estes métodos em dois 
grupos: as técnicas de dependência e as técnicas de independência”. 
 
FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: 
Elsevier Brasil, 2017. p. 3. 
 
Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. A técnica de dependência utiliza dois tipos de variáveis: a variável dependente, que é o valor que 
buscamos prever, e a variável independente, que é a variável que explica e que é utilizada em cálculos 
para prever a variável dependente. 
PORQUE: 
II. A técnica de independência não distingue as variáveis em dependente e independente, e todas as 
variáveis são utilizadas no cálculo para atingir o objetivo de pesquisa. 
 
A respeito dessas asserções, assinale a opção correta. 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. 
 
04 - Considere um modelo de regressão linear múltiplo que foi estruturado com objetivo de tentar prever o 
valor da dívida de uma pessoa com base no valor do salário e na quantidade de anos de escolaridade que 
ela possui. Esse modelo é descrito pela seguinte fórmula: 
 
dívida = 300 + 0,01xsalário - 1,5AnosxEscolaridade 
 
onde: 
 
dívida é o valor da dívida de uma determinada pessoa; 
salário é o valor em R$ do salário; 
AnosEscolaridade é a quantidade de anos que a pessoa teve na sua vida. 
 
Considerando a característica da regressão linear múltipla e a situação apresentada anteriormente, analise 
as afirmativas a seguir. 
 
I. O valor 300 é o intercepto da regressão linear. 
II. A cada 1 ano a mais de escolaridade, existe aumento de R$ 1,50 no valor previsto da dívida, quando o 
salário é constante. 
III. A cada R$ 100,00 a mais de salário, existe aumento de R$ 1,00 no valor previsto da dívida, quando 
AnosEscolaridade é constante. 
IV. A cada 1,5 anos de escolaridade, é aumentado R$ 0,01 no salário. 
 
É correto o que se afirma em: 
 
I e III, apenas. 
 
05 - Leia o trecho a seguir: 
 
“O estudo das distribuições estatísticas não é recente, e desde o início do século XIX, até 
aproximadamente o início do século XX, os modelos lineares que envolvem a distribuição normal 
praticamente dominaram o cenário da modelagem de dados. Entretanto, a partir do período entre guerras, 
começam a surgir modelos para fazer frente a situações em que as modelagens lineares normais não se 
adequavam satisfatoriamente”. 
 
FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: 
Elsevier Brasil, 2017. p. 19. 
 
Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Para resolver os casos em que os modelos lineares normais não eram adequados, foram desenvolvidos 
os Modelos Lineares Generalizados (Generalized Linear Models). 
PORQUE: 
II. Os Modelos Lineares Generalizados representam um grupo de modelos de regressão lineares em que a 
variável dependente deve possuir distribuição normal. 
 
A respeito dessas asserções, assinale a opção correta. 
 
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
 
06 - Leia o trecho a seguir: 
 
“As medidas de distância representam similaridade como proximidade de observações umas com as 
outras ao longo de variáveis na variável estatística de agrupamento. As medidas de distância são, na 
verdade, uma medida de dissimilaridade, com valores maiores denotando menor similaridade. A distância 
é convertida em uma medida de similaridade pelo uso de uma relação inversa”. 
 
HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 442. 
 
Com base no trecho apresentado anteriormente, analise a imagem a seguir, que representa a distância 
entre dois pontos em plano cartesiano. 
 
 
Figura — Gráfico de distância e fórmula usada para cálculo 
Fonte: Hair et al. (2009, p. 442). 
 
#PraCegoVer: a figura apresenta um gráfico em um plano cartesiano, com o eixo x na horizontal e o eixo y na vertical, ambos sem marcaçãode 
valores. Dentro do plano cartesiano, existem dois pontos: o objeto 1, que está na coordenada ( , ), e o objeto 2, que está na coordenada (
, ). Existe uma linha (com, aproximadamente, 45 graus de inclinação) ligando os dois pontos. Existem mais duas linhas tracejadas que 
completam, juntamente com a outra, um triângulo retângulo. Abaixo do plano cartesiano, existe a fórmula da distância usada: distância é igual à 
raiz quadrada de abre parênteses , menos , fecha parênteses ao quadrado, mais, abre parênteses , menos , fecha parênteses ao 
quadrado. 
 
Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. O método de cálculo da distância dos dois objetos foi o euclidiano. 
PORQUE: 
II. A distância euclidiana entre dois objetos é calculada pelo comprimento da hipotenusa de um triângulo 
retângulo. 
A respeito dessas asserções, assinale a opção correta: 
 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. 
 
07 - Leia o trecho a seguir: 
 
“Análise de agrupamentos é um grupo de técnicas multivariadas cuja finalidade principal é agregar objetos 
com base nas características que eles possuem. Ela tem sido chamada de análise Q, construção de 
tipologia, análise de classificação e taxonomia numérica. Essa variedade de nomes se deve ao uso de 
métodos de agrupamento nas mais diversas áreas, como psicologia, biologia, sociologia, economia, 
engenharia e administração. Apesar de os nomes diferem nas disciplinas, os métodos têm uma dimensão 
em comum: classificação de acordo com relações entre os objetos sendo agrupados”. 
 
HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 430. 
 
Para construir agrupamentos, primeiramente, defina a distância dos objetos analisados que pode ter a 
distância euclidiana: , a distância de 
Manhattan: , ou a distância de Chebyshev: 
 
Após calcular a distância entre um ponto A(3,2) e um ponto B(5,4), usando os três métodos citados 
anteriormente, analise as afirmativas a seguir. 
 
I. A distância euclidiana é menor que a distância de Manhattan para esses pontos. 
II. A distância de Chebyshev é menor que a distância de euclidiana para esses pontos. 
III. A distância de Chebyshev é menor que a distância de Manhattan para esses pontos. 
IV. A menor medida dessas três é a de Chebyshev. 
 
É correto o que se afirma em: 
 
I, II, III e IV. 
 
08 - Leia o trecho a seguir: 
 
“A distância do táxi ou distância de Manhattan, não se baseia na distância euclidiana. Nessa distância, 
cada ponto do plano corresponde ao cruzamento de duas retas perpendiculares – às ruas de uma cidade 
ideal. Esta distância simula o percurso de um táxi (ou pedestre, por exemplo) por ruas e quarteirões de 
uma cidade. A distância entre dois pontos não é dada mais pelo comprimento da linha reta que liga esses 
pontos e sim pela distância percorrida no trajeto feito por ele para ir de um ponto a outro, simulando o 
andando pelas ruas”. 
 
FABRIN, F. G. Geometria do táxi: algumas discussões com vistas à formação do professor de matemática. In: MOSTRA INTERATIVA DA 
PRODUÇÃO ESTUDANTIL EM EDUCAÇÃO CIENTÍFICA E TECNOLÓGICA, 2017, Ijuí. Anais eletrônicos [...]. Ijuí: Unijuí, 2017. p. 3. Disponível 
em: https://www.publicacoeseventos.unijui.edu.br/index.php/moeducitec/article/view/8391. Acesso em: 23 maio 2022. 
 
Sabendo que a fórmula da distância de Manhattan é 
 
e considerando os seguintes pontos A (5,3), B (4,2) e C (6,7), analise as afirmativas a seguir. 
 
I. A distância de Manhattan entre os pontos A e B é igual a 2. 
II. A distância de Manhattan entre os pontos A e C é igual a 5. 
III. A distância de Manhattan entre os pontos B e C é igual a 8. 
IV. A distância de Manhattan entre os pontos B e A é igual a 7. 
https://www.publicacoeseventos.unijui.edu.br/index.php/moeducitec/article/view/8391#_blank
 
É correto o que se afirma em: 
 
I e II, apenas. 
 
 
09 - Um analista de dados de um determinado e-commerce está investigando a relação entre duas 
variáveis: o ticket médio de compras e o número de acessos ao site. Para realizar esse estudo, foi 
selecionada uma amostra aleatória de 20 clientes. Para facilitar a análise, ele utilizou um gráfico para 
verificar a relação entre essas duas variáveis: 
 
 
Figura — Gráfico de dispersão dos valores de ticket médio e acesso ao site 
Fonte: Elaborada pelo autor. 
 
#PraCegoVer: a figura apresenta um gráfico de dispersão com 20 observações marcadas como pontos e uma linha reta inclinada passando pelo 
meio dos pontos. No eixo x, da horizontal, está a medida “Acesso”, distribuída em faixas de 250. No eixo y, da vertical, está a medida 
“Ticket médio”, distribuída em faixas de 25 unidades. 
 
Após verificar o gráfico, o analista de dados teve uma boa ideia de qual seria a melhor técnica para 
analisar a relação entre as duas variáveis. 
 
Considerando a situação apresentada e a imagem acima, podemos afirmar que o método que o analista 
de dados utilizou foi a regressão: 
linear simples, pois ele tentou prever o comportamento da variável ticket médio com base na variável 
acesso. 
 
10 - Leia o trecho a seguir: 
 
“Nas ciências sociais, normalmente estamos interessados em descobrir algo sobre um fenômeno que 
acreditamos que realmente exista (um fenômeno do mundo real). Qualquer que seja o fenômeno que 
desejamos explicar, procuramos explicá-lo coletando dados do mundo real e então utilizando esses dados 
para tirar conclusões sobre o que está sendo estudado. Na maioria das vezes para realizar esse processo 
construir modelos estatísticos”. 
 
FIELD, A. Descobrindo a estatística usando o SPSS. Porto Alegre: Penso Editora, 2009. p. 31. 
 
Existem vários modelos estatísticos, e, dentre eles, está a análise fatorial. Dessa forma, o objetivo da 
análise fatorial é: 
simplificar as relações existentes entre múltiplas variáveis em um conjunto de dados observados.

Continue navegando