ATIVIDADE 2 - A2 - ANÁLISE MULTIVARIADA DE DADOS

Análise Multivariada

•

UNP

Éberson Costa

03/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Multivariada

335 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNIVERSIDADE POTIGUAR
CURSO: BACHARELADO EM ESTATÍSTICA
ALUNO: EBERSON COSTA DELAS
DISCIPLINA: ANÁLISE MULTIVARIADA DE DADOS
UNIDADE 2 - TÉCNICAS MULTIVARIADAS E ANÁLISE DE CONGLOMERADOS

ATIVIDADE 2 – N2
01 - Leia o trecho a seguir:

“Pesquisadores mineiros criaram um artigo cujo objetivo era propor um modelo econométrico para estimar
o risco de inadimplência em financiamentos concedidos por uma instituição financeira pública do Estado de
Minas Gerais. Na construção desse modelo foram utilizados dados contratuais, socioeconômicos dos
sócios e avalistas e econômico-financeiros de uma amostra de 9.232 empresas, extraída de um total de
25.616 processos de financiamento a micro e pequenas empresas, concedidos entre junho de 1997 e
dezembro de 2005. O foco do modelo criado era prever a adimplência ou inadimplência da operação de
empréstimo e para isso, foram utilizadas 22 variáveis referentes ao contrato, à empresa e aos
sócios/avalistas, das quais cinco se mostraram importantes na predição da inadimplência. O estudo
conseguiu classificar corretamente 88,5% das empresas avaliadas”.

CAMARGOS, M. A. de; ARAÚJO, E. A. T.; CAMARGOS, M. C. S. A inadimplência em um programa de crédito de uma instituição financeira pública
de Minas Gerais. REGE — Revista de Gestão, [S. l.], v. 19, n. 3, p. 473-492, 2012. p. 1.

Com base no excerto apresentado, avalie as afirmações a seguir.

I. Foi utilizada, para a construção do artigo, uma técnica de dependência, pois temos uma variável
dependente e várias variáveis independentes.
II. O artigo foi construído usando uma técnica estatística de independência, pois todas as variáveis do
modelo se relacionam em conjunto para produzir o resultado.
III. Podemos classificar a variável “inadimplência” como variável independente, pois é ela que gostaríamos
de prever.
IV. Podemos classificar as 22 variáveis referentes ao contrato, à empresa e aos sócios/avalistas como
dependentes, pois são usadas para prever a inadimplência.

É correto o que se afirma em:

I, apenas.

02 - Leia o trecho a seguir:

“Como medimos similaridade entre agrupamentos quando um deles ou ambos apresentam múltiplos
membros? Selecionamos um membro para atuar como elemento típico e medimos similaridade entre
esses membros de cada agrupamento, criamos algum membro composto para representar o agrupamento,
combinamos similaridades entre todos os membros de cada agrupamento? Poderíamos empregar
qualquer uma dessas abordagens, ou até mesmo estabelecer outras maneiras de medir similaridade entre
agrupamentos de múltiplos membros. Entre numerosas metodologias, os cinco algoritmos aglomerativos
mais populares são ligação individual, ligação completa, ligação média, método centróide e método de
Ward”.

HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 450.

Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. O método do vizinho mais próximo, também conhecido como método de ligação simples, é aplicável
quando existe uma variável dependente e uma ou várias variáveis independentes.
PORQUE:
II. Esse método tem como princípio estabelecer a semelhança entre os pares com maior distância dos
conglomerados.

A respeito dessas asserções, assinale a opção correta.

As asserções I e II são proposições falsas.

03 - Leia o trecho a seguir:

“A palavra estatística vem do termo status, que significa Estado em latim, O termo era usado para
descrever e designar um conjunto de dados relativos aos Estados. Atualmente a estatística pode ser
definida como a ciência que tem por objetivo a coleta, análise e interpretação de dados qualitativo e
quantitativo. Ou ainda, como um conjunto de métodos para coleta, organização, resumo, análise e
interpretação de dados para tomada de decisão. Dessa forma, podemos classificar estes métodos em dois
grupos: as técnicas de dependência e as técnicas de independência”.

FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro:
Elsevier Brasil, 2017. p. 3.

Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. A técnica de dependência utiliza dois tipos de variáveis: a variável dependente, que é o valor que
buscamos prever, e a variável independente, que é a variável que explica e que é utilizada em cálculos
para prever a variável dependente.
PORQUE:
II. A técnica de independência não distingue as variáveis em dependente e independente, e todas as
variáveis são utilizadas no cálculo para atingir o objetivo de pesquisa.

A respeito dessas asserções, assinale a opção correta.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.

04 - Considere um modelo de regressão linear múltiplo que foi estruturado com objetivo de tentar prever o
valor da dívida de uma pessoa com base no valor do salário e na quantidade de anos de escolaridade que
ela possui. Esse modelo é descrito pela seguinte fórmula:

dívida = 300 + 0,01xsalário - 1,5AnosxEscolaridade

onde:

dívida é o valor da dívida de uma determinada pessoa;
salário é o valor em R$ do salário;
AnosEscolaridade é a quantidade de anos que a pessoa teve na sua vida.

Considerando a característica da regressão linear múltipla e a situação apresentada anteriormente, analise
as afirmativas a seguir.

I. O valor 300 é o intercepto da regressão linear.
II. A cada 1 ano a mais de escolaridade, existe aumento de R$ 1,50 no valor previsto da dívida, quando o
salário é constante.
III. A cada R$ 100,00 a mais de salário, existe aumento de R$ 1,00 no valor previsto da dívida, quando
AnosEscolaridade é constante.
IV. A cada 1,5 anos de escolaridade, é aumentado R$ 0,01 no salário.

É correto o que se afirma em:

I e III, apenas.

05 - Leia o trecho a seguir:

“O estudo das distribuições estatísticas não é recente, e desde o início do século XIX, até
aproximadamente o início do século XX, os modelos lineares que envolvem a distribuição normal
praticamente dominaram o cenário da modelagem de dados. Entretanto, a partir do período entre guerras,
começam a surgir modelos para fazer frente a situações em que as modelagens lineares normais não se
adequavam satisfatoriamente”.

FÁVERO, L. P.; BELFIORE, P. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro:
Elsevier Brasil, 2017. p. 19.

Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. Para resolver os casos em que os modelos lineares normais não eram adequados, foram desenvolvidos
os Modelos Lineares Generalizados (Generalized Linear Models).
PORQUE:
II. Os Modelos Lineares Generalizados representam um grupo de modelos de regressão lineares em que a
variável dependente deve possuir distribuição normal.

A respeito dessas asserções, assinale a opção correta.

A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

06 - Leia o trecho a seguir:

“As medidas de distância representam similaridade como proximidade de observações umas com as
outras ao longo de variáveis na variável estatística de agrupamento. As medidas de distância são, na
verdade, uma medida de dissimilaridade, com valores maiores denotando menor similaridade. A distância
é convertida em uma medida de similaridade pelo uso de uma relação inversa”.

HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 442.

Com base no trecho apresentado anteriormente, analise a imagem a seguir, que representa a distância
entre dois pontos em plano cartesiano.

Figura — Gráfico de distância e fórmula usada para cálculo
Fonte: Hair et al. (2009, p. 442).

#PraCegoVer: a figura apresenta um gráfico em um plano cartesiano, com o eixo x na horizontal e o eixo y na vertical, ambos sem marcaçãode
valores. Dentro do plano cartesiano, existem dois pontos: o objeto 1, que está na coordenada ( , ), e o objeto 2, que está na coordenada (
, ). Existe uma linha (com, aproximadamente, 45 graus de inclinação) ligando os dois pontos. Existem mais duas linhas tracejadas que
completam, juntamente com a outra, um triângulo retângulo. Abaixo do plano cartesiano, existe a fórmula da distância usada: distância é igual à
raiz quadrada de abre parênteses , menos , fecha parênteses ao quadrado, mais, abre parênteses , menos , fecha parênteses ao
quadrado.

Com base no apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. O método de cálculo da distância dos dois objetos foi o euclidiano.
PORQUE:
II. A distância euclidiana entre dois objetos é calculada pelo comprimento da hipotenusa de um triângulo
retângulo.
A respeito dessas asserções, assinale a opção correta:

As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.

07 - Leia o trecho a seguir:

“Análise de agrupamentos é um grupo de técnicas multivariadas cuja finalidade principal é agregar objetos
com base nas características que eles possuem. Ela tem sido chamada de análise Q, construção de
tipologia, análise de classificação e taxonomia numérica. Essa variedade de nomes se deve ao uso de
métodos de agrupamento nas mais diversas áreas, como psicologia, biologia, sociologia, economia,
engenharia e administração. Apesar de os nomes diferem nas disciplinas, os métodos têm uma dimensão
em comum: classificação de acordo com relações entre os objetos sendo agrupados”.

HAIR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2009. p. 430.

Para construir agrupamentos, primeiramente, defina a distância dos objetos analisados que pode ter a
distância euclidiana: , a distância de
Manhattan: , ou a distância de Chebyshev:

Após calcular a distância entre um ponto A(3,2) e um ponto B(5,4), usando os três métodos citados
anteriormente, analise as afirmativas a seguir.

I. A distância euclidiana é menor que a distância de Manhattan para esses pontos.
II. A distância de Chebyshev é menor que a distância de euclidiana para esses pontos.
III. A distância de Chebyshev é menor que a distância de Manhattan para esses pontos.
IV. A menor medida dessas três é a de Chebyshev.

É correto o que se afirma em:

I, II, III e IV.

08 - Leia o trecho a seguir:

“A distância do táxi ou distância de Manhattan, não se baseia na distância euclidiana. Nessa distância,
cada ponto do plano corresponde ao cruzamento de duas retas perpendiculares – às ruas de uma cidade
ideal. Esta distância simula o percurso de um táxi (ou pedestre, por exemplo) por ruas e quarteirões de
uma cidade. A distância entre dois pontos não é dada mais pelo comprimento da linha reta que liga esses
pontos e sim pela distância percorrida no trajeto feito por ele para ir de um ponto a outro, simulando o
andando pelas ruas”.

FABRIN, F. G. Geometria do táxi: algumas discussões com vistas à formação do professor de matemática. In: MOSTRA INTERATIVA DA
PRODUÇÃO ESTUDANTIL EM EDUCAÇÃO CIENTÍFICA E TECNOLÓGICA, 2017, Ijuí. Anais eletrônicos [...]. Ijuí: Unijuí, 2017. p. 3. Disponível
em: https://www.publicacoeseventos.unijui.edu.br/index.php/moeducitec/article/view/8391. Acesso em: 23 maio 2022.

Sabendo que a fórmula da distância de Manhattan é

e considerando os seguintes pontos A (5,3), B (4,2) e C (6,7), analise as afirmativas a seguir.

I. A distância de Manhattan entre os pontos A e B é igual a 2.
II. A distância de Manhattan entre os pontos A e C é igual a 5.
III. A distância de Manhattan entre os pontos B e C é igual a 8.
IV. A distância de Manhattan entre os pontos B e A é igual a 7.
https://www.publicacoeseventos.unijui.edu.br/index.php/moeducitec/article/view/8391#_blank

É correto o que se afirma em:

I e II, apenas.

09 - Um analista de dados de um determinado e-commerce está investigando a relação entre duas
variáveis: o ticket médio de compras e o número de acessos ao site. Para realizar esse estudo, foi
selecionada uma amostra aleatória de 20 clientes. Para facilitar a análise, ele utilizou um gráfico para
verificar a relação entre essas duas variáveis:

Figura — Gráfico de dispersão dos valores de ticket médio e acesso ao site
Fonte: Elaborada pelo autor.

#PraCegoVer: a figura apresenta um gráfico de dispersão com 20 observações marcadas como pontos e uma linha reta inclinada passando pelo
meio dos pontos. No eixo x, da horizontal, está a medida “Acesso”, distribuída em faixas de 250. No eixo y, da vertical, está a medida
“Ticket médio”, distribuída em faixas de 25 unidades.

Após verificar o gráfico, o analista de dados teve uma boa ideia de qual seria a melhor técnica para
analisar a relação entre as duas variáveis.

Considerando a situação apresentada e a imagem acima, podemos afirmar que o método que o analista
de dados utilizou foi a regressão:
linear simples, pois ele tentou prever o comportamento da variável ticket médio com base na variável
acesso.

10 - Leia o trecho a seguir:

“Nas ciências sociais, normalmente estamos interessados em descobrir algo sobre um fenômeno que
acreditamos que realmente exista (um fenômeno do mundo real). Qualquer que seja o fenômeno que
desejamos explicar, procuramos explicá-lo coletando dados do mundo real e então utilizando esses dados
para tirar conclusões sobre o que está sendo estudado. Na maioria das vezes para realizar esse processo
construir modelos estatísticos”.

FIELD, A. Descobrindo a estatística usando o SPSS. Porto Alegre: Penso Editora, 2009. p. 31.

Existem vários modelos estatísticos, e, dentre eles, está a análise fatorial. Dessa forma, o objetivo da
análise fatorial é:
simplificar as relações existentes entre múltiplas variáveis em um conjunto de dados observados.