NOTA 10 - Atividade 4 (A4) - ESTATISTICA APLICADA AO DATA SCIENCE - EAD FMU

•

Humanas / Sociais

1

0

1

0

Kelly

25/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.221 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

PERGUNTA 1 
1. A estatística, a ciência da computação, a mineração de dados e a 
ciência dos dados são áreas correlacionadas. Dentre essas, a mais 
antiga é a estatística, seguida da ciência da computação, depois da 
mineração de dados, e finalmente da ciência dos dados, a mais nova 
dessas quatro áreas de conhecimento. 
 
Com referência ao relacionamento entre essas quatro áreas de 
conhecimento humano, analise as afirmativas a seguir: 
 
I. Algoritmos de machine learning nasceram na ciência da computação. 
Hoje são usados na estatística, na mineração de dados e na ciência dos 
dados. 
II. Dentre as diversas áreas citadas, é a estatística que possui os 
melhores fundamentos para a interpretação de fenômenos aleatórios. 
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos 
referimos a análise de dados. É aplicada a todas áreas de atividade 
humana. 
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos 
termos diferentes, herdados das outras áreas, para se referir a um 
mesmo conceito. 
 
 
 
 I, II e IV apenas. 
 
 I, II e III apenas. 
 
 II e III apenas. 
 
 I, II, III e IV. 
 
 I, III e IV apenas. 
1 pontos 
PERGUNTA 2 
1. Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas 
através da subtração da média e divisão pelo desvio-padrão, ou então 
as variáveis com grande escala dominarão o processo de agrupamento 
(veja Padronização (Normalização, Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de 
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. 
 A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum 
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, 
antes da realização de uma análise de agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem 
existir variáveis que estão em uma escala muito maior que as outras, e a 
medida de distância entre observações dessas variáveis dominarão o 
resultado da análise de agrupamento, na formação dos grupos de 
observações similares entre si. 
 
 As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa correta da I. 
 
 A asserção I é uma proposição verdadeira e a asserção II é uma 
proposição falsa. 
 
 A asserção I é uma proposição falsa, e a II é uma proposição 
verdadeira. 
 
 As asserções I e II são proposições verdadeiras, e a II é uma 
justificativa correta da I. 
 
 As asserções I e II são proposições falsas. 
1 pontos 
PERGUNTA 3 
1. Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo 
estatística, ciência da computação, tecnologia da informação e campos 
de domínios específicos. Consequentemente, podem-se utilizar de 
muitos termos diferentes para se referir a um dado conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de 
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos 
termos diferentes para se referir a um dado conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu 
desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, 
quanto o assunto são dados. É usada por todas áreas científicas. 
 
 As asserções I e II são proposições verdadeiras, e a II é uma 
justificativa correta da I. 
 
 A asserção I é uma proposição falsa, e a II é uma proposição 
verdadeira. 
 
 As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa da I. 
 
 A asserção I é uma proposição verdadeira e a asserção II é uma 
proposição falsa. 
 
 As asserções I e II são proposições falsas. 
1 pontos 
PERGUNTA 4 
1. Na estatística, quanto duas variáveis quantitativas comportam-se uma 
em relação à outra de forma aproximadamente linear, é comum se 
calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da 
relação entre duas variáveis qualitativas, ou entre uma variável 
quantitativa e uma variável qualitativa. 
 
A respeito do cálculo da correlação entre duas variáveis quantitativas, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
 
I. ( ) Uma correlação positiva indica que quando uma das variáveis 
aumenta a outra variável diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis 
aumenta a outra variável também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis 
aumenta a outra variável diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis 
diminui a outra também diminui. 
 
 
 
F, F, V, V. 
 
 
 
 
 F, V, V, F. 
 
 F, V, V, V. 
 
 F, V, F, V. 
 
 F, V, F, F. 
1 pontos 
PERGUNTA 5 
1. Um jovem cientista de dados realizou uma análise de agrupamento de 
apenas cinco estados americanos parte do famoso conjunto de dados 
USArrests, o qual possue 50 observações (50 estados americanos) de 4 
variáveis (Murder, Assault, UrbanPop e Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
 
 
Figura - Dendrograma do agrupamento dos cinco estados 
Fonte: Elaborada pelo autor 
 
Relativamente à interpretação desta figura, assinale a alternativa 
correta: 
 
 
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, 
que representa os vários grupos formados em cada estágio do 
processo de agrupamento hierárquico. 
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, 
que lido de baixo para cima, na altura (height) 1,5 sugere a 
formação de 6 grupos. 
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, 
que lido de cima para baixo, na altura (height) 1,5 sugere a 
formação de 10 grupos. 
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, 
que sugere serem os estados New Mexico e Oklahoma os mais 
próximos em termos de violência urbana. 
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, 
que sugere serem os estados Texas e Arkansas os mais próximos 
em termos de violência urbana. 
1 pontos 
PERGUNTA 6 
1. O texto em referência apresenta como exemplo de agrupamento uma 
companhia de vendas online que deseja agrupar seus clientes com base 
em suas características comuns (renda, idade, número de filhos, estado 
civil, grau de educação, etc.). Com o resultado do agrupamento, eles 
definirão campanhas de marketing e de divulgação específicas para 
cada um dos diferentes grupos que vierem a ser definidos. 
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. 
Upper Saddle River, NJ: Pearson Education, 2003, p.125. 
A respeito das fontes que originaram os contos de fadas, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis 
quantitativas. Sendo assim, parte das variáveis disponíveis para esse 
caso são irrelevantes. 
II. ( ) Algoritmos de agrupamento são especializados no tratamento de 
conjuntos de dados exclusivamente qualitativos. 
III. ( ) Algoritmos de agrupamento podem ter as suas soluções 
verificadas por um supervisor e, dessa forma, saberemos se o resultado 
é bom ou ruim. 
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e 
depois classificar, já que isso só pode ser realizado por meio de 
algoritmos. 
 
 V, V, V, V. 
 
 V, V, F, V. 
 
 V, V, F, F. 
 
 F, V, F, V. 
 
 F, F, F, F. 
1 pontos 
PERGUNTA 7 
1. Discutimos o que são aprendizagem supervisionada e não 
supervisionada. Vimos que é na forma como tratamos as variáveis 
estudadas que se dá a diferença entre esses dois tipos de 
aprendizagens, supervisionada e não supervisionada. Esses dois tipos 
são os mais importantes dentre os diversos tiposde aprendizagem. 
 
Relativamente a esse assunto, analise as afirmativas a seguir: 
 
I. Na aprendizagem supervisionada, definimos uma das variáveis 
estudadas como sendo a variável resposta, a qual responde em função 
dos valores assumidos pelas outras variáveis, as quais são chamadas 
de variáveis de entrada. 
II. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável resposta de variável de saída ou variável 
dependente. 
III. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável de entrada de variável regressora, variável 
preditora, variável explanatória ou variável independente. 
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o comportamento de 
uma delas em função dos valores assumidos pelas outras. 
 
 
 
 
 I, III e IV, apenas. 
 
 II e III, apenas. 
 
 II, III e IV, apenas. 
 
 I, II, III e IV. 
 
 I, II e IV, apenas. 
 
1 pontos 
PERGUNTA 8 
1. Quando os dados se referem a múltiplas variáveis quantitativas, é 
possível exibir múltiplos gráficos de dispersão entre pares dessas 
variáveis, duas a duas. No software estatístico R, isto pode ser feito com 
a função gráfica pairs(). Adiante apresentamos um output típico da 
função pairs() quando aplicada a quatro variáveis quantitativas de um 
determinado conjunto de dados. 
 
 
 
Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest 
Fonte: Elaborada pelo autor. 
 
A respeito deste output típico da função gráfica pairs() do software 
estatístico R, para a exibição de múltiplos gráficos de dispersão entre 
variáveis quantitativas, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
 
I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência 
de aumento de Murder para um aumento de Assault. 
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande 
dispersão dos pontos sem uma tendência clara de subida ou descida. 
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de 
aumento de Murder para um aumento de Assault, porém com uma 
dispersão dos pontos um pouco maior que para o caso de y = Murder 
versus x = Assault. 
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, 
UrbanPop e Rape), então ao total são 12 gráficos de dispersão, de cada 
uma delas contra as outras três. 
 
 F, V, F, V. 
 
 V, V, V, V. 
 
 
 F, V, V, F. 
 
 F, V, V, V. 
 
 V, V, V, F. 
1 pontos 
PERGUNTA 9 
1. O Margareth H. Duham, em seu livro Data Mining - Introductory and 
Advanced Topics, informa que tarefas de agrupamento, ou clustering em 
inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a 
medicina, a antropologia, o marketing e a economia. 
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. 
Upper Saddle River (NJ): Pearson Education, 2003, p.126. 
 
A respeito desses domínios de aplicação de tarefas de agrupamento, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
 
I. ( ) Observar diferentes características de doenças em vários 
pacientes, e depois formar diferentes grupos de pacientes - por 
similaridade das características de suas doenças - é uma tarefa de 
agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de 
pessoas, e depois formar grupos de pessoas - por similaridade de seus 
hábitos de consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por 
membros de aldeias remotas, e depois formar grupos de linguagens - 
por similaridades das características das linguagens - é uma tarefa de 
agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, 
e depois formar grupos de insetos - por similaridade de suas 
características - é uma tarefa de agrupamento. 
 
 
 V, V, V, V. 
 
 V, V, V, F. 
 
 V, V, F, V. 
 
 F, V, V, F. 
 
 V, V, F, F. 
1 pontos 
PERGUNTA 10 
1. O texto em referência fornece os seguintes exemplos de agrupamento: 
análise de perfil de usuários e perfil de itens para sistemas de 
recomendação; análise de padrões de comportamento de multidões; 
identificação de grupos de risco para empresas seguradoras; análise de 
emoções em redes sociais; reconhecimento de padrões em imagens de 
satélites ou imagens médicas; análise de padrões em cliques em 
páginas da internet, etc. 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à 
mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier, 
2016, p.146. 
A respeito dos campos de aplicação da análise de agrupamento, analise 
as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) A análise de emoções por meio de agrupamento pode servir ao 
propósito de averiguar o índice de aceitação de um candidato a um 
cargo eletivo público por região. 
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir 
ao propósito de averiguar regiões com processos acelerados de 
desertificação. 
III. ( ) A identificação de grupos de risco para empresas seguradoras 
pode servir ao propósito de precificação correta do valor do seguro para 
cada grupo de risco. 
IV. ( ) A análise de padrões em cliques em páginas da internet pode 
servir ao propósito de identificar a procura de páginas da web por cada 
bairro de um município. 
 
 F, V, V, F. 
 
 V, F, F, V. 
 
 V, V, F, F. 
 
 V, V, V, V. 
 
 V, V, V, F.