A4 DATA SCIENCE

•

UAM

1

0

1

0

Rafael Sombra

10/12/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.214 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

29/11/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 1/6
Pergunta 1
Resposta Selecionada:
Resposta Correta:
Feedback
da
resposta:
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas
de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a
medicina, a antropologia, o marketing e a economia.

DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson
Education, 2003, p.126.

A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes
grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de
agrupamento.
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de
pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento.
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e
depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa
de agrupamento.
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos
- por similaridade de suas características - é uma tarefa de agrupamento.

V, V, V, V.
V, V, V, V.
Resposta correta. A sequência está correta. Observar diferentes características de
indivíduos, sejam estes indivíduos doenças que se manifestam em pacientes, hábitos de
consumos que se manifestam em consumidores, línguas faladas por diferentes povos, ou
insetos que habitam diferentes biomas, e depois, para cada um desses exemplos, agrupar as
observações feitas em grupos menores por similaridade, são tarefas de agrupamento. Sendo
assim, todos os exemplos descritos são tarefas de agrupamento.
Pergunta 2
Resposta
Selecionada:
Resposta
Correta:
Feedback
da
resposta:
Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos
retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas
e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a padronização
das variáveis quantitativas.

Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na
estatística:

Na padronização, se subtrai de cada variável sua média, e depois se divide o
resultado pelo seu desvio padrão.
Na padronização, se subtrai de cada variável sua média, e depois se divide o
resultado pelo seu desvio padrão.
Resposta correta. A alternativa está correta. Na estatística, assim como nas suas ciências
correlatas, como a ciência dos dados e a mineração de dados, a padronização de uma
variável quantitativa é feita subtraindo-se dessa variável a sua média e depois dividindo-se o
resultado pelo seu desvio padrão.
Pergunta 3
Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre
1 em 1 pontos
1 em 1 pontos
1 em 1 pontos
29/11/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 2/6
Resposta Selecionada:
Resposta Correta:
Feedback
da
resposta:
pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor().
Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre
quatro variáveis quantitativas de um determinado conjunto de dados.
Murder Assault UrbanPop Rape
Murder 1.00 0.80 0.07 0.56
Assault 0.80 1.00 0.26 0.67
UrbanPop 0.07 0.26 1.00 0.41
Rape 0.56 0.67 0.41 1.00

A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação entre
múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale Vpara a(s) Verdadeira(s)
e F para a(s) Falsa(s).

I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa amostra,
quando uma aumenta, a outra também aumenta.
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação perfeita dela
com ela mesma.
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é de
0,80.
IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo valor
é de 0,67 e não de 0,56.
V, V, V, F.
V, V, V, F.
Resposta correta. A sequência está correta. Todas correlações são positivas, indicando que,
para todas variáveis quantitativas dessa amostra, quando uma aumenta, a outra também
aumenta. Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma
correlação perfeita dela com ela mesma. A maior correlação positiva entre essas variáveis é
aquela entre Murder e Assault, cujo valor é de 0,80. E, finalmente, a segunda maior
correlação positiva entre essas variáveis é aquela entre Rape e Assault, mas o valor é 0,67
e não 0,56, que se refere à correlação entre as variáveis Murder e Rape.
Pergunta 4
Resposta
Selecionada:
Resposta Correta:
Feedback
da
resposta:
Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação,
tecnologia da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de
muitos termos diferentes para se referir a um dado conceito.”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio
de Janeiro: Alta Books, 2019, p. xv.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um
dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada
a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas.
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa
da I.
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa
da I.
Resposta correta. A alternativa está correta, pois mesmo que algoritmos de agrupamento
sejam parte dos métodos da aprendizagem não supervisionada, e não serem modelos
preditivos, como afirmado na asserção II, depois que formamos e nomeamos os grupos
(classificamos os grupos), podemos usar essas classes como variáveis respostas e, a partir
1 em 1 pontos
29/11/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 3/6
desse ponto, executar tarefas preditivas com algoritmos de classificação. Ou seja, a
asserção I é falsa.
Pergunta 5
Resposta
Selecionada:
Resposta
Correta:
Feedback
da
resposta:
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos
parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de
4 variáveis (Murder, Assault, UrbanPop e Rape).

Obteve o resultado exibido na figura exibida adiante:

Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor

Relativamente à interpretação desta figura, assinale a alternativa correta:

É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários
grupos formados em cada estágio do processo de agrupamento hierárquico.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários
grupos formados em cada estágio do processo de agrupamento hierárquico.
Resposta correta. A alternativa está correta. O dendrograma resultante de uma análise de
agrupamento hierárquicorepresenta todos os agrupamentos possíveis, desde os grupos
formados por observações individuais (no exemplo, cada um dos cinco estados) até o topo
com um único grupo formado por todas as observações (no exemplo, um único grupo com os
cinco estados). Cabe ao cientista de dados escolher o agrupamento que faz mais sentido
para a sua análise. As demais alternativas estão erradas, como se pode verificar de uma
leitura direta do próprio dendrograma.
Pergunta 6
Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e
rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da
exploração de dados é a geração de pistas sobre o que os dados nos revelam, pistas que você poderá
1 em 1 pontos
1 em 1 pontos
29/11/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 4/6
Resposta Selecionada:
Resposta Correta:
Feedback
da
resposta:
explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, visualize, and model
dada. Sebastopol (CA): O’Reilly Media, 2017, p.1.

A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida
como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise
exploratória de dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior
investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e descobertas
reveladas pelos dados, a serem melhor investigadas e comprovadas.
V, V, V, V.
V, V, V, V.
Resposta correta. A sequência está correta. É correto afirmar que a análise estatística
descritiva é parte da análise exploratória de dados, assim como dizer que algoritmos de
agrupamento também o são. Também é correto dizer que a análise exploratória dos dados
permite a geração de hipóteses sobre os dados, que devem ser melhor investigadas para
comprovação posteriormente, e que gerar hipóteses sobre dados significa gerar afirmações
sobre possíveis padrões e descobertas reveladas pelos dados.
Pergunta 7
Resposta Selecionada:
Resposta Correta:
Feedback
da
resposta:
O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que
deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos,
estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão campanhas de
marketing e de divulgação específicas para cada um dos diferentes grupos que vierem a ser definidos.

DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River, NJ: Pearson
Education, 2003, p.125.
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo assim, parte das
variáveis disponíveis para esse caso são irrelevantes.
II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados exclusivamente
qualitativos.
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor e, dessa
forma, saberemos se o resultado é bom ou ruim.
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois classificar, já que isso só
pode ser realizado por meio de algoritmos.
F, F, F, F.
F, F, F, F.
Resposta correta. A sequência está correta. Há algoritmos de agrupamento que lidam
variáveis quantitativas, ou qualitativas, ou mistas. Portanto, as asserções I e II são falsas.
Algoritmos de agrupamento não podem ter as suas soluções verificadas por um supervisor,
pois fazem parte dos métodos de aprendizagem não supervisionada. E seres humanos
possuem habilidade natural para agrupar e depois classificar. Portanto, as asserções III e IV
também são falsas.
Pergunta 8
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e
procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre
1 em 1 pontos
1 em 1 pontos
29/11/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 5/6
Resposta Selecionada:
Resposta Correta:
Feedback
da
resposta:
si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas
observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento
visualmente.

Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você
naturalmente formaria para este caso:

Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor

Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor
número de grupos que você naturalmente formaria. Há três alternativas com dois grupos,
porém aquela que parece ser a mais natural é a que agrupa 6 indivíduos do lado esquerdo
do gráfico e 4 indivíduos do lado direito, pois as outras alternativas com dois grupos não são
tão naturais quanto essa opção.
Pergunta 9
Resposta Selecionada:
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico:

“Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que
todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário
pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são
calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio
de Janeiro: Alta Books, 2019, p. 278.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que
deseja ver o algoritmo formar.
Pois
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são
unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
1 em 1 pontos
29/11/2020 Blackboard Learn
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 6/6
Domingo, 29 de Novembro de 2020 20h00min22s BRT
Resposta Correta:
Feedback
da
resposta:
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
Resposta correta. A alternativa está correta, pois no agrupamento hierárquico,
diferentemente do que se requer para o agrupamento por k-médias, o usuário não especifica
o número de grupos que o algoritmo deve formar. Em estágios progressivos, se parte de
tantos grupos quanto o número de registros (observações) do conjunto de dados, formam-se
sequencialmente vários agrupamentos, por fusão entre grupos mais similares entre si, até se
formar um único grupo, ao final, com todos os registro do conjunto de dados analisado. Ao
usuário cabe examinar essa estrutura, e decidir que agrupamentos fazem mais sentido para
a sua análise.
Pergunta 10
Resposta
Selecionada:
Resposta
Correta:
Feedback
da
resposta:
Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de
aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessasdiferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu
próprio jeito de funcionamento.

Assinale a alternativa que indica um problema de aprendizagem não supervisionada:

Desejamos entender se há similaridade entre observações (indivíduos) de uma certa
amostra de dados.
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa
amostra de dados.
Resposta correta. A alternativa está correta, pois entender se há similaridade entre
observações (indivíduos) de uma amostra é o mesmo que tentar agrupar os indivíduos
similares, o que é um problema de aprendizagem não supervisionada. Todos os demais
problemas propostos são problemas de aprendizagem supervisionada, em que há uma
variável resposta supervisora, quantitativa ou qualitativa, para o treinamento do algoritmo
preditivo.
1 em 1 pontos