Introdu Ciência de Dados Semana1 à 7

Humanas / Sociais

Silvia Conceição

em 15/08/2024

Conteúdos escolhidos para você

10 pág.

Avaliação N2 - UAM

UAM

102 pág.

QUESTÕES

38 pág.

Noções Gerais de Mineração de Dados

ESTÁCIO

164 pág.

TS - Introdução a Ciência de Dados - COM350 - Turma 001

9 pág.

BIG DATA ANALYTIC

UNIASSELVI

Perguntas dessa disciplina

Se um gestor escolar deseja comparar a quantidade de alunos matriculados por série ou o índice de participação em atividades extracurriculares, quais

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

1ª) Primeiramente, definimos o tema e o recorte da pesquisa. A partir desse recorte estabelecemos qual é o problema a ser investigado. Também definimo

UNIP

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

IBMR

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

10 pág.

Avaliação N2 - UAM

UAM

102 pág.

QUESTÕES

38 pág.

Noções Gerais de Mineração de Dados

ESTÁCIO

164 pág.

TS - Introdução a Ciência de Dados - COM350 - Turma 001

9 pág.

BIG DATA ANALYTIC

UNIASSELVI

Perguntas dessa disciplina

Se um gestor escolar deseja comparar a quantidade de alunos matriculados por série ou o índice de participação em atividades extracurriculares, quais

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

ANHANGUERA

1ª) Primeiramente, definimos o tema e o recorte da pesquisa. A partir desse recorte estabelecemos qual é o problema a ser investigado. Também definimo

UNIP

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

IBMR

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

Prévia do material em texto

SEMANA1
PERGUNTA 1
A cada dia que passa somos bombardeados por informações, já que elas aparecem de forma 
exponencial em volume, variedade e velocidade. Em verdade, infere-se que a quantidade de 
informação no contexto da humanidade atual duplica em cada 20 meses e que a quantidade e a 
magnitude das bases de dados cresce a um ritmo ainda maior, tornando-se de fundamental 
importância a coleta e a interpretação de dados.
Com relação à Ciência de Dados (ou Data Science), é correto afirmarmos que:
a.
trata-se de uma ciência quantitativa com funções específicas de dados computacionais.
b.
é uma ciência que interpreta dados para a gestão empresarial.
c.
é simplesmente uma ciência matemática quantitativa.
d.
é a ciência que trabalha com a visualização de dados computacionais.
e.
é a ciência que interpreta dados e informações para gerar insights relevantes para a gestão de 
negócios empresariais.
PERGUNTA 2
A Ciência de Dados está diretamente ligada à Inteligência Artificial, utilizando de modelos 
matemáticos, métodos estatísticos e científicos, bem como da análise de dados. Ou ainda, tem seus 
procedimentos alicerçados em campos específicos do conhecimento, conforme mostrado na Figura 
1 a seguir.
Fonte: Elaborada pelo autor.
Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as 
afirmativas a seguir.
I. A Ciência de Dados é uma ciência interdisciplinar.
II. A Ciência de Dados utiliza de procedimentos para reconhecer padrões em problemas de 
diferentes naturezas.
III. O propósito da Ciência de Dados é transformar o “dado” em informação importante por 
intermédio de etapas que permitem reconhecer padrões e identificar comportamentos a posteriori.
Assinale a alternativa que apresenta a sequência correta.
a.
F - V - F.
b.
V - V - F.
c.
V - V - V.
d.
V - F - F.
e.
F - V - V.
PERGUNTA 3
Conceitua-se a Ciência de Dados como campo do conhecimento ou da ciência que fundamenta a 
transfiguração de dados em informações relevantes por intermédio de etapas, cada uma delas com 
as suas respectivas particularidades, ou, ainda, a percepção do ciclo dos dados gera uma 
caracterização geral sobre o que deverá ser feito nas investigações levando a um planejamento mais 
estruturado para cada etapa. 
Nesse sentido, como se chama a sequência de etapas no contexto da Ciência de Dados?
a.
Sequência de dados.
b.
Grupo de dados.
c.
Fluxograma de dados.
d.
Ciclo de dados.
e.
Etapa de dados.
PERGUNTA 4
Uma das questões mais difíceis de serem respondidas pelo setor de marketing de uma empresa é a 
indagação: “O que pensa o meu cliente?”. Ou ainda, “Como fidelizar o meu cliente?”. Ou ainda, 
“Como caracterizar o perfil do meu cliente por meio de informações confiáveis que levem à criação 
de estratégias eficazes?”. Assim, empresas e organizações necessitam armazenar e analisar 
informações a fim de gerar soluções assertivas que possam nortear suas estratégias mercadológicas, 
surgindo, então, a Ciência de Dados como ferramenta pertinente a ser utilizada para responder a 
indagações como essas, dentre outras. 
Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as 
afirmativas a seguir.
I. Dados são gerados rotineiramente e exponencialmente no âmbito organizacional e empresarial. 
II. Dados são transfigurados em informações que revelam padrões não conhecidos pelas 
organizações. 
III. O mérito de dados obtidos e interpretados por tecnologias diversas ligadas a Ciência de Dados 
geram benefícios importantes e transformadores para as empresas no contexto competitivo atual.
Assinale a alternativa que apresenta a sequência correta.
a.
V - F - V.
b.
V - V - V.
c.
V - F - F.
d.
F - V - V.
e.
F - F - V.
SEMANA2
PERGUNTA 1
Python é uma linguagem de programação desenvolvida com o intuito de simplicidade e 
versatilidade, podendo ser utilizada para a realização de diversas tarefas, tais como construção de 
aplicativos, criação de sites, criação de programas, jogos e análise de dados. A grosso modo, a 
linguagem Python é ___________________________________ e que sustenta 
_______________________________ de programação: _________________________, 
____________________________ e ___________________________.
Preencha as lacunas escolhendo a alternativa correta.
a.
interpretada de menor nível, paradigmas únicos, imperativo, não orientado a objetos, não funcional.
b.
interpretada de maior nível, múltiplos paradigmas, imperativo, orientado a objetos, não funcional.
c.
interpretada de menor nível, múltiplos paradigmas, imperativo, orientado a objetos, funcional.
d.
interpretada de menor nível, paradigmas únicos, imperativo, orientado a objetos, funcional.
e.
interpretada de maior nível, paradigmas únicos, imperativo, orientado a objetos, funcional.
PERGUNTA 2
A linguagem Python constitui uma das principais linguagens de programação voltada para a análise 
de dados e possui algumas características peculiares, das quais podemos citar a questão de ser 
considerada uma linguagem de programação interpretada e de alto nível, ou seja, apresenta maior 
proximidade com a linguagem humana do que com a linguagem de máquina (sistema binário).
Fonte: Elaborado pelo autor.
Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as 
afirmativas a seguir.
I. No Python a implementação é realizada por intermédio de um processo no qual um dos elementos
fundamentais é exatamente o interpretador.
II. No Python tem-se a utilização de estruturas denominadas “funções”.
III. No Python temos classes e objetos, sendo, portanto, uma programação multiplataforma.
Assinale a alternativa correta.
a.
F - F - V.
b.
V - V - V.
c.
V - V - F.
d.
V - F - F.
e.
F - F - F.
PERGUNTA 3
Com relação ao desenvolvimento de sites e programas diversos ou, ainda, no contexto de áreas mais
complexas, como Ciência de Dados, Machine Learning e Inteligência Artificial (IA), tem-se nas 
linguagens de programação um aparato fundamental. Por exemplo, linguagens específicas como a 
linguagem Python e suas diversas estruturas de dados, bloco de dados e bibliotecas. 
Considerando a descrição estrutural da linguagem Python e suas nomenclaturas relacionadas, avalie
as afirmações a seguir, em relação à fundamentação e à aplicabilidade do Python, e relacione-as 
adequadamente aos termos às quais se referem.
1 – Pandas
2 – Numpy
3 – Matplotlib
I – Caracteriza-se como uma das bibliotecas-base da Python, relacionando-se com a visualização de
dados.
II - Caracteriza-se como uma das bibliotecas-base da Python, relacionando-se com as operações 
matemáticas.
III - É uma biblioteca Python voltada para a análise de dados. 
Assinale a alternativa que correlaciona adequadamente os dois grupos de informação.
a.
1-III; 2-II; 3-I.
b.
1-II; 2-III; 3-II.
c.
1-III; 2-I; 3-III.
d.
1-I; 2-II; 3-III.
e.
1-I; 2-III; 3-II.
PERGUNTA 4
A linguagem Python apresenta grande valorização e aplicabilidade no contexto atual, sendo 
amplamente utilizada em grandes áreas, tais como Análise de Dados e Ciência de Dados, 
Automações e Desenvolvimento Web. Em termos específicos, quando se fala em Ciência de Dados 
tem-se um dos campos mais populares de utilização do Python. De outro modo, a automatização de 
tarefas possíveis está intimamente ligada à produtividade e à eficiência de processos diversos. 
Adicionalmente, aplicações para Web são evidenciadas com maior simplicidade com base na 
fundamentação do sistema Python. 
Nesse contexto, em linhas de mercado, constituem-se fundamentalmente como proveitos 
significativos da utilização da linguagem Python visando a modelagem de soluções de problemas 
empresariais:
a.
multiplataforma e extensibilidade, dinamismo de aprendizado e gratuidade. 
b.
multiplataforma e extensibilidade, especificidade de aprendizado e gratuidade. 
c.
plataforma única e extensibilidade, especificidade de aprendizado e gratuidade. 
d.
multiplataforma e fundamentalidade, especificidade de aprendizado e gratuidade. 
e.
multiplataformae periodicidade, especificidade de aprendizado e gratuidade.
PERGUNTA 5
As linguagens de programação são o alicerce fundamental para o desenvolvimento de sistemas, 
sites etc., assim sendo, a construção de inteligências artificiais, a realização de análise de dados ou a
projeção do back-end de uma aplicação envolvem a utilização da linguagem Python e de aparatos 
derivativos. 
Nesse contexto, são visualizadas como características fundamentais da linguagem Python:
a.
multiplataforma / multiparadigma / linguagem orientada.
b.
plataforma simples / multiparadigma / linguagem interpretada.
c.
multiplataforma / multiparadigma / linguagem interpretada.
d.
multiplataforma / paradigma único / linguagem programada.
e.
multiplataforma / paradigma único / linguagem interpretada.
PERGUNTA 6
É sabido que a linguagem Python é muito usada no contexto atual devido a sua associação com 
grandes estruturas de dados, como o Big Data, e o suporte voltado ao programador para trabalhar 
com diversas áreas, como a inteligência de máquina. 
Especificamente no contexto da linguagem Python, qual é a biblioteca com origem na terminologia 
panel data que tem como um de seus principais intuitos a utilização de dados multidimensionais?
a.
Biblioteca Pandas.
b.
Biblioteca Numpy.
c.
Biblioteca Pumpy.
d.
Jupyter Notebook.
e.
Google Colab.
SEMANA3
PERGUNTA 1
Sabe-se que a biblioteca Scikit-Learn é uma das principais bibliotecas do sistema de linguagem 
Python, tendo como essência o trabalho específico voltado para a prática da inteligência em 
máquina (Machine Learning) e, por conseguinte, para a Inteligência Artificial (IA). É composta 
fundamentalmente por diversas ferramentas de simples manuseio e com excelente eficiência 
visando a abordagem preditiva de dados, como modelos descritivos e inferenciais, sejam de 
classificação, correlação, regressão, redução de dimensão, confiabilidade de instrumentos, 
cruzamento de variáveis etc.
Observe a figura a seguir que nos mostra um esquema de tal biblioteca.
Fonte: 123RF
Com base nas informações apresentadas sobre a biblioteca Scikit-Learn, identifique se são 
verdadeiras (V) ou falsas (F) as afirmativas a seguir.
I. É uma biblioteca fundamentada em diversos módulos com suas respectivas peculiaridades, 
introduzindo funções diversas para um grande leque de aplicações.
II. Permite a redução do número de variáveis, fazendo com que o grau de complexidade da 
interpretação dos dados fique mais dinâmico, ou seja, diminuindo a frequência de cálculos a serem 
fundamentados.
III. Biblioteca voltada para comparação, validação e seleção de parâmetros e modelos por 
intermédio da automatização.
Assinale a alternativa que apresenta a sequência correta.
a.
V - V - V.
b.
V - F - F.
c.
F - V - V.
d.
V - V - F.
e.
F - V - F.
PERGUNTA 2
Dada a imagem a seguir, que representa um dataframe Pandas nomeado df:
Após ser executado o comando df2=df[df['QtdeFunc']>1000], analise as afirmações a seguir:
I. Serão listadas as linhas de df que tem o atributo QtdeFunc com mais de 1000.
II. Será criado um dataframe df2, que conterá 2 linhas.
III. Será criado um dataframe df2, que conterá 3 linhas.
IV. Será criado um dataframe df2, que será uma réplica exata do dataframe df.
V. A linha indexada como 6 no dataframe df, também fará parte do dataframe df2, que será 
criado.
De acordo com as afirmações apresentadas, indique qual alternativa é a correta:
Apenas as afirmações II e V estão corretas.
Apenas as afirmações I, II e IV estão corretas.
Apenas as afirmações III, IV e V estão corretas.
Apenas a afirmação I é correta.
Apenas as afirmações I, IV e V estão corretas.
PERGUNTA 3
Dado o seguinte comando, sendo que o alias pd é uma referência a biblioteca pandas:
Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre o comando apresentado:
( ) – O comando cria uma estrutura do tipo Series do Pandas.
( ) – A variável s1 será de um tipo único, integer.
( ) – Se após o comando do enunciado for executado o comando: s1['z']=5, é certo afirmar que o 
todos os valores da variável s1 passarão a ser o valor 5.
( ) – O parâmetro index=['x','y','v','z'] é opcional no comando, se ele não fosse utilizado, por padrão
os índices seriam valores numéricos de 0 a 3.
A sequência correta de preenchimento dos parênteses, de cima para baixo, é:
V, F, F, V.
F, F, V, V.
V, V, F, V.
F, V, V, F.
V, F, V, F.
PERGUNTA 4
Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre as características da 
Biblioteca NumPy:
( ) – NumPy é a abreviatura de Numerical Python.
( ) – A Biblioteca NumPy foi projetada para ser muito eficaz ao lidar com arrays de dados muito 
grandes.
( ) – Todos os elementos de um ndarray são do mesmo tipo.
( ) – Por meio do atributo dtype é possível saber as dimensões de um ndarray.
( ) – Dataframe é uma das estruturas fundamentais da Biblioteca NumPy.
A sequência correta de preenchimento dos parênteses, de cima para baixo, é:
V, F, V, F, F.
F, F, V, V, V.
V, F, V, V, F.
F, V, F, F, V.
V, V, V, F, F.
PERGUNTA 5
A Matemática, a Computação e a Estatística são conteúdos próprios, ou áreas do conhecimento, que
alicerçam a Ciência de Dados em suas diversas abordagens e aplicações, desde conceituações a 
métodos e bibliotecas associadas. 
Nesse contexto, assinale a alternativa que apresenta um aparato da linguagem Python voltado para 
matemáticos, cientistas e engenheiros, que permite a utilização de técnicas no âmbito 
computacional, no campo científico.
a.
Biblioteca Seaborn.
b.
Biblioteca Scikit-Learn.
c.
Biblioteca Matplotlib.
d.
Biblioteca Pandas.
e.
Biblioteca Scipy.
PERGUNTA 6
Em se tratando de Big Data, quando estamos tratando de dados estruturados, não estruturados e 
semiestruturados, nos referindo a uma grande quantidade de tipos e formatos de dados, como e-
mails, fotos, vídeos e sons, o que torna a análise bastante complexa, estamos detalhando qual das 
características de Big Data? Assinale a alternativa que traz essa característica.
Variedade.
Volume.
Velocidade.
Veracidade.
Valor.
PERGUNTA 7
A busca por informações gerenciais sempre foi de grande valia para as organizações e/ou empresas 
para que possam aumentar o seu leque competitivo de mercado. No mundo globalizado isso se faz 
extremamente necessário, assim, a busca por uma quantidade exponencial de informações 
relevantes é um aparato para a criação de estratégias organizacionais. 
Nesse sentido, a importância da utilização do Web Scraping deve-se pela:
a.
busca de um número limitado e restrito de informações de forma mais rápida e dinâmica, a fim de 
treinar e aprimorar algoritmos de aprendizagem de máquina.
b.
busca de um número finito de informações de forma simples, a fim de treinar e aprimorar 
algoritmos de aprendizagem de máquina. 
c.
busca de um número exponencial de informações de forma mais rápida e dinâmica, a fim de treinar 
e aprimorar algoritmos de aprendizagem de máquina.
d.
busca de um número infinito de informações de forma mais rápida e dinâmica, a fim de treinar e 
aprimorar algoritmos de aprendizagem de máquina. 
e.
criação de um número exponencial de informações de forma simples, a fim de treinar e aprimorar 
algoritmos de aprendizagem de máquina
SEMANA4
Pergunta 1
 Observa-se que a Mineração de Dados do Processo de Descoberta do Conhecimento de Dados 
(KDD) vincula-se de forma substancial com as técnicas de inteligência de máquina, identificando 
regras, otimalidade, simulação e análises estatísticas multivariadas a fim de gerar padrões por 
intermédio do banco de dados em questão. Nota-se que a Mineração de Dados é uma das etapas do 
KDD, sendo que ela é organizada em seis fases ou etapas, que integram o CRISP-DM (Processo 
Padrão Intersetorial de Mineração de Dados, tradução da nomenclatura em inglês Cross-Industry 
Standard Process of Data Mining). 
 Dessa maneira, assinale a alternativa que apresenta as etapas que integram o CRISP-DM.
 
a. 
 Compreensão dos negócios, entendimentodos dados, preparação dos dados, modelagem, 
simulação dos resultados, divulgação dos resultados.
 
b. 
 Identificação dos parâmetros, entendimento dos dados, preparação dos dados, modelagem, 
análise dos resultados, divulgação dos resultados. 
 
c. 
 Compreensão dos negócios, entendimento dos dados, caracterização dos dados, modelagem, 
análise dos resultados, divulgação dos resultados. 
 
d. 
 Compreensão dos negócios, simulação dos dados, preparação dos dados, modelagem, análise dos 
resultados, divulgação dos resultados. 
 
e. 
 Compreensão dos negócios, entendimento dos dados, preparação dos dados, modelagem, análise 
dos resultados, divulgação dos resultados. 
Pergunta 2
 No contexto do mercado empresarial e/ou organizacional, a Mineração de Dados assume algumas
identidades com relação às nomenclaturas, sendo conhecida, por exemplo, como inteligência de 
negócios, modelagem e análise preditiva, descoberta do conhecimento, dentre outras. Ressalta-se 
que as técnicas voltadas para a Mineração de Dados são recentes, todavia a Mineração de Dados 
não é um aparato recente, já que indivíduos já interpretavam dados desde a invenção dos primeiros 
computadores. 
 Existem tarefas principais vinculadas à Mineração de Dados, assinale a alternativa que apresenta 
algumas das principais tarefas da Mineração de Dados.
 
a. 
 Otimização e simulação, separação de parâmetros, padrões de associação, enquadramento de 
variáveis. 
 
b. 
 Otimização e simulação, enquadramento de variáveis, padrões discriminantes, predição. 
 
c. 
 Separação de parâmetros, clustering, padrões de associação, avaliação.
 
d. 
 Otimização e simulação, clustering, padrões de associação, predição. 
 
e. 
 Descrição, enquadramento de variáveis, padrões de independência, predição. 
Pergunta 3 
 Observe a seguir o comando e sua respectiva saída abaixo. Verifique que no Dataset de Prêmios 
da Netflix há 8 tipos de programas, além de alguns registros que contém o valor nulo (nan).
Baseado no comando acima e no dataset apresentado, qual dos comandos abaixo é capaz de 
substituir, de forma definitiva, todos os registros com valor “nan” para o valor “indefinido” no 
atributo kind?
 
 d3['kind']="indefinido"
 
 d3['kind'].isnull(value='indefinido',inplace=True)
 
 d3['kind'].fillna(value='indefinido',inplace=True)
 
 d3['kind']='indefinido'
 
 d3['kind']=="nan"="indefinido"
Pergunta 4
 A nomenclatura Mineração de Dados que é derivada do termo inglês Data Mining, é uma 
metodologia processual para identificar irregularidades, padrões, correlações e regressões em 
grandes banco de dados para estimar resultados e gerar decisões assertivas, por intermédio de várias
tipologias de dados, melhorando por exemplo, receitas e lucros e a relação com clientes. Neste 
contexto, o pré-processamento de dados é usado para modificar dados brutos em informações 
relevantes e úteis, tendo três passos principais com suas peculiares atividades, que são: a limpeza de
dados, transformação de dados e redução de dados. 
 Considerando o pré-processamento de dados e seus passos fundamentais, avalie as afirmações a 
seguir, e relacione-as adequadamente aos passos do pré-processamento. 
 
 1 – Limpeza de dados.
 2 – Transformação de dados.
 3 – Redução de dados.
 
 I – É o passo do pré-processamento que envolve as atividades de normalização, seleção de 
atributos, discretização e geração de hierarquia de conceitos.
 II – O grau de complexidade do sistema computacional pode ser reduzido consideravelmente por 
meio da redução de dados, permitindo uma melhor eficiência e diminuição de custos envolvidos no 
processo.
 III – Os dados brutos do dataset podem possuir pontos irrelevantes ou ausentes, assim sendo, a 
limpeza de dados se torna um ponto essencial no processo.
 
 Assinale a alternativa que correlaciona adequadamente os dois grupos de informação.
 
a. 
 1-III; 2-I; 3-II.
 
b. 
 1-III; 2-II; 3-I.
 
c. 
 1-I; 2-II; 3-III.
 
d. 
 1-I; 2-III; 3-II.
 
e. 
 1-II; 2-I; 3-III.
Pergunta 5
 A aplicabilidade dos métodos e técnicas associadas à Ciência de Dados visa, em muitas situações,
a redução do grau de complexidade do processo em si. Assim, um dos processos que compõem a 
Ciência de Dados é o Processo de Descoberta do Conhecimento (KDD) que se caracteriza como um
processo dividido em algumas etapas de interação não triviais, ou seja, não tão simples de serem 
interpretadas e que tendem a identificar padronizações válidas e pertinentes para uso via conjunto 
de dados. Salienta-se que uma das etapas do KDD é exatamente a Mineração de Dados (Data 
Mining). 
 
 Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as 
afirmativas a seguir.
 
 I. Data Mining envolve diretamente a utilização de algoritmos e técnicas para caracterizar 
padrões nos dados e validar hipóteses. 
 II. As apurações na Data Mining tem cunho descritivas ou preditivas.
 III. A Data Mining possui intuitos envolvendo regressões, clusters ou conglomerados, associações
e divergências entre variáveis que compõem o banco de dados. 
 
 Assinale a alternativa que apresenta a sequência correta.
 
a. 
 V - F - V.
 
b. 
 V - V - V.
 
c. 
 F - F - V.
 
d. 
 V - F - F.
 
e. 
 F - V - V.
Pergunta 6
 O KDD (Knowledge Discovery in Databases) geralmente é dividido em cinco fases. Qual delas 
consiste em fazer a verificação da qualidade dos dados, exceções e ruídos são removidos, também 
ocorre limpeza, correção, remoção de dados inconsistentes, e identificação de dados ausentes, 
incompletos ou não íntegros?
 
 Transformação.
 
 Seleção.
 
 Mineração de Dados.
 
 Interpretação.
 
 Pré-Processamento.
Pergunta 7
 Quando se trata do manuseio de dados, especialmente do foco de um profissional que trabalha 
com dados, independentemente das ferramentas utilizadas, sejam elas de análise ou de inteligência 
de máquina, é de fundamental importância a atividade de pré-processamento de dados, incluindo o 
conhecimento da sua tipologia. 
 Nesse contexto, podem ser interpretados como objetos similares a outros objetos no mesmo 
conjunto de dados:
 
a. 
 dados elementares.
 
b. 
 dados inconsistentes. 
 
c. 
 dados sem ruídos.
 
d. 
 dados redundantes.
 
e. 
 dados com ruídos.
SEMANA5
Pergunta 1
 Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre Big Data:
 ( ) – Ao lidar com a diversidade de dados como textos, músicas, hipertextos, vídeos e conteúdos 
interativos, estamos nos referindo à característica de Variedade do Big Data.
 ( ) – Ao tratar, não apenas da entrada, mas também do fluxo de dados, estamos nos referindo 
à característica de Velocidade do Big Data.
 ( ) – Sintaticamente, Big Data pode ser caracterizado a partir de informações que não podem ser 
processadas ou analisadas com ferramentas e métodos tradicionais.
 ( ) – A conexão de um número cada vez maior de dispositivos na rede e o uso mais intenso de 
redes sociais têm impactado diretamente a característica de Veracidade do Big Data.
 A sequência correta de preenchimento dos parênteses, de cima para baixo, é:
 
 V, F, F, V.
 
 V, V, V, F.
 
 V, F, V, F.
 
 V, V, F, V.
 
 F, V, V, F.
Pergunta 2
 Em aprendizado de máquinas, relacione o tipo de tarefa as suas características?
Sistema Características
 I – Regressão
 II – Classificação
 III – Agrupamento
 IV – Associação
( ) – Consiste em encontrar padrões frequentes de associações entre os 
atributos de um conjunto de dados.
( ) – Mapeia um exemplo em um valor real.
( ) – Dados são agrupados de acordo com sua similaridade.
( ) – Associa a descrição de um objeto a uma classe.
 A sequência correta de preenchimento dos parênteses, de cima para baixo, é:IV, III, II, I.
 
 III, II, I, IV.
 
 I, II, III, IV.
 
 I, IV, III, II.
 
 IV, I, III, II.
Pergunta 3 
 Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre aprendizado de máquina:
 ( ) – Algoritmo é um passo a passo para resolução de problemas, nesse caso específico por meio 
de uma linguagem computacional.
 ( ) – Aprendizado Supervisionado traz um objetivo estabelecido e pode ser dividido entre 
problemas de regressão e classificação.
 ( ) – O Aprendizado de Máquina não supervisionado acontece quando as saídas não estão bem 
definidas e as respostas só podem ser aferidas após algumas execuções.
 ( ) – Quando o intuito é compreender melhor os dados para realizar agrupamentos, estamos nos 
referindo a Aprendizado de Máquina por reforço. 
 A sequência correta de preenchimento dos parênteses, de cima para baixo, é:
 
 V, F, V, V.
 
 V, V, F, F.
 
 V, F, F, V.
 
 F, V, V, V.
 
 F, F, V, F.
Pergunta 4
 Analise as afirmações a seguir:
I. A classificação é um fator discriminatório que pode impactar as atividades de 
integração, agregação e análise do ciclo de vida dos dados.
II. A ótica do analista de dados é um fator discriminatório que pode impactar a atividade 
de obtenção do ciclo de vida dos dados.
III. A atividade de obtenção, do ciclo de vida dos dados, pode ser impactada com os fatores
de amostra, com dados incorretos ou incompletos para a questão da discriminação.
IV. Amostra com dados parciais é um fator com impacto discriminatório na atividade de 
limpeza do ciclo de vida dos dados.
 De acordo com as afirmações apresentadas, indique qual alternativa é a correta:
 
 Apenas as afirmações I, III e IV estão corretas.
 
 Apenas as afirmações II, III e IV estão corretas.
 
 Apenas as afirmações I e III estão corretas.
 
 Apenas a afirmação IV está correta.
 
 Apenas as afirmações I e II estão corretas.
Pergunta 5
 É sabido que um algoritmo se traduz como sequência lógica de passos a fim de solucionarmos 
um problema. Assim sendo, para Machine Learning, Inteligência Artificial e ciência de dados, tal 
elemento constitui ferramenta importantíssima que propicia gerar conclusões com base em dados de
treino e dados de teste propriamente ditos. Relacionando-se a tal contexto, tem-se a necessidade de 
mensuração de desempenho de algoritmos em procedimentos de estimação. 
 Assinale a alternativa que descreve corretamente um algoritmo de Machine Learning voltado a 
treinamento de máquina e que não gera um bom rendimento.
 
a. 
 Underfitting.
 
b. 
 Chromofitting.
 
c. 
 Overfitting. 
 
d. 
 Letofitting.
 
e. 
 Data fitting. 
Pergunta 6
 A ciência de dados é uma área interdisciplinar que se baseia em ferramentas distintas e algoritmos
para descrever padrões e insights por intermédio de dados brutos. Isso mostra que 
fundamentalmente nossos movimentos na internet podem ser rastreados para que empresas, com 
base em informações, entendam nossas preferências de consumo. Dessa forma, a Inteligência de 
Máquina é um aparato fundamental para a ciência de dados, constituindo uma metodologia que 
automatiza a descrição de modelos analíticos alicerçados em dados e que buscam padrões com o 
mínimo de participação humana na tomada de decisão.
 Diante da contextualização anterior, assinale a alternativa que descreve corretamente a subárea da
ciência de dados que automatiza modelos analíticos por meio de informações.
 
a. 
 Machine Learning.
 
b. 
 Redes neurais.
 
c. 
 Estatística espacial.
 
d. 
 Big data.
 
e. 
 Simulação Monte Carlo.
Pergunta 7
 A Ciência de Dados é desenvolvida por meio de um conjunto de processos, entre eles o 
aprendizado de máquina (Machine Learning). Dentre esses processos, qual deles geralmente 
acontece após a execução do aprendizado de máquina?
 
 Limpeza dos Dados.
 
 Visualização.
 
 Coleta de Dados.
 
 Pré-Processamento.
 
 Análise Exploratória.
SEMANA6
Pergunta 1
 É notório que vivemos num mundo cada vez mais caracterizado pelas informações presentes e 
pelo conhecimento gerado por elas com base em análises e interpretações estruturadas, coerentes e 
precisas. Dessa maneira, percebe-se claramente que técnicas e tecnologias associadas com a 
predição de dados estão se transformando em aparato fundamental e crucial para as organizações 
tomarem decisões nos mais variados campos. Disso advém a importância do conhecimento de 
métodos e técnicas vinculados a ciência de dados, Machine Learning (ML), Inteligência Artificial 
(IA) etc. 
 Considerando a importância de predição de dados e utilização de algoritmos diversos que 
direcionam à resolução de problemas no contexto organizacional de forma mais confiável, avalie as 
afirmações a seguir, em relação a estruturação e aplicabilidade da predição de dados via ML, e as 
correlacione adequadamente aos termos a que se referem.
 1. Algoritmo KNN.
 2. Predição.
 3. Conhecimento.
 I. Caracteriza-se como um algoritmo de aprendizado de ML de simples implementação alicerçado
na técnica de aprendizado supervisionado.
 II. Técnica vinculada à ciência de dados para predizer ações futuras e moldar comportamentos 
diversos.
 III. A criação de modelos preditivos é feita com base em algoritmos de reprodução do 
conhecimento. 
 Assinale a alternativa que correlaciona adequadamente os dois grupos de informação:
a. 
 1, I; 2, III; 3, II.
b. 
 1, II; 2, III; 3, I.
c. 
 1, III; 2, II; 3, I.
d. 
 1, II; 2, I; 3, III.
e. 
 1, I; 2, II; 3, III.
Pergunta 2
 Considere as afirmações a seguir, sobre Análise ROC, como verdadeiras (V) ou falsas (F):
 ( ) O gráfico ROC é um gráfico bidimensional plotado em um espaço denominado espaço ROC,
com eixos X e Y representando as medidas de taxa de falsos positivos (TFP) e taxa de verdadeiros 
positivos (TVP), respectivamente.
 ( ) ROC quer dizer Receiving Operating Characteristics.
 ( ) Seu uso inicial foi para avaliação e comparação de algoritmos.
 ( ) Uma das principais desvantagens do uso da Análise ROC é seu baixo desempenho com 
grande quantidade de dados.
 A sequência correta de preenchimento dos parênteses, de cima para baixo, é:
 
 V, F, F, V
 
 V, F, V, V
 
 F, F, V, F
 
 V, V, V, F
 
 F, V, F, V
Pergunta 3
 O algoritmo KNN é um dos principais algoritmos vinculados à ciência de dados e, 
especificamente falando da inteligência de máquina, apreciado por seu grau de simplicidade em 
implementações de cálculos diversos. No contexto organizacional, ele é amplamente utilizado em 
situações/problemas nas áreas de saúde, gestão financeira, política, reconhecimento de vídeos, 
reconhecimento de imagens etc. 
 Assinale a alternativa que apresenta corretamente as características do algoritmo KNN.
a. 
 Difícil compreensão; treinamento supervisionado; paramétrico; lazy learner. 
b. 
 Difícil compreensão; treinamento supervisionado; não paramétrico; lazy learner. 
c. 
 Simples compreensão; treinamento supervisionado; não paramétrico; lazy learner.
d. 
 Simples compreensão; treinamento supervisionado; paramétrico; lazy learner.
e. 
 Simples compreensão; treinamento não supervisionado; não paramétrico; lazy learner. 
Pergunta 4
 Observe a imagem a seguir:
 
 Considere como verdadeiras (V) ou falsas (F) as afirmações a seguir sobre a imagem que é uma 
análise exploratória que seguirá para um algoritmo KNN.
 ( ) O gráfico apresentado é tridimensional.
 ( ) O ponto mais inferior no gráfico representa medidas de uma flor Versicolor.
 ( ) Petal Length (cm) é um dos atributos que representa uma dimensão do gráfico.
 ( ) Setosa é uma das classes disponíveis para classificação dos pontos plotados.
 A sequência correta de preenchimento dos parênteses, de cima para baixo, é:V, F, F, V
 
 F, F, V, F
 
 F, V, F, V
 
 V, V, F, F
 
 V, F, V, V
Pergunta 5
 Observe a imagem a seguir:
 Analise as afirmações sobre o algoritmo KNN representado pela imagem.
I. O algoritmo realizará uma tarefa de regressão.
II. O círculo verde, sendo um novo ponto a ser classificado, caso tenhamos um K igual a 3, 
passará a ser da Classe A.
III. Se o algoritmo utilizar a linha (círculo) preta como definição dos vizinhos, o K será igual a 
6.
IV. Se o algoritmo utilizar a linha (círculo) vermelha como definição dos vizinhos, o K será 
igual a 3. 
 De acordo com as afirmações apresentadas, indique qual alternativa traz todas as afirmações 
corretas.
 
 Apenas as afirmações I e III.
 
 Apenas as afirmações I e II.
 
 Apenas as afirmações I, III e IV.
 
 Apenas a afirmação IV.
 
 Apenas as afirmações II, III e IV.
Pergunta 6
 Para realizar a acurácia no algoritmo KNN podemos utilizar uma função do próprio Scikit-Learn.
Qual das funções abaixo é responsável por calcular a acurácia?
 
 KNeighborsRegressor()
 
 fit()
 
 score()
 
 predict()
 
 KNeighborsClassifier()
Pergunta 7
 No mundo atual, informações têm valor relevante para as organizações buscarem as melhores 
soluções a seus problemas, independentemente do grau de complexidade, ou seja, amostrar dados e 
transformá-los em informações relevantes é uma maneira de as empresas gerarem as melhores 
decisões e criarem estratégias mais confiáveis para a alta competitividade de mercado. Em outras 
palavras, as tecnologias se baseiam na busca inteligente de informações por meio de análise e 
interpretação de grande volume de dados de seu público-alvo. Logo os algoritmos são os elementos 
chave para tratativa da resolução de problemas no cunho de ciência de dados, Machine Learning 
(ML), Inteligência Artificial (IA) etc., cada um com características específicas. 
 Ilustrando: temos o algoritmo usualmente conhecido como “K-vizinhos mais próximos”, de 
simples compreensão e que constitui ferramenta importante para problemas de classificação e 
regressão na gestão dos negócios organizacionais.
 Com base no exposto, assinale a alternativa que descreve a nomenclatura para tal algoritmo.
a. 
 Algoritmo KMM.
b. 
 Algoritmo KKN.
c. 
 Algoritmo KMN.
d. 
 Algoritmo KNM.
e. 
 Algoritmo KNN.
SEMANA7
Pergunta 1
 Random Forest é um algoritmo específico de inteligência de máquina muito poderoso que visa 
caracterizar ou gerar predições, tendo aplicabilidades infinitas no mercado, desde bolsa de valores, 
passando pela área de gestão da tecnologia, bem como operação de equipamentos e CRM 
(Customer Relationship Management, em português, gestão de relacionamento com o cliente). 
Nesse contexto, surgem algoritmos voltados a projetos de ciência de dados na prática 
organizacional, dentre os quais pode ser citado o algoritmo de Random Forest, com suas 
características e funcionalidades peculiares. 
 Em relação ao exposto, avalie as afirmações a seguir.
 I. No mundo globalizado, há competitividade acirrada entre organizações quanto à predição de 
dados, a qual pode ser um aparato fundamental para que as mesmas aumentem sua competitividade 
de mercado.
 II. Fundamentalmente falando, alguns dos algoritmos preditivos se alicerçam em essência em 
métodos estatísticos.
 III. O algoritmo de Random Forest é um dos principais e mais populares algoritmos de predição 
de dados e, por conseguinte, de ciência de dados.
 Está correto o que se afirma em:
a. 
 II e III, apenas.
b. 
 I e III, apenas.
c. 
 I, II e III.
d. 
 I e II, apenas.
e. 
 II, apenas.
Pergunta 2
 No universo da ciência de dados, há várias tipologias de algoritmos essencialmente utilizadas 
visando ao aprendizado de máquina por intermédio de modelos e análise de dados, sendo que os 
mesmos comumente dependem do número e dos atributos de exemplos para gerar conhecimentos. É
importante ressaltar que o aprendizado de máquina será mais eficiente a partir do momento em que 
a cardinalidade de exemplos seja maior, pois se tem um aparato mais estruturado para representar a 
realidade.
 Em relação ao exposto, avalie as afirmações a seguir.
 I. O algoritmo de Random Forest é usualmente conhecido por Floresta Aleatória no contexto de 
Machine Learning.
 II. Fundamentalmente falando, trata-se de um algoritmo computacional voltado à criação de 
predições.
 III. O algoritmo de Random Forest gera aleatoriamente diversas áreas de decisão e, com base na 
combinação dos resultados das mesmas, caracteriza o resultado final.
 Está correto o que se afirma em:
a. 
 I, II e III.
b. 
 II e III, apenas.
c. 
 I e III, apenas.
d. 
 I e II, apenas.
e. 
 Apenas em I.
Pergunta 3
 Grosso modo, no contexto de ciência de dados, Machine Learning (ML) e Inteligência Artificial 
(IA), a análise preditiva de dados alicerçada em dados históricos, algoritmos computacionais 
estatísticos e modelos de ML busca caracterizar a probabilidade relacionada a predições futuras, ou 
seja, probabilidades de resultados futuros. Em linguajar popular, isso mostra que a ideia central é 
saber mais do que já aconteceu com o intuito de entender e caracterizar o que pode acontecer. Os 
elementos centrais desse aparato são os algoritmos preditivos.
 Em relação ao exposto, avalie as afirmações a seguir.
 I. Os algoritmos preditivos apresentam grande leque de aplicabilidade no mercado organizacional
e empresarial.
 II. Um algoritmo preditivo pode ser usado em situações vinculadas à bolsa de ações com o intuito
de caracterizar o valor das ações em função de suas distorções mensais.
 III. Um algoritmo preditivo pode ser usado na área da saúde a fim de caracterizar a evolução de 
anomalias ou doenças por intermédio do conhecimento do grau de gravidade de vários órgãos.
 IV. Um algoritmo preditivo pode ser usado na área da gestão de estoques a fim de caracterizar as 
necessidades de reposição a partir do conhecimento de vendas realizadas em períodos anteriores.
 Está correto que se afirma em:
a. 
 II e IV, apenas.
b. 
 I, II, III e IV.
c. 
 I e III, apenas.
d. 
 III e IV, apenas.
e. 
 I, II e III, apenas.
Pergunta 4
 Com a transformação digital, acelerada e dinâmica, a análise preditiva de dados tornou-se uma 
poderosa ferramenta para auxiliar estratégias de negócios e organizacionais como um todo, sendo 
amplamente utilizada por empresas dos mais variados portes e segmentos. No contexto atual, tomar 
decisões gerenciais assertivas pode significar aumento de lucratividade e ganho de competitividade 
de mercado por parte das organizações. É corriqueira, por exemplo, a conceituação de dados e 
informações como o “novo petróleo”, significando uma metodologia interessante para que empresas
ganhem insights, observem oportunidades de mercado, realizem previsões futuras de mercado e 
atuem de forma mais concisa em linhas estratégicas.
 Considerando a teoria sobre predição de dados e suas principais características que contribuem 
significativamente a estudos e tomadas de decisões nas organizações, avalie as afirmações a seguir e
as correlacione adequadamente aos termos a que se referem.
 1. Algoritmo preditivo.
 2. Algoritmo Random Forest.
 3. Árvore de decisão.
 I. Tem como fundamentação básica a geração de informações confiáveis sobre distintos aspectos 
para alicerçar e facilitar o processo decisório organizacional.
 II. É um algoritmo de treinamento supervisionado cuja entrada é uma série temporal que se 
enquadra na metodologia ensemble (métodos ensemble).
 III. É um elemento importante no contexto dos algoritmos preditivos de dados e um dos 
algoritmos mais comuns em aprendizado de máquina, realiza divisões sucessivas nos dados e gera 
conjuntos menores e específicos (atributos) até alcançar dimensões simplificadas para que 
informações sejam padronizadas.
 Assinalea alternativa que correlaciona adequadamente os dois grupos de informação:
a. 
 1, III; 2, II; 3, I.
b. 
 1, I; 2, II; 3, III.
c. 
 1, II; 2, I; 3, III.
d. 
 1, I; 2, III; 3, II.
e. 
 1, III; 2, I; 3, II.
Pergunta 5
 O contexto das análises preditivas necessita do conhecimento sobre conceituação de análise de 
dados. Tal fato se baseia na argumentação de que a predição de dados se caracteriza como 
ferramenta gerencial com potencial de interpretar informações a fim de gerar padrões e descrever 
tendências de mercado. Ilustrando: quando se fala em previsões futuras de mercado, isso propicia 
que empresas distingam seus produtos e serviços daqueles de potenciais concorrentes, agregando 
valor de competitividade a si mesmas. Diante disso, algoritmos preditivos surgem como poderosa 
ferramenta para solucionar problemas (por exemplo, os algoritmos de Random Forest, KNN e 
árvores de decisão). Os algoritmos citados se enquadram num conjunto de métodos com a 
característica básica de apresentar a combinação de distintos modelos para computar um único 
resultado. 
 Na ciência de dados, esses métodos são conhecidos como:
a. 
 métodos censemble.
b. 
 métodos densemble.
c. 
 métodos tensemble.
d. 
 métodos ensemble.
e. 
 métodos kensemble.
Pergunta 6
 Algoritmos são elementos fundamentais para que possamos criar mecanismos via ciência de 
dados na resolução de problemas diversos no contexto organizacional, ou seja, para transformarmos
dados em informações relevantes para organizações tomarem decisões confiáveis.
 Assim sendo, constituem tipos de algoritmos utilizados na ciência de dados na aplicabilidade 
prática:
a. 
 algoritmo KNN; árvores de decisão; Random Forest.
b. 
 algoritmo PNN; árvores de decisão; Handle Forest.
c. 
 algoritmo KMM; árvores de decisão; Handle Forest.
d. 
 algoritmo KMM; árvores MNP; Random Forest.
e. 
 algoritmo KMM; árvores de decisão; Random Forest.

Introdu Ciência de Dados Semana1 à 7

Humanas / Sociais

Ferramentas de estudo

Conteúdos escolhidos para você

Avaliação N2 - UAM

QUESTÕES

Noções Gerais de Mineração de Dados

TS - Introdução a Ciência de Dados - COM350 - Turma 001

BIG DATA ANALYTIC

Perguntas dessa disciplina

Se um gestor escolar deseja comparar a quantidade de alunos matriculados por série ou o índice de participação em atividades extracurriculares, quais

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

1ª) Primeiramente, definimos o tema e o recorte da pesquisa. A partir desse recorte estabelecemos qual é o problema a ser investigado. Também definimo

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Avaliação N2 - UAM

QUESTÕES

Noções Gerais de Mineração de Dados

TS - Introdução a Ciência de Dados - COM350 - Turma 001

BIG DATA ANALYTIC

Perguntas dessa disciplina

Se um gestor escolar deseja comparar a quantidade de alunos matriculados por série ou o índice de participação em atividades extracurriculares, quais

Você está trabalhando em uma empresa de tecnologia que desenvolve um sistema de gerenciamento de e-mails. A empresa deseja implementar um mecanismo...

1ª) Primeiramente, definimos o tema e o recorte da pesquisa. A partir desse recorte estabelecemos qual é o problema a ser investigado. Também definimo

No contexto do aprendizado supervisionado, os algoritmos de classificação são utilizados quando o objetivo é atribuir entradas a categorias discret...

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) A utilização da DQL proporciona aos usuários a capacidade de formu

Mais conteúdos dessa disciplina