Topicos_de_Big_Data_em_Python

ESTÁCIO

Adilson Ferreira

em 27/09/2025

Conteúdos escolhidos para você

7 pág.

Simulado TÓPICOS DE BIG DATA EM PYTHON

ESTÁCIO

5 pág.

Teste de Conhecimento TÓPICOS DE BIG DATA EM PYTHON

ESTÁCIO

102 pág.

Perguntas dessa disciplina

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

ESTÁCIO

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

Uniasselvi

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Princípios de Desenvolvimento de Spark com Python Desafio 1 Você está trabalhando como analista de dados em uma empresa que decidiu adotar novas tecno

ESTÁCIO

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

7 pág.

Simulado TÓPICOS DE BIG DATA EM PYTHON

ESTÁCIO

5 pág.

Teste de Conhecimento TÓPICOS DE BIG DATA EM PYTHON

ESTÁCIO

102 pág.

Perguntas dessa disciplina

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

ESTÁCIO

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

Uniasselvi

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Princípios de Desenvolvimento de Spark com Python Desafio 1 Você está trabalhando como analista de dados em uma empresa que decidiu adotar novas tecno

ESTÁCIO

Prévia do material em texto

TÓPICOS DE BIG DATA EM PYTHON (75)
Copiar questão 67bf2a7a770c7650b9f68267
Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?
A SIGM.
B KDD-DM.
C SIGKDD.
D KDM.
E CRISP-DM.
Copiar questão 67c46f45af3a4144d0d5334c
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
A MQTT
B HTTP
C TCP
D UDP
E CoAP
Copiar questão 67c4705daf3a4144d0d5335a
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
A Computação centralizada
B Computação Paralela
C Computação em Nuvem
D Computação de Big Data
E Computação de banco de dados
Copiar questão 67c46�baf3a4144d0d53356
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.
A É um ambiente para tratamento e armazenamento apenas de dados relacionais.
B É um repositório centralizado para armazenamento de dados.
C É uma tecnologia de armazenamento e processamento de dados.
D Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.
E É um repositório para tratamento dos dados.
Copiar questão 67c4d04569054d5cfbda1a�
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas co
mo que tipo de dados?
A Temporais
B Semi-Estruturados
C Numéricos
D Atemporais
E Categóricos
Copiar questão 67d8bbc021badaccce1dcf7e
Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estavam prep
arando o conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente os colegas de Luís estão removendo dados faltantes, em qual etapa do processo d
e KDD, Luís se encontra:
A Coleta de Dados.
B Descoberta de Padrões.
C Transformação de Dados.
D Avaliação.
E Pré-Processamento.
Copiar questão 67c4d2e169054d5cfbda1b15
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
A Work Node
B RDD
C Tasks
D Executor
E DAG
Copiar questão 67bf26ea770c7650b9f6825f
O seguinte constructo da linguagem Python representa o condicional simples:
A with
B else
C if
D while
E for
Copiar questão 67d8baae21badaccce1dcf7a
Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos?
A Gráficos de Barra.
B Gráfico de Faces de Chernoff.
C Gráfico de Estrela.
D Gráfico de Matriz de Dispersão.
E Gráficos de Linha.
Copiar questão 67c4d0b469054d5cfbda1b05
Dentre as inúmeras bibliotecas da linguagem Python, qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?
A Pandas
B Scikit-Learn
C OS
D Numpy
E BeautifulSoup
Copiar questão 67c9a5b2c1db0fa3f92e4168
O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas?
I - Agrupamento
II - Classificação
III - Regressão
A Apenas a opção III está correta
B Apenas as opções II e III estão corretas
C Apenas as opções I e III estão corretas
D Apenas a opção II está correta
E Apenas a opção I está correta
Copiar questão 67d2�3a350f825ee81bf05d
Qual destes modelos é adequado para um problema de classificação?
I-SVM
II - Árvore de Decisão
III-K-Médias
A Apenas as opções II e III
B Todas as opções I, Il e lll
C Apenas as opções l e ll
D Apenas a opção III
E Apenas as opções I e III
Copiar questão 67c4d31769054d5cfbda1b18
As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?
A Pandas
B Scipy
C Tensorflow
D Numpy
E Plotly
Copiar questão 67c4d0e469054d5cfbda1b09
A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?
A loc
B sum
C shuffle
D iloc
E reset_index
Copiar questão 67c4d02a69054d5cfbda1afd
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. P
ara isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. Respectivamente a resposta
que completa as duas lacunas é:
A Pizza; Numéricos
B Linha; Temporais
C Linha; Categóricos
D Pizza; Categóricos
E Linha; Numéricos
Copiar questão 67bf29ef770c7650b9f68263
A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I-O nome Pandas se refere a dados em painel ou panel data
II-O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.
A Apenas I e II.
B Apenas II e III.
C Apenas I.
D Apenas II.
E Apenas I e III.
Copiar questão 67d8bc3421badaccce1dcf7f
No modelo de aprendizado profundo, as camadas internas ocultas representam:
I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses
A Apenas III
B Apenas I
C Apenas II e III
D Apenas I e III
E As alternativas I, II e III
Copiar questão 67d302c6350f825ee81bf061
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são)
A Função de Ativação
B Camada de Saída
C Camadas Escondidas
D Vieses
E Pesos
Copiar questão 67c4d00d69054d5cfbda1afb
Atualmente, o Apache Spark é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark.
A map, sample e collect.
B map, filter e union.
C reduce, first e map.
D map, take e reduce.
E count, collect e take.
Copiar questão 67bf2ad2770c7650b9f68269
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.
A Camada de segurança
B Camada de gerenciamento do ciclo de vida da informação
C Camada de governança
D Camada de gerenciamento de dados
E Camada de Metadados
Copiar questão 67bf2b2b770c7650b9f6826b
Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução.
A Redutor.
B Mapeador.
C Particionador.
D Combinador.
E Leitor de registros.
Copiar questão 67c9a466c1db0fa3f92e4165
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, seleci
one a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
A Agregação
B Mapeamento
C Processamento
D Redução
E Separação
Copiar questão 67c46f9eaf3a4144d0d53350
(NCUFPR/2019 Adaptada) Sobre a IoT Internet das coisas) e seus blocos básicos de construção, identifique como verdadeiras V) ou falsas F) as seguintes afirmativas:
( ) Na IoT, os objetos podem prover comunicação entre usuários e dispositivos, viabilizando diversas aplicações, tais como coleta de dados de pacientes e monitoramento de idosos e sensoriamento de a
mbientes de difícil acesso.
( ) A tecnologia de IoT consiste na coexistência colaborativa de dois componentes: As "coisas" e os protocolos de rede que permitema sua comunicação.
( ) Protocolos de comunicação: Viabilizam a troca de dados via Internet entre os objetos físicos e outros sistemas.
Assinale a alternativa que apresenta a sequência correta, de cima para baixo.
A V F V
B F V F
C F V V
D F F F
E V V F
Copiar questão 67c4d28869054d5cfbda1b0f
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python?
A Gerenciador de memória do Python.
B Motor de Busca da IDE do Python.
C Gerenciador de Pacotes do Python.
D Gerenciador de espaços virtuais do Python.
E Biblioteca de Processamento de Linguagem Natural.
Copiar questão 67c4d24e69054d5cfbda1b0b
A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais?
A Gráfico de Estrela.
B Gráfico de Barra.
C Gráfico de Matriz de Dispersão.
D Gráfico de Linha.
E Gráfico de Faces de Chernoff.
Copiar questão 67bf2b9c770c7650b9f6826f
Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados.
A 5
B 6
C 4
D 2
E 3
Copiar questão 67c4d06769054d5cfbda1b01
Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para faze
r suas análises exploratórias. O departamento contabilidade de extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores or
ganizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita po
r Gabriel e pelos Contadores é respectivamente dos tipos:
A Primária; Primária.
B Secundária; Secundária.
C Secundária; Primária.
D Secundária; Terciária.
E Primária; Secundária.
Copiar questão 67c9a2aac1db0fa3f92e4164
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
A Mrjob
B Camada de ingestão
C Task manager
D HDFS
E MapReduce
Copiar questão 67d3005f350f825ee81bf05e
Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.
A Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência.
B Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
C Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
D Garantir a consistência da informação através da ordenação dos dados.
E Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Copiar questão 67c4ce6869054d5cfbda1af3
Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.
A Agrupamento
B Redução
C Embaralhamento
D Gravação da saída
E Combinação
Copiar questão 67d300dd350f825ee81bf05f
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado
em aplicações de aprendizado de máquina.
A MLSpark
B MLlib
C Spark Learning
D RDDs
E GraphX Learning
Copiar questão 680058b129765611e8a76357
Em relação à Internet das coisas, selecione a opção correta que relaciona os dispositivos com aos servidores de aplicação.
A Servidores de banco de dados
B Nuvem
C Dispositivos de recepção
D Redes locais
E Tecnologia proprietária
Copiar questão 67bf2bdf770c7650b9f68271
A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados que
possibilita o Cientista de dados atribuir nome para as colunas.
A DataFrame
B SQL
C PySpark
D numpy.array
E RDD
Copiar questão 67d302ea350f825ee81bf062
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua red
e neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
A MNIST; Processamento de Imagens
B IRIS; Processamento da Linguagem Natural
C IRIS; Processamento de Imagens
D MNIST; Processamento de Linguagem Natural
E Pizzas; Categorias
Copiar questão 67c4c�469054d5cfbda1af9
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
A filter
B distinct
C random
D mapRandom
E sample
Copiar questão 67c46fddaf3a4144d0d53354
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.
A DataNode
B Replicação
C Bloco de dados
D NameNode
E YARN
Copiar questão 67c4d36569054d5cfbda1b1c
Observe o trecho de código abaixo
import numpy as np from pyspark
import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A A execução do trecho de código vai gerar um erro.
B A variável "teste" corresponde a um RDD.
C O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
D A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
E A utilização do SparkContext é opcional.
Copiar questão 67c4d26969054d5cfbda1b0d
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas?
A reset_index
B set_index
C values
D sum
E merge
Copiar questão 6800590e29765611e8a76358
Selecione a opção correta sobre o uso de Big Data.
A Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.
B O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.
C Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.
D Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.
E É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.
Copiar questão 67c9a4f3c1db0fa3f92e4166
Sobre o Pandas DataFrame, o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
A Apenas as opções I, II, III, IV.
B Apenas as opções II, III.
C Apenas as opções I, II, III.
D Apenas as opções I, II, IV.
E Apenas a opção III.
Copiar questão 67c4cfda69054d5cfbda1af7
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks, como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
A É uma técnica lenta para processamento de grandes volumes de dados
B É uma técnica de computação distribuída
C Consiste em uma técnica de programação sequencial
D Só pode ser aplicada para grandes volumes de dados
E Foi substituída no Spark por acesso direto à memória
Copiar questão 67bf2a46770c7650b9f68265
O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de ap
rendizado de máquina também são conhecidos como:
A Informações.
B Conhecimento.
C Dados Faltantes.
D Observações.
E Big Data.
Copiar questão 67c47044af3a4144d0d53358
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência paraas outras plataformas.
A Google Cloud
B Microsoft Azure
C Amazon AWS
D IBM Cloud
E Oracle Cloud
Copiar questão 67c47077af3a4144d0d5335c
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.
A Apenas não estruturado
B Estruturado, não estruturado e semiestruturado
C Apenas estruturado
D Estruturado e semiestruturado
E Apenas tabelas relacionais
Copiar questão 67c9a54ac1db0fa3f92e4167
A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analisem as alternativas listadas e assinalem a correta.
A Apenas I e III
B Apenas II e III
C Apenas I e II
D As alternativas I, II e III
E Apenas III
Copiar questão 67c46f66af3a4144d0d5334e
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias.
A Dados estruturados
B Dados não estruturados
C Dados semiestruturados
D Dados de Internet das Coisas
E Dados de Big Data
Copiar questão 67c4cdbd69054d5cfbda1aeb
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.
A Volume
B Variedade
C Veracidade
D Velocidade
E Valor
Copiar questão 67c46fc1af3a4144d0d53352
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake.
A Demanda por equipamentos especiais.
B Possui alta latência para acesso dos dados.
C Armazena os dados de modo eficiente.
D Aplica processos de tratamento nos dados.
E São exclusivos da distribuição Hadoop Apache.
Copiar questão 6800593e29765611e8a76359
Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo de serviço focado no hardware.
A CaaS
B MaaS
C HaaS
D PaaS
E IaaS
Copiar questão 67d8b93021badaccce1dcf76
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerencia
mento do Hadoop.
A Mecanismo para melhorar o processamento dos dados.
B Tratar dados não-estruturados.
C Processos de extração, transformação e carregamento dos dados.
D Aplicar políticas de segurança.
E Gerenciamento do armazenamento de dados.
Copiar questão 67c4d33969054d5cfbda1b1a
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabele
cer uma conexão com o Cluster.
A DataFrame
B SparkSession
C RDD
D Spark.Catalog
E SparkContext
Copiar questão 67c4cdf669054d5cfbda1aed
O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação
do Hadoop.
A Lua
B JavaScript
C Perl
D Java
E Python
Copiar questão 67bf2c4b770c7650b9f68273
O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark, selecione a opção correta.
A O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.
B O gerenciador de cluster do Spark faz o gerenciamento da execução das tarefas.
C Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como escravos.
D O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do Spark.
E O Executor corresponde ao conjunto de máquina que executam como escravos.
Copiar questão 67c4ce3169054d5cfbda1aef
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
A Petabytes
B Zetabytes
C Exabytes
D Terabytes
E Gigabytes
Copiar questão 67bf2b6d770c7650b9f6826d
Em relação às redes de Internet das coisas, selecione a opção correta que relaciona os dispositivos entre si.
A São um relacionamento máquina a máquina
B É uma conexão rede a rede
C São interconectados entre si
D São um conjunto de sinais
E São redes locais
Copiar questão 67c471c8af3a4144d0d5335e
A respeito dos arquivos de configuração do Hadoop, selecione a opção correta com as tags que fornecem acesso aos parâmetros de configuração.
A
B
C
D
E
Copiar questão 67c4d0cc69054d5cfbda1b07
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de inst
alação para utilização do PySpark.
A Java e R
B Python e Escala
C Hadoop e Spark
D Java e Python
E Casandra e Spark
Copiar questão 67c4ce4e69054d5cfbda1af1
Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
A Nível de consumo
B Nível de governança
C Nível de Metadados
D Nível de admissão
E Nível de gerenciamento
Copiar questão 67d30217350f825ee81bf060
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
A Regressão
B Classificação
C Q-Learning
D Agrupamento
E Modelos Generativos
Copiar questão 67c4d2cc69054d5cfbda1b13
Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina?
A Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados.
B Fazer com que computadores acessem a internet mais rápido.
C Viabilizar a computação paralela.
D Melhorar a capacidade de processamento de dados do sistema.
E Incrementar o uso da memória de longa duração do sistema.
Copiar questão 67c4d2b169054d5cfbda1b11
Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
A console.log
B print
C cout
D printf
E plot_tree
Copiar questão 67d8ba6d21badaccce1dcf79
Luís planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente, ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão o
rganizado de criação de projeto, qual é a sequência desejável de passos que esperamos que Luís siga?
A Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
B Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.
C Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
D Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo.
E Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo
__init__.py em branco e outro para a lógica do módulo.
Copiar questão 6813f86abe1d41f85c4764f1
Selecione a opção a respeito da computação em nuvem.
A é uma outra forma de denominar a internet das coisas
B é um conjunto de tecnologias que disponibilizamsistemas e recursos na internet
C é uma forma de abstrair serviços da internet das coisas em redes locais distribuídas
D é a definição para aplicações de Big Data que utilizam os protocolos de internet
E trata-se da utilização de aplicações com finalidades específicas
Copiar questão 67c9a5f5c1db0fa3f92e4169
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade, ele se refere ao processo de:
A CNN
B KDD
C RNN
D LSTM
E DNN
Copiar questão 67d8ba2f21badaccce1dcf78
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala?
A MinMax
B Shuffle
C Splice
D Divide
E Map & Reduce
Copiar questão 67d8bb5321badaccce1dcf7c
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML
A Apenas a opção I
B Apenas as opções I e III
C Apenas as opções II e III
D As opções I, II, e III estão corretas
E Apenas a opção II
Copiar questão 67d8bb8121badaccce1dcf7d
Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn?
A Gráfico de Matriz de Dispersão
B Plotly
C Regressão Linear
D Gráfico de Histograma
E Classification Report
Copiar questão 6800576329765611e8a76355
Selecione a opção correta a respeito do processamento e streaming de dados.
A Os dados sempre estão no mesmo formato
B Caracterizam-se pelo envio do mesmo dado por várias fontes
C Os dados são caracterizados também são denominados de lotes estáticos.
D Os dados podem vir de várias fontes
E Os dados sempre são provenientes de aplicações transacionais
Copiar questão 67c9a244c1db0fa3f92e4163
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
A Camada de aplicação
B Camada lógica
C Camada de transporte
D Camada de sessão
E Camada de enlace de dados
Copiar questão 6800577b29765611e8a76356
Em relação às aplicações de Internet das coisas, selecione a opção correta sobre os seus objetivos.
A Aumentar a complexidade do processo de gestão dos dados
B Melhorar a interatividade com o usuário
C Aumentar a diversidade dos dados
D Ampliar o volume de dados da aplicação
E Obter dados que sirvam como base na tomada de decisão
Copiar questão 67d8ba1721badaccce1dcf77
A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
Qual a saída esperada após a execução do programa?
A Serão impressos no console os números pares entre 1 e 10.
B Serão impressos no console os números pares entre 0 e 9.
C Serão impressos no console os números ímpares entre 0 e 10.
D Serão impressos no console os números ímpares entre 0 e 9.
E Serão impressos no console os números racionais entre 0 e 9.
Copiar questão 67c9a177c1db0fa3f92e4162
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
A É um programa
B É um protocolo de internet das coisas
C É uma placa de hardware
D É o outro nome para Raspberry PI
E É um ecossistema que envolve software e hardware
Copiar questão 67d2fec4350f825ee81bf05c
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'Ikey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='Ikey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas Ikey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela Ikey e rkey.
A Apenas a opção II está correta.
B Apenas as opções I e III estão corretas.
C Apenas a opção III está correta.
D Apenas a opção I está correta.
E Apenas as opções II e III estão corretas.
Copiar questão 67d8bb0521badaccce1dcf7b
A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
A O DataFrame é indexado pelas suas colunas.
B As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
C Os índices não são deletados, evitando a perda de colunas no DataFrame da agregação.
D O DataFrame é embaralhado.
E Nada, o DataFrame fica imutável.
Copiar questão 67c4d08f69054d5cfbda1b03
As técnicas de aprendizado de máquina para aprendizado supervisionado são:
I Classificação
II Agrupamento
III Regressão
A Apenas I
B Apenas II e III
C Apenas I e II
D Apenas I e III
E Apenas II

Topicos_de_Big_Data_em_Python

ESTÁCIO

Ferramentas de estudo

Conteúdos escolhidos para você

Simulado TÓPICOS DE BIG DATA EM PYTHON

Teste de Conhecimento TÓPICOS DE BIG DATA EM PYTHON

QUESTÕES

TÓPICOS DE BIG DATA EM PYTHON

TÓPICOS DE BIG DATA EM PYTHON

Perguntas dessa disciplina

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Princípios de Desenvolvimento de Spark com Python Desafio 1 Você está trabalhando como analista de dados em uma empresa que decidiu adotar novas tecno

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Simulado TÓPICOS DE BIG DATA EM PYTHON

Teste de Conhecimento TÓPICOS DE BIG DATA EM PYTHON

QUESTÕES

TÓPICOS DE BIG DATA EM PYTHON

TÓPICOS DE BIG DATA EM PYTHON

Perguntas dessa disciplina

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Princípio de Big Data Desafio 1 Você foi recentemente contratado por uma empresa de análise de dados como analista de Big Data. Durante uma reunião co

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Princípios de Desenvolvimento de Spark com Python Desafio 1 Você está trabalhando como analista de dados em uma empresa que decidiu adotar novas tecno

Mais conteúdos dessa disciplina