BIG DATA EM PYTHON

Tópicos em Desenvolvimento de Sistemas

•

ESTÁCIO

jean paul procopio

06/11/2023

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Em relação aos RDBMS, selecione a opção que apresenta a característica que trata as transações em um banco de dados como uma unidade indivisível.
--Atomicidade.
O Apache Spark é um framework de código aberto aplicado para projetos de Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas.
--first, take e reduce.
Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
--plot_tree.
Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução.
--Particionador.
Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como:
--Faltantes.
Selecione a opção correta sobre o uso de big data:
--O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.
Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade fundamental para o profissional de tecnologia da informação. Sendo assim, analise as alternativas e selecione a opção que apresenta o componente responsável por desempenhar o papel de mestre na arquitetura do Hadoop.
--NameNode.
Em relação às características do processamento de fluxo de dados, selecione a opção correta.
--Representam o estado de um sistema em um dado momento
O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado para trabalhar com grandes volumesde de dados. Selecione a opção correta que apresenta o paradigma como o HDFS funciona.
--Mestre e escravo.
A respeito dos componentes do ecossistema do Hadoop, selecione a opção correta que apresenta o componente responsável pelo gerenciamento dos clusters.
--Zookeeper
A escolha adequada de uma linguagem de programação é fundamental para a maximização dos resultados almejados. Nesse sentido, selecione a opção que contém a linguagem de programação mais adequada para desenvolver aplicações para o Spark.
--Scala
Selecione a opção correta que contenha as categorias em que transformações podem ser classificadas.
--Mapeamento e redução
No contexto de Coleta de Dados, o que podemos afirmar sobre Dados Primários:
I - São dados obtidos em primeira mão pelo cientista de dados ou pelo analista de dados
II - São dados que precisam ser pré-processados para análise, e serão feitos exclusivamente no primeiro momento pelo dono dos dados, o analista em questão
III - São obtidos através de softwares de monitoramento de logs, surveys, e bancos de dados
Analise as frases listadas e assinale a alternativa correta.
--Apenas as opções II e III.
O seguinte constructo da linguagem Python representa o condicional simples:
--If
Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?
--CRISP-DM.
O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina também são conhecidos como:
--Big Data.
Em relação às aplicações de Internet das coisas, selecione a opção correta sobre os seus objetivos.
--Obter dados que sirvam como base na tomada de decisão.
Selecione a opção a respeito da computação em nuvem.
--é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet.
Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação custo e benefício a respeito da expansão de uma infraestrutura.
--Escalabilidade
Observe o trecho de código abaixo
import numpy as np
x = np.array([1, 5, 1, 6, 4, 7, 7])
função_teste = lambda x: x+x
print(função_teste(x))
Selecione a opção correta a respeito dele.
--O programa vai gerar e imprimir [2 10 2 12 8 14 14].
O Apache Spark é um framework de código aberto aplicado para projetos de Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como ações no Spark.
--First, take, reduce.
O Apache Spark é o mais bem-sucedido framework para Big Data. Selecione a opção que contenha apenas funções que podem ser categorizadas como transformações no Spark.
--Map, filter e union.
As bibliotecas são coleções de subprogramas utilizados no desenvolvimento de softwares. Selecione a opção correta que contém o componente do ecossistema do Spark responsável por realizar operações paralelas em grafos.
--GraphX.
A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de BigData. Nesse sentido, selecione a opção que contém a estrutura de dados que possibilita o Cientista de dados atribuir nome para as colunas.
--DataFrame.
As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?
--Tensorflow.
Os modelos simbólicos são aqueles que:
--Se baseiam em lógica e regras de inferência para aprender e raciocinar.
Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando?
--IA SubSimbólica.
Em relação à Internet das coisas, selecione a opção correta que relaciona os dispositivos com a os servidores de aplicação
--Nuvem.
Em relação às redes de Internet das coisas, selecione a opção correta que relaciona os dispositivos entre si.
--São interconectados entre si.
Selecione a opção correta a respeito do processamento e streaming de dados.
--Os dados sempre são provenientes de aplicações transacionais.
Selecione a opção correta que contenha a ação responsável por retornar os elementos de um conjunto de dados como um vetor.
--collect
O MapReduce é uma técnica de computação distribuída considerada extremamente eficiente para o processamento de dados, desempenhando papel fundamental no Spark. Em relação ao MapReduce, selecione a opção correta.
--Pode ser aplicada para projetos que envolvam grandes volumes e variedade de dados.
A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels e JSONs
Analise as frases listadas e assinale a alternativa correta.
--Apenas I e II.
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop.
--O Hadoop utiliza o HDFS para armazenar dados.
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.
--Camada de Metadados.
A respeito das aplicações de fluxos de dados, selecione a opção correta.
--Serviços sob demanda, como serviços de filme online.
Compreender os conceitos e princípios do framework Apache Spark é fundamental para o cientista de dados. Selecione a opção correta que contém o componente do ecossistema Spark responsável por dar suporte para tratar fluxo de dados típicos de aplicações de tempo real.
--Spark Streaming
Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados.
--3
Em relação a os arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo que trata das configurações do HDFS.
--hdfs-site.xml
Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo de serviço focado no hardware.
--IaaS
A coleta e preparação dos dados paraanálise no
Python são de extrema importância. Os dados secundários são assim definidos devido:
--O fato de terem sido obtidos apartir de terceiros.
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
--Sample.
O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação a arquitetura do Spark, selecione a opção correta.
--O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.
A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método de reset_index() no resultado de uma agregação?
--Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?
--Scikit-Learn.
Quais os métodos de aprendizado de máquina que existem?
--Aprendizado Supervisionado, Não-Supervisionado, Por Reforço e Semisupervisionado.