Baixe o app para aproveitar ainda mais
Prévia do material em texto
1a Questão (Ref.: 202113508086) Selecione a opção correta sobre o uso de Big Data. Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados. O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado. Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados. É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas. Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras. 2a Questão (Ref.: 202113508090) Em relação às características do processamento de fluxo de dados, selecione a opção correta. São invariáveis no tempo O fluxo de dados é intermitente São relacionados à aplicações de internet das coisas Representam o estado de um sistema em um dado momento Sempre são do mesmo tipo 3a Questão (Ref.: 202113526261) O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake. Camada de Metadados Camada de gerenciamento do ciclo de vida da informação Camada de segurança Camada de governança Camada de gerenciamento de dados 4a Questão (Ref.: 202113517023) Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução. Redutor. Leitor de registros. Mapeador. Combinador. Particionador. 5a Questão (Ref.: 202113516892) A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados que possibilita o Cientista de dados atribuir nome para as colunas. SQL numpy.array RDD DataFrame PySpark 6a Questão (Ref.: 202113516886) Compreender os conceitos e princípios do framework Apache Spark é fundamental para o cientista de dados. Selecione a opção correta que contém o componente do ecossistema Spark responsável por dar suporte para tratar fluxo de dados típicos de aplicações de tempo real. Spark SQL Spark Streaming Spark Core RDDs Spark Hadoop 7a Questão (Ref.: 202113517647) A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que: I - O nome Pandas se refere a dados em painel ou panel data II - O DataFrame é o coletivo de listas (lists) III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta. Apenas I e III. Apenas I. Apenas II. Apenas II e III. Apenas I e II. 8a Questão (Ref.: 202113517729) Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como: Nulos. Enviesados. Faltantes. Embaralhados. Corrompidos. 9a Questão (Ref.: 202113516714) Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial? SIGM. KDM. KDD-DM. CRISP-DM. SIGKDD. 10a Questão (Ref.: 202113516713) O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina também são conhecidos como: Informações. Big Data. Observações. Dados Faltantes. Conhecimento.
Compartilhar