Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: TÓPICOS DE BIG DATA EM PYTHON AV CORRIGIDA A coleta e preparação dos dados para análise no Python são de extrema importância. Os dados secundários são assim definidos devido: O fato de requererem muito mais pré-processamento. O fato de ocuparem menos espaço de memória. O fato de virem de uma fonte alternativa não convencional. O fato de terem sido obtidos a partir de terceiros. A sua baixa qualidade. Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como: Enviesados. Faltantes. Nulos. Embaralhados. Corrompidos. 02318 - BIG DATA ANALYTICS Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit- Learn? console.log cout printf print plot_tree O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina também são conhecidos como: Big Data. Conhecimento. Informações. Dados Faltantes. Observações. A respeito dos componentes do ecossistema do Hadoop, selecione a opção correta que apresenta o componente responsável pelo gerenciamento dos clusters. Zookeeper HBase Flume Spark HCluster Ser capaz de gerenciar uma infraestrutura complexa é uma habilidade fundamental para o profissional de Tecnologia da Informação. Sendo assim, analise as alternativas e selecione a opção que apresenta o componente responsável por desempenhar o papel de mestre na arquitetura do Hadoop. DataNode HServerMap Bloco de dados NameNode Replicador Existem diversos motivos que justificam o uso da computação em nuvem, apesar disso, existe um conceito que é essencial para computação em nuvem. Selecione a opção correta que contenha esse conceito. disponibilidade produtividade confiabilidade abstração segurança Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados. 4 6 3 5 2 Observe o trecho de código abaixo import numpy as np x = np.array([1, 5, 1, 6, 4, 7, 7]) função_teste = lambda x: x+x print(função_teste(x)) Selecione a opção correta a respeito dele. O programa vai gerar um erro. O programa produz a saída 31. O programa ficará sintaticamente correto se for acrescentado o "SparkContext" para executar o MapReduce. O programa vai gerar e imprimir [2 10 2 12 8 14 14]. A saída do programa é [2]. O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark, selecione a opção correta. O gerenciador de cluster do Spark oferece suporte a Hadoop YARN. O Executor corresponde ao conjunto de máquina que executam como escravos. Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como escravos. O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do Spark. O gerenciador de cluster do Spark faz o gerenciamento da execução das tarefas.
Compartilhar