Baixe o app para aproveitar ainda mais
Prévia do material em texto
02727PRINCÍPIOS DE BIG DATA 1. Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. UDP MQTT CoAP TCP HTTP Data Resp.: 07/03/2023 16:36:38 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 2. Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Google Cloud Microsft Azure Oracle Cloud IBM Cloud Amazon AWS Data Resp.: 07/03/2023 16:37:40 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. 02508HADOOP E ARMAZENAMENTO DE DADOS 3. Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É um repositório centralizado para armazenamento de dados. É um repositório para tratamento dos dados. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp É uma tecnologia de armazenamento e processamento de dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. Data Resp.: 07/03/2023 16:38:58 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 4. Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Redução Gravação da saída Combinação Agrupamento Embaralhamento Data Resp.: 07/03/2023 16:40:56 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON 5. Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. MLlib Spark Learning RDDs GraphX Learning MLSpark Data Resp.: 07/03/2023 16:42:37 Explicação: https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 6. Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. filter random distinct mapRandom sample Data Resp.: 07/03/2023 16:43:37 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 02260ANÁLISE DE DADOS EM PYTHON COM PANDAS 7. No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Atemporais Temporais Numéricos Semi-Estruturados Categóricos Data Resp.: 07/03/2023 16:44:30 Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. 8. A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação? O DataFrame é indexado pelas suas colunas. O DataFrame é embaralhado. Nada, o DataFrame fica imutável. As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha. Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação. Data Resp.: 07/03/2023 16:45:23 Explicação: Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o reset_index() após a agregação, os índices originais das colunas são preservados. 02318BIG DATA ANALYTICS 9. Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? OS Numpy Scikit-Learn BeautifulSoup Pandas Data Resp.: 07/03/2023 16:47:29 Explicação: O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada. 10. Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________: https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp MNIST; Processamento de Imagens Pizzas; Categorias IRIS; Processamento da Linguagem Natural MNIST; Processamento de Linguagem Natural IRIS; Processamento de Imagens Data Resp.: 07/03/2023 16:49:06 Explicação: O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de máquina. Mas, essa fama nãoé à toa, pois esse é o conjunto de comparação entre modelos de processamento de imagens, uma vez que uma boa configuração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST. Não Respondida Não Gravada Gravada
Compartilhar