Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Acertos: 9,0 de 10,0 27/04/2022 Acerto: 1,0 / 1,0 A respeito das aplicações de fluxos de dados, selecione a opção correta. Transações bancárias, como o serviço de PIX. Serviços sob demanda, como serviços de filme online. Serviços de compras online Serviço de correio eletrônico Reapresentação de programas de televisão. Respondido em 27/04/2022 21:06:37 Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. Acerto: 1,0 / 1,0 Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Microsft Azure Oracle Cloud Amazon AWS IBM Cloud Google Cloud Respondido em 27/04/2022 21:08:38 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. Acerto: 1,0 / 1,0 Questão1a Questão2a Questão3a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake. Camada de governança Camada de segurança Camada de gerenciamento de dados Camada de gerenciamento do ciclo de vida da informação Camada de Metadados Respondido em 27/04/2022 21:15:51 Explicação: O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e das regras de armazenamento. Acerto: 1,0 / 1,0 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de gerenciamento Nível de Metadados Nível de governança Nível de admissão Nível de consumo Respondido em 27/04/2022 21:17:27 Explicação: O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão. Acerto: 1,0 / 1,0 Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A utilização do SparkContext é opcional. A variável "teste" corresponde a um RDD. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A execução do trecho de código vai gerar um erro. A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". Respondido em 27/04/2022 21:21:01 Explicação: Gabarito: A variável "teste" corresponde a um RDD. Questão4a Questão5a Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". Acerto: 1,0 / 1,0 O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Processamento Mapeamento Separação Redução Agregação Respondido em 27/04/2022 21:22:32 Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Acerto: 1,0 / 1,0 Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Apenas as opções II e III estão corretas. Apenas as opções I e III estão corretas. Apenas a opção III está correta. Apenas a opção I está correta. Apenas a opção II está correta. Respondido em 27/04/2022 21:45:45 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. Questão6a Questão7a Acerto: 1,0 / 1,0 No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Temporais Categóricos Numéricos Semi-Estruturados Atemporais Respondido em 27/04/2022 21:28:58 Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. Acerto: 0,0 / 1,0 Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? Numpy OS Pandas Scikit-Learn BeautifulSoup Respondido em 27/04/2022 21:39:07 Explicação: O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada. Acerto: 1,0 / 1,0 Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial? SIGKDD. SIGM. KDM. KDD-DM. CRISP-DM. Respondido em 27/04/2022 21:34:57 Explicação: O processo de tamanho similar ao KDD cujo âmbito industrial se beneficia mais devido à suas etapas de entendimento do negócio é o CRISP-DM, processo esse que, diferentemente do KDD, contempla a entrega do artefato de aprendizado de máquina. Questão8a Questão9a Questão10a javascript:abre_colabore('38403','281977925','5272794797'); 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/4 Acerto: 1,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. velocidade volume valor variedade veracidade Respondido em 29/04/2022 18:11:50 Explicação: A característica velocidade trata da rapidez de geraçãoe processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. Acerto: 1,0 / 1,0 Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. É um programa É um protocolo de internet das coisas É o outro nome para Raspberry PI É um ecossistema que envolve software e hardware É uma placa de hardware Respondido em 29/04/2022 18:12:01 Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. Acerto: 1,0 / 1,0 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. YARN Replicação Bloco de dados NameNode DataNode Respondido em 29/04/2022 18:13:33 Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. Questão1a Questão2a Questão3a 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/4 Acerto: 1,0 / 1,0 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas estruturado apenas tabelas relacionais apenas não estruturado estruturado e semiestruturado estruturado, não estruturado e semiestruturado Respondido em 29/04/2022 18:14:09 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. Acerto: 1,0 / 1,0 O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Casandra e Spark Hadoop e Spark Python e Escala Java e Python Java e R Respondido em 29/04/2022 18:14:38 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. Trata-se de um exemplo de utilização do Spark SQL É possível afirmar que a tabela_teste existe. A implementação do trecho de código está errada. A execução do trecho de código vai funcionar corretamente. É um exemplo de aplicação de GraphX. Respondido em 29/04/2022 18:14:51 Questão4a Questão5a Questão6a 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/4 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. Acerto: 1,0 / 1,0 Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? values reset_index merge set_index sum Respondido em 29/04/2022 18:15:11 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. Acerto: 1,0 / 1,0 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Primária; Primária. Secundária; Secundária. Primária; Secundária. Secundária; Primária. Secundária; Terciária. Respondido em 29/04/2022 18:16:45 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. Acerto: 1,0 / 1,0 Questão7a Questão8a Questão 9a 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/4 Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? Gráfico de Histograma Classification Report Plotly Gráfico de Matriz de Dispersão Regressão Linear Respondido em 29/04/2022 18:18:19 Explicação: O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground truth para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e medida F de cada classe possível e também as mesmas métricas em um nível macro. Acerto: 1,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Respondido em 29/04/2022 18:17:51 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados. Questão10a 18/11/2021 19:33 EPS https://simulado.estacio.br/alunos/ 1/4 NEILA TEIXEIRA LOPES Avaliação AV 202001023267 POLO JOÃO UCHÔA - RIO DE JANEIRO - RJ avalie seus conhecimentos RETORNAR À AVALIAÇÃO Disciplina: CCT0854 - BIG DATA Período: 2021.3 EAD (GT) / AV Aluno: NEILA TEIXEIRA LOPES Matrícula: 202001023267 Data: 18/11/2021 19:33:08 Turma: 9001 ATENÇÃO 1. Veja abaixo, todas as suas respostas gravadas no nosso banco de dados. 2. Caso você queira voltar à prova clique no botão "Retornar à Avaliação". 1a Questão (Ref.: 202006201025) (FCC - 2020 AL - AP - Analista Legislativo - Desenvolver de Banco de Dados) Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus produtos e serviços, prestígio da imagem da organização e seus representantes. Porém, parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos dados, a fimde qualificá-los antes de disponibilizá-los para a tomada de decisão na empresa, segundo o conceito das cinco dimensões "V" de avaliação de um Big Data, se refere: Ao volume. Variedade. Ao valor. À velocidade. À veracidade. 2a Questão (Ref.: 202006209851) Os projetos de Big Data envolvem muitos riscos. Os riscos devem ser gerenciados através de atividades com objetivos identificá-los, analisá-los e respondê-los, eliminando ou minimizando o seu impacto no projeto. Marque a opção que representa estratégias para tratar os riscos. Transformar, amenizar, transferir e aceitar Predizer, mitigar, transferir e aceitar Analisar, mitigar, corrigir e aceitar Prevenir, mitigar, transferir e aceitar Eliminar, mitigar e aceitar 3a Questão (Ref.: 202006219033) (FGV ¿ 2017 ¿ IBGE - Analista de Censitário - Área Análise de Sistemas - Desenvolvimento de Aplicações - Web 18/11/2021 19:33 EPS https://simulado.estacio.br/alunos/ 2/4 Designer) O tipo de Banco de Dados NoSQL, não relacional, que armazena tais informações, utilizando estruturas de vértices e arestas, com propriedades associadas, é o: Chave-valor Documento Tabular Grafo Colunar 4a Questão (Ref.: 202006221931) Os projetos de Big Data têm a característica de aumentar exponencialmente da quantidade de dados. Prever, adquirir e manter a infraestrutura necessária o funcionando do Big Data com um bom desempenho ao longo do tempo torna-se um fator determinante para o sucesso do projeto. A computação em nuvem tem se mostrado uma boa alternativa por apresentar inúmeros benefícios, exceto: Uso da internet para acesso aos seus recursos. Estimar os recursos necessários desde o início do projeto de Big Data de forma precisa e segura. Flexibilidade para alocação de recursos sob demanda. Uma vez identificada a necessidade de maior ou menor capacidade de processamento, esse requisito pode ser atendido. Contratação de serviço de um provedor para atender as suas necessidades. 5a Questão (Ref.: 202006213328) Assinale a opção que NÃO representa uma estratégia para lidar com dados incompletos. Empregar algoritmos de AM que lidam internamente com valores ausentes. Substituir os valores ausentes por alguma constante. Atribuir um peso maior para balancear esses dados. Realizar cálculos para completar os valores ausentes. Eliminar os objetos com valores ausentes. 6a Questão (Ref.: 202006221935) O volume e variedade dos dados de Big Data trouxe uma maior complexidade para o processo de compreensão dos dados analisados, tornando a visualização uma abordagem cada vez mais essencial em um projeto de Big Data. Assinale a opção que melhor representa a importância da visualização dos dados. Facilitar a apresentação dos resultados obtidos nas análises. Ganhar credibilidade para realização de novas análises. Manter o projeto de Big Data em constante mudança. Identificar pontos de melhoria no processo. Prover uma interface bonita para apresentar os dados. 7a Questão (Ref.: 202006221940) (ANAC 2016 ¿ Analista Administrativo ¿ Análise de Sistemas) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é o(a) 18/11/2021 19:33 EPS https://simulado.estacio.br/alunos/ 3/4 EMRx Yam Common MapFix GoogleCrush Hadoop 8a Questão (Ref.: 202006219046) O sistema Apache Hive acessa diretamente os arquivos armazenados no HDFS e os consulta através de uma interface semelhante ao SQL. Isso tem possibilitado aos desenvolvedores fluentes em SQL tirar proveito dos benefícios do Hadoop sem exigir que eles aprendam Java ou conheçam a API nativa do MapReduce. O nome dessa interface é: Simple Hive Language Hive Query Language Hive Analise Language Complex Query Language Hive Manipulation Language 9a Questão (Ref.: 202006216388) Qual dos comandos abaixo permite a inclusão de um arquivo no sistema HDFS? hadoop fs -rmdir; hadoop fs -cp. hadoop fs - copyToLocal; hadoop fs -copyFromLocal; hadoop fs -rm; 10a Questão (Ref.: 202006219056) A biblioteca MLlib oferece: Utilitários de persistência, recursos para preparação de dados e manipulação de dados estruturados; Recursos para preparação de dados, vários tipos de algoritmos de aprendizado de máquina e utilitários de persistência; Algoritmos de aprendizado de máquina e para processamento em tempo real; Exclusivamente recursos para extração, transformação e carga de dados Algoritmos de aprendizado de máquina e recursos de processamento de grafo; Autenticação para a Prova On-line Caso queira FINALIZAR a avaliação, digite o código de 4 carateres impresso abaixo. ATENÇÃO: Caso finalize esta avaliação você não poderá mais modificar as suas respostas. 6KRE Cód.: FINALIZAR Obs.: Os caracteres da imagem ajudam a Instituição a evitar fraudes, que dificultam a gravação das respostas. 18/11/2021 19:33 EPS https://simulado.estacio.br/alunos/ 4/4 Período de não visualização da avaliação: desde 28/09/2021 até 23/11/2021. 23/04/2022 16:13 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Simulado AV Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): JOÃO FRANCISCO RAMOS JUNIOR 202001365397 Acertos: 10,0 de 10,0 23/04/2022 Acerto: 1,0 / 1,0 Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data. Petabytes Terabytes Gigabytes Zetabytes Exabytes Respondido em 23/04/2022 15:54:15 Explicação: As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. Acerto: 1,0 / 1,0 Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias. dados de Big Data dados semiestruturados dados estruturados dados de Internet das Coisas dados não estruturados Respondido em 23/04/2022 15:54:23 Explicação: Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de dados não convencionais que não são armazenados em bancos de dados tradicionais. Questão1 a Questão2 a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); 23/04/2022 16:13 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 Acerto: 1,0 / 1,0 O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop. Java Script Java Python Lua Perl Respondido em 23/04/2022 15:54:31 Explicação: O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da Apache Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas linguagens, entre as quais o Python. Acerto: 1,0 / 1,0 O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. Tratar dados não-estruturados. Mecanismo para melhorar o processamento dos dados. Aplicar políticas de segurança. Processos de extração, transformação e carregamento dos dados. Gerenciamento do armazenamento de dados. Respondido em 23/04/2022 15:54:42 Explicação: O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa. Acerto: 1,0 / 1,0 Os componentes doSpark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. MLlib GraphX Learning MLSpark Spark Learning RDDs Respondido em 23/04/2022 15:54:49 Explicação: Gabarito: MLlib Questão3 a Questão4 a Questão5 a 23/04/2022 16:13 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. Acerto: 1,0 / 1,0 O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. Tasks RDD Executor Work Node DAG Respondido em 23/04/2022 15:54:53 Explicação: Gabarito: RDD Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo. Acerto: 1,0 / 1,0 Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Apenas a opção II está correta. Apenas as opções II e III estão corretas. Apenas a opção III está correta. Apenas as opções I e III estão corretas. Apenas a opção I está correta. Respondido em 23/04/2022 15:56:38 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. Questão6 a Questão7 a 23/04/2022 16:13 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 Acerto: 1,0 / 1,0 Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? Gerenciador de Pacotes do Python. Biblioteca de Processamento de Linguagem Natural. Motor de Busca da IDE do Python. Gerenciador de espaços virtuais do Python. Gerenciador de memória do Python. Respondido em 23/04/2022 16:01:13 Explicação: O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. Acerto: 1,0 / 1,0 No modelo de aprendizado profundo, as camadas internas ocultas representam: I - Abstrações de aspectos de dados complexos II - Informação relevante dos dados de entrada III - Pesos e Viéses Apenas II e III As alternativas I, II e III Apenas I Apenas I e III Apenas III Respondido em 23/04/2022 16:04:55 Explicação: Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente Questão8 a Questão9 a 23/04/2022 16:13 Estácio: Alunos https://simulado.estacio.br/alunos/ 5/5 abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final. A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes. Acerto: 1,0 / 1,0 A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence? Regressão Classificação Q-Learning Agrupamento Modelos Generativos Respondido em 23/04/2022 15:55:29 Explicação: O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora. Questão10 a javascript:abre_colabore('38403','281215056','5242968286'); 12/10/2021 20:22 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/4 Simulado AV Teste seu conhecimento acumulado Disc.: BIG DATA Aluno(a): NEILA TEIXEIRA LOPES 202001023267 Acertos: 10,0 de 10,0 12/10/2021 Acerto: 1,0 / 1,0 (IADES - 2018 - APEX Brasil - Analista - Prospecção de Projetos) Assinale a alternativa que apresenta o conceito de Big Data. São apenas grandes volumes de dados que precisam ainda ser mais bem aproveitados pelo mundo corporativo. Conjuntos de dados de grande volume que se utilizam de ferramentas especiais de processamento, pesquisa e análise, e que podem ser aproveitados no tempo necessário, com precisão e grande velocidade. Refere-se a um grande número de computadores pessoais (PC) interligados entre si em uma grande rede de infor São bancos de dados de fácil acesso e rápida velocidade, operados como computadores pessoais. Manuseio de informações necessárias às empresas e aos negócios do mundo moderno, que podem ser armazenadas em computadores pessoais, utilizando-se a técnica de nuvem de dados. Respondido em 12/10/2021 20:09:43 Explicação: Embora não tenha uma tradução exata, Big Data é um termo que se refere a uma grande quantidade de dados e também à coleta e interpretação dos mesmos para então terem aplicação prática. Acerto: 1,0 / 1,0 (INSTITUTO AOCP - 2018 - PRODEB - Especialista de TIC - B.I) Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nessesentido, é correto afirmar que Hadoop refere-se a: Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. Um banco de dados com capacidade melhorada. Um banco de dados com tecnologia de virtualização. Um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de dados. Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio. Respondido em 12/10/2021 20:11:20 Questão1 a Questão2 a 12/10/2021 20:22 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/4 Explicação: Na verdade, ele complementa seu sistema existente ao administrar dados que geralmente são problemáticos para eles. Acerto: 1,0 / 1,0 (INSTITUTO AOCP - 2018 - PRODEB - Analista de TIC I - Construção de Software) Sobre Banco de Dados Relacional, é correto afirmar que uma chave primária pode ser nula, desde que sua chave secundária esteja preenchida. cada tabela do banco de dados terá um nome, que pode se repetir, desde que suas tuplas sejam diferentes. em sua terminologia, uma tabela é chamada de atributo. todos os valores de uma coluna não precisam ser do mesmo tipo de dados. os dados são representados como uma coleção de tabelas. Respondido em 12/10/2021 20:12:01 Explicação: os dados são representados como uma coleção de tabelas. Acerto: 1,0 / 1,0 Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento Um sistema de armazenamento e processamento de dados massivamente escalável ¿ não é um banco de dados Um banco de dados com tecnologia de virtualização Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio Um banco de dados com capacidade melhorada Respondido em 12/10/2021 20:13:13 Acerto: 1,0 / 1,0 Com relação a análise de dados marque a alternativa INCORRETA. O foco principal das tarefas da categoria descritiva é caracterizar e apresentar as propriedades de um conjunto de dados de maneira concisa e informativa. O objetivo das atividades preditivas é construir um modelo para prever as propriedades e/ou tendências de um conjunto de dados desconhecido. As ferramentas de análise de dados disponíveis atualmente facilitam a construção de inúmeros algoritmos utilizando uma diversidade de dados. Os excelentes resultados nas análises geralmente vêm de dados brutos sem nenhum tipo de tratamento. A detecção de anomalias nos ajuda a perceber a existência de valores extremos que influenciarão alguns métodos baseados em estatística, mesmo em casos em que as anomalias correspondam a dados válidos. Após a captura, armazenamento e processamento dos dados, iniciamos a fase de análise. Nessa fase temos inúmeras possibilidades de converter dados brutos em conhecimento. Respondido em 12/10/2021 20:14:29 Questão3 a Questão4 a Questão5 a 12/10/2021 20:22 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/4 Acerto: 1,0 / 1,0 Existem diversas ferramentas de visualização de dados. Assinale a ferramenta utilizada no Apache Spark. GraphX Apache accumulo Spark Mllib Apache mahout Apache storm Respondido em 12/10/2021 20:15:38 Explicação: GraphX Acerto: 1,0 / 1,0 Assinale a opção correta sobre MapReduce, de acordo com Hurwitz (2015) No MapReduce, a função Map coloca um valor inicial em uma variável acumuladora e, então, processa cada elemento de uma lista passada pela função Reduce e, ao final, retorna um resultado do acumulador. A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas tabelas no banco de dados relacionais. Apesar da utilização da técnica MapReduce para tratar grandes volumes de dados no contexto de Big Data, não é recomendável a sua utilização em uma arquitetura distribuída, virtualizada ou multiprocessada. MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que possam processar quantidades massivas de dados desestruturados em paralelo, por meio de um grupo distribuído de processadores. No contexto de Big Data, a técnica MapReduce não é utilizada por ser pouco eficiente quando o volume de dados é muito alto. Respondido em 12/10/2021 20:16:52 Acerto: 1,0 / 1,0 (INSTITUTO AOCP - 2018 - PRODEB - Especialista de TIC - B.I.) Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que o Hadoop refere-se a: um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de dados. um banco de dados com capacidade melhorada. um banco de dados com tecnologia de virtualização. uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio. Respondido em 12/10/2021 20:17:29 Explicação: um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de dados. Questão6 a Questão7 a Questão8 a 12/10/2021 20:22 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/4 Acerto: 1,0 / 1,0 (FUNCAB 2008) A técnica RAID (Redundant Arrays of Inexpensive Disk) é usada: na alocação dinâmica de memória RAM; no armazenamento de informação ECC (error correcting code), que é a informação de controle de erros; na otimização das interfaces IDE. em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção de dados; na conexão à rede padrão ethernet; Respondido em 12/10/2021 20:18:44 Explicação: Em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção de dados; Acerto: 1,0 / 1,0 O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com várias vantagens. Marque a opção que NÃO representa uma dessas vantagens. No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, Python ou R O Spark tem um rico conjunto de bibliotecas para implementar processamentos em estilo SQL, processamento de streaming, algoritmos de grafos e aprendizado de máquina O Spark é tem a flexibilidade para processar dados em HDFS, HBase, Cassandra, Hive e qualquer outro formato de entrada aceito pelo Hadoop O Spark tem um gerenciador de recursos do cluster próprio responsável por alocar e monitorar os recursos disponíveis no cluster para todas as aplicações A combinação de DAG e RDD ajudam ao Spark realizar o processamento paralelo extremamente rápido, em particular quando o cluster é grande o suficiente para armazenar todos os dados em memória Respondido em 12/10/2021 20:20:09 Questão9 a Questão10 a Disc.: TÓPICOS DE BIG DATA EM PYTHON Acertos: 8,0 de 10,0 21/04/2022 1a Questão Acerto: 1,0 / 1,0 Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Garantir a consistência da informação através da ordenação dos dados. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Respondido em 21/04/2022 17:28:15 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente,elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. 2a Questão Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. UDP CoAP HTTP MQTT TCP Respondido em 21/04/2022 17:28:25 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 3a Questão Acerto: 1,0 / 1,0 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. HDFS Camada de ingestão MapReduce Task manager Mrjob Respondido em 21/04/2022 17:30:05 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 4a Questão Acerto: 1,0 / 1,0 Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. A estrutura de desenvolvimento no Hadoop é sequencial. O Hadoop utiliza o HDFS para armazenar dados. O Hadoop não funciona com pequenos volumes de dados. O Hadoop tem apenas uma única distribuição. Respondido em 21/04/2022 17:31:16 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). 5a Questão Acerto: 1,0 / 1,0 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. filter sample mapRandom random distinct Respondido em 21/04/2022 17:32:18 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 6a Questão Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, filter e union. count, collect e take. map, take e reduce. reduce, first e map. map, sample e collect. Respondido em 21/04/2022 17:32:28 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. 7a Questão Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? Gráfico de Linha. Gráfico de Estrela. Gráfico de Faces de Chernoff. Gráfico de Matriz de Dispersão. Gráfico de Barra. Respondido em 21/04/2022 17:33:03 Explicação: O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais. 8a Questão Acerto: 0,0 / 1,0 Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Apenas a opção III está correta. Apenas as opções II e III estão corretas. Apenas a opção I está correta. Apenas as opções I e III estão corretas. Apenas a opção II está correta. Respondido em 21/04/2022 17:34:57 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. 9a Questão Acerto: 0,0 / 1,0 Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando? IA Pura IA Simbólica IA Quântica IA Biológica IA SubSimbólica Respondido em 21/04/2022 17:38:33 Explicação: As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores predições por exatidão. 10a Questão Acerto: 1,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: DNN RNN KDD CNN LSTM Respondido em 21/04/2022 17:38:49 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceitonão foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais. Acerto: 1,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. volume variedade veracidade velocidade valor Respondido em 16/05/2022 20:30:32 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. Acerto: 0,0 / 1,0 Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação de banco de dados Computação de Big Data Computação centralizada Computação Paralela Computação em Nuvem Respondido em 16/05/2022 20:31:26 Explicação: As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. Acerto: 1,0 / 1,0 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado... 1 of 5 16/05/2022 20:39 DataNode NameNode Replicação YARN Bloco de dados Respondido em 16/05/2022 20:31:49 Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. Acerto: 1,0 / 1,0 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas estruturado apenas tabelas relacionais apenas não estruturado estruturado, não estruturado e semiestruturado estruturado e semiestruturado Respondido em 16/05/2022 20:32:07 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. Acerto: 1,0 / 1,0 O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Java e Python Python e Escala Hadoop e Spark Java e R Casandra e Spark Respondido em 16/05/2022 20:32:36 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado... 2 of 5 16/05/2022 20:39 Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. É possível afirmar que a tabela_teste existe. A implementação do trecho de código está errada. Trata-se de um exemplo de utilização do Spark SQL É um exemplo de aplicação de GraphX. A execução do trecho de código vai funcionar corretamente. Respondido em 16/05/2022 20:33:51 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. Acerto: 0,0 / 1,0 A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços condicionais e instruções de repetição. for i in range(10): if (i%2==0): print(i) Qual a saída esperada após a execução do programa? Serão impressos no console os números pares entre 1 e 10. Serão impressos no console os números ímpares entre 0 e 10. Serão impressos no console os números ímpares entre 0 e 9. Serão impressos no console os números racionais entre 0 e 9. Serão impressos no console os números pares entre 0 e 9. Respondido em 16/05/2022 20:35:29 Explicação: O constructo de laço que itera sobre uma sequência dos números reais de 0 a 9, e cujo condicional dentro do laço escolhe apenas os números cujo resto de sua divisão por 2 seja 0, condição lógica que define se um número é par ou não. Acerto: 1,0 / 1,0 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado... 3 of 5 16/05/2022 20:39 primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Secundária; Terciária. Secundária; Secundária. Primária; Secundária. Secundária; Primária. Primária; Primária. Respondido em 16/05/2022 20:36:05 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. Acerto: 1,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Respondido em 16/05/2022 20:37:18 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados. Acerto: 1,0 / 1,0 Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? OS BeautifulSoup Pandas Numpy Scikit-Learn Respondido em 16/05/2022 20:37:57 Explicação: O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado... 4 of 5 16/05/2022 20:39 problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada. Firefox https://simulado.estacio.br/bdq_simulados_avaliacao_parcial_resultado... 5 of 5 16/05/2022 20:39
Compartilhar