Baixe o app para aproveitar ainda mais
Prévia do material em texto
23/04/22, 00:41 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Teste de Conhecimento avalie sua aprendizagem Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data. Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias. TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202001039252_TEMAS Aluno: JOÃO BATISTA MATTOS BEJARANO Matr.: 202001039252 Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. Terabytes Petabytes Zetabytes Exabytes Gigabytes Data Resp.: 23/04/2022 00:22:26 Explicação: As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. 2. dados não estruturados dados de Big Data dados semiestruturados dados de Internet das Coisas dados estruturados Data Resp.: 23/04/2022 00:22:40 Explicação: Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de dados não convencionais que não são armazenados em bancos de dados tradicionais. javascript:voltar(); javascript:voltar(); javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); 23/04/22, 00:41 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. 3. HDFS Task manager Camada de ingestão Mrjob MapReduce Data Resp.: 23/04/2022 00:27:07 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 4. O Hadoop tem apenas uma única distribuição. O Hadoop não funciona com pequenos volumes de dados. A estrutura de desenvolvimento no Hadoop é sequencial. O Hadoop utiliza o HDFS para armazenar dados. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. Data Resp.: 23/04/2022 00:27:43 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). 5. GraphX Learning Spark Learning RDDs MLlib MLSpark Data Resp.: 23/04/2022 00:31:43 Explicação: Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 6. Executor Work Node 23/04/22, 00:41 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? RDD Tasks DAG Data Resp.: 23/04/2022 00:32:36 Explicação: Gabarito: RDD Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo. 7. Apenas a opção II está correta. Apenas as opções I e III estão corretas. Apenas a opção I está correta. Apenas a opção III está correta. Apenas as opções II e III estão corretas. Data Resp.: 23/04/2022 00:35:44 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. 8. Gerenciador de espaços virtuais do Python. Biblioteca de Processamento de Linguagem Natural. Gerenciador de Pacotes do Python. Motor de Busca da IDE do Python. Gerenciador de memória do Python. Data Resp.: 23/04/2022 00:36:07 Explicação: O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. 23/04/22, 00:41 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 No modelo de aprendizado profundo, as camadas internas ocultas representam: I - Abstrações de aspectos de dados complexos II - Informação relevante dos dados de entrada III - Pesos e Viéses A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence? 9. Apenas II e III Apenas I Apenas III Apenas I e III As alternativas I, II e III Data Resp.: 23/04/2022 00:38:43 Explicação: Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelosde aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final. A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes. 10. Q-Learning Agrupamento Modelos Generativos Regressão Classificação Data Resp.: 23/04/2022 00:41:12 Explicação: O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora. 23/04/22, 00:41 Estácio: Alunos https://simulado.estacio.br/alunos/ 5/5 Não Respondida Não Gravada Gravada Exercício inciado em 23/04/2022 00:22:06.
Compartilhar