Baixe o app para aproveitar ainda mais
Prévia do material em texto
26/02/2022 10:20 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/4 Teste de Conhecimento avalie sua aprendizagem Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data. Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias. TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202102503371_TEMAS Aluno: ALLAN BARBIERI RAUCHSTADT Matr.: 202102503371 Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. Zetabytes Terabytes Exabytes Petabytes Gigabytes Data Resp.: 26/02/2022 10:18:24 Explicação: As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. 2. dados de Internet das Coisas dados semiestruturados dados estruturados dados de Big Data dados não estruturados Data Resp.: 26/02/2022 10:18:40 Explicação: Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de dados não convencionais que não são armazenados em bancos de dados tradicionais. javascript:voltar(); javascript:voltar(); javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); 26/02/2022 10:20 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/4 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. 3. Mrjob Task manager MapReduce HDFS Camada de ingestão Data Resp.: 26/02/2022 10:18:50 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 4. A estrutura de desenvolvimento no Hadoop é sequencial. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. O Hadoop não funciona com pequenos volumes de dados. O Hadoop tem apenas uma única distribuição. O Hadoop utiliza o HDFS para armazenar dados. Data Resp.: 26/02/2022 10:18:59 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). 5. RDDs MLlib GraphX Learning Spark Learning MLSpark Data Resp.: 26/02/2022 10:19:09 Explicação: Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 6. RDD DAG 26/02/2022 10:20 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/4 A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto? Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey. Executor Tasks Work Node Data Resp.: 26/02/2022 10:19:18 Explicação: Gabarito: RDD Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo. 7. shuffle iloc loc reset_index sum Data Resp.: 26/02/2022 10:18:12 Explicação: Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame. 8. Apenas a opção III está correta. Apenas as opções I e III estão corretas. Apenas a opção II está correta. Apenas as opções II e III estão corretas. Apenas a opção I está correta. Data Resp.: 26/02/2022 10:19:31 Explicação: A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames. 26/02/2022 10:20 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/4 Quais os métodos de aprendizado de máquina que existem? Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? 9. Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Data Resp.: 26/02/2022 10:19:42 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados. 10. Melhorar a capacidade de processamento de dados do sistema. Viabilizara computação paralela. Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. Incrementar o uso da memória de longa duração do sistema. Fazer com que computadores acessem a internet mais rápido. Data Resp.: 26/02/2022 10:19:48 Explicação: A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptar a novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos similares. Não Respondida Não Gravada Gravada Exercício inciado em 26/02/2022 10:14:00.
Compartilhar