Baixe o app para aproveitar ainda mais
Prévia do material em texto
TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202003135461_TEMAS Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas. Camada de enlace de dados Camada de sessão Camada de transporte Camada de aplicação Camada lógica Data Resp.: 13/03/2022 15:37:50 Explicação: A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 2. Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação centralizada Computação Paralela Computação em Nuvem Computação de Big Data Computação de banco de dados Data Resp.: 13/03/2022 15:37:55 Explicação: As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. 3. Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Aplicam processos de tratamento nos dados. Demandam por equipamentos especiais. São exclusivos da distribuição Hadoop Apache. Possui alta latência para acesso dos dados. Armazenam os dados de modo eficiente. Data Resp.: 13/03/2022 15:37:59 Explicação: O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache. 4. Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É um repositório para tratamento dos dados. É um repositório centralizado para armazenamento de dados. É uma tecnologia de armazenamento e processamento de dados. Data Resp.: 13/03/2022 15:38:04 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 5. O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Java e Python Casandra e Spark Hadoop e Spark Java e R Python e Escala Data Resp.: 13/03/2022 15:38:07 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. 6. O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. Só pode ser aplicada para grandes volumes de dados Consiste em uma técnica de programação sequencial É uma técnica lenta para processamento de grandes volumes de dados Foi substituída no Spark por acesso direto à memória É uma técnica de computação distribuída Data Resp.: 13/03/2022 15:38:12 Explicação: Gabarito: É uma técnica de computação distribuída Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos. 7. Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas as opções I, II, III. Todas as opções I, II, III, IV. Apenas as opções II, III. Apenas as opções I, II, IV. Apenas a opção III. Data Resp.: 13/03/2022 15:38:17 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 8. Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? Gerenciador de memória do Python. Gerenciador de espaços virtuais do Python. Motor de Busca da IDE do Python. Biblioteca de Processamento de Linguagem Natural. Gerenciador de Pacotes do Python. Data Resp.: 13/03/2022 15:38:23 Explicação: O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. 9. Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial? SIGKDD. SIGM. KDD-DM. CRISP-DM. KDM. Data Resp.: 13/03/2022 15:38:28 Explicação: O processo de tamanho similar ao KDD cujo âmbito industrial se beneficia mais devido à suas etapas de entendimento do negócio é o CRISP-DM, processo esse que, diferentemente do KDD, contempla a entrega do artefato de aprendizado de máquina. 10. Qual destes modelos é adequado paraum problema de classificação? I - SVM II - Árvore de Decisão III - K-Médias Apenas as opções II e III Apenas as opções I e II Apenas as opções I e III Todas as opções I, II e III Apenas a opção III Data Resp.: 13/03/2022 15:38:33 Explicação: O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.
Compartilhar