Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): TIAGO JOSE DE LIMA 202004083902 Acertos: 9,0 de 10,0 24/05/2022 1a Questão Acerto: 1,0 / 1,0 A respeito das aplicações de fluxos de dados, selecione a opção correta. Serviço de correio eletrônico Serviços de compras online Transações bancárias, como o serviço de PIX. Reapresentação de programas de televisão. Serviços sob demanda, como serviços de filme online. Respondido em 24/05/2022 21:53:42 Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. 2a Questão Acerto: 1,0 / 1,0 Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas. Camada de enlace de dados Camada lógica Camada de sessão Camada de aplicação Camada de transporte Respondido em 24/05/2022 21:54:13 Explicação: A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 3a Questão Acerto: 1,0 / 1,0 Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação custo e benefício a respeito da expansão de uma infraestrutura. Variedade dos dados Tempo de resposta Volume de dados Flexibilidade Escalabilidade Respondido em 24/05/2022 21:59:11 Explicação: A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como computadores pessoais formando clusters de escalabilidade horizontal. 4a Questão Acerto: 1,0 / 1,0 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de governança Nível de gerenciamento Nível de admissão Nível de consumo Nível de Metadados Respondido em 24/05/2022 22:01:14 Explicação: O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão. 5a Questão Acerto: 1,0 / 1,0 O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. Consiste em uma técnica de programação sequencial É uma técnica lenta para processamento de grandes volumes de dados Só pode ser aplicada para grandes volumes de dados Foi substituída no Spark por acesso direto à memória É uma técnica de computação distribuída Respondido em 24/05/2022 21:57:41 Explicação: Gabarito: É uma técnica de computação distribuída Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos. 6a Questão Acerto: 1,0 / 1,0 O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Agregação Processamento Separação Redução Mapeamento Respondido em 24/05/2022 22:02:23 Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. 7a Questão Acerto: 1,0 / 1,0 Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas as opções II, III. Apenas as opções I, II, III. Todas as opções I, II, III, IV. Apenas as opções I, II, IV. Apenas a opção III. Respondido em 24/05/2022 22:04:01 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 8a Questão Acerto: 1,0 / 1,0 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Secundária; Secundária. Secundária; Primária. Secundária; Terciária. Primária; Primária. Primária; Secundária. Respondido em 24/05/2022 22:05:42 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. 9a Questão Acerto: 1,0 / 1,0 Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando? IA Pura IA Simbólica IA Quântica IA SubSimbólica IA Biológica Respondido em 24/05/2022 22:07:14 Explicação: As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores predições por exatidão. 10a Questão Acerto: 0,0 / 1,0 Quais os métodos de aprendizadode máquina que existem? Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Respondido em 24/05/2022 22:08:51 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.
Compartilhar