Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): ÉRIK ALVES VASCONCELOS 202107007141 Acertos: 2,0 de 2,0 03/10/2023 1a Questão Acerto: 0,2 / 0,2 Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias. dados de Big Data dados não estruturados dados estruturados dados de Internet das Coisas dados semiestruturados Respondido em 03/10/2023 10:00:10 Explicação: Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de dados não convencionais que não são armazenados em bancos de dados tradicionais. 2a Questão Acerto: 0,2 / 0,2 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Armazenam os dados de modo eficiente. Possui alta latência para acesso dos dados. Demandam por equipamentos especiais. Aplicam processos de tratamento nos dados. São exclusivos da distribuição Hadoop Apache. Respondido em 03/10/2023 10:01:53 https://simulado.estacio.br/bdq_simulados_ava1_ava2_ead_resultado.asp?cod_hist_prova=318112292&cod_prova=6686829021&f_cod_disc=DGT0134 Explicação: O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache. 3a Questão Acerto: 0,2 / 0,2 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. MLSpark Spark Learning GraphX Learning RDDs MLlib Respondido em 03/10/2023 10:03:50 Explicação: Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 4a Questão Acerto: 0,2 / 0,2 Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Apenas as opções II, III. Apenas as opções I, II, IV. Apenas a opção III. Apenas as opções I, II, III. Todas as opções I, II, III, IV. Respondido em 03/10/2023 10:05:26 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 5a Questão Acerto: 0,2 / 0,2 A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence? Modelos Generativos Classificação Agrupamento Regressão Q-Learning Respondido em 03/10/2023 10:07:37 Explicação: O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora. 6a Questão Acerto: 0,2 / 0,2 (NC-UFPR/2019 - Adaptada) Sobre a IoT (Internet das coisas) e seus blocos básicos de construção, identifique como verdadeiras (V) ou falsas (F) as seguintes afirmativas: ( ) Na IoT, os objetos podem prover comunicação entre usuários e dispositivos, viabilizando diversas aplicações, tais como coleta de dados de pacientes e monitoramento de idosos e sensoriamento de ambientes de difícil acesso. ( ) A tecnologia de IoT consiste na coexistência colaborativa de dois componentes: As "coisas" e os protocolos de rede que permitem a sua comunicação. ( ) Protocolos de comunicação: Viabilizam a troca de dados via Internet entre os objetos físicos e outros sistemas. Assinale a alternativa que apresenta a sequência correta, de cima para baixo. V V F F V F V F V F V V F F F Respondido em 03/10/2023 10:10:10 Explicação: O avanço da tecnologia criou dispositivos e sensores eletrônicos que geram enormes quantidades de dados. Esses equipamentos podem ser utilizados em diversas aplicações, tais como: coleta de dados de pacientes e monitoramento de idosos e sensoriamento de ambientes de difícil acesso. A tecnologia de IoT consiste na coexistência colaborativa de quatro componentes: Objetos físicos (ou "coisas"), Computação, Protocolos de comunicação e Serviços. 7a Questão Acerto: 0,2 / 0,2 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas não estruturado estruturado, não estruturado e semiestruturado estruturado e semiestruturado apenas tabelas relacionais apenas estruturado Respondido em 03/10/2023 10:11:02 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 8a Questão Acerto: 0,2 / 0,2 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. Trata-se de um exemplo de utilização do Spark SQL É um exemplo de aplicação de GraphX. A implementação do trecho de código está errada. A execução do trecho de código vai funcionar corretamente. É possível afirmar que a tabela_teste existe. Respondido em 03/10/2023 10:13:48 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 9a Questão Acerto: 0,2 / 0,2 A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? Gráfico de Barra. Gráfico de Estrela. Gráfico de Linha. Gráfico de Matriz de Dispersão. Gráfico de Faces de Chernoff. Respondido em 03/10/202310:14:48 Explicação: O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais. 10a Questão Acerto: 0,2 / 0,2 As técnicas de aprendizado de máquina para aprendizado supervisionado são: I - Classificação II - Agrupamento III - Regressão Apenas II e III Apenas I e III Apenas II Apenas I Apenas I e II Respondido em 03/10/2023 10:16:04 Explicação: O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros, baseado no registro histórico e suas características.