Baixe o app para aproveitar ainda mais
Prévia do material em texto
Teste deTeste de ConhecimentoConhecimento avalie sua aprendizagemavalie sua aprendizagem Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202002290081_TEMAS Aluno: ANDRE LUIS MARTINS COELHO Matr.: 202002290081 Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. variedade valor velocidade volume veracidade Data Resp.: 06/04/2022 13:37:31 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 2. É um protocolo de internet das coisas É o outro nome para Raspberry PI É um ecossistema que envolve software e hardware É uma placa de hardware É um programa Data Resp.: 06/04/2022 13:34:48 javascript:voltar(); javascript:voltar(); javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. 3. Armazenam os dados de modo eficiente. São exclusivos da distribuição Hadoop Apache. Aplicam processos de tratamento nos dados. Possui alta latência para acesso dos dados. Demandam por equipamentos especiais. Data Resp.: 06/04/2022 13:28:41 Explicação: O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache. 4. É um repositório centralizado para armazenamento de dados. É um repositório para tratamento dos dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É uma tecnologia de armazenamento e processamento de dados. Data Resp.: 06/04/2022 13:28:18 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 5. Python e Escala Casandra e Spark Java e R Hadoop e Spark Java e Python Data Resp.: 06/04/2022 13:27:59 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual a sequência desejável de passos que esperamos que Luis siga? Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala? do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. 6. A execução do trecho de código vai funcionar corretamente. É um exemplo de aplicação de GraphX. A implementação do trecho de código está errada. Trata-se de um exemplo de utilização do Spark SQL É possível afirmar que a tabela_teste existe. Data Resp.: 06/04/2022 13:38:33 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 7. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Data Resp.: 06/04/2022 13:38:44 Explicação: O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um arquivo __init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta. 8. Shuffle https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# As redes neurais são modelos poderosos cujo principal componente onde estão armazenadosseus conhecimentos é(são) Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? Splice Map & Reduce MinMax Divide Data Resp.: 06/04/2022 13:30:42 Explicação: Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala. 9. Camadas Escondidas Camada de Saída Vieses Pesos Função de Ativação Data Resp.: 06/04/2022 13:31:18 Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados. 10. Plotly Gráfico de Histograma Gráfico de Matriz de Dispersão Classification Report Regressão Linear Data Resp.: 06/04/2022 13:26:00 Explicação: O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground truth para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e medida F de cada classe possível e também as mesmas métricas em um nível macro. Não Respondida Não Gravada Gravada Exercício inciado em 06/04/2022 13:21:42. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp# https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp#
Compartilhar