Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): EDER PEREIRA DA SILVA 202102371988 Acertos: 9,0 de 10,0 11/04/2023 1a Questão Acerto: 1,0 / 1,0 Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Google Cloud Oracle Cloud Amazon AWS IBM Cloud Microsft Azure Respondido em 11/04/2023 16:28:14 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. 2a Questão Acerto: 0,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. volume variedade velocidade valor veracidade Respondido em 11/04/2023 16:29:26 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 3a Questão Acerto: 1,0 / 1,0 O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop. Java Script Java Python Perl Lua Respondido em 11/04/2023 16:31:21 Explicação: O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da Apache Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas linguagens, entre as quais o Python. 4a Questão Acerto: 1,0 / 1,0 A respeito dos arquivos de configuração do Hadoop, selecione a opção correta com as tags que fornecem acesso aos parâmetros de configuração. Respondido em 11/04/2023 16:33:18 Explicação: As configurações dos arquivos do Hadoop são especificadas entre as tags configurations. As demais opções não representam tags corretas para parâmetros de configurações do Hadoop. 5a Questão Acerto: 1,0 / 1,0 O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. RDD DAG Executor Tasks Work Node Respondido em 11/04/2023 16:35:20 Explicação: Gabarito: RDD Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo. 6a Questão Acerto: 1,0 / 1,0 O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Separação Processamento Mapeamento Redução Agregação Respondido em 11/04/2023 16:36:44 Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. 7a Questão Acerto: 1,0 / 1,0 Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. Respectivamente a resposta que completa as duas lacunas é: Linha; Numéricos Linha; Temporais Pizza; Categóricos Linha; Categóricos Pizza; Numéricos Respondido em 11/04/2023 16:37:46 Explicação: O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos lidando com a cronologia, logo são dados temporais. O tipo de dados em que números variam no tempo não pode ser classificado como tipo categórico. 8a Questão Acerto: 1,0 / 1,0 Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual a sequência desejável de passos que esperamos que Luis siga? Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Respondido em 11/04/2023 16:48:41 Explicação: O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um arquivo __init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta. 9a Questão Acerto: 1,0 / 1,0 Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn? console.log printf print cout plot_tree Respondido em 11/04/2023 16:50:34 Explicação: Através do método plot_tree do módulo scikit-learn.DecisionTreeClassifier, podemos importar o plot_tree para visualizar a árvore de decisão gerada pelo algoritmo homônimo. 10a Questão Acerto: 1,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: CNN RNN DNN LSTMKDD Respondido em 11/04/2023 16:52:55 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.
Compartilhar