Prévia do material em texto
1 Marcar para revisão Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. A TCP HTTP UDP D MQTT E CoAP 2 Marcar para revisão Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias. A Dados estruturados B Dados não estruturados C Dados semiestruturados D Dados de Internet das Coisas E Dados de Big Data3 Marcar para revisão (NC-UFPR/2019 Adaptada) Sobre a loT (Internet das coisas) e seus blocos básicos de construção, identifique como verdadeiras (V) ou falsas (F) as seguintes afirmativas: () Na loT, objetos podem prover comunicação entre usuários e dispositivos, viabilizando diversas aplicações, tais como coleta de dados de pacientes e monitoramento de idosos e sensoriamento de ambientes de difícil acesso. () A tecnologia de loT consiste na coexistência colaborativa de dois componentes: As "coisas" e protocolos de rede que permitem a sua comunicação. () Protocolos de comunicação: Viabilizam a troca de dados via Internet entre objetos físicos e outros sistemas. Assinale a alternativa que apresenta a sequência correta, de cima para baixo. A VFV FVF C VVF D FFF E FVV 4 Marcar para revisão Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. A Microsoft Azure Amazon AWS C Oracle Cloud D IBM Cloud E Google Cloud5 Marcar para revisão Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. A Computação centralizada B Computação Paralela C Computação de banco de dados D Computação de Big Data E Computação em Nuvem 6 Marcar para revisão Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. A Apenas estruturado Estruturado e semiestruturado Estruturado, não estruturado e semiestruturado D Apenas não estruturado E Apenas tabelas relacionais7 Marcar para revisão A respeito do HDFS, selecione a opção correta cujo componente lógico mantém dados do usuário na forma de blocos de dados. A YARN NameNode C Bloco de dados D Replicação E DataNode 8 Marcar para revisão Reconhecer os conceitos de Data Lake é fundamental para 0 profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. A Possui alta latência para acesso dos dados. Aplica processos de tratamento nos dados. Armazena os dados de modo eficiente. D Demanda por equipamentos especiais. E São exclusivos da distribuição Hadoop Apache.9 Marcar para revisão Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. A Processos de extração, transformação e carregamento dos dados. Mecanismo para melhorar 0 processamento dos dados. Aplicar políticas de segurança. D Gerenciamento do armazenamento de dados. E Tratar dados não-estruturados. 10 Marcar para revisão Reconhecer conceitos de Data Lake é fundamental para 0 profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente que é Data Lake. A É um repositório para tratamento dos dados. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. D É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce E para fazer 0 gerenciamento dos dados.1 Marcar para revisão Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. A sample filter C random D mapRandom E distinct 2 Desmarcar para revisão Observe trecho de código abaixo import numpy as пр from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A A utilização do SparkContext é opcional. A linha aplica a técnica MapReduce para processar vetor "a". A variável "teste" corresponde a um RDD. D A execução do trecho de código vai gerar um erro. E objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".3 Marcar para revisão Atualmente, 0 Apache Spark é mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. A count, collect e take. map, sample e collect. map, filter e union. D reduce, first e map. E map, take e reduce. 4 Marcar para revisão PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. A Hadoop e Spark Casandra e Spark Java e Python D Python e Escala E Java e R5 Marcar para revisão Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar relatórios do pessoal da contabilidade para fazer suas análises exploratórias. departamento de contabilidade extrai dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: A Secundária; Primária. Primária; Primária. C Secundária; Terciária. D Primária; Secundária. E Secundária; Secundária. 6 Marcar para revisão Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e 0 time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de pois está lidando com dados e quer mostrar quão bem as recomendações geradas por seu time estão evoluindo. Respectivamente a resposta que completa as duas lacunas é: A Pizza; Categóricos Linha; Numéricos Linha; Temporais D Pizza; Numéricos E Linha; Categóricos7 Marcar para revisão No mundo de Big Data, temos dados mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem histórico escolar de um aluno são classificadas como que tipo de dados? A Numéricos Temporais C Atemporais D Categóricos E Semi-Estruturados 8 Marcar para revisão Qual objetivo da inteligência artificial ao simular comportamentos humanos na máquina? A Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. Fazer com que computadores acessem a internet mais rápido. C Melhorar a capacidade de processamento de dados do sistema. D Incrementar 0 uso da memória de longa duração do sistema. E Viabilizar a computação paralela.9 Marcar para revisão Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? A Plotly Gráfico de Matriz de Dispersão C Gráfico de Histograma D Classification Report E Regressão Linear 10 Marcar para revisão termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade, ele se refere ao processo de: A CNN KDD C DNN D LSTM E RNN1 Marcar para revisão Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. A Apenas estruturado Estruturado e semiestruturado Estruturado, não estruturado e semiestruturado D Apenas não estruturado E Apenas tabelas relacionais 2 Marcar para revisão Reconhecer conceitos de Data Lake é fundamental para profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. A Possui alta latência para acesso dos dados. Aplica processos de tratamento nos dados. Armazena os dados de modo eficiente. D Demanda por equipamentos especiais. E São exclusivos da distribuição Hadoop Apache.3 Marcar para revisão Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. A Nível de governança Nível de Metadados C Nível de admissão D Nível de gerenciamento E Nível de consumo 4 Marcar para revisão A respeito do Hadoop, selecione a opção correta com 0 componente que faz rastreamento de tarefas. A MapReduce B HDFS C Task manager D Camada de ingestão E Mrjob5 Marcar para revisão Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para desenvolvimento e implementação do Hadoop. A Python Java C Lua D JavaScript E Perl 6 Marcar para revisão Reconhecer conceitos de Data Lake é fundamental para profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente 0 que é 0 Data Lake. A É um repositório para tratamento dos dados. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. D É um ambiente para tratamento e armazenamento apenas de dados relacionais. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce E para fazer 0 gerenciamento dos dados.7 Marcar para revisão A respeito do HDFS, selecione a opção correta cujo componente lógico mantém dados do usuário na forma de blocos de dados. A YARN NameNode C Bloco de dados D Replicação E DataNode 8 Marcar para revisão Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. A Processos de extração, transformação e carregamento dos dados. Mecanismo para melhorar 0 processamento dos dados. Aplicar políticas de segurança. D Gerenciamento do armazenamento de dados. E Tratar dados não-estruturados.9 Marcar para revisão Em relação às fases do Hadoop, selecione a opção correta que apresenta 0 componente responsável pela geração de pares intermediários de valor e chave. A Embaralhamento Combinação C Agrupamento D Redução E Gravação da saída 1 Marcar para revisão A função de agrupamento do Pandas é groupby, responsável por influenciar a indexação das colunas. 0 que acontece ao aplicarmos método reset_index() no resultado de uma agregação? A Nada, DataFrame fica imutável. Os índices não são deletados, evitando a perda de colunas no DataFrame da agregação. As colunas de agrupamento somem, DataFrame passa a ser indexado pelo número da linha. D DataFrame é indexado pelas suas colunas. E DataFrame é embaralhado.2 Marcar para revisão Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu seguinte código: import pandas as pd df1 = ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, right_on='rkey') Qual destas alternativas descreve as saídas do código? 1.0 conjunto resultante terá colunas Ikey, value_x, rkey, value_y II. código não executará, pois Filipe não definiu os sufixos de coluna III. resultado do código em questão retornará um pd.Series juntando conjuntos pela Ikey e rkey. A Apenas a opção está correta. Apenas a opção está correta. Apenas a opção III está correta. D Apenas as opções e III estão corretas. E Apenas as opções e III estão corretas. 3 Marcar para revisão Compreender a análise de dados em Python é fundamental para cientista de dados. Qual papel do sistema pip da linguagem Python? A Gerenciador de Pacotes do Python. Gerenciador de memória do Python. C Gerenciador de espaços virtuais do Python. D Motor de Busca da IDE do Python. E Biblioteca de Processamento de Linguagem Natural.4 Marcar para revisão Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual método utilizado para fazer a junção entre DataFrames no pandas? A set_index reset_index C values D merge E sum 5 Marcar para revisão A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise código abaixo que apresenta laços condicionais e instruções de repetição. for i in range(10): if (i%2==0): print(i) Qual a saída esperada após a execução do programa? A Serão impressos no console números ímpares entre 0 e 9. Serão impressos no console os números entre 0 e 10. C Serão impressos no console os números pares entre 1 e 10. D Serão impressos no console números pares entre 0 e 9. E Serão impressos no console números racionais entre 0 e 9.6 Marcar para revisão Luís planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente, ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual é a sequência desejável de passos que esperamos que Luís siga? Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no A requirements.txt através do pip freeze; criar uma pasta para módulo de coleta e dentro dela criar um arquivo em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para módulo de coleta e dentro dela criar um arquivo -- em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar C através do pip install; criar uma pasta para módulo de coleta e dentro dela criar um arquivo _init_.py em branco e outro para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no D requirements.txt através do pip freeze; criar uma pasta para módulo de coleta e dentro dela criar um para a lógica do módulo. Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no E requirements.txt através do pip freeze; criar uma pasta para módulo de coleta e dentro dela criar um arquivo com a lógica do módulo.7 Marcar para revisão Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar relatórios do pessoal da contabilidade para fazer suas análises exploratórias. departamento de contabilidade extrai dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: A Secundária; Primária. Primária; Primária. C Secundária; Terciária. D Primária; Secundária. E Secundária; Secundária. 8 Marcar para revisão Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de pois está lidando com dados e quer mostrar quão bem as recomendações geradas por seu time estão evoluindo. Respectivamente a resposta que completa as duas lacunas é: A Pizza; Categóricos Linha; Numéricos Linha; Temporais D Pizza; Numéricos E Linha; Categóricos9 Marcar para revisão Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que dados fiquem na mesma escala? A Map & Reduce Divide C Shuffle D MinMax E Splice 10 Marcar para revisão Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos? A Gráficos de Linha. Gráficos de Barra. C Gráfico de Matriz de Dispersão. D Gráfico de Faces de Chernoff. E Gráfico de Estrela.1 Marcar para revisão As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual 0 nome desta biblioteca? A Pandas Tensorflow C Numpy D Scipy E Plotly 2 Marcar para revisão enquadramento de aprendizado não supervisionado contempla qual(is) técnicas? Agrupamento - Classificação III Regressão A Apenas a opção está correta Apenas a opção está correta C Apenas a opção III está correta D Apenas as opções e III estão corretas E Apenas as opções le III estão corretas3 Marcar para revisão Dentre as inúmeras bibliotecas da linguagem Python, qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? A Numpy Scikit-Learn Pandas D E BeautifulSoup 4 Marcar para revisão Qual destes modelos é adequado para um problema de classificação? SVM - Árvore de Decisão III K-Médias A Apenas a opção III Apenas as opções e C Apenas as opções I e III D Apenas as opções e III E Todas as opções I, e III5 Marcar para revisão Qual 0 tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn? A console.log print plot_tree D cout E printf 6 Marcar para revisão Quais destas opções representam as diferenças entre KDD e CRISP-DM? Etapas de Entendimento do Negócio, e Implantação do Artefato de ML A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, e Transformação de Dados III A obrigatoriedade da entrega de um artefato de ML A Apenas as opções e III Apenas as opções e III As opções I, II, e III estão corretas D Apenas a opção E Apenas a opção7 Marcar para revisão Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos 0 conjunto para fazermos benchmark de modelos de : A Pizzas; Categorias IRIS; Processamento da Linguagem Natural MNIST; Processamento de Imagens D IRIS; Processamento de Imagens E MNIST; Processamento de Linguagem Natural 8 Marcar para revisão Qual objetivo da inteligência artificial ao simular comportamentos humanos na máquina? A Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. Fazer com que computadores acessem a internet mais rápido. C Melhorar a capacidade de processamento de dados do sistema. D Incrementar uso da memória de longa duração do sistema. E Viabilizar a computação paralela.9 Marcar para revisão Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? A Plotly Gráfico de Matriz de Dispersão Gráfico de Histograma D Classification Report E Regressão Linear 10 Marcar para revisão No modelo de aprendizado profundo, as camadas internas ocultas representam: - Abstrações de aspectos de dados complexos Informação relevante dos dados de entrada III Pesos e Viéses Apenas e III A Apenas e III Apenas Apenas III D As alternativas I, e III E1 Marcar para revisão MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks, como Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. A Consiste em uma técnica de programação sequencial B É uma técnica lenta para processamento de grandes volumes de dados C Foi substituída no Spark por acesso direto à memória D Só pode ser aplicada para grandes volumes de dados E É uma técnica de computação distribuída 2 Marcar para revisão Os componentes do Spark têm como objetivo facilitar desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. A MLlib Spark Learning C GraphX Learning D RDDs E MLSpark3 Marcar para revisão Atualmente, 0 Apache Spark é mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. A count, collect e take. B map, sample e collect. map, filter e union. D reduce, first e map. E map, take e reduce. 4 Marcar para revisão PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. A Hadoop e Spark Casandra e Spark Java e Python D Python e Escala E Java e R5 Marcar para revisão Observe trecho de código abaixo import numpy as пр from pyspark import SparkContext spark_contexto = SparkContext() a teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A A utilização do SparkContext é opcional. A linha aplica a técnica MapReduce para processar vetor "a". A variável "teste" corresponde a um RDD. D A execução do trecho de código vai gerar um erro. E objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". 6 Marcar para revisão Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. A sample filter C random D mapRandom E distinct7 Marcar para revisão Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com Spark SQL. A DAG B Executor RDD D Work Node E Tasks 8 Marcar para revisão paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar resultados produzidos ao longo do processamento. A Agregação Mapeamento C Separação D Redução E Processamento9 Marcar para revisão Os componentes do Spark têm como objetivo facilitar desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém componente responsável por estabelecer uma conexão com Cluster. A Spark.Catalog SparkSession C DataFrame D RDD E SparkContext 1 Marcar para revisão As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) A Pesos Vieses C Função de Ativação D Camadas Escondidas E Camada de Saída2 Marcar para revisão Qual 0 tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn? A console.log print plot_tree D cout E printf 3 Marcar para revisão Qual destes modelos é adequado para um problema de classificação? SVM - Árvore de Decisão III K-Médias A Apenas a opção III Apenas as opções e C Apenas as opções le III D Apenas as opções e III E Todas as opções I, e III4 Marcar para revisão 0 enquadramento de aprendizado não supervisionado contempla qual(is) técnicas? Agrupamento Classificação III Regressão A Apenas a opção está correta Apenas a opção está correta C Apenas a opção III está correta D Apenas as opções e III estão corretas E Apenas as opções le III estão corretas 5 Marcar para revisão termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade, ele se refere ao processo de: A CNN KDD C DNN D LSTM E RNN6 Marcar para revisão Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. projeto no qual foi alocado já havia começado, e colegas de Luís lhe disseram que estavam preparando 0 conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente colegas de Luís estão removendo dados faltantes, em qual etapa do processo de KDD, Luís se encontra: A Pré-Processamento. B Avaliação. C Descoberta de Padrões. D Coleta de Dados. E Transformação de Dados. 7 Marcar para revisão Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? A Plotly Gráfico de Matriz de Dispersão C Gráfico de Histograma D Classification Report E Regressão Linear8 Marcar para revisão Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos 0 conjunto para fazermos 0 benchmark de modelos de : A Pizzas; Categorias IRIS; Processamento da Linguagem Natural MNIST; Processamento de Imagens D IRIS; Processamento de Imagens E MNIST; Processamento de Linguagem Natural 9 Marcar para revisão A qual técnica de Aprendizado de Máquina 0 Algoritmo de Árvore de Decisão Classificadora pertence? A Modelos Generativos Q-Learning C Agrupamento D Classificação E Regressão10 Marcar para revisão Dentre as inúmeras bibliotecas da linguagem Python, qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? A Numpy Scikit-Learn C Pandas D E BeautifulSoup