Baixe o app para aproveitar ainda mais
Prévia do material em texto
GUIA DE ESTUDO -TÓPICOS DE BIG DATA EM PYTHON 1- Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta: A- UDP B- CoAP C- TCP D- MQTT E- HTTP Resposta: A. 2- Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino? A- É um programa B- É um ecossistema que envolve software e hardware C- É um protocolo de internet das coisas D- É o outro nome para Raspberry PI E- É uma placa de hardware Resposta: B. 3- A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços condicionais e instruções de repetição. for i in range(10): if (i%2==0): print(i) Qual a saída esperada após a execução do programa? A- Serão impressos no console os números pares entre 0 e 9. B- Serão impressos no console os números pares entre 1 e 10. C- Serão impressos no console os números ímpares entre 0 e 10. D- Serão impressos no console os números racionais entre 0 e 9. E- Serão impressos no console os números ímpares entre 0 e 9. Resposta: A. 4- A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? A- Gráfico de Linha. B- Gráfico de Estrela. C- Gráfico de Barra. D- Gráfico de Matriz de Dispersão. E- Gráfico de Faces de Chernoff. Resposta: A. 5- Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake? A- Aplicam processos de tratamento nos dados. B- Demandam por equipamentos especiais. C- Armazenam os dados de modo eficiente. D- São exclusivos da distribuição Hadoop Apache. E- Possui alta latência para acesso dos dados. Resposta: C. 6- Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele? A- estruturado, não estruturado e semiestruturado B- estruturado e semiestruturado C- apenas tabelas relacionais D- apenas não estruturado E- apenas estruturado Resposta: A. 7- Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A- O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". B- A variável "teste" corresponde a um RDD. C- A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". D- A execução do trecho de código vai gerar um erro. E- A utilização do SparkContext é opcional. Resposta: B. 8- O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos dedados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento? A- Mapeamento B- Redução C- Processamento D- Agregação E- Separação Resposta: B. 9- Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? A- Incrementar o uso da memória de longa duração do sistema. B- Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. C- Fazer com que computadores acessem a internet mais rápido. D- Viabilizar a computação paralela. E- Melhorar a capacidade de processamento de dados do sistema. Resposta: B. 10 - O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas? I- Agrupamento II- Classificação III- Regressão A- Apenas as opções I e III estão corretas B- Apenas a opção III está correta C- Apenas as opções II e III estão corretas D- Apenas a opção I está correta E- Apenas a opção II está correta Resposta: D. 11- A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que: I- O nome Pandas se refere a dados em painel ou painel data. II- O DataFrame é o coletivo de listas (lists). III- É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONs Analise as frases listadas e assinale a alternativa correta? A- Apenas I e II. B- Apenas II e III. C- Apenas I e III. D- Apenas I. E- Apenas II. Resposta: C. 12- Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como: A- Enviesados. B- Corrompidos. C- Embaralhados. D- Nulos. E- Faltantes. Resposta: E. 13- Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando? A- IA Simbólica B- IA SubSimbólica C- IA Quântica D- IA Pura E- IA Biológica Resposta: B. 14- Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial? A- SIGM. B- KDM. C- CRISP-DM. D- SIGKDD. E- KDD-DM. Resposta: C. 15- Em relação aos RDBMS, selecione a opção que apresenta a característica que trata as transações em um banco de dados como uma unidade indivisível? A- Indivisibilidade. B- Isolamento. C- Consistência. D- Atomicidade. E- Durabilidade. Resposta: D. 16- O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake? A- Camada de gerenciamento do ciclo de vida da informação. B- Camada de governança. C- Camada de segurança. D- Camada de Metadados. E- Camada de gerenciamento de dados Resposta: D. 17- Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados? A- 4 B- 5 C- 3 D- 6 E- 2 Resposta: C. 18- Em relação às redes de Internet das coisas, selecione a opção correta que relaciona os dispositivos entre si? A- São interconectados entre si. B- São um conjunto de sinais. C- São redes locais. D- É uma conexão rede a rede. E- São um relacionamento máquina a máquina Resposta: A. 19- Selecione a opção correta que contenha as categorias em que transformações podem ser classificadas? A- Separação e finalização. B- Mapeamento e redução. C- Mapeamento e partição. D- Estreitas e amplas. E- Embaralhamento e redução Resposta: D. 20- O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark, selecione a opção correta? A- O Executor corresponde ao conjunto de máquina que executam como escravos. B- O gerenciador de cluster do Spark oferece suporte a Hadoop YARN. C- Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como escravos. D- O gerenciador de cluster do Spark faz o gerenciamento da execução das tarefas. E- O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do Spark. Resposta: B. 21- Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados? A- Computação de banco de dados. B- Computação de Big Data. C- Computação Paralela. D- Computação em Nuvem. E- Computação centralizada. Resposta: D. 22- Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas? A- IBM Cloud. B- Microsoft Azure. C- Google Cloud. D- Oracle Cloud . E- Amazon AWS. Resposta: E. 23- O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grandedesafio no processo de configuração e gerenciamento do Hadoop? A- Aplicar políticas de segurança. B- Gerenciamento do armazenamento de dados. C- Tratar dados não-estruturados. D- Processos de extração, transformação e carregamento dos dados. E- Mecanismo para melhorar o processamento dos dados. Resposta: A. 24- Observe o trecho de código abaixo: query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele: A- É um exemplo de aplicação de GraphX. B- A execução do trecho de código vai funcionar corretamente. C- A implementação do trecho de código está errada. D- É possível afirmar que a tabela_teste existe. E- Trata-se de um exemplo de utilização do Spark SQL Resposta: E. 25- Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster? A- Spark.Catalog B- SparkSession C- RDD D- SparkContext E- DataFrame Resposta: D. 26- Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. Respectivamente a resposta que completa as duas lacunas é: A- Linha; Categóricos. B- Pizza; Categóricos. C- Linha; Numéricos. D- Pizza; Numéricos. E- Linha; Temporais. Resposta: E. 27- A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I- Histograma; II- Gráfico de Dispersão; III- Gráfico de Pizza. Analise as alternativas listadas e assinale a correta. A- Apenas I e II. B- As alternativas I, II e III. C- Apenas I e III. D- Apenas III. E- Apenas II e II. Resposta: A. 28- Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? I- Etapas de Entendimento do Negócio, e Implantação do Artefato de ML; II- A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados; III- A obrigatoriedade da entrega de um artefato de ML. A- Apenas as opções II e III. B- Apenas as opções I e III. C- Apenas a opção I. D- Apenas a opção II. E- As opções I, II, e III estão corretas. Resposta: E. 29- A respeito das aplicações de fluxos de dados, selecione a opção correta? A- Serviço de correio eletrônico. B- Reapresentação de programas de televisão. C- Serviços sob demanda, como serviços de filme online. D- Serviços de compras online. E- Transações bancárias, como o serviço de PIX. Resposta: C. 30- Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas? A- Camada de transporte. B- Camada de sessão. C- Camada lógica. D- Camada de enlace de dados. E- Camada de aplicação. Resposta: A. 31- A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados? A- Bloco de dados B- Replicação C- NameNode D- YARN E- DataNode Resposta: E. 32- Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker. A- MapTracker B- Task Tracker C- Job Tracker Slave D- MapJob E- MapReduce Resposta: B. 33- O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta? A- É uma técnica lenta para processamento de grandes volumes de dados. B- Só pode ser aplicada para grandes volumes de dados. C- Foi substituída no Spark por acesso direto à memória. D- Consiste em uma técnica de programação sequencial. E- É uma técnica de computação distribuída. Resposta: E. 34- O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento? A- Processamento. B- Separação. C- Redução. D- Agregação. E- Mapeamento. Resposta: C. 35- Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual a sequência desejável de passos que esperamos que Luis siga? A- Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo. B- Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo. C- Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. D- Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. E- Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta edentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo. Resposta: C. 36- Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey') Qual destas alternativas descreve as saídas do código? I- O conjunto resultante terá colunas lkey, value_x, rkey, value_y. II- O código não executará, pois Filipe não definiu os sufixos de coluna. III- O resultado do código em questão retornará um pd. Series juntando os conjuntos pela lkey e rkey. A- Apenas a opção II está correta. B- Apenas as opções I e III estão corretas. C- Apenas a opção III está correta. D- Apenas a opção I está correta. E- Apenas as opções II e III estão corretas. Resposta: D. 37- As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são)? A- Camadas Escondidas. B- Vieses. C- Pesos. D- Camada de Saída. E- Função de Ativação. Resposta: A. 38- O seguinte constructo da linguagem Python representa o condicional simples: A- else . B- if. C- with. D- while. E- for. Resposta: B. 39- A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que: I- O nome Pandas se refere a dados em painel ou panel data; II- O DataFrame é o coletivo de listas (lists); III- É possível criarmos DataFrames a partir de praticamente qualquer estruturade dados, principalmente CSVs, Excels, e JSONs. Analise as frases listadas e assinale a alternativa correta. A- Apenas I e II. B- Apenas II e III. C- Apenas I e III. D- Apenas I. E- Apenas II. Resposta: C. 40- Os modelos simbólicos são aqueles que: A- São aqueles que só lidam com problemas categóricos. B- Se baseiam em táticas de agrupamento por similaridade. C- São aqueles que lidam apenas com problemas numéricos. D- Se baseiam em lógica e regras de inferência para aprender e raciocinar. E- Se baseiam estritamente em dados e inferências estatísticas em cima deles Resposta: D. 41- Quais os métodos de aprendizado de máquina que existem? A- Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado; B- Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório; C- Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado; D- Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado; E- Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Resposta: D. 42- Em relação aos RDBMS, selecione a opção que apresenta a característica que trata as transações em um banco de dados como uma unidade indivisível. A- Atomicidade. B- Indivisibilidade. C- Durabilidade. D- Consistência. E- Isolamento. Resposta: A. 43- Selecione a opção correta a respeito do processamento e streaming de dados? A- Os dados podem vir de várias fontes. B- Os dados são caracterizados também são denominados de lotes estáticos. C- Os dados sempre estão no mesmo formato. D- Os dados sempre são provenientes de aplicações transacionais. E- Caracterizam-se pelo envio do mesmo dado por várias fontes. Resposta: A. 44- Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo de serviço focado no hardware? A- CaaS. B- MaaS. C- HaaS. D- IaaS. E- PaaS. Resposta: D. 45- O MapReduce é uma técnica de computação distribuída considerada extremamente eficiente para o processamento de dados, desempenhando papel fundamental no Spark. Em relação ao MapReduce, selecione a opção correta? A- As fases de processamento do MapReduce podem variar de acordo com a aplicação. B- Só é possível utilizar o MapReduce no Spark através do PySpark. C- Projetos de big data só podem ser tratados por MapReduce. D- A principal característica do MapReduce é a utilização eficiente da memória. E- Pode ser aplicada para projetos que envolvam grandes volumes e variedade de dados. Resposta: E. 46- Observe o trecho de código abaixo: import numpy as np x = np.array([1, 5, 1, 6, 4, 7, 7]) função_teste = lambda x: x+x print(função_teste(x)) Selecione a opção correta a respeito dele? A- A saída do programa é [2]. B- O programa vai gerar e imprimir [2 10 2 12 8 14 14]. C- O programa ficará sintaticamente correto se for acrescentado o "SparkContext" para executar o MapReduce. D- O programa produz a saída 31. E- O programa vai gerar um erro Resposta: B. 47- A coleta e preparação dos dados para análise no Python são de extrema importância. Os dados secundários são assim definidos devido: A- O fato de virem de uma fonte alternativa não convencional. B- A sua baixa qualidade. C- O fato de ocuparem menos espaço de memória. D- O fato de terem sido obtidos a partir de terceiros. E- O fato de requererem muito mais pré-processamento. Resposta: D. 48- Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como: A- Faltantes. B- Enviesados. C- Corrompidos. D- Nulos. E- Embaralhados Resposta: A. 49- As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca? A- Tensorflow B- Pandas C- Scipy D- Plotly E- Numpy Resposta: A. 50- Em relação aos RDBMS, selecione a opção que apresenta a característica que trata as transações em um banco de dados como uma unidade indivisível? A- Indivisibilidade. B- Isolamento. C- Atomicidade. D- Consistência. E- Durabilidade. Resposta: C. 51- O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado para trabalhar com grandes volumes de dados. Selecione a opção correta que apresenta o paradigma como o HDFS funciona? A- Centralizado e distribuído. B- Distribuído e centralizado. C- Distribuído e distribuído. D- Centralizado e centralizado. E- Mestre e escravo. Resposta: E. 52- Selecione a opção a respeito da computação em nuvem? A- é uma outra forma de denominar a internet das coisas. B- é uma forma de abstrair serviços da internet das coisa sem redes locais distribuídas C- é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet D- trata-se da utilização de aplicações com finalidades específicas E- é a definição para aplicações de Big Data que utilizamos protocolos de internet Resposta: C. 53- Um dos desdobramentos de big data é o big data analytics, que se refere aos softwares capazes de tratar dados para transformá-los em informações úteis às organizações. O big data analytics difere do business intelligence por? A- Priorizar o ambiente de negócios em detrimento de outras áreas. B- Analisar dúvidas já conhecidas para as quais se deseje obter resposta. C- Analisar o que já existe, definindo as melhores hipóteses. D- Analisar o que já existe e o que está por vir, apontando novos caminhos. E- Dar enfoque à coleta, à transformação e à disponibilização dos dados Resposta: D. 54- Um dos principais tipos de sistemas gerenciadores de banco de dados são os bancos de dados relacionais. Assinale a alternativa que apresenta a forma que todos os dados de um banco de dados relacional são armazenados? A- Arquivos B- Tabelas C- Memória D- Fitas E- Discos Resposta: B. 55- Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a? A- Um banco de dados com capacidade melhorada. B- Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio. C- Um sistema de armazenamento e processamento de dados massivamente escalável ¿ não é um banco de dados. D- Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento. E- Um banco de dados com tecnologia de virtualização Resposta: C. 56- Com relação a análise de dados marque a alternativa INCORRETA: A- As ferramentas de análise de dados disponíveis atualmente facilitam a construção de inúmeros algoritmos utilizando uma diversidade de dados. Os excelentes resultados nas análises geralmente vêm de dados brutos sem nenhum tipo de tratamento. B- O foco principal das tarefas da categoria descritiva é caracterizar e apresentar as propriedades de um conjunto de dados de maneira concisa e informativa. C- A detecção de anomalias nos ajuda a perceber a existência de valores extremos que influenciarão alguns métodos baseados em estatística, mesmo em casos em que as anomalias correspondam a dados válidos. D- Após a captura, armazenamento e processamento dos dados, iniciamos a fase de análise. Nessa fase temos inúmeras possibilidades de converter dados brutos em conhecimento. E- O objetivo das atividades preditivas é construir um modelo para prever as propriedades e/ou tendências de um conjunto de dados desconhecido. Resposta: A. 57- Visualização de dados é importante para comunicar a mensagem de forma rápida e eficiente. Marque a opção que representa o tipo de visualização que tem como objetivo representar a frequência de ocorrência de cada palavra existente em uma base de dados textual?A- Rain of words B- Word cloud C- Barra D- Jogo de palavras E- Linha Resposta: B. 58- Assinale a opção correta sobre MapReduce, de acordo com Hurwitz (2015)? A- Apesar da utilização da técnica MapReduce para tratar grandes volumes de dados no contexto de Big Data, não é recomendável a sua utilização em uma arquitetura distribuída, virtualizada ou multiprocessada. B- No contexto de Big Data, a técnica MapReduce não é utilizada por ser pouco eficiente quando o volume de dados é muito alto. C- MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que possam processar quantidades massivas de dados desestruturados em paralelo, por meio de um grupo distribuído de processadores. D- A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas tabelas no banco de dados relacionais. E- No MapReduce, a função Map coloca um valor inicial em uma variável acumuladora e, então, processa cada elemento de uma lista passada pela função Reduce e, ao final, retorna um resultado do acumulador. Resposta: C. 59- O ecossistema do Hadoop possui um conjunto de ferramentas de alto nível para facilitar a manipulação dos dados em sistemas distribuídos. Marque a opção que apresenta a ferramenta projetada para transferir dados entre o Hadoop e um banco de dados relacional? A- Have. B- Cassandra. C- Mahout. D- Hbase. E- Sqoop. Resposta: E. 60- Imagine uma situação hipotética onde uma Analista de Tecnologia da Informação foi solicitada para configurar um Servidor de Arquivos implementando técnicas RAID (Redundant Array of Inexpensive Disks). Para realizar a configuração do RAID, essa Analista pretende utilizar o Sistema Operacional GNU/Linux Debian pelo fato desse sistema operacional suportar diversos tipos de RAID via software. Durante o processo de configuração do RAID, ela optou pelo RAID do tipo 0. Qual foi a motivação dessa escolha? A- Implementar redundância baseada em paridade B- Implementar redundância C- Otimizar o desempenho D- Replicar o conteúdo do disco principal E- Implementar um subsistema JBOD Resposta: C. 61- O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com várias vantagens. Marque a opção que NÃO representa uma dessas vantagens? A- A combinação de DAG e RDD ajudam ao Spark realizar o processamento paralelo extremamente rápido, em particular quando o cluster é grande o suficiente para armazenar todos os dados em memória. B- O Spark tem um rico conjunto de bibliotecas para implementar processamentos em estilo SQL, processamento de streaming, algoritmos de grafos e aprendizado de máquina. C- O Spark é tem a flexibilidade para processar dados em HDFS, HBase, Cassandra, Hive e qualquer outro formato de entrada aceito pelo Hadoop. D- No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, Python ou R. E- O Spark tem um gerenciador de recursos do cluster próprio responsável por alocar e monitorar os recursos disponíveis no cluster para todas as aplicações. Resposta: E. 62- Big Data se refere ao imenso volume de conjuntos de dados que alcançam elevadas ordens de magnitude. O valor real do Big Data está no insight que ele produz quando analisado ¿ buscando padrões, derivando significado, tomando decisões e, por fim, respondendo ao mundo com inteligência. Referente ao Big Data, é correto afirmar que o termo variedade refere-se? A- Aos data centers físicos que transformam os dados em informações pertinentes ao negócio. B- Ao controle de dados semiestruturados de formatos definidos como texto e números. C- Ao banco de dados homogêneo que trata de informações do mesmo tipo definindo padrões de segurança. D- A um conjunto de dados mais diversos, incluindo dados estruturados, semiestruturados e não estruturados. É heterogêneo e vem em muitos formatos, incluindo texto, documento, imagem, vídeo e outros. E- A um conjunto de dados que são gerados em tempo real, o que requer a oferta imediata de informações úteis Resposta: D. 63- Com relação aos fundamentos e aos conceitos de Big Data, julgue os itens a seguir. I- O volume de dados é uma característica importante de Big Data. II- Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. III- A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. IV- A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. Estão certos apenas os itens: A- I, III e IV B- II e IV C- I e II D- I e III E- II, III e IV Resposta: D. 64- Bancos de Dados não relacionais, também conhecidos como NoSQL, surgiram para armazenar dados não estruturados, usando modelos de armazenamento específicos para os tipos de dados que são armazenados, usualmente, fugindo do padrão de armazenamento de linhas e colunas dos bancos de dados tradicionais. Em relação ao Banco de Dados NoSQL, quais são as categorias consideradas para esse tipo de armazenamento? A- Armazéns chave-valor; Banco de dados orientados a documentos; Banco de dados de grafos B- Primeira forma normal; Banco de dados orientados a documentos; Normalização C- Armazéns chave-valor; Normalização; Banco de dados orientados a coluna D- Banco de dados orientados a linha; Normalização; Banco de dados orientados a coluna E- Banco de dados de grafos; Banco de dados orientados a linha; Formas normais de armazenamento Resposta: A. 65- O conceito de computação em nuvem (em inglês, cloud computing) refere-se: A- À tecnologia de comunicação de dados que permite uma transmissão de dados mais rápida através de linhas de telefone do que um modem convencional pode oferecer, sendo os dados transmitidos mais rapidamente em uma direção do que na outra, assimetricamente. B- À utilização da memória e da capacidade de armazenamento e cálculo de computadores e servidores compartilhados e interligados por meio da Internet, seguindo o princípio da computação em grade. C- Ao armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, havendo necessidade de instalação de programas ou, por vezes, de armazenar dados. D- Ao protocolo de comunicação da comada de aplicação utilizado para sistemas de informação de hipermídia, distribuídos e colaborativos, representando a base para a comunicação de dados da World Wide Web. E- Ao programa que habilita seus usuários a interagirem com documentos HTML hospedados em um servidor da rede, destacando-se na era da web 2.0, uma vez que quase tudo do que se necessita está online. Resposta: B. 66- Marque a opção que apresenta SOMENTE ferramentas utilizadas para análise de dados? A- HBase e Python. B- Apache mahout e Spark mllib. C- Hadoop MapReduce e Apache mahout. D- R e Apache Spark. E- MarkLogic e Weka. Resposta: B. 67- Existe uma série de ferramentas para visualização de dados. Algumas delas foram desenvolvidas para serem utilizadas no software R. Marque a opção em que SOMENTE há exemplos de recursos do software R? A- MarkLogic e graphX. B- Matplotlib e pentaho. C- Shiny e graphX. D- Ploty e rcmdr. E- Power BI e plotly Resposta: D. 68- Com referência a Big Data , assinale a opção correta? A- O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído. B- Para armazenar e recuperar grande volume de dados, Big Data utiliza bancos SQL nativos, que são bancos de dados que podem estar configurados em quatro tipos diferentes de armazenamentos: valor chave, colunar, gráfico ou documento. C- A definição mais ampla de Big Data restringe o termo a duas partes ¿ o volume absoluto e a velocidade ¿, o que facilita a extração das informações e dos insights de negócios. D- Em Big Data, o sistema de arquivos HDFS é usado para armazenararquivos muito grandes de forma distribuída, tendo como princípio o write-many, read-once. E- O sistema de arquivos distribuído Hadoop implementa o algoritmo Dijkstra modificado para busca irrestrita de dados em árvores aglomeradas em clusters com criptografia. Resposta: A. 69- O Apache Flume é um framework confiável para coletar, agregar e mover com eficiência grandes quantidades de dados. Possui uma arquitetura simples e flexível, baseada no fluxo de dados de streaming. O fluxo de dados é tratado por um agente Flume constituído de três componentes configuráveis, são eles: A- fonte, canal e sink. B- bolt, sink e nimbus. C- entrada, canal e destino. D- canal, supervisor e destino. E- fonte, canal e destino. Resposta: A. 70- Assinale a opção correta sobre Backups? A- Backups mantém sempre cópias atualizadas dos dados. B- Backups são desnecessários quando utilizamos o sistema HDFS. C- Backups não podem ser utilizados para recuperação de uma falha física dos meios de armazenamento. D- Backups são desnecessários quando utilizamos o sistema RAID 1. E- Backups são necessários para recuperação de falhas sistêmicas Resposta: E. 71- A biblioteca do Spark que oferece uma interface relacional para trabalhar com dados estruturados usando operações conhecidas baseadas em SQL denomina-se: A- GraphX. B- Spark SQL. C- Streaming. D- DataFrame. E- Dataset. Resposta: B. 72- ANAC 2016 - ANALISTA ADMINISTRATIVO - ANÁLISE DE SISTEMAS /ESAF). Big Data é: A- Dimensão + variedade + otimização + veracidade, tudo agregando + agilidade. B- Volume + disponibilidade + velocidade + portabilidade, tudo requerendo ¿ valor. C- Volume + variedade + velocidade + veracidade, tudo agregando + valor. D- Volume + variedade + agilidade + efetividade, tudo agregando + valor + atualidade. E- Volume + oportunidade + segurança + veracidade, tudo agregando + valor Resposta: C. 73- Existem algoritmos de análise que têm como objetivo utilizar atributos de um objeto para prever um valor numérico contínuo. Esses algoritmos são do tipo? A- Sumarização. B- Classificação. C- Agrupamento. D- Associação. E- Regressão Resposta: E. 74- O Sqoop foi projetado para transferir dados entre sistemas de gerenciamento de banco de dados relacional e o Hadoop. Ele automatiza a maior parte do processo de transformação de dados e realiza as importações e exportação via? A- JDBC. B- Spouts. C- HQL. D- Nimbus. E- ResourceManager Resposta: A. 75- (TRT - 11ª Região AM e RR 2016) Um dos servidores computacionais do TRT utiliza o esquema de armazenamento RAID 1 no qual os dados são armazenados de forma? A- distribuída nos discos para aumentar o desempenho. B- fracionada com a paridade armazenada de forma distribuída nos discos. C- fracionada byte a byte com a paridade armazenada em um disco dedicado. D- espelhada entre os discos para aumentar a confiabilidade. E- fracionada em setores com a paridade armazenada em um disco dedicado. Resposta: D. 76- Marque a opção que melhor descreve as funcionalidades de GraphX? A- Framework que simplifica as tarefas de análise de gráficos, fornece a capacidade de realizar operações em grafos direcionados e com propriedades anexadas a cada vértice e aresta; B- Framework desenvolvido para coletar, agregar e mover grandes volumes de dados de várias fontes distintas para o conjunto de dados distribuídos resilientes do Spark; C- Conjunto de bibliotecas com funcionalidades para agregar, comparar e unir dados heterogêneos; D- Conjunto de bibliotecas de alto nível que fornecem uma abstração para consultar um conjunto de dados em cache como se fossem tabelas de um bando de dados relacional; E- Ferramenta especializada em otimizar o processamento de dados em cluster através da divisão de jobs em pequenas tarefas relacionadas. Tais relacionamentos são expressos através de grafos direcionados acíclicos que são executadas em paralelo; Resposta: A. 77- (IADES - 2018 - APEX Brasil - Analista - Prospecção de Projetos). Assinale a alternativa que apresenta o conceito de Big Data? A- Conjuntos de dados de grande volume que se utilizam de ferramentas especiais de processamento, pesquisa e análise, e que podem ser aproveitados no tempo necessário, com precisão e grande velocidade. B- Refere-se a um grande número de computadores pessoais (PC) interligados entre si em uma grande rede de infor. C- São apenas grandes volumes de dados que precisam ainda ser mais bem aproveitados pelo mundo corporativo. D- Manuseio de informações necessárias às empresas e aos negócios do mundo moderno, que podem ser armazenadas em computadores pessoais, utilizando-se a técnica de nuvem de dados. E- São bancos de dados de fácil acesso e rápida velocidade, operados como computadores pessoais. Resposta: A. 78- (FCC - 2020 - AL-AP - Analista Legislativo - Desenvolvedor de Banco de Dados) Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus produtos e serviços, prestígio da imagem da organização e seus representantes. Porém, parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos dados, a fim de qualificá- los antes de disponibilizá-los para a tomada de decisão na empresa, segundo o conceito das cinco dimensões ¿V¿ de avaliação de um Big Data, se refere? A- À variedade. B- À velocidade. C- À veracidade. D- Ao volume. E- Ao valor. Resposta: C. 79- (INSTITUTO AOCP - 2018 - PRODEB - Analista de TIC I - Construção de Software).Sobre Banco de Dados Relacional, é correto afirmar que? A- cada tabela do banco de dados terá um nome, que pode se repetir, desde que suas tuplas sejam diferentes. B- em sua terminologia, uma tabela é chamada de atributo. C- os dados são representados como uma coleção de tabelas. D- todos os valores de uma coluna não precisam ser do mesmo tipo de dados. E- uma chave primária pode ser nula, desde que sua chave secundária esteja preenchida. Resposta: C. 80- Existem diversas ferramentas de visualização de dados. Assinale a ferramen ta utilizada no Apache Spark. A- GraphX B- Apache storm C- Apache accumulo D- Apache mahout E- Spark Mllib Resposta: A. 81- Os RDDs representam uma coleção de dados somente para leitura, particionada em um conjunto de máquinas que são acessados por meio de operações paralelas que podem ser de dois tipos: A- Criação e ação; B- Ação e reduce; C- Map e transformação; D- Map e reduce; E- Transformação e ação; Resposta: E. 82- (FUNDATEC - 2017 - CREMERS - Técnico em Informática) Analisando uma tabela em um banco de dados relacional, qual seria o conceito de chave primária? A- Apenas uma coluna que possua valor numérico e autoincremental. B- Uma coluna que permita a inserção de um valor de documento válido. C- Uma coluna que permita a inserção de um valor de documento inválido. D- Uma coluna ou combinação de colunas cujos valores distinguem uma linha das demais, dentro da mesma tabela. E- Apenas uma coluna que possua valor numérico e não autoincremental. Resposta: D. 83- O framework para processamento em tempo real e próximo ao tempo real, considerado uma evolução do Hadoop MapReduce, que utiliza um cache de resultados intermediários mantidos em memória que otimiza os processos executados diversas vezes sobre o mesmo conjunto de dados é chamado: A- Apache Storm. B- Hbase. C- Apache Spark. D- Memcached. E- Cassandra. Resposta: C. 84- O tipo de escalonamento que agrega diversos computadores, cada um funcionando sozinho, mas todos operando em conjunto, denomina-se? A- Irregular; B- Horizontal; C- Paralela; D- Vertical; E- Linear Resposta: B. 85- Marque a opção que apresentam ferramentas que conseguem interoperar com as ferramentas R e Python? A- Couchbase e RStudio; B- Spark mllib e Weka;C- Spark mllib e InfoGrid; D- Weka e Apache mahout; E- Apache mahout e Cassandra Resposta: B. 86- São características do MapReduce, mas não de todos os sistemas distribuídos: A- Consolidação dos resultados; B- Utilização de interfaces de comunicação entre computadores; C- Orquestração das atividades; D- Tolerância a falhas de componentes; E- Processamento paralelo Resposta: D. 87- São componentes do método do MapReduce: A- Computador mestre e computador escravo; B- Nó mestre e nó escravo; C- Computador principal e computador secundário; D- Nó gestor e nó operário; E- Nó principal e nó secundário. Resposta: B. 88- (FUNCAB 2008) A técnica RAID (Redundant Arrays of Inexpensive Disk) é usada: A- no armazenamento de informação ECC (error correcting code), que é a informação de controle de erros; B- na conexão à rede padrão ethernet; C- em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção de dados; D- na otimização das interfaces IDE. E- na alocação dinâmica de memória RAM; Resposta: C. 89- Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta? A- Garantir a consistência da informação através da ordenação dos dados. B- Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. C- Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. D- Usar algoritmos de criptografia nos dados para evitar o acesso indevido. E- Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Resposta: A. 90- Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark? A- reduce, first e map. B- map, take e reduce. C- map, filter e union. D- count, collect e take. E- map, sample e collect. Resposta: C. 91- O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark? A- Java e Python; B- Python e Escala; C- Java e R ; D- Hadoop e Spark; E- Casandra e Spark Resposta: A. 92- Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos? A- Gráfico de Faces de Chernoff. B- Gráficos de Linha. C- Gráfico de Matriz de Dispersão. D- Gráfico de Estrela. E- Gráficos de Barra. Resposta: E. 93- Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala? A- MinMax B- Splice C- Map & Reduce D- Shuffle E- Divide Resposta: A. 94- A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence? A- Agrupamento B- Modelos Generativos C- Q-Learning D- Classificação E- Regressão Resposta: A. 95- Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada? A- Random B- Sample C- MapRandom D- Filter E- Distinct Resposta: B. 96- O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de? A- RNN B- CNN C- LSTM D- KDD E- DNN Resposta: D.
Compartilhar