Buscar

teste big data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1.
		(IADES - 2018 - APEX Brasil - Analista - Prospecção de Projetos) Assinale a alternativa que apresenta o conceito de Big Data.
	
	
	
	Manuseio de informações necessárias às empresas e aos negócios do mundo moderno, que podem ser armazenadas em computadores pessoais, utilizando-se a técnica de nuvem de dados.
	
	
	Refere-se a um grande número de computadores pessoais (PC) interligados entre si em uma grande rede de infor
	
	
	São apenas grandes volumes de dados que precisam ainda ser mais bem aproveitados pelo mundo corporativo.
	
	
	Conjuntos de dados de grande volume que se utilizam de ferramentas especiais de processamento, pesquisa e análise, e que podem ser aproveitados no tempo necessário, com precisão e grande velocidade.
	
	
	São bancos de dados de fácil acesso e rápida velocidade, operados como computadores pessoais.
	
Explicação:
Embora não tenha uma tradução exata, Big Data é um termo que se refere a uma grande quantidade de dados e  também à coleta e interpretação dos mesmos para então terem aplicação prática.
	
	
	
	 
		
	
		2.
		Big Data se refere ao imenso volume de conjuntos de dados que alcançam elevadas ordens de magnitude. O valor real do Big Data está no insight que ele produz quando analisado ¿ buscando padrões, derivando significado, tomando decisões e, por fim, respondendo ao mundo com inteligência. Referente ao Big Data, é correto afirmar que o termo variedade refere-se:
	
	
	
	Ao controle de dados semiestruturados de formatos definidos como texto e números
	
	
	A um conjunto de dados que são gerados em tempo real, o que requer a oferta imediata de informações úteis
	
	
	Ao  banco de dados homogêneo que trata de informações do mesmo tipo definindo padrões de segurança
	
	
	Aos data centers físicos que transformam os dados em informações pertinentes ao negócio
	
	
	A um conjunto de dados mais diversos, incluindo dados estruturados, semiestruturados e não estruturados. É heterogêneo e vem em muitos formatos, incluindo texto, documento, imagem, vídeo e outros
	
	
	
	 
		
	
		3.
		ANAC 2016 - ANALISTA ADMINISTRATIVO - ANÁLISE DE SISTEMAS /ESAF) Big Data é: 
	
	
	
	Volume + variedade + velocidade + veracidade, tudo agregando + valor
	
	
	Volume + oportunidade + segurança + veracidade, tudo agregando + valor
 
	
	
	Volume + variedade + agilidade + efetividade, tudo agregando + valor + atualidade
	
	
	Volume + disponibilidade + velocidade + portabilidade, tudo requerendo ¿ valor
	
	
	Dimensão + variedade + otimização + veracidade, tudo agregando + agilidade
	
Explicação:
A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 V¿s do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valo
		1.
		(FCC - 2020 - AL-AP - Analista Legislativo - Desenvolvedor de Banco de Dados) Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus produtos e serviços, prestígio da imagem da organização e seus representantes. Porém, parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos dados, a fim de qualificá-los antes de disponibilizá-los para a tomada de decisão na empresa, segundo o conceito das cinco dimensões ¿V¿ de avaliação de um Big Data, se refere:
 
	
	
	
	À velocidade
 
	
	
	 Ao valor
 
	
	
	À veracidade
	
	
	 Ao volume
	
	
	À variedade
	
Explicação:
O V de Veracidade é sobre as fontes e a qualidade dos dados, pois eles devem ser confiáveis
	
	
	
	 
		
	
		2.
	Um dos desdobramentos de Big Data é a Big Data Analytics, que se refere aos softwares capazes de tratar dados para transformá-los em informações úteis às organizações. Big Data Analytics difere de Business Intelligence por 
	
	
	
	
	Analisar o que já existe e o que está por vir, apontando novos caminhos
	
	
	Priorizar o ambiente de negócios em detrimento de outras áreas
	
	
	Analisar o que já existe, definindo as melhores hipóteses
	
	
	Dar enfoque à coleta, à transformação e à disponibilização dos dados
	
	
	Analisar dúvidas já conhecidas para as quais se deseje obter resposta
	
Explicação:
O termo Big Data Analytics refere-se a softwares que tratam dados estruturados e não estruturados para transformá-los em informações úteis às organizações, permitindo-lhes analisar dados e fazer análises preditivas, indicado para quem precisa prever algum tipo de comportamento ou resultado.
	
	
	
	 
		
	
		3.
	Com relação aos fundamentos e aos conceitos de Big Data, julgue os itens a seguir.
I - O volume de dados é uma característica importante de Big Data. 
II - Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. 
III - A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. 
IV - A variedade dos dados não é característica intrínseca nos fundamentos de Big Data.
Estão certos apenas os itens 
	
	
	
	
	I e II
	
	
	I e III
	
	
	II, III e IV
	
	
	II e IV
	
	
	I, III e IV
	
	
	
	 
		
	
		4.
	(INSTITUTO AOCP - 2018 - PRODEB - Especialista de TIC - B.I) Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a:
 
	
	
	
	
	Um banco de dados com tecnologia de virtualização. 
	
	
	Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio. 
	
	
	Um sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de dados. 
	
	
	Um banco de dados com capacidade melhorada.
	
	
	Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento.
 
	
Explicação:
Na verdade, ele complementa seu sistema existente ao administrar dados que geralmente são problemáticos para eles.
		1.
		(FUNDATEC - 2017 - CREMERS - Técnico em Informática) Analisando uma tabela em um banco de dados relacional, qual seria o conceito de chave primária?
	
	
	
	Apenas uma coluna que possua valor numérico e autoincremental.
	
	
	Uma coluna que permita a inserção de um valor de documento válido.
	
	
	Uma coluna que permita a inserção de um valor de documento inválido.
	
	
	Uma coluna ou combinação de colunas cujos valores distinguem uma linha das demais, dentro da mesma tabela.
	
	
	Apenas uma coluna que possua valor numérico e não autoincremental.
	
Explicação:
Uma coluna ou combinação de colunas cujos valores distinguem uma linha das demais, dentro da mesma tabela.
	
	
	
	 
		
	
		2.
	Um dos principais tipos de sistemas gerenciadores de banco de dados são os bancos de dados relacionais. Assinale a alternativa que apresenta a forma que todos os dados de um banco de dados relacional são armazenados.
	
	
	
	
	Tabelas
	
	
	Fitas
	
	
	Discos
	
	
	Arquivos
	
	
	Memória
	
	
	
	 
		
	
		3.
	Bancos de Dados não relacionais, também conhecidos como NoSQL, surgiram para armazenar dados não estruturados, usando modelos de armazenamento específicos para os tipos de dados que são armazenados, usualmente, fugindo do padrão de armazenamento de linhas e colunas dos bancos de dados tradicionais. Em relação ao Banco de Dados NoSQL, quais são as categorias consideradas para esse tipo de armazenamento?
	
	
	
	
	Primeira forma normal; Banco de dados orientados a documentos; Normalização
	
	
	Armazéns chave-valor; Banco de dados orientados a documentos; Banco de dados de grafos
	
	
	Banco de dados de grafos; Banco de dados orientados a linha; Formas normais de armazenamento
	
	
	Armazéns chave-valor; Normalização; Banco de dados orientados a coluna
	
	
	Banco de dados orientados a linha; Normalização;Banco de dados orientados a coluna
	
	
	
	 
		
	
		4.
	(INSTITUTO AOCP - 2018 - PRODEB - Analista de TIC I - Construção de Software)
Sobre Banco de Dados Relacional, é correto afirmar que
	
	
	
	
	todos os valores de uma coluna não precisam ser do mesmo tipo de dados.
	
	
	uma chave primária pode ser nula, desde que sua chave secundária esteja preenchida.
	
	
	os dados são representados como uma coleção de tabelas.
	
	
	em sua terminologia, uma tabela é chamada de atributo.
	
	
	cada tabela do banco de dados terá um nome, que pode se repetir, desde que suas tuplas sejam diferentes.
	
Explicação:
os dados são representados como uma coleção de tabelas.
		1.
		O framework para processamento em tempo real e próximo ao tempo real, considerado uma evolução do Hadoop MapReduce, que utiliza um cache de resultados intermediários mantidos em memória que otimiza os processos executados diversas vezes sobre o mesmo conjunto de dados é chamado:
 
	
	
	
	Apache Storm.
	
	
	Hbase.
	
	
	Apache Spark.
	
	
	Memcached.
	
	
	Cassandra.
	
Explicação:
Apache Spark.
	
	
	
	 
		
	
		2.
	O conceito de computação em nuvem (em inglês, cloud computing) refere-se:
	
	
	
	
	Ao programa que habilita seus usuários a interagirem com documentos HTML hospedados em um servidor da rede, destacando-se na era da web 2.0, uma vez que quase tudo do que se necessita está online
	
	
	À tecnologia de comunicação de dados que permite uma transmissão de dados mais rápida através de linhas de telefone do que um modem convencional pode oferecer, sendo os dados transmitidos mais rapidamente em uma direção do que na outra, assimetricamente
	
	
	À utilização da memória e da capacidade de armazenamento e cálculo de computadores e servidores compartilhados e interligados por meio da Internet, seguindo o princípio da computação em grade
	
	
	Ao protocolo de comunicação da comada de aplicação utilizado para sistemas de informação de hipermídia, distribuídos e colaborativos, representando a base para a comunicação de dados da World Wide Web
	
	
	Ao armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, havendo necessidade de instalação de programas ou, por vezes, de armazenar dados
	
	
	
	 
		
	
		3.
	Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a
	
	
	
	
	Um banco de dados com tecnologia de virtualização
	
	
	Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento
	
	
	Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio
	
	
	Um banco de dados com capacidade melhorada
	
	
	Um sistema de armazenamento e processamento de dados massivamente escalável ¿ não é um banco de dados
	
	
	
	 
		
	
		4.
	O tipo de escalonamento que agrega diversos computadores, cada um funcionando sozinho, mas todos operando em conjunto, denomina-se
	
	
	
	
	Irregular
	
	
	Horizontal
	
	
	Paralela
	
	
	Vertical
	
	
	Linear
	
Explicação:
Horizontal
	
	 
		
	
		1.
	Existem algoritmos de análise que têm como objetivo utilizar atributos de um objeto para prever um valor numérico contínuo. Esses algoritmos são do tipo:
	
	
	
	
	Agrupamento
	
	
	Classificação
	
	
	Sumarização
	
	
	Associação
	
	
	Regressão
	
Explicação:
Regressão
	
	
	
	 
		
	
		2.
	Com relação a análise de dados marque a alternativa INCORRETA.
	
	
	
	
	As ferramentas de análise de dados disponíveis atualmente facilitam a construção de inúmeros algoritmos utilizando uma diversidade de dados. Os excelentes resultados nas análises geralmente vêm de dados brutos sem nenhum tipo de tratamento.
	
	
	O foco principal das tarefas da categoria descritiva é caracterizar e apresentar as propriedades de um conjunto de dados de maneira concisa e informativa.
	
	
	A detecção de anomalias nos ajuda a perceber a existência de valores extremos que influenciarão alguns métodos baseados em estatística, mesmo em casos em que as anomalias correspondam a dados válidos.
	
	
	Após a captura, armazenamento e processamento dos dados, iniciamos a fase de análise. Nessa fase temos inúmeras possibilidades de converter dados brutos em conhecimento.
	
	
	O objetivo das atividades preditivas é construir um modelo para prever as propriedades e/ou tendências de um conjunto de dados desconhecido.
	
	
	
	 
		
	
		3.
	Marque a opção que apresentam ferramentas que conseguem interoperar com as ferramentas R e Python.
	
	
	
	
	Couchbase e RStudio
	
	
	Spark mllib e Weka
	
	
	Spark mllib e InfoGrid
	
	
	Weka e Apache mahout
	
	
	Apache mahout e Cassandra
	
Explicação:
Spark mllib e Weka
	
	
	
	 
		
	
		4.
	Marque a opção que apresenta SOMENTE ferramentas utilizadas para análise de dados.
	
	
	
	
	HBase e Python
	
	
	R e Apache Spark
	
	
	Apache mahout e Spark mllib
	
	
	Hadoop MapReduce e Apache mahout
	
	
	MarkLogic e Weka
		1.
		Existem diversas ferramentas de visualização de dados. Assinale a ferramenta utilizada no Apache Spark. 
	
	
	
	Apache storm
	
	
	Apache mahout
	
	
	GraphX
	
	
	Apache accumulo
	
	
	Spark Mllib
	
Explicação:
GraphX
	
	
	
	 
		
	
		2.
	Visualização de dados é importante para comunicar a mensagem de forma rápida e eficiente. Marque a opção que representa o tipo de visualização que tem como objetivo representar a frequência de ocorrência de cada palavra existente em uma base de dados textual.
	
	
	
	
	Barra
	
	
	Linha
	
	
	Word cloud
	
	
	Rain of words
	
	
	Jogo de palavras
	
	
	
	 
		
	
		3.
	Existe uma série de ferramentas para visualização de dados. Algumas delas foram desenvolvidas para serem utilizadas no software R. Marque a opção em que SOMENTE há exemplos de recursos do software R.
	
	
	
	
	Matplotlib e pentaho
	
	
	Ploty e rcmdr
	
	
	Power BI e plotly
	
	
	MarkLogic e graphX
	
	
	Shiny e graphX
	
	
	
	 
		
	
		4.
	Durante o processo de análise, os dados precisam ser avaliados com minuciosidade, de forma que o analista tenha uma visão detalhada sobre eles e, assim, possa decidir quais operações realizar com os dados. A visualização de dados auxilia muito nesse processo denomina-se:
	
	
	
	
	Prescritiva
	
	
	Diagnóstica
	
	
	Explanatória
	
	
	Descritiva
	
	
	Exploratória
	
Explicação:
Exploratória
		1.
		São características do MapReduce, mas não de todos os sistemas distribuídos:
	
	
	
	Consolidação dos resultados
 
	
	
	Utilização de interfaces de comunicação entre computadores
	
	
	Orquestração das atividades
	
	
	Tolerância a falhas de componentes
	
	
	Processamento paralelo
	
Explicação:
Tolerância a falhas de componentes
	
	
	
	 
		
	
		2.
	Assinale a opção correta sobre MapReduce, de acordo com Hurwitz (2015)
	
	
	
	
	No contexto de Big Data, a técnica MapReduce não é utilizada por ser pouco eficiente quando o volume de dados é muito alto.
	
	
	MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que possam processar quantidades massivas de dados desestruturados em paralelo, por meio de um grupo distribuído de processadores.
	
	
	Apesar da utilização da técnica MapReduce para tratar grandes volumes de dados no contexto de Big Data, não é recomendável a sua utilização em uma arquitetura distribuída, virtualizada ou multiprocessada.
	
	
	No MapReduce, a função Map coloca um valor inicial em uma variável acumuladora e, então, processa cada elemento de uma lista passada pela função Reduce e, ao final, retorna um resultado do acumulador.
	
	
	A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas tabelas no banco de dados relacionais.3.
	Com referência a Big Data, assinale a opção correta.
	
	
	
	
	A definição mais ampla de Big Data restringe o termo a duas partes ¿ o volume absoluto e a velocidade ¿, o que facilita a extração das informações e dos insights de negócios.
	
	
	O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo paralelo e distribuído.
	
	
	Para armazenar e recuperar grande volume de dados, Big Data utiliza bancos SQL nativos, que são bancos de dados que podem estar configurados em quatro tipos diferentes de armazenamentos: valor chave, colunar, gráfico ou documento.
	
	
	O sistema de arquivos distribuído Hadoop implementa o algoritmo Dijkstra modificado para busca irrestrita de dados em árvores aglomeradas em clusters com criptografia.
	
	
	Em Big Data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, tendo como princípio o write-many, read-once.
	
	
	
	 
		
	
		4.
	 São componentes do método do MapReduce:
	
	
	
	
	Computador mestre e computador escravo
	
	
	Nó mestre e nó escravo
	
	
	Computador principal e computador secundário
	
	
	Nó gestor e nó operário
	
	
	Nó principal e nó secundário
 
	
Explicação:
Nó mestre e nó escravo
		1.
		O Sqoop foi projetado para transferir dados entre sistemas de gerenciamento de banco de dados relacional e o Hadoop. Ele automatiza a maior parte do processo de transformação de dados e realiza as importações e exportação via:
	
	
	
	Spouts
	
	
	ResourceManager
	
	
	HQL
	
	
	Nimbus
	
	
	JDBC
	
Explicação:
JDBC
	
	
	
	 
		
	
		2.
		O ecossistema do Hadoop possui um conjunto de ferramentas de alto nível para facilitar a manipulação dos dados em sistemas distribuídos. Marque a opção que apresenta a ferramenta projetada para transferir dados entre o Hadoop e um banco de dados relacional.
	
	
	
	Mahout
	
	
	Hive
	
	
	Cassandra
	
	
	HBase
	
	
	Sqoop
	
	
	
	 
		
	
		3.
		O Apache Flume é um framework confiável para coletar, agregar e mover com eficiência grandes quantidades de dados. Possui uma arquitetura simples e flexível, baseada no fluxo de dados de streaming. O fluxo de dados é tratado por um agente Flume constituído de três componentes configuráveis, são eles:
	
	
	
	canal, supervisor e destino
	
	
	entrada, canal e destino
	
	
	fonte, canal e sink
	
	
	bolt, sink e nimbus
	
	
	fonte, canal e destino
	
	
	
	 
		
	
		4.
		(INSTITUTO AOCP - 2018 - PRODEB - Especialista de TIC - B.I.) Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos variados de Big Data. Nesse sentido, é correto afirmar que o Hadoop refere-se a:
	
	
	
	um banco de dados com tecnologia de virtualização.
	
	
	um  sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de dados.
	
	
	uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, parceiros e sobre o negócio.
	
	
	um banco de dados com capacidade melhorada.
	
	
	um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento.
	
Explicação:
um  sistema de armazenamento e processamento de dados massivamente escalável - não é um banco de dados.
		1.
		(FUNCAB 2008) A técnica RAID (Redundant Arrays of Inexpensive Disk) é usada:
 
	
	
	
	no armazenamento de informação ECC (error correcting code), que é a informação de controle de erros;
	
	
	na conexão à rede padrão ethernet;
	
	
	em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção de dados;
	
	
	na otimização das interfaces IDE.
	
	
	na alocação dinâmica de memória RAM;
	
Explicação:
Em gerenciamento de disco para otimizar as operações de E/S e implementar redundância e proteção de dados;
	
	
	
	 
		
	
		2.
	Assinale a opção correta sobre Backups:
	
	
	
	
	Backups são desnecessários quando utilizamos o sistema RAID 1
	
	
	Backups são desnecessários quando utilizamos o sistema HDFS
	
	
	Backups são necessários para recuperação de falhas sistêmicas
	
	
	Backups mantém sempre cópias atualizadas dos dados
	
	
	Backups não podem ser utilizados para recuperação de uma falha física dos meios de armazenamento
	
	
	
	 
		
	
		3.
	Imagine uma situação hipotética onde uma Analista de Tecnologia da Informação foi solicitada para configurar um Servidor de Arquivos implementando técnicas RAID (Redundant Array of Inexpensive Disks). Para realizar a configuração do RAID, essa Analista pretende utilizar o Sistema Operacional GNU/Linux Debian pelo fato desse sistema operacional suportar diversos tipos de RAID via software. Durante o processo de configuração do RAID, ela optou pelo RAID do tipo 0. Qual foi a motivação dessa escolha?
	
	
	
	
	Replicar o conteúdo do disco principal
	
	
	Implementar um subsistema JBOD
	
	
	Otimizar o desempenho
	
	
	Implementar redundância baseada em paridade
	
	
	Implementar redundância
	
	
	
	 
		
	
		4.
	(TRT - 11ª Região AM e RR 2016) Um dos servidores computacionais do TRT utiliza o esquema de armazenamento RAID 1 no qual os dados são armazenados de forma:
 
	
	
	
	
	distribuída nos discos para aumentar o desempenho.
	
	
	fracionada em setores com a paridade armazenada em um disco dedicado.
	
	
	fracionada byte a byte com a paridade armazenada em um disco dedicado.
	
	
	espelhada entre os discos para aumentar a confiabilidade.
	
	
	fracionada com a paridade armazenada de forma distribuída nos discos.
 
	
Explicação:
Espelhada entre os discos para aumentar a confiabilidade.
	
	 
		
	
		1.
	Marque a opção que melhor descreve as funcionalidades de GraphX.
	
	
	
	
	Conjunto de bibliotecas de alto nível que fornecem uma abstração para consultar um conjunto de dados em cache como se fossem tabelas de um bando de dados relacional;
 
	
	
	Ferramenta especializada em otimizar o processamento de dados em cluster através da divisão de jobs em pequenas tarefas relacionadas. Tais relacionamentos são expressos através de grafos direcionados acíclicos que são executadas em paralelo;
	
	
	Framework desenvolvido para coletar, agregar e mover grandes volumes de dados de várias fontes distintas para o conjunto de dados distribuídos resilientes do Spark;
	
	
	Framework que simplifica as tarefas de análise de gráficos, fornece a capacidade de realizar operações em grafos direcionados e com propriedades anexadas a cada vértice e aresta;
 
	
	
	Conjunto de bibliotecas com funcionalidades para agregar, comparar e unir dados heterogêneos.
	
Explicação:
Framework que simplifica as tarefas de análise de gráficos, fornece a capacidade de realizar operações em grafos direcionados e com propriedades anexadas a cada vértice e aresta.
	
	
	
	 
		
	
		2.
		A biblioteca do Spark que oferece uma interface relacional para trabalhar com dados estruturados usando operações conhecidas baseadas em SQL denomina-se:
	
	
	
	Dataset
	
	
	Spark SQL
	
	
	Streaming
	
	
	GraphX
	
	
	DataFrame
	
	
	
	 
		
	
		3.
		O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com várias vantagens. Marque a opção que NÃO representa uma dessas vantagens.
	
	
	
	A combinação de DAG e RDD ajudam ao Spark realizar o processamento paralelo extremamente rápido, em particular quando o cluster é grande o suficiente para armazenar todos os dados em memória
	
	
	O Spark tem um gerenciador de recursos do cluster próprio responsável por alocar e monitorar os recursos disponíveis no cluster para todas as aplicações
	
	
	No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, Python ou R
	
	
	O Spark tem um rico conjunto de bibliotecas para implementar processamentos em estilo SQL, processamento de streaming, algoritmos de grafose aprendizado de máquina
	
	
	O Spark é tem a flexibilidade para processar dados em HDFS, HBase, Cassandra, Hive e qualquer outro formato de entrada aceito pelo Hadoop
	
	
	
	 
		
	
		4.
	Os RDDs representam uma coleção de dados somente para leitura, particionada em um conjunto de máquinas que são acessados por meio de operações paralelas que podem ser de dois tipos:
	
	
	
	
	Ação e reduce.
	
	
	Transformação e ação;
	
	
	Map e reduce;
	
	
	Criação e ação;
	
	
	Map e transformação;
	
Explicação:
Transformação e ação

Continue navegando