Buscar

Tecnologia para Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

1. 
O paradigma de programação MapReduce demonstrou ser adequado para trabalhar 
com problemas que podem ser particionados ou fragmentados em subproblemas. 
Isso porque se pode aplicar separadamente as funções map e reduce a um conjunto 
de dados. 
Sobre essas funções, analise as afirmativas a seguir e assinale a correta: 
 
Você acertou! 
E. 
As funções map e reduce são normalmente utilizadas juntas, especificando que a saída da 
função map será a entrada da função reduce. 
A função map é executada nos nós escravos. Ela recebe uma lista como entrada e, 
aplicando uma função dada, gera uma nova lista como saída. A função reduce, similarmente 
à função map, vai receber como entrada uma lista e, em geral, aplicará uma função para 
que a entrada seja reduzida a um único valor na saída. Ela também é executada nos nós 
escravos. As funções map e reduce são normalmente utilizadas juntas, especificando que a 
saída da função map será a entrada da função reduce. 
2. 
O Apache Hadoop é um framework que simplifica o trabalho com sistemas 
distribuídos, tornando transparentes diversas funções. Assinale a alternativa que 
apresenta uma característica do Hadoop: 
Você acertou! 
C. 
O Hadoop oferece estratégias automáticas para garantir o processamento em caso de falhas 
em computadores alocados para o processamento, garantindo continuidade. 
Possui licenciamento flexível, que torna possíveis as modificações e a redistribuição do 
programa-fonte. Possibilita a escalabilidade da aplicação, pois para o Hadoop é 
relativamente simples aumentar a quantidade de máquinas a serem utilizadas no 
processamento. O Hadoop oferece estratégias automáticas para garantir o processamento 
em caso de falhas em computadores alocados para o processamento, garantindo sua 
continuidade. No Hadoop, as operações são simples e especificadas por meio de funções 
de mapeamento (map) e de junção (reduce). O Apache Hadoop possui código aberto. 
 
 
 
 
 
 
3. 
Para realizar sua função, o Hadoop possui um conjunto de componentes e cada um 
possui responsabilidades bem definidas. Analise as afirmativas a seguir e selecione 
aquela que apresenta corretamente um dos componentes do Hadoop. 
 
 
Você acertou! 
E. 
O SecondaryNameNodeé responsável pela verificação dos checkpoints necessários para 
garantir a recuperação em caso de falha. 
 
 
4. 
O Hadoop possui alguns modos de execução e cada um deles possui configurações 
e formas de execução específicas. Analise as alternativas a seguir e selecione aquela 
que descreve corretamente um dos modos de execução do Hadoop: 
 
 
Você acertou! 
B. 
No pseudo-distributed mode, o Hadoop simula o processamento paralelo em uma única 
máquina. 
Standalone mode é o modo padrão, no qual utiliza-se uma única máquina. Já o 
modo pseudo-distributed mode é utilizado para simular a distribuição, usando um único 
computador. Por outro lado, o fully distributed mode é a distribuição real, que trabalha com 
conjunto de computadores especificados nos arquivos de configuração. Blank mode e single 
distributed mode não existem. 
5. 
O Hadoop Distributed File System (HDFS) é o sistema de arquivos distribuídos do Hadoop. Ele 
deve garantir: 
Você acertou! 
A. 
Tolerância a falhas para que, em caso de falha de algum nó, os dados não sejam perdidos 
e o processamento não pare. 
 
 
1. 
Um dos primeiros passos para lidar com big data é o planejamento. Com um projeto 
bem feito, deve ser levado em consideração que tipo de dado, com que frequência e 
em quais condições os dados se encontram. Sobre os primeiros passos em um 
projeto de big data, analise as afirmações a seguir: 
I. ETL é um processo importante na obtenção de dados. 
II. Com os dados disponíveis, o sistema pode começar a processá-los para exibir 
informações reais. 
III. Os requisitos básicos para trabalhar com big data não são os mesmos utilizados 
para trabalhar com conjuntos de dados de qualquer tamanho. 
Estão corretas: 
 
 
Resposta correta. 
A. 
I e II, apenas. 
Extração, Transformação e Carga (ETL) é um dos primeiros processos a serem realizados 
com os dados em um sistema de big data. Esse processo prepara os dados para serem 
analisados, assim podendo gerar relatórios com informações reais. 
Os requisitos básicos para lidar com big data ou com dados em menor tamanho são os 
mesmos, incluindo um local de armazenamento, etapas de recebimento e inserção dos 
dados no local de armazenamento, entre outras características. 
2. 
Devido às qualidades e quantidades do big data, computadores individuais 
geralmente são inadequados para manipular os dados na maioria dos estágios. Em 
ambiente de servidores para lidar com grandes conjuntos de dados, geralmente se 
adota uma estrutura capaz de suportar o volume de dados que irá trafegar: 
um cluster. Clustering de big data combina os recursos de muitas máquinas 
menores, buscando fornecer vários benefícios. Sobre os benefícios de um cluster, 
analise as afirmações a seguir: 
I. Pool de recursos combina espaço de armazenamento ao uso de CPUs e memória 
RAM de várias máquinas em um único propósito. 
II. Escalabilidade dos clusters facilitam o dimensionamento vertical adicionando mais 
discos de armazenamentos, memória e CPU às máquinas do grupo. 
III. Alta disponibilidade em clusters fornece níveis variados de tolerância a falhas, 
garantindo disponibilidade para impedir que falhas de hardware ou software afetem o 
acesso a dados e processamento. 
Está correto o que se afirma em: 
 
 
Você acertou! 
E. 
I e III, apenas. 
O chamado pool de recursos de um cluster inclui a junção das capacidades computacionais 
de várias máquinas como se fossem uma só, gerando um supercomputador a partir de 
máquinas mais simples, que juntam sua capacidade de processador (CPU), discos de 
armazenamento e de memória RAM. A alta disponibilidade dos clusters também mantém 
certa segurança ante falhas, uma vez que os dados podem ser replicados entre os nós 
do cluster. A escalabilidade fácil do cluster é uma virtude, mas seu crescimento escalar é 
horizontal e não vertical. Quem aumenta é o número de nós (agregando mais máquinas) e 
não o acréscimo de mais componentes aos computadores existentes. 
 
3. 
Uma maneira de adicionar dados a um sistema de big data são as ferramentas 
dedicadas de inserção ou ingestão. Durante o processo de ingestão, geralmente 
ocorre algum nível de análise, classificação e rotulagem dos dados. As operações 
típicas podem incluir e modificar os dados recebidos para formatá-los, categorizar e 
rotular dados, filtrar dados desnecessários, incorretos ou validar potencialmente a 
conformidade com certos requisitos. 
Esse processo ou técnica é conhecido tradicionalmente por: 
Você acertou! 
C. 
ETL. 
ETL é a tradicional etapa de extração, transformação e carga de dados. É como se realiza 
a ingestão ou a inserção de dados no armazenamento de sistemas de big data. SQL 
Injection é uma técnica de inserir dados indevidamente em bancos de dados relacionais. 
HDFS é a sigla para Hadoop Distributed File System (sistema de arquivos distribuídos 
Hadoop), um sistema que gerencia arquivos distribuídos no ecossistema Hadoop. NoSQL é 
como são chamados os bancos de dados não relacionais de modo geral. Já data 
warehouse é uma forma de chamar um armazém ou galpão de dados, que serve como base 
para dados após o processo de ETL em um projeto big data. 
 
4. 
No ecossistema Hadoop, os arquivos carregados do HDFS são armazenados em 
cache na memória compartilhada, que pode ser acessada diretamente por uma 
biblioteca e um sistema cliente. Dentro do uso de HDFS é comum o processamento 
em lote. Esse processamento é um método de computação em um grande conjunto 
de dados. 
Sobre o processamento em lote, qual é a alternativa correta? 
 
Você acertou! 
B. 
Processo que divide o trabalho em partes menores, reorganiza os dados e calcula o 
resultado final. 
 
5. 
O ecossistema Hadoop foi projetado partindo do pressuposto que a falhado hardware no qual estão os arquivos e os dados é uma regra e não uma exceção. 
Sobre o Hadoop e seu ecossistema, analise as afirmações a seguir: 
I. MapReduce é um framework ou técnica que permite que os dados sejam 
processados paralelamente. 
II. R e Python são bibliotecas pertencentes ao framework Apache Spark. 
III. Cassandra, HBase e Hive são bancos de dados NoSQL criados para o ecossistema 
Hadoop. 
Sobre os sistemas que envolvem o Hadoop, está correto o que se afirma em: 
Resposta correta. 
A. 
I, apenas. 
MapReduce é considerada uma técnica ou framework baseado em algoritmos para lidar 
com processamento paralelo em sistemas distribuídos. R e Python são linguagens de 
programação e podem fazer parte de projetos que envolvam Hadoop, mas são 
independentes desse ecossistema também. Hive e HBase são considerados bancos de 
dados NoSQL, desenvolvidos inicialmente para o Hadoop (embora atualmente funcionem 
de outras formas), mas o Cassandra nasceu da equipe de desenvolvimento do Facebook. 
 
. 
1 
Um dos maiores desafios em sistemas de armazenamento de dados é a 
escalabilidade: a capacidade de crescimento de maneira escalar. Esse é um dos 
problemas mais comuns e importantes que toda empresa enfrenta. Lida-se com 
negócios em crescimento, causando armazenamento exponencial de dados, 
com necessidade e grande demanda de disponibilidade deles. 
Em termos de dados e sistemas, analise as afirmações a seguir sobre escalabilidade: 
I. Característica de um sistema que descreve sua capacidade de lidar e executar bem 
sob aumento ou expansão. 
II. Capacidade de lidar com crescimento sem ser prejudicada por sua estrutura ou 
recursos disponíveis. 
III. Possibilidade de atender a diversas demandas ao mesmo tempo. 
IV. Está diretamente ligada a bancos de dados relacionais. 
Está correto o que se afirma em: 
Você acertou! 
D. 
I, II e III. 
Escalabilidade é uma característica de um sistema, modelo ou função que descreve sua 
capacidade de lidar e executar bem sob uma carga de trabalho, escopo aumentado ou em 
expansão. Um sistema que dimensione bem poderá manter ou até aumentar seu nível de 
desempenho ou eficiência, mesmo quando testado por demandas operacionais cada vez 
maiores. Um sistema escalar atende bem a muitas demandas ao mesmo tempo. Porém, 
apesar de poder ser aplicado ao uso de bancos de dados relacionais, não tem ligação direta, 
pois um SGBD relacional pode não ser escalável. 
 
2. 
Sharding é uma arquitetura de bancos de dados relativamente nova. Considerada 
revolucionária por profissionais da área, tem sido adotada por desenvolvedores e 
equipes responsáveis por projetos que lidam com dados de variados tipos. 
Sobre o conceito de sharding, pode-se afirmar: 
Você acertou! 
A. 
Define uma abordagem acessível para escala horizontal dos dados. 
 
3. 
Diferentes tipos de bancos de dados usam sharding como forma de oferecer suporte 
a implantações com conjuntos de dados muito grandes e operações de alto 
rendimento. Os sistemas de banco de dados com grandes conjuntos de dados ou 
aplicativos de alto rendimento podem desafiar a capacidade de um único 
servidor. Sharding pode ser uma alternativa para um conhecido método de 
aceleração de consultas a bancos de dados. 
Esse método é conhecido como: 
 
Resposta correta. 
C. 
índices 
4. 
Cluster é um termo na língua inglesa que pode ser traduzido como “aglomerar” ou 
“aglomeração”. Em computação, é o termo que pode definir um sistema que junta 
vários computadores em comum, a fim de transformar seu conjunto em uma única 
máquina com a soma de todas as capacidades reunidas. 
Sobre clusters, avalie as afirmações a seguir: 
I. Requer o uso de supercomputadores em sua composição. 
II. Ao unir vários computadores, é simulado um supercomputador. 
III. Cada computador em um cluster é chamado de node ou nó. 
IV. O computador principal é chamado de node master. 
Sendo assim, é correto o que se afirma em: 
 
Você acertou! 
C. 
II, III e IV. 
 
5. 
Geralmente, os clusters são implantados para melhorar o desempenho e a 
disponibilidade em relação a um único computador. Além disso, são muito mais 
econômicos que computadores individuais com velocidade ou disponibilidade 
comparáveis. 
Sobre o uso de clusters, observe as afirmações a seguir: 
I. O particionamento pode reduzir muito o custo total de armazenamento de dados. 
II. Clusters de computadores surgiram de tendências como a disponibilidade de 
computadores de baixo custo, redes de alta velocidade e software para computação 
distribuída de alto desempenho. 
III. Bancos de dados relacionais possuem a exclusiva capacidade de serem 
distribuídos e adotados em clusters. 
IV. Clusters podem ser formados por pequenos computadores de empresas menores 
ou pela junção de vários supercomputares, para processamento de dados em grande 
escala. 
É correto o que se afirma em: 
 
 
Você acertou! 
E. 
I, II e IV. 
1. 
Diversas expressões se tornam cada vez mais comuns, tanto entre profissionais de 
Tecnologia da Informação (TI) quanto entre profissionais de outras áreas. 
Assinale a alternativa correta a respeito do conceito de stream de dados. 
 
 
Você acertou! 
B. 
Fazem parte dos dados que alimentam sistemas de big data. 
 
2. 
Stream de dados é uma expressão em crescimento que envolve características e 
conceitos específicos. 
Assinale a alternativa que apresenta um cenário que representa uma fonte 
de stream de dados. 
Você acertou! 
C. 
Sensor enviando dados de consumo de energia de um equipamento que fica ligado 24 
horas. 
 
3. 
Em streams de dados existe um processo específico que possibilita o tratamento dos 
dados. 
Assinale a alternativa que representa a retirada de uma quantidade de dados do fluxo 
de dados por meio de uma janela. 
 
Resposta correta. 
E. 
Ingestão de dados. 
 
 
4. 
Por se tratar de um conceito relativamente novo e em larga expansão, quem trabalha 
com stream de dados precisa cuidar e planejar alguns pontos para lidar com os 
principais desafios dessa área. 
Assinale a alternativa que representa os principais pontos de planejamento para 
quem trabalha com stream de dados. 
Você acertou! 
A. 
Plano de escalabilidade, de durabilidade e de tolerância a falhas. 
 
 
5. 
O conceito de stream de dados tem tantos problemas comuns com big data quanto 
problemas específicos. 
Assinale a alternativa que representa os principais desafios que devem ser 
considerados para lidar com stream de dados. 
 
Você acertou! 
D. 
Geração contínua de dados por fontes diversas com diferentes formatos e grande número 
de fontes de dados que gerem mais informação do que é possível de ser processada

Outros materiais