Infraestrutura de Data Science e Cloud Computing AOL2

Ciência de Dados

25/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Conteúdo do exercício
Ocultar opções de resposta
Pergunta 1 -- /0
A redundância e o desempenho do Apache Hadoop se dão por intermédio da sua arquitetura baseada em cluster.
Existem diferentes formas de implantar o cluster do Hadoop dependendo da sua utilização, seja para ambientes de
desenvolvimento, testes ou produção.
Considerando essas informações e o conteúdo estudado, é correto afirmar que:
O modelo de instalação Stand Alone Mode, que seria uma instalação local, não possui processos divididos
entre diferentes servidores, sendo muito indicado para estudantes.
O Stand Alone Mode é também é indicado para ambientes de desenvolvimento de grande porte.
O cluster do Hadoop no modo Pseudo Distributed Mode é indicado para ambientes de produção.
O modo Pseudo Distributed Mode implanta os processos em diferentes servidores, rodando
independentemente.
O multi-node mode roda no mesmo servidor, mas não na mesma JVM para facilitar o uso em background
dos recursos computacionais.
Pergunta 2 -- /0
Os dados processados em Big Data passaram de Gigabytes para Terabytes e daí para Petabytes, ficando cada vez
mais claro que o seu tratamento exige uma nova estratégia de processamento e armazenamento. O Hadoop
implementa a estratégia de processamento chamada MapReduce, que deve ser usada para a criação de jobs de
Ocultar opções de resposta
Ocultar opções de resposta
acesso e processamento dos dados no Hadoop.
Com base nessas informações e no conteúdo estudado, é correto afirmar que o MapReduce foi criado para:
facilitar a criptografia dos dados de forma paralela entre os clusters, pois é mais fácil transportar os dados
criptografados para processamento.
facilitar a compactação dos dados nos clusters, facilitando o transporte desses dados entre o cluster e as
aplicações usuárias do serviço.
facilitar o transporte do processamento de forma paralela entre os clusters, pois é mais fácil transportar o
processamento do que os dados.
abstrair a forma como os jobs devem ser processados, permitindo que qualquer tipo de modelo seja usado
no Hadoop sem precisar reescrever códigos já criados.
ampliar a capacidade de processamento paralelo ao transportar os dados para o nó de cluster que executa
o job de processamento dos dados solicitados.
Pergunta 3 -- /0
Historicamente, os arquitetos de soluções criadores do Hadoop enfrentaram situações que estrangularam a forma
tradicional de processamento de dados, alguns dos paradigmas foram quebrados para conseguirem o desempenho
desejado e imposto pelas aplicações e usuários da Internet. Uma forma de busca de dados que era completamente
indesejada pelos bancos de dados tradicionais foi a solução que gerou o melhor desempenho para o grande volume
de dados, possibilitando respostas rápidas para pesquisas de dados não estruturados.
Com base no texto e nos estudos da unidade, assinale a alternativa que contém a solução descrita acima:
Table scan.
Algoritmo de busca OLAP.
Índice de tabela.
Algoritmo de busca OLTP.
Desnormalização.
Ocultar opções de resposta
Pergunta 4 -- /0
O Hadoop, por ter sido desenvolvido para utilizar clusters e implantar a replicação de dados, possui o desafio de
manter consistente o seu estado mesmo quando ocorre algum erro interno.
Com base nessas informações e no conteúdo estudado, é correto afirmar que, para assegurar o estado de
consistência de gestão de seus metadados, o Hadoop:
efetua checkpoints dos logs gerados pelo SecondaryNode usando o DataNode para efetuar a análise das
diferenças encontradas e manter a consistência dos dados.
usa o SecondaryNode para replicar os logs de alterações nos dados, que são gerenciados pelo NameNode,
fazendo checkpoints do estado consistente.
efetua checkpoints dos logs gerados pelo NameNode usando o DataNode para efetuar a análise das
diferenças encontradas e manter a consistência dos dados.
usa os recursos normais de backup dos servidores em cluster oferecidos pelos sistemas operacionais,
garantindo a restauração dos arquivos.
usa o NameNode para replicar os logs de alterações nos dados, que são gerenciados pelo SecondaryNode,
fazendo backups dos dados.
Pergunta 5 -- /0
O Hadoop é a principal ferramenta de Big Data e a base de muitas soluções desse mercado. Ao crescer nesse sentido,
aprimorou a sua forma de gerenciar os recursos e processos de maneira mais eficiente com o YARN.
Com base nessas informações e no conteúdo estudado, analise as afirmações abaixo e assinale V para a(s)
verdadeira(s) e F para a(s) falsa(s):
I. ( ) O YARN nasceu da necessidade do Hadoop de gerenciar outros recursos além no MapReduce, com prioridades
adequadas para novos tipos de aplicações.
II. ( ) O ResourceManager fica no servidor escravo e recebe instruções do NodeManager.
III. ( ) O NodeManager fica no servidor master, gerencia os recursos do cluster e centraliza as requisições de serviço,
distribuindo os recursos entre as tarefas.
Ocultar opções de resposta
Ocultar opções de resposta
IV. ( ) O container é uma unidade de processamento com memória e CPU criado para executar as requisições que
chegam no NodeManager.
Agora, assinale a alternativa que apresenta a sequência correta:
F, V, F, V.
F, V, V, F.
V, V, F, F.
V, F, V, F.
V, F, F, V.
Pergunta 6 -- /0
O Hadoop possui um ecossistema integrado de soluções que ampliam a utilização para Data Science e Big Data. Uma
empresa precisa preparar os dados que chegam do ERP para adequá-los e utilizar na criação de Machine Learning,
de forma periódica e agendada, respeitando sequências de ações.
Com base nessas informações e no conteúdo estudado, assinale a alternativa contendo a ferramenta do ecossistema
mais indicada para criação de fluxos de trabalho com o Hadoop:
Solr.
HDFS.
Oozie.
Yarn.
Ambari.
Pergunta 7 -- /0
Ocultar opções de resposta
A ASF – Apache Software Foundation está completando 20 anos de existência, e possui mais de 180 projeto de
OpenSource, dos quais 49 são associados a Big Date e o Hadoop, o ecossistema do Hadoop possui uma família bem
densa e intensa na sua evolução.
Com base nessas informações e no conteúdo estudado, analise as ferramentas do ecossistema do Hadoop abaixo e
relacione-as com suas respectivas descrições:
1) Ambari.
2) Drill.
3) HBase.
4) Sqoop.
( ) Concatena dados estruturados e não estruturados (NoSQL), possui mecanismo de estruturação automática de
plano de consulta para aproveitar os recursos, e simula acessos aos dados no formato tabela, o que ajuda muito as
aplicações em BI.
( ) É uma ferramenta para importação e exportação de dados estruturados em bancos de dados relacionais, criando os
respectivos MapReduces no Hadoop.
( ) É a solução para bases de dados muito grandes, entre bilhões de linhas, usado para aplicações de acesso em
tempo real (OLTP).
( ) É uma ferramenta de monitoração, gestão de aprovisionamento de cluster.
Agora, assinale a alternativa que apresenta a sequência correta:
3, 2, 4, 1.
2, 1, 3, 4.
2, 3, 4, 1.
2, 4, 3, 1.
1, 3, 4, 2.
Pergunta 8 -- /0
Nem todas as transações são do mesmo tipo, algumas são criadas para efetuar tarefas que exigem resultado imediato
e outras podem demorar mais tempo analisando uma quantidade maior de dados.
Com base nessas informações e no conteúdo estudado, é correto afirmar que as transações OLTP:
Ocultar opções de resposta
são feitas por aplicações de análise de dados, envolvem muitos cálculos e são custosas para o ambiente
de produção, sendo consideradas de menor prioridade.
são feitas por aplicações online para registros rápidos e coerentes, de forma consistente, como, por
exemplo, compras por cartão de crédito.
são transações seguras, criptografadas para integração entre aplicações, dispendiosas em termos de
tempo e podem levar horas para serem processadas.
são muito utilizadas por soluções de Business Intelligence, pois permitem a resposta rápida e analítica dos
dados, mesmo que envolvam várias outras transações.
são efetuadas normalmente na madrugada, sem intervenção humana, organizadas em ferramentasde
gestão de processamento batch.
Pergunta 9 -- /0
Leia o trecho a seguir:
“Muito se fala a respeito do Big Data e de como o número de dados gerados graças à Internet das Coisas, operações
financeiras, registros médicos, smartphones, mídias sociais e uma série de outras coisas tende a aumentar em um
ritmo assustador.Atualmente, estima-se a marca dos 1,8 zettabytes (1 zettabyte equivale a 1 bilhão de gigabytes) de
dados existentes no mundo, mas um estudo realizado pela IDC prevê que o ‘universo digital’ deve atingir a marca de
40 zettabytes – o equivalente a 45 trilhões de gigabytes – em 2020.”
Fonte: CANALTECH. Cientista de dados: o profissional do futuro. 31 jul. 2013. Disponível em: <
https://canaltech.com.br/carreira/Cientista-de-dados-o-profissional-do-futuro/>. Acesso em: 31 mar. 2019.
Com base no trecho acima e no conteúdo estudado, analise as afirmações a seguir a respeito de como historicamente
as soluções foram sendo encontradas para se criarem ferramentas como o Hadoop, e assinale V para a(s)
verdadeira(s) e F para a(s) falsa(s):
I. ( ) Os bancos de dados relacionais tradicionais eram totalmente capazes de desempenhar a velocidade necessária
para processar pesquisas de internet como Yahoo e Google.
II. ( ) Como não era possível criar formas de indexação dos dados, optou-se por fazer o que era aparentemente
incabível: table scan. Em cluster, dividindo a base em colunas, ficou muito mais rápido o processamento viabilizando a
sua paralelização.
III. ( ) Como os dados eram muito mais difíceis e custosos de transportar, a distribuição das operações se tornou a
forma mais viável. Assim, acabou-se criando uma indexação de servidores, metadados e divisão do processamento
para facilitar a sua distribuição em um grande número de servidores em cluster.
IV. ( ) Com sempre houve a disponibilidade de memória RAM em servidores, e com seu baixo custo, optou-se por
alocar todo os dados em memória, facilitando a busca de informações e acelerando a resposta às pesquisas
solicitadas pelos usuários.
Ocultar opções de resposta
Ocultar opções de resposta
Assinale a alternativa
F, V, V, F.
V, V, F, F.
V, V, V, F.
F, F, V, V.
V, F, V, F.
Pergunta 10 -- /0
Um grande escritório de advocacia quer poder pesquisa e analisar contratos, processos, petições, cartas e outros
documentos em seu escritório para melhorar a eficiência de seus advogados, aproveitando históricos e documentos já
criados.
De acordo com o texto acima, quais ferramentas do ecossistema do Apache podem ser utilizadas para uma solução de
Data Science e Big Data:
Drill para armazenamento dos documentos, Solr para indexação e pesquisa de documentos e bibliotecas
em R para processamento de linguagem natural.
Hadoop HDFS para indexação dos documentos, Pig para armazenamento em cluster e MapReduce para
criação aplicações.
YARN para indexação dos documentos, Solr para indexação e pesquisa de documentos e Oozie para
processamento de linguagem natural.
Hadoop HDFS para armazenamento, Solr para indexação e pesquisa de documentos, e bibliotecas de
processamento de linguagem natural do Python.
Hadoop HDFS para armazenamento, Hive para indexação de documentos e Mahout para criação de Machine
Learning.