Buscar

Infraestrutura de Data Science e Cloud Computing AV1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Infraestrutura de Data Science e Cloud Computing AV1
Conteúdo do exercício
1. Pergunta 1
0,5/0,5
As linguagens de programação possuem um papel importante na Ciência de Dados, assim como as bases de dados, e criam a flexibilidade necessária para a sua adoção em aplicações comerciais, criando APIs ou bibliotecas integradas.
Com base no contexto acima, assinale a alternativa correta no que diz respeito à justificativa para a importância das linguagens nas soluções de Big Data e Data Science:
Ocultar opções de resposta 
1. 
No desenvolvimento de soluções de Data Science, aproximadamente 80% do tempo dos especialistas é gasto no compartilhamento dos dados e, por esse motivo, as linguagens mais adaptadas facilitam esse processo.
2. 
No desenvolvimento de soluções de Data Science, aproximadamente 80% do tempo dos especialistas é gasto na aquisição dos dados e, por esse motivo, as linguagens mais adaptadas facilitam esse processo.
3. 
No desenvolvimento de soluções de Data Science, a transformação dos dados é simplificada pela utilização de clusters e o armazenamento distribuído, não havendo mudança na forma de tratamento dos dados nesse ambiente.
4. 
Correta: No desenvolvimento de soluções de Data Science, aproximadamente 80% do tempo dos especialistas é gasto na preparação dos dados e, por esse motivo, as linguagens mais adaptadas facilitam este processo.
Resposta correta
5. 
No desenvolvimento de soluções de Data Science, o mais importante é a criação de gráficos e, portanto, as linguagens de programação pouco participam dessa fase do processo.
2. Pergunta 2
0,5/0,5
O MapReduce foi criado para oferecer às aplicações em Hadoop a capacidade de processamento distribuído entre os servidores disponíveis no cluster, acelerando mais o desempenho quanto maiores forem os arquivos a serem processados.
Considerando essas informações e o conteúdo estudado, assinale a alternativa correta.
Ocultar opções de resposta 
1. 
O TaskTracker é o gerenciador do job e agenda as tarefas dos trabalhos, monitorando e reexecutando quando houver falha.
2. 
O slave é o gerenciador do master e agenda as tarefas dos trabalhos, monitorando e reexecutando quando houver falha.
3. 
O TaskTracker é o gerenciador do JobTracker e agenda as tarefas dos trabalhos, monitorando e reexecutando quando houver falha.
4. 
O MapReduce é o gerenciador do TaskTracker e agenda as tarefas dos trabalhos, monitorando e reexecutando quando houver falha.
5. 
Correta: O JobTracker é o gerenciador do TaskTracker e agenda as tarefas dos trabalhos, monitorando e reexecutando quando houver falha.
Resposta correta
3. Pergunta 3
0,5/0,5
A utilização de Big Data cresceu nos últimos anos com base no aumento da utilização comercial da Internet e a democratização do seu uso pelo mundo todo. A sociedade tem se tornado cada vez mais conectada.
Com base no contexto exposto acima e no conteúdo estudado, assinale a alternativa correta.
Ocultar opções de resposta 
1. 
Os buscadores na web foram os primeiros a necessitar de grandes armazenamentos de dados para guardar de forma estruturada os dados da Internet e utilizaram os padrões existentes para processar seus dados.
2. 
As soluções de Big Data são muito utilizadas por buscadores Web, deixando a desejar no que diz respeito à sua utilização para armazenamento de informações de redes sociais.
3. 
Apesar das soluções de Big Data serem desenvolvidas para obter velocidade processando grandes volumes de dados, elas são ideais para outras formas de utilização com baixo volume de dados, obtendo excelente desempenho.
4. 
Correta: A complexidade dos dados em formatos não estruturados fez com que as soluções buscassem alternativas ao modelo tradicional de processamento de dados. Os volumes saíram de Terabytes para Petabytes e Exabytes.
Resposta correta
5. 
As páginas em HTML possuem uma estrutura interna avançada e muito mais fácil de ser armazenada em bases de dados relacionais, e a forma padronizada dos websites permitiram que buscadores como Google e Yahoo catalogassem o conteúdo web.
4. Pergunta 4
0,5/0,5
Leia o trecho a seguir:
“Muito se fala a respeito do Big Data e de como o número de dados gerados graças à Internet das Coisas, operações financeiras, registros médicos, smartphones, mídias sociais e uma série de outras coisas tende a aumentar em um ritmo assustador.
Atualmente, estima-se a marca dos 1,8 zettabytes (1 zettabyte equivale a 1 bilhão de gigabytes) de dados existentes no mundo, mas um estudo realizado pela IDC prevê que o ‘universo digital’ deve atingir a marca de 40 zettabytes – o equivalente a 45 trilhões de gigabytes – em 2020.”
Fonte: CANALTECH. Cientista de dados: o profissional do futuro. 31 jul. 2013. Disponível em: < https://canaltech.com.br/carreira/Cientista-de-dados-o-profissional-do-futuro/>. Acesso em: 31 mar. 2019.
Com base no trecho acima e no conteúdo estudado, analise as afirmações a seguir a respeito de como historicamente as soluções foram sendo encontradas
para se criarem ferramentas como o Hadoop, e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s):
I. ( ) Os bancos de dados relacionais tradicionais eram totalmente capazes de desempenhar a velocidade necessária para processar pesquisas de internet como Yahoo e Google.
II. ( ) Como não era possível criar formas de indexação dos dados, optou-se por fazer o que era aparentemente incabível: table scan. Em cluster, dividindo a base em colunas, ficou muito mais rápido o processamento viabilizando a sua paralelização.
III. ( ) Como os dados eram muito mais difíceis e custosos de transportar, a distribuição das operações se tornou a forma mais viável. Assim, acabou-se criando uma indexação de servidores, metadados e divisão do processamento para facilitar a sua distribuição em um grande número de servidores em cluster.
IV. ( ) Com sempre houve a disponibilidade de memória RAM em servidores, e com seu baixo custo, optou-se por alocar todo os dados em memória, facilitando a busca de informações e acelerando a resposta às pesquisas solicitadas pelos usuários.
Assinale a alternativa
Ocultar opções de resposta 
1. 
V, V, F, F.
2. 
V, F, V, F.
3. 
V, V, V, F.
4. 
F, F, V, V.
5. 
Correta: F, V, V, F.
Resposta correta
5. Pergunta 5
0/0,5
O uso corporativo de Big Data e Data Science busca a transformação de negócios, automatizando informações, além de documentos e processos, e gerando a transformação digital.
Com base nessas afirmações e no conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) IoT significa Internet das coisas e possibilita a inclusão de informações de sensores, dispositivos e equipamentos, aumentando a possibilidade de uso de Data Science nos negócios.
II. ( ) Tecnologias que são usadas em celulares podem ser usadas em equipamentos remotos de transferência de sensores e ampliar o uso de Data Science para tomada de decisões.
III. ( ) A redes sociais são fontes de informação de comportamento e perfil de usuários que podem enriquecer dados de clientes para melhorar os modelos preditivos de comportamento.
IV. ( ) Os resultados obtidos pelas soluções de Data Science com Big Data servem para análises e criação de insights a respeito de negócios, ficando para outros tipos de solução a utilização das descobertas em processos de negócio.
Assinale a alternativa que apresenta a sequência correta
Ocultar opções de resposta 
1. 
V, V, V, F.
Resposta correta
2. 
Incorreta: V, F, V, V.
3. 
V, V, F, V.
4. 
V, F, V, F.
5. 
F, V, V, V.
6. Pergunta 6
0,5/0,5
O processamento paralelo em cluster é o que diferencia as soluções de Big Data. A base do seu funcionamento é a distribuição de tarefas entre os servidores (nós) que estão interconectados em uma estrutura de cluster.
Considerando essas informações e o conteúdo estudado, assinale a alternativa correta.
Ocultar opções de resposta 
1. 
O MapReduce criptografa as informações que estão armazenadas no HDFS, evitando perda de dados a melhorando a Veracidade.
2. 
O MapReduce compacta os dados para que possam trafegar mais facilmente entre osnós do cluster
3. 
O MapReduce é o responsável pela execução dos algoritmos de Data Science nos dados solicitados pelo modelo.
4. 
Correta: O MapReduce é o responsável pela distribuição das tarefas entre os nós e coordena a junção das informações resultantes.
Resposta correta
5. 
O MapReduce é responsável pela implementação da interface SQL no Hadoop para manter a compatibilidade com outros produtos.
7. Pergunta 7
0,5/0,5
O Hadoop é a principal ferramenta de Big Data e a base de muitas soluções desse mercado. Ao crescer nesse sentido, aprimorou a sua forma de gerenciar os recursos e processos de maneira mais eficiente com o YARN.
Com base nessas informações e no conteúdo estudado, analise as afirmações abaixo e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s):
I. ( ) O YARN nasceu da necessidade do Hadoop de gerenciar outros recursos além no MapReduce, com prioridades adequadas para novos tipos de aplicações.
II. ( ) O ResourceManager fica no servidor escravo e recebe instruções do NodeManager.
III. ( ) O NodeManager fica no servidor master, gerencia os recursos do cluster e centraliza as requisições de serviço, distribuindo os recursos entre as tarefas.
IV. ( ) O container é uma unidade de processamento com memória e CPU criado para executar as requisições que chegam no NodeManager.
Agora, assinale a alternativa que apresenta a sequência correta:
Ocultar opções de resposta 
1. 
Correta: V, F, F, V.
Resposta correta
2. 
F, V, V, F.
3. 
V, F, V, F.
4. 
V, V, F, F.
5. 
F, V, F, V.
8. Pergunta 8
0,5/0,5
Há uma comparação do Big Data com as soluções de BI (Business Intelligence), e podemos afirmar que existem semelhanças, mas é importante o entendimento do que caracteriza e diferencia as soluções de Big Data de outras.
Com relação à caracterização das soluções de Big Data, assinale a alternativa correta:
Ocultar opções de resposta 
1. 
A Velocidade diz respeito aos diferentes tipos de dados que o Big Data pode processar, indo de textos, áudios, vídeos até bancos de dados.
2. 
O Valor está ligado à grande quantidade de dados processados nas soluções de Big Data.
3. 
A Variedade é a propriedade que dá agilidade para na análise de dados mesmo com quantidades enormes de dados.
4. 
O Volume associa às soluções de Big Data aos processos de negócio, que justificam os esforços de implantação.
5. 
Correta: A Veracidade caracteriza a fonte original dos dados e de como são armazenados, aumentando a confiabilidade na solução.
Resposta correta
9. Pergunta 9
0,5/0,5
Historicamente, os arquitetos de soluções criadores do Hadoop enfrentaram situações que estrangularam a forma tradicional de processamento de dados,
alguns dos paradigmas foram quebrados para conseguirem o desempenho desejado e imposto pelas aplicações e usuários da Internet. Uma forma de busca de dados que era completamente indesejada pelos bancos de dados tradicionais foi a solução que gerou o melhor desempenho para o grande volume de dados, possibilitando respostas rápidas para pesquisas de dados não estruturados.
Com base no texto e nos estudos da unidade, assinale a alternativa que contém a solução descrita acima:
Ocultar opções de resposta 
1. 
Correta: Table scan
Resposta correta
2. 
Algoritmo de busca OLAP.
3. 
Índice de tabela.
4. 
Algoritmo de busca OLTP.
5. 
Desnormalização.
10. Pergunta 10
0,5/0,5
As soluções de Data Science estão muito relacionadas com as soluções de Business Intelligence e podem compartilhar entre si alguns processos de desenvolvimento, dados corporativos e ambiente computacional. Na verdade, é necessário um conhecimento abrangente dos dados para que o Data Science possa gerar bons frutos e é neste ponto que o BI pode ajudar muito: conhecimento dos dados.
Com base nessas informações e no conteúdo estudado, é correto afirmar que as transações OLAP:
Ocultar opções de resposta 
1. 
são transações seguras, criptografadas para integração entre aplicações, que são dispendiosas em termos de tempo e podem levar horas para serem processadas devido aos cálculos de agregação envolvidos.
2. 
são efetuadas normalmente na madrugada, sem intervenção humana, organizadas em ferramentas de gestão de processamento batch, pois exigem cálculos onerosos.
3. 
Correta: são feitas por soluções analíticas para tomada de decisões que envolvem cálculos de agregação por dimensões diversas (região, produto, trimestre) de forma consistente.
Resposta correta
4. 
são feitas por aplicações online, envolvem poucos cálculos e usam o mínimo possível de recursos computacionais do ambiente de produção, sendo consideradas de maior prioridade
5. 
são muito utilizadas por soluções financeiras, pois permitem a resposta rápida e analítica dos dados nas transações de cartão de crédito, que precisam ser realizadas em segundos em qualquer lugar do mundo

Continue navegando