pós_ Ciência de Dados

•

UNAMA

0

Helison Campos

10/03/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.715 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1. Pergunta 1
0,5/0,5
Nem todas as transações são do mesmo tipo, algumas são criadas para efetuar tarefas
que exigem resultado imediato e outras podem demorar mais tempo analisando uma
quantidade maior de dados.
Com base nessas informações e no conteúdo estudado, é correto afirmar que as
transações OLTP:
Ocultar opções de resposta
são muito utilizadas por soluções de Business Intelligence, pois permitem a resposta
rápida e analítica dos dados, mesmo que envolvam várias outras transações.
são transações seguras, criptografadas para integração entre aplicações, dispendiosas
em termos de tempo e podem levar horas para serem processadas.
são feitas por aplicações online para registros rápidos e coerentes, de forma
consistente, como, por exemplo, compras por cartão de crédito. Resposta
correta
são feitas por aplicações de análise de dados, envolvem muitos cálculos e são custosas
para o ambiente de produção, sendo consideradas de menor prioridade.
são efetuadas normalmente na madrugada, sem intervenção humana, organizadas em
ferramentas de gestão de processamento batch.
2. Pergunta 2
0/0,5
Os dados processados em Big Data passaram de Gigabytes para Terabytes e daí para
Petabytes, ficando cada vez mais claro que o seu tratamento exige uma nova estratégia
de processamento e armazenamento. O Hadoop implementa a
estratégia de processamento chamada MapReduce, que deve ser usada para a criação
de jobs de acesso e processamento dos dados no Hadoop.
Com base nessas informações e no conteúdo estudado, é correto afirmar que o
MapReduce foi criado para:
Ocultar opções de resposta
abstrair a forma como os jobs devem ser processados, permitindo que qualquer tipo
de modelo seja usado no Hadoop sem precisar reescrever códigos já criados
facilitar a compactação dos dados nos clusters, facilitando o transporte desses dados
entre o cluster e as aplicações usuárias do serviço.
facilitar a criptografia dos dados de forma paralela entre os clusters, pois é mais fácil
transportar os dados criptografados para processamento.
facilitar o transporte do processamento de forma paralela entre os clusters, pois
é mais fácil transportar o processamento do que os dados. Resposta correta
ampliar a capacidade de processamento paralelo ao transportar os dados para o nó de
cluster que executa o job de processamento dos dados solicitados.
3. Pergunta 3
0/0,5
Os desafios do processamento de grandes volumes de dados, com garantia de
armazenamento, ao mesmo tempo em que há fluxos de dados constantes como tuítes,
milhões de usuários com apps gerando informações que podem ser importantes e
precisam persistir.
Com base nessas informações e no conteúdo estudado, assinale a alternativa contendo
a estratégia da qual as soluções de Big Data usufruíram para garantir o que foi
colocado acima.
Ocultar opções de resposta
Manutenção dos dados em memória para garantir a velocidade, retardando a gravação
para manutenção da velocidade e deixando-a para momentos de menor demanda.
Incorreta:
Controle dos fluxos de dados entre os nós, de forma a mover os dados para onde
precisam estar, para que possam ser processados o mais rapidamente possível, de
forma paralela e distribuída.
Gravação imediata com replicação de dados em vários nós cluster, aproveitando
a replicação para que haja um paralelismo de processamento, enviando-o para
mais perto dos dados. Resposta correta
Para assegurar a velocidade de processamento com quantidades muito grandes de
dados, foi criado o fluxo de dados, que permite maior velocidade de
forma sequencial, gerando efetividade, velocidade e simplicidade para o Big Data.
Aumento da velocidade de processamento de dados através da utilização de clusters
de um único fabricante, com tecnologia proprietária destinada às grandes empresas de
mercado e códigos mantidos em segredo como propriedade intelectual.
4. Pergunta 4
0,5/0,5
Leia o trecho a seguir:
“O McDonald’s anunciou nesta semana a compra da startup de personalização
Dynamic Yield. A empresa fornece soluções de otimização de conversão para empresas
de e-commerce, viagens, finanças e mídia com a proposta de criar uma experiência
online personalizada. Com isso, o McDonald’s poderá criar um menu drive-thru que
pode ser adaptado de acordo com o clima, com o movimento de seus restaurantes e
tendências.”
Fonte: COMPUTERWOLD. McDonald’s adquire startup de personalização Dynamic
Yield. Disponível em: https://computerworld.com.br/2019/03/26/mcdonalds-
adquire-startup-de-personalizacao-dynamic-yield/. Acesso em: 26/03/2019.
De acordo com o texto cima, é possível identificar ferramentas que ajudaram a startup
adquirida pela gigante de alimentação a construir a inovação. Considerando essas
informações e o conteúdo estudado, analise as afirmativas abaixo:
I. O Hadoop YARN poderia ser usado para armazenar o grande volume de dados dos
restaurantes da região e seus históricos de comportamento em dias com diferentes
temperaturas.
II. O Hive pode ajudar na integração de dados externos e históricos de vendas nas
aplicações, e o Flume e o Pig podem integrar os históricos de temperaturas e clima nos
últimos anos e ainda dados das aplicações dos celulares dos clientes.
III. O Mahout rodaria as rotinas de Machine Learning para identificar as tendências de
comportamento e, junto com a previsão do tempo para os próximos dias, calcular
quais itens do menu deveriam ser mudados.
IV. A notícia não informa qual linguagem a startup está usando, o que dificulta a
identificação das ferramentas que poderiam usar.
Está correto apenas o que se afirma em
https://computerworld.com.br/2019/03/26/mcdonalds-adquire-startup-de-personalizacao-dynamic-yield/
https://computerworld.com.br/2019/03/26/mcdonalds-adquire-startup-de-personalizacao-dynamic-yield/
Ocultar opções de resposta
I e II.
I, II e III.
III e IV.
II e IV
II e III. Resposta correta
5. Pergunta 5
0,5/0,5
Os softwares de código livre formam a base das soluções de Big Data, e o principal
deles é o Apache Hadoop, que possui vários componentes especializados em cada fase
do ciclo de soluções de Big Data.
Considerando essas informações e o conteúdo estudado, assinale a alternativa correta.
Ocultar opções de resposta
O Hadoop Hive é a solução para importação da dados não estruturados para o Apache
Spark.
O MapReduce é a solução do Apache Hadoop para processamento de geolocalização,
muito utilizada em aplicativos móveis.
O Hadoop HDFS é o componente usado para integrar dados em SQL com as aplicações
que rodam em Java.
O Hadoop HDFS é responsável pelo armazenamento dos dados em cluster, com
segurança e grande capacidade de armazenamento. Resposta correta
A linguagem do Pig é usada para a criação de modelos em Machine Learning que
rodam em estruturas do MapReduce.
6. Pergunta 6
0,5/0,5
A junção de Big Data e Data Science veio para ficar, sendo somente possível o
tratamento dos grandes volumes de dados disponíveis na Internet através de
tecnologias e algoritmos de Data Science; contudo, nem todos os tipos de problemas
necessitam de soluções que envolvam a integração de Big Data e Data Science.
Considerando essas informações e o conteúdo estudado, identifique a alternativa que
descreve um problema que necessite de Big Data com Data Science:
Ocultar opções de resposta
As soluções de logística para determinar rotas de transporte necessitam de soluções
de Big Data e Data Science, pois combinam grandes volumes de dados e cálculos
complexos para análise de eficiência de rotas para entrega de mercadoria.
Os problemas de programação de máquinas industriais para aproveitamento de
materiais em uma planta de montagem necessitam de soluções de Data Science e Big
Data, pois combinam grandes volumes e modelos matemáticos complexos.
A descoberta de fraudes fiscais, lavagem de dinheiro e de corrupção necessitam
de soluções de Data Science e Big Data, pois combinam grandes volumes de
dados e modelos de comportamentosanormais .Resposta correta
Os problemas de backup de dados de sistemas em ERP necessitam de soluções de Big
Data e Data Science, pois combinam grandes volumes de dados e cálculos complexos
para análise da eficiência de armazenamento.
As transações de contas correntes e cálculos de saldo necessitam de soluções de Data
Science e Big Data, pois combinam grandes volumes de dados e cálculos complexos
para análise de saldo em contas correntes.
7. Pergunta 7
0,5/0,5
A utilização de Big Data cresceu nos últimos anos com base no aumento da utilização
comercial da Internet e a democratização do seu uso pelo mundo todo. A sociedade
tem se tornado cada vez mais conectada.
Com base no contexto exposto acima e no conteúdo estudado, assinale a alternativa
correta.
Ocultar opções de resposta
As páginas em HTML possuem uma estrutura interna avançada e muito mais fácil de
ser armazenada em bases de dados relacionais, e a forma padronizada dos websites
permitiram que buscadores como Google e Yahoo catalogassem o conteúdo web.
Apesar das soluções de Big Data serem desenvolvidas para obter velocidade
processando grandes volumes de dados, elas são ideais para outras formas de
utilização com baixo volume de dados, obtendo excelente desempenho.
Os buscadores na web foram os primeiros a necessitar de grandes armazenamentos de
dados para guardar de forma estruturada os dados da Internet e utilizaram os padrões
existentes para processar seus dados.
A complexidade dos dados em formatos não estruturados fez com que as
soluções buscassem alternativas ao modelo tradicional de processamento de
dados. Os volumes saíram de Terabytes para Petabytes e Exabytes. Resposta
correta
As soluções de Big Data são muito utilizadas por buscadores Web, deixando a desejar
no que diz respeito à sua utilização para armazenamento de informações de redes
sociais.
8. Pergunta 8
0,5/0,5
As soluções de Big Data no modelo Open Source fizeram surgir alguns tipos de
empresas e produtos online que revolucionaram o mercado mundial, gerando impacto
nos mercados e negócios de grandes empresas tradicionais, levando competitividade
para novos entrantes, tais como Google, Netflix e Amazon.
Considerando essas informações e o conteúdo estudado, assinale a alternativa correta.
Ocultar opções de resposta
Com as soluções de Big Data Open Source, as empresas de pesquisa desenvolveram
algoritmos fantásticos de busca, mas tiveram muita dificuldade de transformar a sua
tecnologia em recursos financeiros e acabaram falindo, como o Altavista e Yahoo.
Com as soluções de Big Data Open Source, as empresas que comercializavam não
mudaram a sua estratégia, pois rapidamente as soluções Open Source foram
ultrapassadas por tecnologias mais avançadas.
Com as soluções de Big Data Open Source, as aplicações web ficaram limitadas a
algumas empresas que possuíam os técnicos especializados nas soluções, gerando
benefícios particulares e de nicho.
Com as soluções de Big Data Open Source, os grandes beneficiários foram as grandes
corporações que possuíam acesso a equipamentos de alta capacidade para se
manterem como líderes em seus mercados.
Com as soluções de Big Data Open Source, novos negócios puderam ser criados
com base na disponibilidade dos dados da Internet combinados com aplicações
em smartphones, como, por exemplo, Uber e Waze. Resposta correta
9. Pergunta 9
0/0,5
O Hadoop, por ter sido desenvolvido para utilizar clusters e implantar a replicação de
dados, possui o desafio de manter consistente o seu estado mesmo quando ocorre
algum erro interno.
Com base nessas informações e no conteúdo estudado, é correto afirmar que, para
assegurar o estado de consistência de gestão de seus metadados, o Hadoop
Ocultar opções de resposta
efetua checkpoints dos logs gerados pelo NameNode usando o DataNode para efetuar a
análise das diferenças encontradas e manter a consistência dos dados.
usa os recursos normais de backup dos servidores em cluster oferecidos pelos
sistemas operacionais, garantindo a restauração dos arquivos.
usa o NameNode para replicar os logs de alterações nos dados, que são gerenciados
pelo SecondaryNode, fazendo backups dos dados.
usa o SecondaryNode para replicar os logs de alterações nos dados, que são
gerenciados pelo NameNode, fazendo checkpoints do estado consistente.
Resposta correta
efetua checkpoints dos logs gerados pelo SecondaryNode usando o DataNode para
efetuar a análise das diferenças encontradas e manter a consistência dos dados.
10. Pergunta 10
0,5/0,5
O Hadoop possui um ecossistema integrado de soluções que ampliam a utilização para
Data Science e Big Data. Uma empresa precisa preparar os dados que chegam do ERP
para adequá-los e utilizar na criação de Machine Learning, de forma periódica e
agendada, respeitando sequências de ações.
Com base nessas informações e no conteúdo estudado, assinale a alternativa contendo
a ferramenta do ecossistema mais indicada para criação de fluxos de trabalho com o
Hadoop:
Ocultar opções de resposta
Ambari.
Oozie. Resposta correta
Yarn.
Solr.
HDFS.