Buscar

Big Data Uma Visão Geral - Exercicios

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

1. Introdução a Big Data
1. A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a saber: volume, velocidade, variedade, valor e veracidade.
Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é o motor principal e, assim, é preciso tomar decisões rápidas:
Resposta incorreta.
A. Empresa com sistema de vendas semestrais; galinheiro com monitoramento de temperatura ininterrupto; e dados oriundos de um ERP.
Resposta incorreta.
B. Aplicativo da Bolsa de valores; monitor de dados vitais dentro de uma UTI; e sistema de matrículas de uma escola.
Você acertou!
C. Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural.
Há problemas em que a velocidade é um fator determinante, a fim de que sejam todas decisões rápidas. Exemplos incluem: monitoramento de temperatura de uma caldeira; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural.
As demais alternativas misturam dados que são produzidos em grande velocidade – como dados oriundos de um ERP; monitor de dados vitais dentro de uma UTI; temperatura em um galinheiro; sistema de empréstimo do banco; umidade relativa do ar; e sistema de telemedicina – com outros sistemas em que os dados normalmente não são gerados com muita velocidade – como sistema com vendas semestrais; aplicativo da bolsa de valores; sistema de matrículas de uma escola; sistema de provas on-line; sistema de pesagem de gados; e sistema de cursos sob demanda.
Resposta incorreta.
D. Sistema de provas on-line de um curso EaD; sistema de empréstimo do banco; e umidade relativa do ar em tempos de seca severa.
Resposta incorreta.
E. Sistema de telemedicina de pacientes idosos; sistema de pesagem de gados; e sistema de cursos sob demanda.
2. Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, analise o seguinte cenário:
Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um repositório único, a fim de que a análise e o processamento fiquem mais fáceis.
Diante do exposto, qual é a solução possível no contexto de big data?
Resposta incorreta.
A. Por ter diferentes tipos de arquivos, não é possível uni-los em um único repositório. No entanto, é possível obter os dados de cada um e armazená-los em um banco de dados relacional, em um sistema de arquivos NTFS.
Resposta incorreta.
B. É possível unir os arquivos em um banco de dados relacional, inclusive extraindo os dados das planilhas e fazendo um espelho de seus campos em tabelas. No entanto, os dados RFID ficarão isolados.
Você acertou!
C. É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade.
O HDFS é o sistema de arquivos base do contexto big data e pode receber diferentes arquivos, como textos, planilhas, imagens ou vídeos. A partir dele, existem serviços que podem gerenciar e processar esses arquivos. Outros sistemas de arquivos, como o NTFS e o FAT32, não estão preparados para o contexto big data. O cluster é bem-vindo, pois garante a replicação, a segurança, a confiabilidade e a disponibilidade dos dados.
Resposta incorreta.
D. É possível unir os arquivos em um sistema de arquivos como o FAT32, a fim de garantir a confiabilidade. Caso seja necessário, pode-se colocar os dados do RFID dentro de uma nova estrutura, sem a necessidade de um cluster.
Resposta incorreta.
E. O cenário apresentado não é um problema que envolve big data, mas sim a produção de um software que possa consumir as diferentes API's que há dentro da empresa.
3. O conjunto big data & analytics é uma denominação da IBM para a correlação entre big data, mineração de dados e inteligência do negócio. No entanto, para que se tenha uma mineração com êxito, precisa-se do conceito de veracidade no contexto do big data.
Considerando um cenário em que não há o controle de qualidade dos dados, o que pode ser feito para garantir a veracidade?
Resposta incorreta.
A. Utilizar os dados, sem realizar nenhum processamento ou análise inicial, pois o importante é armazená-los em local seguro e confiável. Assim, pode-se fazer a ingestão no cluster e organizá-los no HDFS.
Resposta incorreta.
B. Utilizar os padrões de projetos Gang of Four de engenharia de software, que darão ao sistema da empresa a confiabilidade necessária para que os dados tenham a devida veracidade.
Você acertou!
C. Utilizar um padrão organizado de governança de dados, por meio do DAMA DMBok framework, e realizar análises exploratórias para verificação dos dados e acompanhamento contínuo de qualidade.
O framework DAMA DMBok é importantíssimo dentro do contexto de qualidade dos dados, a fim de que se tenha dados confiáveis e acompanhamento contínuo. A verificação estatística/exploratória, de fato, é parte necessária para a compreensão e a verificação dos dados, a fim de que a confiabilidade seja aumentada. Armazenar os dados dentro do sistema de arquivos HDFS em ambiente de cluster garante também a segurança, a replicação, a disponibilidade e a confiabilidade nos dados. Os padrões de projeto de software garantem uma boa arquitetura para o sistema, no entanto, não fazem parte do processo de confiabilidade. Por fim, a utilização da arquitetura Lambda é parte necessária da ingestão, da análise e do consumo dos dados pelos clientes.
Resposta incorreta.
D. O problema relatado da veracidade é intimamente ligado ao da velocidade. Assim, se os dados fossem ingeridos por meio da arquitetura Lambda, eles teriam mais êxito.
Resposta incorreta.
E. O valor dos dados não está ligado diretamente ao que a empresa gera interiormente, mas sim aos dados gerados exteriormente e que serão consumidos. Logo, a verificação de veracidade não é tão necessária.
4. Analise o seguinte cenário:
Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de perfis e verificação de análise de sentimento em comentários do aplicativo; faz uso de bloco de notas (arquivo CSV) para anotar registros em formato tabular dentro de departamentos; e envia e-mails automáticos de marketing para bons perfis, de acordo com um sistema de machine learning de análise de crédito.
Para iniciar o processo de organização dos dados dessa empresa, o que se pode afirmar sobre os dados estruturados e não estruturados citados?
Resposta incorreta.
A. Os dados estruturados não podem ser espelhados em bancos relacionais, pois, mesmo que tivessem alguma relação com as tabelas do banco, a remodelagem não seria possível.
Resposta incorreta.
B. Os dados estruturados, como as fotos oriundas dos perfis, não podem ser mapeados em um banco relacional por meio da transformação para base64, pois ainda não podem se relacionar com suas respectivas tabelas de clientes.
Você acertou!
C. Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto não estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro do Hadoop, e a posterior análise de sentimento.
Os dados não estruturados e os estruturados podem ser alocados em uma estrutura de arquivos HDFS do Apache Hadoop e, ainda, possibilitam realizar diversas análises, incluindo a de sentimento, com os serviços disponíveis dentro do ecossistema Hadoop. Destaca-se que os arquivos CSV contêm dados estruturados (formato tabular) e as fotos são dados não estruturados.
Resposta incorreta.
D. Os dados não estruturados, como os registros de clientes dentro do arquivo CSV, poderiam ser mapeados para uma estrutura relacional já existente na empresa, assim como os textos dos comentários.
Resposta incorreta.
E. O conceito de dados estruturados ou não estruturados não é tão importante no momento daingestão dos dados. O ideal é realizar a ingestão dos dados no HDFS, sem a necessidade de mapeamento ou conhecimento prévio.
5. A mineração de dados é um processo de aquisição de conhecimento por meio do que o big data entrega como informação, ou seja, é a descoberta da informação por meio dos dados.
Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes diários, em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e frequência de compra; dados completos do fornecedor; links das redes sociais de cada cliente, por meio de um cadastro voluntário após a compra; e dados oriundos de um sensor que realiza a contagem de quantas vezes o cliente passa por cada corredor. No entanto, não há nada formal cadastrado em bancos de dados ou qualquer outra estrutura, além de planilhas e anotações digitais.
Diante desse cenário, pode-se concluir que:
Resposta incorreta.
A. pela complexidade do ambiente, faz-se necessária a aquisição de um cluster com software big data, a fim de compor a infraestrutura e a gestão do armazenamento, respectivamente. Pelas baixas vendas, não é necessário realizar a mineração de dados.
Você acertou!
B. pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente organizar dados estruturados em bancos relacionais e dados não estruturados em bancos NoSQL, a fim de que, posteriormente, seja realizada alguma mineração.
Dado que as vendas mensais são baixas e há poucas visitações diárias de clientes, não há o contexto dos Vs do big data em sua plenitude. Nesse cenário, pode-se apenas aplicar a teoria relacional de banco de dados e o ambiente NoSQL para os dados não estruturados.
Resposta incorreta.
C. o conhecimento de dados, quando em pequena escala, não faz sentido algum para o negócio, pois é muito limitado. Assim, pode-se realizar a ingestão em uma estrutura big data, mas sem a necessidade de controle de qualidade e análise exploratória.
Resposta incorreta.
D. ao se perceber que o ambiente não comporta uma estrutura big data, pode-se manter os dados em pequenas estruturas dentro de arquivos, não necessitando de uma maior complexidade em bancos relacionais. Isso facilitaria a mineração dos dados.
Resposta incorreta.
E. a aquisição de um banco relacional é verificada pelas ligações entre as entidades envolvidas na venda da empresa, assim, será necessária uma estrutura de big data com o sistema HDFS, a fim de compor a melhoria tecnológica para a extração de conhecimento.
2. O ecossistema de Big Data
1. Em um contexto geral, o Data Lake representa um repositório para grandes quantidades de dados. Portanto, pode-se afirmar que o Data Lake é:
Você acertou!
A. uma tecnologia para Big Data.
Um Data Lake é um conceito dentro de Big Data e, portanto, uma tecnologia; isto é, podem ser necessárias diversas ferramentas de software para a construção de um Data Lake. Existem diferentes serviços que fornecem ferramentas para a construção de um Data Lake. É importante mencionar também que o Data Lake não é uma linguagem de programação, software ou banco de dados relacional. Além disso, também não é um pântano de dados, visto que o termo correto para pântano de dados é Data Swamp.
Resposta incorreta.
B. um pântano de dados dentro de Big Data.
Resposta incorreta.
C. uma linguagem de programação.
Resposta incorreta.
D. um banco de dados relacional.
Resposta incorreta.
E. um software para Big Data.
2. O Apache Hadoop apresenta um ecossistema de tecnologias que auxiliam no gerenciamento de dados. Quais dos nomes a seguir fazem parte desse ecossistema?
Resposta incorreta.
A. Hadoop Common e Hadoop Data Map.
Resposta incorreta.
B. Hadoop Code e Hadoop Yarn.
Você acertou!
C. Apache Spark e Apache Sqoop.
Fazem parte do ecossistema as tecnologias: Apache Sqoop e Apache Spark. Hadoop Common, Hadoop MapReduce, HDFS e Hadoop Yarn são componentes do Hadoop; logo, não são ferramentas do ecossistema. Já Hadoop Data Map, Hadoop Code, Hadoop Data Start e Hadoop Point não existem; portanto, não podem ser considerados.
Resposta incorreta.
D. Hadoop MapReduce e Hadoop Data Start.
Resposta incorreta.
E. HDFS e Hadoop Point.
3. Uma das ferramentas que ganhou mais notoriedade nos últimos anos é o Apache Spark. Qual é o seu diferencial?
Você acertou!
A. O Apache Spark tem como diferencial o uso da escrita em memória, em vez de fazer várias chamadas ao disco rígido, aumentando sua velocidade no processamento dos dados.
O Apache Spark faz chamadas à memória, evitando ficar acionando o disco rígido a todo momento. Chamadas ao disco podem causar lentidão dependendo da quantidade de dados que estão sendo processados. Isso significa que a gratuidade do Spark não é o que há de mais especial nessa tecnologia. Outro ponto importante, o MapReduce também pode fazer o processamento de dados, ou seja, tem comunicação efetiva com o Apache Hadoop, não sendo exclusividade do Spark, e esse processamento ocorre em paralelo, assim como no Spark. Por fim, o Spark não tem uma unidade de armazenamento. Esse papel é realizado pelo HDFS.
Resposta incorreta.
B. O Apache Spark tem como diferencial ser um framework gratuito, visto que não há muitas tecnologias desse porte disponíveis gratuitamente no mercado de Data Science.
Resposta incorreta.
C. O Apache Spark tem como diferencial uma comunicação efetiva com o framework Hadoop, fazendo com que o processamento dos dados seja privilegiado.
Resposta incorreta.
D. O Apache Spark tem como diferencial o processamento em paralelo de gigantescas e massivas quantidades de dados. Isso torna a ferramenta única e especial para os cientistas de dados.
Resposta incorreta.
E. O Apache Spark tem como diferencial o armazenamento de dados, além do processamento. Esse armazenamento gera velocidade no processamento do Big Data.
4. As camadas do ecossistema de Big Data são responsáveis por cuidar de todo o processo que um dado percorre. Quais são essas camadas?
Resposta incorreta.
A. Camada fontes de dados, camada armazenamento, camada manipulação e camada consumo.
Resposta incorreta.
B. Camada armazenamento, camada salvar, camada análise, camada consumo e camada segurança.
Resposta incorreta.
C. Camada fontes de dados, camada armazenamento, camada análise e camada impressão.
Você acertou!
D. Camada ingestão, camada armazenamento, camada processamento, camada apresentação e camada segurança.
As camadas do ecossistema de Big Data são: camada ingestão, camada armazenamento, camada processamento, camada apresentação e camada segurança. As alternativas que contêm as camadas manipulação, salvar, impressão e Data Lake estão erradas, pois essas camadas não existem no ecossistema de Big Data.
Resposta incorreta.
E. Camada Data Lake, camada armazenamento, camada ingestão e camada consumo.
5. Data Lake e Data Warehouse apresentam diferenças significativas em seus conceitos. Qual é a única coisa que ambos têm em comum?
Resposta incorreta.
A. Ambos tratam exclusivamente de dados semiestruturados.
Resposta incorreta.
B. Ambos são projetados para atuação específica de profissionais da área de negócios.
Resposta incorreta.
C. Ambos são plataformas de armazenamento de código compartilhado similar ao Github.
Resposta incorreta.
D. Ambos são estruturas de execução de linguagens de programação orientadas a objetos.
Você acertou!
E. Ambos funcionam como repositórios para grandes quantidades de dados.
A única coisa que o Data Lake e o Data Warehouse têm em comum é a capacidade de armazenamento de grandes conjuntos de dados. No entanto, apresentam características bem diferentes. Por exemplo, Data Lakes armazenam dados estruturados, semiestruturados e não estruturados, enquanto Data Warehouse geralmente atua com dados estruturados.
É incorreto afirmar que ambas as plataformas são projetadas para profissionais de negócios. O mais comum é que o Data Lake seja utilizado por cientistas de dados, e o Data Warehouse, por profissionais das áreas de negócios.Além disso, também não é verdadeira a afirmativa de que esses conceitos são plataformas de armazenamento de código. Na verdade, são repositórios de armazenamento de dados. Por fim, Data Lake e Data Warehouse não são linguagens de programação.
3. Ciência de dados e Big Data
JB
1. Os dados podem ser considerados recursos ativos gerados automaticamente em toda atividade exercida; se tratados e analisados têm grande valor para o mercado. Assinale a alternativa que contempla a definição correta sobre o dado.​​​​​​​
Você acertou!
A. É uma quantidade de fatos não analisados.
Os dados representam acontecimentos presentes em corporações ou em ambientes diversos. Por isso, podem ser considerados uma sequência de fatos que ainda não passaram por análise. Esta última traz um contexto para que eles façam sentido, ou seja, não podem ser apresentados sós, pois não trazem sentido algum, e sua contextualização é oriunda da junção dos dados com as informações a seu respeito.
Resposta incorreta.
B. Fornece significado contextualizado.
Resposta incorreta.
C. Pode ser definido como uma experiência.
Resposta incorreta.
D. O seu sentido é estabelecido quando apresentado só.
Resposta incorreta.
E. São ativos tecnológicos padronizadores.
2. A obtenção dos dados ocorre por meio de diversas fontes: e-mails, redes sociais, smartphones, tablets, entre outros. Dessa forma, com o passar do tempo, recursos computacionais se tornaram necessários para que tudo isso possa ser aproveitado pelo mundo corporativo.
Assinale a alternativa que apresenta os passos percorridos pelo dado durante seu uso na tomada de decisões corporativas.
Resposta incorreta.
A. Tratamento, armazenamento, análise.
Resposta incorreta.
B. Armazenamento, análise, coleta e tratamento.
Você acertou!
C. Coleta dos dados, armazenamento, tratamento e análise.
Primeiro ocorre a coleta, onde os dados são obtidos de diversas fontes, tais como e-mails, dispositivos móveis, dentre outros. Posteriormente eles são armazenados, em bancos de dados específicos, tratados, onde receberão categorias e outras padronizações, e, por fim, analisados. Nessa etapa, são definidos seus respectivos valores para a empresa e seus negócios.
Resposta incorreta.
D. Análise, tratamento e armazenamento.
Resposta incorreta.
E. Tratamento, análise e coleta.
3. A ciência de dados traz a multidisciplinaridade para o mundo dos dados, e, agindo em conjunto com tecnologias e ferramentas Big Data, pode contribuir para a geração e diversificação de novos negócios.
Assinale a alternativa que traz algum princípio relacionado ao uso destes recursos em relação ao uso dos dados.
Resposta incorreta.
A. Permite o armazenamento dos dados antigos como critério para aprovação de investimentos em novas ferramentas.
Resposta incorreta.
B. O Big Data permite que dados sejam armazenados e utilizados após muitos anos, sem perder o valor.
Resposta incorreta.
C. Ferramentas e tecnologias Big Data são gratuitas e geram redução de custos para empresa.
Você acertou!
D. A ciência dos dados aplica conceitos estatísticos nos dados em conjunto com tecnologias Big Data.
Além de dados estatísticos, a ciência de dados aplica o refinamento, a mineração, o armazenamento e a visualização dos dados. Com isso a empresa passa a ter suporte suficiente para a tomada de decisões. Além disso, também pode redirecionar estes aspectos a outras tecnologias que automatizam a tomada de decisão.
Resposta incorreta.
E. As tomadas de decisão dentro de uma empresa podem ser baseadas em análises primitivas dos dados com planilhas.
4. As grandes empresas corporativas investem em tecnologias para que possam obter destes investimentos lucros financeiros. Assinale a alternativa que contém formas de como as empresas obtêm os dados de seus clientes para uso da ciência de dados e Big Data.
Resposta incorreta.
A. Por meio de abordagens pessoais em centros comerciais.
Resposta incorreta.
B. Por meio de correspondências.
Resposta incorreta.
C. Por meio de preenchimento de formulários em planilhas.
Resposta incorreta.
D. Por meio de ligações realizadas pelos call centers das empresas para seus clientes.
Você acertou!
E. Por meio de aplicações de terceiros, identificação de dispositivo, perfil do usuário.
O monitoramento dos dados dos usuários é feito por meio de aplicações de terceiros, mecanismos de busca, softwares especializados, cookies, dentre outros. O objetivo é contextualizar o perfil dos usuários, para que todas as ações da empresa, sejam de marketing ou até mesmo de fidelização do cliente, sejam coerentes com seus perfis.
5. As grandes companhias utilizam as ferramentas computacionais para atender a alta demanda dos negócios, já que atualmente o comportamento social demonstra claramente as transições que o mundo dos negócios está sempre percorrendo. Assinale a alternativa que traz formas de como as empresas fazem uso dos dados de seus usuários para obter sucesso em seus negócios.
Resposta incorreta.
A. Para realizar compras em seus cadastros.
Você acertou!
B. Fornecimento de serviços personalizados.
As grandes empresas utilizam soluções de tecnologias e ferramentas Big Data para realização de análises, geralmente são realizadas para notificações, serviços de geolocalização, conteúdos personalizados, integração de contas, dentre outros. Com isso não se pode trabalhar com dados aleatórios e muito menos realizar ações próprias com os dados obtidos, tendo em vista que o objetivo da tecnologia nesse contexto é o de nortear os processos da empresa para obter mais lucros por meio dos dados.
Resposta incorreta.
C. Para obter dados aleatórios que circulam na rede.
Resposta incorreta.
D. Para manter a preferência do cliente.
Resposta incorreta.
E. Para aplicar recurso de reconhecimento facial.
4. Ferramentas utilizadas em ciência de dados e Big Data