Gabarito Big Data Analytics - Análise e visualização dos dados

•

UNIASSELVI

Lucas Alves

03/07/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.751 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

BIG DATA ANALYTICS: ANÁLISE
E VISUALIZAÇÃO DOS DADOS
2021
Prof. Arquelau Pasta
GABARITO DAS
AUTOATIVIDADES
2
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
TÓPICO 1
1 O Big Data refere-se ao volume, variedade e velocidade de
dados – estruturados ou não –transmitidos através de redes em
processos de transformação e em dispositivos de armazenamento
até que se torne um conhecimento útil para as empresas. Diante
deste contexto, podemos afirmar que o Big Data começou:
a) (X) Com o surgimento de grande volume de dados gerados em
função dos avanços tecnológicos.
b) ( ) Com o avanço nas metodologias de tomada de decisões
estratégicas das empresas.
c) ( ) Com o avanço no poder de processamento dos computadores
disponíveis para a população.
d) ( ) Com a necessidade de estarmos sempre conectados as redes
sociais divulgando no cotidiano.
e) ( ) Com a criação de novas ferramentas de gerenciamento de
banco de dados relacionais.
2 Usando de habilidades de programação, conhecimento de
domínio e conhecimento matemático e estatístico, podemos
analisar dados brutos e encontrar padrões ocultos. Uma empresa
interessada em encontrar insights para gerenciar melhor a tomada
de decisões a respeito de seus cliente e produtos, terá melhores
chances se investir em:
a) ( ) Banco de dados Relacionais.
b) ( ) ERP.
c) (X) Data Science.
d) ( ) Big Data.
e) ( ) Governança de Dados.
UNIDADE 1
3
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
3 O Big Data Analytics é considerado um desdobramento do Big
Data, softwares capazes de trabalhar com dados para transformá-
los em informações úteis às empresas. O Big Data Analytics se
difere do BI (Business Intelligence) por apresentar:
a) ( ) A priorização do ambiente de negócios, não levando em
consideração as demais áreas da empresa.
b) ( ) A análise das dúvidas já conhecidas pela empresa, com o
objetivo de obter respostas.
c) ( ) Melhorar a qualidade na coleta dos dados para diminuir o
espaço no bando de dados.
d) (X) A análise dos dados existente e dos futuros para indicar
novos caminhos para a empresa.
e) ( ) A melhora na comunicação com seus clientes, ofertando novas
promoções.
4 O Ministério Público Federal possui um conjunto de dados, em
que o volume, a velocidade e a variedade de dados são muito
grandes, tornando-se difícil de gerenciá-los, manipulá-los e
analisá-los. A este conjunto de dados, damos o nome de:
a) ( ) Data Warehouse.
b) ( ) Data Mart.
c) (X) Big Data.
d) ( ) Cloud Computing.
e) ( ) Business Analytics.
5 No universo Big Data, as empresas buscam desbloquear
o potencial de dados para gerar valor. Elas também estão
impacientes para encontrar novas maneiras de processar esses
dados e tomar decisões mais inteligentes, o que resultará em
melhor atendimento ao cliente, melhor eficiência de processos
e melhores resultados estratégicos. Sabendo disso, responda,
na sua visão, como o Big Data pode auxiliar as empresas na
construção desse valor?
4
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
R.: Insights derivados da análise de dados estão capacitando orga-
nizações grandes e pequenas a tomar decisões importantes de
negócios que muitas vezes transformam suas práticas de organi-
zação ou programa. Oferecendo um olhar sobre oportunidades
de economia financeira, mitigação de riscos, melhorias de saú-
de e segurança, rastreamento de conformidade e muito mais, a
análise de dados fornece uma visão holística das operações para
desenvolver estratégias de negócios focadas no futuro.
Vantagens mais significativas do Big Data:
• Otimização de custos: um dos benefícios mais significativos
das ferramentas de Big Data é que elas oferecem vantagens de
custo para as empresas quando se trata de armazenar, processar
e analisar grandes quantidades de dados.
• Melhorar a eficiência: as ferramentas de Big Data podem
melhorar a eficiência operacional por saltos e limites. Ao
interagir com clientes/clientes e obter seu valioso feedback, as
ferramentas de Big Data podem acumular grandes quantidades
de dados úteis do cliente.
• Fomentar preços competitivos: o Big Data Analytics facilita
o monitoramento em tempo real do mercado e de seus
concorrentes.
TÓPICO 2
1 O Big Data trabalha com dados oriundos das mais diversas fontes,
em sua maioria, gerados pelas mídias sociais. Quando estamos
trabalhando com esse tipo de dados, nos referimos a qual tipo:
a) ( ) Quase estruturado.
b) (X) Não estruturado.
c) ( ) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
5
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
2 A Nota Fiscal Eletrônica gera também um arquivo no formato
XML. Em relação ao tipo de estrutura de dados para Big Data,
este formato consiste em qual tipo de dados:
a) ( ) Dados estruturados.
b) ( ) Não estruturados.
c) (X) Semi estruturados.
d) ( ) Quase estruturados.
e) ( ) Desestruturados.
3 Os bancos de dados relacionais trabalham com tabelas contendo
os atributos a serem armazenados. Este tipo de dado no Big Data
é considerado como:
a) ( ) Quase estruturado.
b) ( ) Não estruturado.
c) (X) Estruturado.
d) ( ) Semiestruturado.
e) ( ) Pré estruturados.
4 O mouse se tornou um periférico muito importante, os
praticantes de jogos eletrônicos possuem mouses muito sensíveis
que respondem aos comandos quase que em tempo real. Esses
comandos, muitas vezes acionados por clique nos botões do
mouse, também geram dados que podem ser analisados pelo Big
Data. Ao analisar essa afirmação, estamos falando de qual tipo de
estrutura de dados?
a) ( ) Não estruturado.
b) (X) Quase estruturado.
c) ( ) Estruturado.
d) ( ) Pré estruturados.
e) ( ) Semiestruturado.
6
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
5 Quando usamos nosso cartão, seja ele de crédito ou débito, em
nossa compras, os dados gerados por essa ação informam não
somente o valor da compra, mas uma série de outras informações
podem ser geradas, como a loja onde compramos, o tipo de
produto comprado, a periodicidade de nossas compras, ou
seja, nosso hábito de compras. A coleta desses dados se dá por
intermédio de qual elemento da interconexão do ecossistema de
Big Data?
a) (X) Data Devices.
b) ( ) Data Center.
c) ( ) Data Collectors.
d) ( ) Data Users.
e) ( ) Data Buyers.
TÓPICO 3
1 A definição de Big Data está atrelada às características que
alguns pesquisadores atribuíram como sendo os Vs do Big
Data. A respeito dessa colocação, o Big Data possui as seguintes
características:
a) ( ) Valor, velocidade, volume, visibilidade, voracidade,
veracidade e variedade.
b) ( ) Valor, veracidade, volume, viabilidade, versatilidade,
variedade e versatilidade.
c) (X) Volume, velocidade, veracidade, variedade, valor,
visualização e volatidade.
d) ( ) Variedade, valor, volume, variabilidade, volatilidade,
visualização e vitalidade.
e) ( ) Velocidade, veracidade, volume, valor, volatilidade,
visualização e versatilidade.
7
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
2 Você está realizando uma análise e encontra problemas
relacionados ao armazenamento de dados em vários formatos,
sendo que possuem uma estrutura inconsistente, dificultando a
sua integração. Esse tipo de problema refere-se à qualidade dos
dados para o Big Data e são inerentes a qual característica?
a) ( ) Volatilidade.
b) ( ) Visualização.
c) (X) Variabilidade.
d) ( ) Volume.
e) ( ) Veracidade.
3 O Big Data trabalha com algumas dimensões consideradas as
mais importantes a serem consideradas na elaboração de um
projeto. Nestas dimensões, quando falamos da quantidade de
dados gerados, estamos nos referindo a(o)?
a) ( ) Variedade.
b) ( ) Volatilidade.
c) ( ) Visibilidade.
d) (X) Volume.
e) ( ) Valor.
4 No Big Data, a confiabilidade nos dados analisados é um dos
principais fatores de sucesso. Se acaso os dados não são confiáveis,
as respostas obtidas poderão levar a empresa a interpretações
erradas einclusive poderá levá-la a falência. Diante deste
contexto, falamos sobre qual dimensão no Big Data?
a) (X) Veracidade.
b) ( ) Volume.
c) ( ) Variedade.
d) ( ) Volatilidade.
e) ( ) Viabilidade.
8
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
5 Os dados gerados podem ser apresentados de várias formas, seja
por imagens, vídeos, áudios, documentos de texto, planilhas
eletrônicas, dentre tantos formatos. No Big Data, se faz necessário
compreendermos esses formatos, como devemos analisá-los e
armazená-los. Esta característica do Big Data se refere a(o):
a) ( ) Velocidade.
b) ( ) Visibilidade.
c) (X) Variedade.
d) ( ) Volatilidade.
e) ( ) Volume.
TÓPICO 4
1 O processo de Extração, Transformação, Carregamento e Trans-
formação, também conhecido como ETLT, faz parte da fase que
inclui as etapas para explorar, pré-processar os dados antes da
modelagem e análise. Estamos nos referenciando a qual fase?
a) ( ) A fase da descoberta dos dados.
b) (X) A fase de preparação dos dados.
c) ( ) A fase do planejamento do modelo.
d) ( ) A fase da construção do modelo.
e) ( ) A fase de apresentação dos relatórios.
2 Muitas ferramentas estão disponíveis para essa subfase, dentre
as quais se destacam: R, linguagem para análise e tratamento de
grandes volumes de dados, SQL Analylis Service, conjunto de
serviços para gerenciamento de Data Warehouse, O SAS/ACCESS
fornece integração entre o SAS e o repositório de análise através
de vários conectores de dados, como OBDC, JDBC e OLE DB.
Esta subfase faz parte de qual etapa?
9
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
a) ( ) Preparação dos dados.
b) ( ) Descoberta dos dados.
c) ( ) Construção do modelo.
d) ( ) Apresentação dos relatórios.
e) (X) Planejamento do modelo.
3 Uma das habilidades mais importantes para um cientista de
dados é ser capaz de trabalhar efetivamente com as partes
interessadas. Seu impacto dependerá de sua capacidade de
pensar com os gerentes de produtos, colaborar com engenheiros
e persuadir executivos. Estamos falando da identificação dos
stakeholders, que faz parte de qual fase do Big Data?
a) ( ) Planejamento do modelo.
b) ( ) Preparação dos dados.
c) (X) Descoberta dos dados.
d) ( ) Apresentação dos relatórios.
e) ( ) Construção do modelo.
4 O estágio mais importante da análise de Big Data é o estágio
de______________, em que as operações de pré-processamento e
integração de dados são realizadas para melhorar a qualidade do
Big Data.
a) ( ) Planejamento do modelo.
b) ( ) Descoberta dos dados.
c) ( ) Seleção dos dados.
d) (X) Preparação de dados.
e) ( ) Exploração de dados e seleção variável.
5 Na fase inicial do processo, a equipe de cientistas precisa
determinar quanto conhecimento de negócios ou domínio o
cientista de dados precisa para desenvolver modelos nas Fases
3 e 4. Quanto mais cedo a equipe conseguir fazer essa avaliação
melhor, pois a decisão ajuda a ditar os recursos necessários para a
10
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
equipe do projeto e garante que a equipe tenha o equilíbrio certo
de conhecimento de domínio e conhecimento técnico. Essa fase
refere-se:
a) ( ) À fase de preparação dos dados.
b) ( ) À fase do planejamento do modelo.
c) ( ) À fase da construção do modelo.
d) ( ) À fase de apresentação dos relatórios.
e) (X) À fase da descoberta dos dados.
TÓPICO 5
1 Observa-se que a quantidade de dados gerados está crescente,
isto faz com que a análise dos dados não seja feita da maneira
tradicional, pois os tipos de dados gerados não são os mesmos
tipos de dados armazenados em banco de dados relacionais.
Considerando este contexto descreva a diferença entre Big Data e
uma Base de Dados tradicional.
R.: Big Data e dados tradicionais não é apenas diferenciado na base
do tamanho. Também é diferencial nas bases de como os dados
podem ser utilizados e também como foi implantado o processo
de ferramenta, metas e estratégias relacionadas a isso. Existem
diferentes características que tornam o Big Data preferível e
recomendado como:
• Flexibilidade: Big Data é flexível e facilmente manuseia sem
qualquer tipo de perturbação. No modelo tradicional de base
de dados (banco de dados relacionais), os dados só podem ser
salvos em tipos específicos de estruturas de dados. No entanto,
hoje em dia há um tipo diferente de formato que estão sendo in-
troduzidos. O Big Data fornece melhor acesso aos seus dados e a
organização pode moldá-los de acordo com suas necessidades.
11
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
• Melhor análise: no método anterior, os dados demoraram a
tempo para que todas as informações sejam analisadas corre-
tamente e, para obter o resultado final, a qualidade dos dados
seja degradada. Mas com este, o desempenho e o método de
análise tornam-se avanços e facilmente acessados sem afetar
a qualidade.
• Rápido e fácil: houve um tempo em que as pessoas têm que
esperar para obter os dados analisando relatórios finais, agora,
todo o processo é muito mais simples e fácil, não apenas que
ele também se torne rápido.
• Uma maneira simples de armazenar: com o armazenamento
tradicional, os dados costumavam armazenar em diferentes
tipos de disco e drives. Hoje, pode ser facilmente feito com a
ajuda de software que torna este trabalho deve ser conveniente.
No entanto, é difícil armazenar todos os tipos de dados na
plataforma moderna, mas então eles fornecem a opção de
transferência rápida.
2 Tecnologia e ciência estão observando avanços revolucionários
todos os dias e as empresas estão tentando extrair o melhor dela. A
análise de dados é uma dessas áreas em que eles estão utilizando
Big Data e Data Science na ponta dos dedos para combinar a
enorme quantidade de dados com estratégias de negócios. Este
cenário no remete a mito de que o Big Data.
a) ( ) Deve ser implantado no banco de dados relacional da empresa.
b) ( ) Apresentará respostas incertas sobre a concorrência.
c) ( ) Eliminará o trabalho dos departamentos de pesquisa e
desenvolvimento.
d) (X) Pode ser adotado por qualquer empresa que queira conhecer
melhor seus dados.
e) ( ) Precisa de alto investimento, tanto na infraestrutura quanto
em pessoal especializado.
12
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
3 A análise pode prever a tendência usando Big Data, mas não são
os dados que impulsionam o negócio. Um negócio se mantém em
muitos fatores como economia, recursos humanos, tecnologia e
muito mais. Isto implica que o uso do Big Data.
a) ( ) Não traz respostas concretas a respeito dos dados analisados.
b) ( ) Permite planejar o desenvolvimento de novos produtos
baseado em dados passados.
c) ( ) Requer uma equipe de cientistas de dados para a análise dos
dados.
d) (X) Pode prever o futuro, mas depende das perguntas feitas
sobre os dados.
e) ( ) Exige um investimento considerável em analistas e
equipamentos.
4 O Data Warehouse armazena dados consolidados de diversas
fontes, mas interligados pelo ambiente de uma corporação. São os
chamados dados estruturados, que têm como principal objetivo
a precisão e qualidade, que darão suporte à tomada de decisões
de qualquer empresa. Em relação ao Data Warehouse podemos
afirmar que o Big Data.
a) ( ) É um complemento, pois necessita dos dados já tratados do
Data Warehouse.
b) ( ) São arquiteturas idênticas, podendo usar tanto um quanto o
outro.
c) ( ) O Big Data é uma substituição para um Data Warehouse.
d) (X) Big data e Data Warehouse não são os mesmos, por isso não
são intercambiáveis.
e) ( ) O Big Data veio substituir o Data Warehouse pela simplicidade
no tratamento dos dados.
5 O volume de dados refere-se ao tamanho dos conjuntos de
dados que precisam ser analisados e processados, que agora são
frequentemente maiores que terabytes e petabytes ou mesmo
13
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
zetabytes. O grande volume dos dados requer tecnologiasde processamento distintas e diferentes do que os recursos
tradicionais de armazenamento e processamento.
a) ( ) Para o Big Data a quantidade de dados é o fator chave para as
análises, pois quanto mais dados, melhor.
b) (X) Dados de má qualidade têm muitos erros, muitos dados
perdidos que podem ser enganosos.
c) ( ) A quantidade de dados gerados é independente, uma vez que
o Big Data faz suas análises em lotes de dados.
d) ( ) O processo de transformação dos dados é simples e de baixo
custo para o Big Data.
e) ( ) Uma grande quantidade de dados atrapalha a geração dos
relatórios.
TÓPICO 6
1 Big Data é um termo em evolução que descreve um grande volume
de dados estruturados, não estruturados e semiestruturados com
potencial para serem extraídos para informações e usados em
projetos de machine learning e outros. Qual das características a
seguir está entre os 5 V de dados?
a) ( ) Versatilidade.
b) ( ) Voracidade.
c) ( ) Virtualidade.
d) (X) Velocidade.
e) ( ) Vácuo.
2 Big Data é um termo geral para as estratégias e tecnologias não
tradicionais necessárias para coletar, organizar, processar grandes
conjuntos de dados. Embora o problema de trabalhar com dados
que excedam o poder de computação ou armazenamento de um
14
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
único computador não seja novo, a penetração, escala e valor
desse tipo de computação se expandiu muito nos últimos anos.
Apenas coletar e armazenar informações não é suficiente para
produzir valor real para o negócio. As tecnologias de análise de
Big Data são necessárias para.
a) ( ) Formular gráficos e gráficos atraentes.
b) (X) Extrair insights valiosos dos dados.
c) ( ) Integrar dados de fontes internas e externas.
d) ( ) Organizar os dados em suas respectivas tabelas.
e) ( ) Padronizar o acesso aos dados e seus relatórios.
3 Uma grande quantidade de dados é muito difícil de processar
em bancos de dados tradicionais. Então, é por isso que podemos
usar ferramentas de Big Data e gerenciar nosso enorme tamanho
de dados muito facilmente. Qual é a melhor prática recomendada
para o gerenciamento de programas de análise de Big Data?
a) ( ) Adotando ferramentas de análise de dados com base em uma
lista de lavanderia de suas capacidades.
b) ( ) Mantendo inteiramente a concepção de "ideias antigas"
relacionadas à gestão de dados.
c) (X) Focando em metas de negócios e como usar tecnologias de
análise de Big Data para atendê-las.
d) ( ) Utilizando de ferramentas de bancos de dados relacionais
para efetuar as consultas.
e) ( ) Migrando os bancos de dados para o serviço nas nuvens, para
garantir a segurança dos dados.
4 A análise de Big Data é o método de coletar, estudar e interpretar
volumes maciços de dados quantitativos e qualitativos que
impactarão as margens de lucro e o ROI de qualquer negócio.
É um recurso valioso usado por profissionais de marketing e
proprietários de empresas ao tomar decisões críticas, desde o
lançamento de uma campanha de marketing, o desenvolvimento
15
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
de um novo produto ou a descontinuação de um serviço
previamente oferecido. Diante deste contexto, como a análise de
Big Data é útil para aumentar a receita dos negócios?
R.: A análise de Big Data tornou-se muito importante para as em-
presas. Ajuda as empresas a se diferenciarem das outras e au-
mentarem a receita. Por meio de análises preditivas, a análise
de Big Data fornece às empresas recomendações e sugestões
personalizadas. Além disso, a análise de Big Data permite que
as empresas lancem novos produtos dependendo das necessi-
dades e preferências dos clientes. Esses fatores fazem com que
as empresas ganhem mais receita e, portanto, as empresas estão
usando a análise de big data. As empresas podem encontrar um
aumento significativo de 5 a 20% na receita com a implementa-
ção de análises de Big Data. Algumas empresas populares que
estão usando análise de Big Data para aumentar sua receita são:
Walmart, LinkedIn, Facebook, Twitter etc.
5 As empresas de visão de futuro entendem que os insights
orientados por dados são excelentes diretrizes quando se trata de
gerenciar os aspectos complicados das empresas que nem sempre
são evidentes, mas críticos, no entanto. Usar dados para lançar
luz sobre esses fatores pode ajudá-lo a desenvolver melhores
planos para o futuro e torná-los rentáveis para o seu negócio. Isto
nos faz refletir e questionar: como podemos aplicar esses insights
e gerenciá-los para obtermos lucros com a oportunidade que os
dados nos apresentam?
R.: O Big Data é extremamente versátil, pois pode ser aplicado a
empresas de todos os tamanhos e pode fazer uma enorme diferença
em grandes e pequenos assuntos. Tudo o que se precisa fazer é
entender onde ele se encaixa dentro da estrutura organizacional,
e usá-lo no contexto certo. O rápido desenvolvimento de novas
tecnologias, especialmente no espaço de machine learning, sem
dúvida usurpará todas as previsões que tentamos fazer. A
quantidade de dados que estamos produzindo só vai aumentar
e analisando-os, podemos aprender e eventualmente ser capazes
de prever algumas coisas.
16
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
UNIDADE 2
TÓPICO 1
1 O volume dos dados vem crescendo de forma vertiginosa, o uso
massivo de dados e o aumento da capacidade de processamento
de grandes bases intensificaram as pesquisas e o emprego
da inteligência artificial nas tarefas diárias. Alinhando este
contexto ao uso da Inteligência Artificial, assinale a alternativa
INCORRETA:
a) (X) Não existe risco, sejam éticos ou morais, quanto às decisões
tomadas pelos dispositivos que fazem uso de técnicas de
Inteligência Artificial.
b) ( ) Os dispositivos com técnicas de Inteligência Artificial já
superam as habilidades humanas em algumas funções.
c) ( ) Veículos autônomos e robôs aspiradores são considerados
exemplos de utilização da Inteligência Artificial.
d) ( ) Proteger e garantir a segurança dos dados são apontados
como um desafio crescente com o avanço das técnicas de
Inteligência Artificial.
e) ( ) O uso de técnicas de Inteligência Artificial em máquina e
equipamentos, de certa forma, substitui empregos que em
outra época eram atribuídos às pessoas.
2 A era do Big Data permitiu que empresas de todos os portes, desde
startups até pequenas empresas, e estabeleceu grandes empresas
para utilizar uma nova geração de processos e tecnologias. Isso
fez com que a geração de dados tivesse um aumento nunca
antes visto. Fato este que resultou na necessidade de ampliação
da capacidade de se lidar com esta quantidade de dados. Neste
contexto, estamos abordando o conceito de:
a) ( ) Computação em nuvem.
b) ( ) Redes de computadores.
c) ( ) Bancos de dados não relacionais.
17
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
d) (X) Escalabilidade.
e) ( ) Proteção de dados.
3 O processo de quebrar grandes tabelas em pedaços menores,
chamados fragmentos, espalhados por vários servidores. Um
fragmento é essencialmente uma partição horizontal de dados que
contém um subconjunto do conjunto total de dados e, portanto,
é responsável por servir uma parte da carga de trabalho global.
O fragmento do banco de dados é o processo de fazer partições
de dados em um banco de dados ou mecanismo de pesquisa, de
tal forma que os dados são divididos em vários pedaços distintos
menores, ou fragmentos. Este conceito refere-se a(o):
a) ( ) Modularidade.
b) ( ) Troubleshooting.
c) (X) Sharding.
d) ( ) Compartilhamento.
4 A escalabilidade é a capacidade de manter o desempenho diante
do aumento de dados ou carga adicionando recursos ao sistema.
Pode ser definida também como a capacidade de um sistema, rede
ou processo, para lidar com a crescente quantidade de trabalho de
forma capaz, ou sua capacidade de ser ampliada para acomodar
esse crescimento. Disserte sobre este conceito.
R.: A escalabilidade é imperdível paraqualquer ambiente de TI. Este
é especialmente o caso em que a arquitetura de armazenamento
está relacionada. Entre todos os documentos, arquivos PDF, fotos
e vídeos, a empresa média tem dados mais não estruturados do
que sabe. É evidente que a importância de escalar para atender às
crescentes demandas de armazenamento não pode ser debatida.
Escalabilidade Horizontal e Escalabilidade Vertical são duas
estratégias de TI que aumentam o poder de processamento e a
capacidade de armazenamento dos sistemas. A diferença está na
forma como os engenheiros conseguem esse tipo de crescimento
18
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
e melhoria do sistema. Enquanto a Escalabilidade Horizontal
envolve adicionar mais unidades a um sistema para adicionar
capacidade, a Escalabilidade Vertical envolve a atualização de
unidades existentes, integrando recursos a elas.
5 Sua startup criada a menos de um ano obteve uma injeção de
recursos por parte dos investidores que perceberam o potencial
de crescimento. Este crescimento se deve ao fato de você estar à
frente de seus concorrentes, pelo poder de processamento que seu
sistema dispõe. A crise causada pela pandemia do COVID-19 não
lhe afetou, muito pelo contrário, sua startup teve um crescimento
sem precedente e agora você precisa ampliar ainda mais o poder
de processamento de seu sistema. Na sua visão estratégica como
administrador e conhecedor do mercado, qual seria a melhor
solução? Investir em novos computadores ou partir para a nuvem?
Descreva sua estratégia baseada nos conceitos de escalabilidade:
R.: O dimensionamento horizontal vem com sobrecarga em forma
de configuração de cluster, gerenciamento, custos de manutenção
e complexidades. O design fica cada vez mais complexo e o
modelo de programação muda. Por outro lado, simplesmente
lançar novos hardwares adicionando mais nós ou máquinas,
também não é a maneira de começar. O projetista do sistema deve
analisar os requisitos, se eles podem ser atendidos pelo aumento
da capacidade ou características de sintonia de uma única
máquina. Caso não, deve ser usada uma abordagem de scale-out
ou combinação de ambos. Com a disponibilidade de grandes
máquinas multicore a um preço significativamente menor, a
questão da escala versus scale-out torna-se mais comum. Uma
boa analogia para entender a diferença seria comparar drives de
disco com virtualização de armazenamento. Drives de disco são
uma boa analogia à abordagem de scale-up, a virtualização do
armazenamento é uma boa analogia à abordagem de scale-out.
19
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
TÓPICO 2
1 A computação em nuvem é um paradigma extremamente bem-
sucedido da computação orientada a serviços, e revolucionou a
forma como a infraestrutura de computação é abstrata e usada.
Dentre suas classes de serviços, encontra-se uma que possibilita
que o usuário acesse aplicativos e serviços de qualquer local
usando um computador conectado à internet. Assinale a
alternativa CORRETA:
a) (X) Saas.
b) ( ) Iaas.
c) ( ) PaaS.
d) ( ) FaaS.
e) ( ) CaaS.
2 Usamos o termo cloud computing (ou computação em nuvem) para
designar uma série de serviços relacionados à TI disponibilizados
para os mais diversos usuários. Sem a necessidade de instalarem
programas em suas máquinas. A distribuição desses serviços é
realizada por intermédio de uma plataforma, a cloud ou nuvem.
Dentre esses serviços tem-se o que envolve a contratação de
servidores e máquina virtuais, armazenamento e até sistemas
operacionais. Este tipo de serviço na nuvem é conhecido como:
a) ( ) Saas.
b) (X) Iaas.
c) ( ) PaaS.
d) ( ) CaaS.
3 Os provedores de cloud computing, também conhecidos como
SPs (do inglês Service Providers), oferecem diferentes tipos de
serviços. Analise as proposições a seguir, em relação aos modelos
de serviços oferecidos na computação em nuvem.
20
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
I- No SaaS, o usuário administra a infraestrutura subjacente, in-
cluindo rede, servidores, sistemas operacionais, armazenamento
ou mesmo as características individuais da aplicação.
II- O SaaS é disponibilizado por prestadores de serviços na camada
de aplicação. Ele roda inteiramente na nuvem e pode ser consi-
derado uma alternativa a rodar um programa em uma máquina
local.
III- O modelo de serviço PaaS prevê que o usuário deve administrar
a infraestrutura subjacente, incluindo rede, servidores, sistemas
operacionais ou armazenamento.
IV- No modelo de serviço IaaS existe a disponibilização de recursos
completos, tais como servidores, rede, armazenamento e outros re-
cursos de computação, como se fosse o aluguel de um data center.
V- O PaaS é uma modalidade que oferece um ambiente sob demanda.
Este serviço é ideal para empresas que desenvolvem aplicativos
web baseados em nuvem.
Estão CORRETAS apenas as afirmações:
a) ( ) I, II e III.
b) ( ) I, III e IV.
c) ( ) II, III e IV.
d) (X) II, IV e V.
e) ( ) III, IV e V.
4 Além dos tipos de serviços prestados à computação em nuvem,
também temos alguns modelos de implantação, dentre os quais
destacamos as nuvens privadas. Disserte sobre este tipo de
implementação de nuvem.
R.: Nuvens privadas são frequentemente implantadas quando nu-
vens públicas são consideradas inadequadas para as necessida-
des de um negócio. Por exemplo, uma nuvem pública pode não
fornecer o nível de disponibilidade de serviço ou tempo de ati-
vidade que uma organização precisa. Em outros casos, o risco
de hospedar uma carga de trabalho de missão crítica na nuvem
pública pode exceder a tolerância ao risco de uma organização,
ou pode haver preocupações de segurança ou regulamentação
21
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
relacionadas ao uso de um ambiente multi-inquilinos. Nestes ca-
sos, uma empresa pode optar por investir em uma nuvem privada
para perceber os benefícios da computação em nuvem, mantendo
o controle total e a propriedade de seu ambiente.
5 Sua startup progrediu e virou um unicórnio. Com este crescimento,
você foi obrigado a abrir novas unidade para melhor atender seus
clientes. Você não pretende investir em mais servidores, pois
considera melhor utilizar os serviços da nuvem para isso. Que tipo
de serviços você utilizaria e qual o modelo de implementação de
nuvem seria adquirido? Descreva suas ações sobre este contexto.
R.: As organizações não necessariamente têm que decidir entre
usar uma nuvem pública ou privada. Para algumas empresas, a
resposta é ambas. Para outros, nenhuma das duas. As duas formas
de computação em nuvem diferem em uma série de aspectos
significativos: os serviços da nuvem pública estão disponíveis
para todos, embora os usuários individuais aqui também atuem
independentemente uns dos outros, todos eles usam o mesmo
pool de recursos. A nuvem privada concede apenas acesso aos
usuários autorizados aos serviços em nuvem. Os recursos,
portanto, não são compartilhados por vários usuários. Além disso,
as capacidades de computador, armazenamento e rede, em uma
nuvem privada, podem ser adaptadas às necessidades individuais
da organização. Uma nuvem pública geralmente não pode ser
adaptada tão precisamente ao cliente individual – em comparação
com a nuvem privada. A chamada nuvem híbrida combina as
vantagens das nuvens privadas e públicas em um modelo de
nuvem. Alguns dados da organização estão localizados em uma
nuvem pública e outros em uma nuvem privada. Assim, a nuvem
híbrida oferece um nível de flexibilidade comparativamente alto e
os custos, muitas vezes menores, da nuvem pública, mas também
atende às crescentes necessidades de segurança e proteção de
dados nas organizações, pois certos serviços só podem ser usados
internamente, como em uma nuvem privada. As organizações,
portanto, se beneficiam da redução de custos, mantêm sua
22
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
flexibilidade e são capazes de armazenar dados confidenciais com
segurançana área interna. Na nuvem híbrida, os usuários podem
alternar entre tipos de nuvem a qualquer momento sem serem
afetados por eles durante o trabalho.
TÓPICO 3
1 Conceitua-se que um banco de dados não relacional não segue
o padrão dos bancos de dados tradicionais, conhecidos como
SGBDR. Sobre os bancos de dados não relacionais, conhecidos
como NoSQL, assinale a alternativas CORRETA:
a) ( ) Os bancos de dados do tipo NoSQL não podem ser indexados.
b) ( ) Os bancos de dados NoSQL são considerados banco de dados
relacionais pela relação de suas colunas.
c) ( ) Para se trabalhar com bancos de dados NoSQL, deve ser
definido um esquema de dados fixo antes de qualquer
operação.
d) ( ) Bancos como: MongoDB, Firebird, DynamoDB, SQLite,
Microsoft Access e Azure Table Storage são considerados
Bancos NoSQL.
e) (X) Para acessar e gerenciar os dados, os bancos de dados NoSQL
usam diversos modelos, como documento, gráfico, chave/
valor, em memória e pesquisa.
2 De acordo com Schreiner (2019, p. 9), “Os BDs NoSQL não
seguem o modelo relacional e, para variar, não possuem um
modelo de dados padrão, ou seja, cada BD NoSQL tem seu
modelo de dados e suas especificações”. Existem vários modelos
de dados operacionais associados ao conceito NoSQL. Assinale a
alternativa que correlaciona corretamente os bancos NoSQL em
relação ao modelo orientado a Chave/Valor:
23
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
a) ( ) SqlServer, Redis, Memcached.
b) ( ) PostgreSql, SqlServer, Riak.
c) (X) Riak, Redis, Memcached.
d) ( ) Riak, Memcahed, Oracle.
e) ( ) Memcached, Oracle, Riak.
3 Consistência, Disponibilidade e Tolerância à partição (do
acrônimo em inglês: Consistency, Availability e Partition
Tolerance, CAP) são os três pilares do Teorema de Brewer, o qual
está por trás de grande parte da geração recente de pensar em torno
da integridade transacional em sistemas distribuídos grandes
e escaláveis. Em relação ao termo Consistência, é CORRETO
afirmar que:
a) (X) Significa leituras e gravações consistentes para que as ope-
rações simultâneas vejam o mesmo estado de dados válido e
consistente.
b) ( ) Significa que os dados que não satisfazem restrições
predefinidas não são persistidos.
c) ( ) Significa que o sistema de banco de dados está sempre
disponível sem tempo de inatividade.
d) ( ) Significa que, mesmo que a comunicação entre diferentes nós
de banco de dados na rede não seja confiável, tudo funciona.
e) ( ) Significa que tudo em uma transação é bem-sucedido para
que não seja revertido.
4 Sua empresa desenvolveu um sistema que trabalha com o
histórico e sessões de usuários, fóruns e websites de e-commerce.
As codificações em uso incluem XML, YAML, JSON e BSON, bem
como formulários binários, como documentos PDF e Microsoft
Office (MS Word, Excel, e assim por diante). Descreva qual é
o tipo de banco de dados NoSQL que você deve utilizar para
suportar estas transações.
24
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
R.: Um banco de dados orientado a documentos é um tipo de
banco de dados NoSQL, no qual os dados são armazenados
em arquivos de documentos binários. Este tipo de banco de
dados associa cada documento a uma chave única que toma a
forma de uma string, path ou URI. As chaves são usadas para
localizar e retirar documentos individuais do banco de dados.
Um banco de dados orientado a documentos também pode ser
referido como uma loja de documentos. O MongoDB é um dos
exemplos mais populares de um banco de dados orientado a
documentos. Ele inclui recursos como suporte total ao índice,
replicação e fragmentação. Uma função central do MongoDB é
sua escalabilidade horizontal, o que o torna um banco de dados
útil para empresas que executam aplicativos de Big Data.
5 Como NoSQL geralmente se refere a qualquer DBMS que não
emprega o modelo relacional, existem vários modelos de dados
operacionais associados ao conceito NoSQL. Eles funcionam
bem para sistemas de gerenciamento de conteúdo, softwares de
blogs, entre outros. Esses bancos de dados NoSQL possuem uma
estrutura de dados de dicionário que consiste em um conjunto
de objetos que representam campos de dados. Disserte sobre o
modelo de banco de dados NoSQL ao qual se refere o exposto.
R.: As vantagens naturalmente se prestam a vários casos de uso
popular para bancos de dados de chave/valor. Os aplicativos
web podem armazenar detalhes da sessão do usuário e
preferência em uma loja de chave/valor. Todas as informações
são acessíveis através da chave do usuário, e os bancos de dados
orientados a chave/valor se prestam a leituras e gravações
rápidas. Recomendações e publicidade em tempo real são
frequentemente alimentadas por bancos de dados orientados
a chave/valor porque bancos podem acessar rapidamente e
apresentar novas recomendações ou anúncios à medida que um
visitante da Web se move em um site. Na parte técnica, os bancos
de dados orientados a chave/valor são comumente usados
para cache de dados na memória para acelerar aplicativos
minimizando leituras e gravações para sistemas mais lentos
baseados em disco.
25
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
UNIDADE 3
TÓPICO 1
1 O Big Data geralmente inclui conjuntos de dados com tamanhos
além da capacidade de ferramentas de software comumente
usadas para capturar, curar, gerenciar e processar dados dentro
de um tempo tolerável decorrido. Qual é a melhor prática
recomendada para o gerenciamento de programas de análise de
Big Data?
a) ( ) Adotando ferramentas de análise de dados com base em uma
lista de suas capacidades.
b) ( ) Adotando totalmente ideias antigas relacionadas à gestão de
dados.
c) (X) Focando em metas de negócios e como usar tecnologias de
análise de Big Data para atendê-las.
d) ( ) Utilizando ferramentas de banco de dados tradicionais, pois
já estão consolidadas.
e) ( ) Utilizando somente dados oriundos dos sistemas internos da
empresa, uma vez que são dados mais confiáveis.
2 Big Data é um termo em evolução que descreve um grande volume
de dados estruturados, não estruturados e semiestruturados que
tem o potencial para ser extraído de informação e utilizados
em projetos de aprendizado de máquina e outros. As empresas
que têm grandes quantidades de informações armazenadas em
sistemas diferentes devem começar um projeto de análise de Big
Data considerando:
a) ( ) A criação de um plano para a escolha e implementação de
tecnologias de infraestrutura de Big Data.
b) (X) A inter-relação dos dados e a quantidade de trabalho de
desenvolvimento que será necessária para conectar várias
fontes de dados.
26
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
c) ( ) A capacidade dos fornecedores de business intelligence e
análise de ajudá-los a responder a perguntas de negócios em
ambientes de Big Data.
d) ( ) A análise dos dados que estão retendo e avaliar como estão
sendo usados.
e) ( ) As ferramentas de análise de dados tradicionais que integram
dados internos.
3 É um termo aplicado a um conjunto de dados que excede a
capacidade de processamento dos sistemas convencionais de
banco de dados, ou não se encaixa nos requisitos estruturais da
arquitetura tradicional do banco de dados.
a) (X) Big Data.
b) ( ) Data Warehouse.
c) ( ) Business Analytics.
d) ( ) Database.
e) ( ) Data Mining.
4 A análise de Big Data examina grandes quantidades de dados
para descobrir padrões ocultos, correlações e outros insights.
Com a tecnologia de hoje, é possível analisar seus dados e obter
respostas quase imediatamente – um esforço mais lento e menos
eficiente com soluções de business intelligence mais tradicionais.
Disserte sobre o conceito de Big Data nas empresas.
R.: O termo “análise de Big Data” refere-se à estratégia de analisar
grandes volumes de dados, ou Big Data. A grande quantidade de
dados coletados de uma ampla variedade de fontes, incluindo re-
des sociais, vídeos, imagens digitais, sensores e registrosde tran-
sações de vendas, é chamada de Big Data. O principal objetivo da
análise de todos esses dados é descobrir padrões e conexões que,
de outra forma, poderiam ser invisíveis e que podem fornecer in-
formações valiosas dos usuários que os criaram. Por meio dessa
percepção, as empresas podem ser capazes de obter uma vanta-
gem sobre seus rivais e tomar decisões de negócios superiores.
27
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
5 A análise de dados lida principalmente com a coleta, inspeção,
limpeza, transformação e modelagem de dados para obter alguns
insights valiosos e apoiar a melhor tomada de decisão em uma or-
ganização. Disserte sobre as etapas do ciclo de vida do Big Data.
R.: A análise de dados abrange seis fases: descoberta de dados,
preparação e processamento dos dados, planejamento dos
modelos de dados, execução do modelo de dados, comunicação
dos resultados e operacionalização. Essas seis fases do ciclo de
vida da analítica de dados são iterativas com movimento para
trás e para frente e, às vezes, sobreposto. O usuário de negócios,
ou analista de negócios, pode definir as métricas e os resultados
da implementação do projeto de ciência de dados. O analista de
negócios pode estar envolvido desde o estágio de definição do
valor da iniciativa de dados. O patrocinador do projeto identifica
o enigma do negócio e se envolve desde o estágio de coleta de
requisitos. O gerente de projeto garante que haja qualidade nas
entregas do produto de dados final e garante a entrega do projeto
no prazo e dentro do orçamento, aproveitando todos os recursos
do projeto.
TÓPICO 2
1 Apenas coletar e armazenar informações não é suficiente para
produzir valor real para o negócio. As tecnologias de análise de
Big Data são necessárias para:
a) ( ) Formular gráficos e gráficos atraentes.
b) (X) Extrair insights valiosos dos dados.
c) ( ) Integrar dados de fontes internas e externas.
d) ( ) Agrupar os dados sob a mesma base de dados.
e) ( ) Facilitara o trabalho do Administrador de banco de dados.
28
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
2 O método pelo qual as empresas analisam dados de clientes
ou outros tipos de informações em um esforço para identificar
padrões e descobrir relações entre diferentes elementos de dados
é frequentemente referido como:
a) (X) Data Mining.
b) ( ) Data Warehouse.
c) ( ) Clusterização.
d) ( ) Web Mining.
3 Empresas que possuem grandes quantidades de informações
armazenadas em diferentes sistemas devem iniciar um projeto
de análise de Big Data considerando:
a) ( ) A criação de um plano de escolha e implementação de
tecnologias de infraestrutura de Big Data.
b) (X) A inter-relação dos dados e a quantidade de trabalho de
desenvolvimento que será necessária para vincular várias
fontes de dados.
c) ( ) A capacidade dos fornecedores de business intelligence e
analytics para ajudá-los a responder perguntas de negócios em
ambientes de Big Data.
d) ( ) A quantidade de máquinas disponíveis para realizar o
trabalho de processamento dos dados a serem coletados.
4 Os clientes vivem em um mundo de expectativa instantânea,
onde tudo se move a uma velocidade vertiginosa. Com vendas
digitais, feedback do consumidor e dispositivos que produzem
dados em um ritmo igualmente rápido e em volumes cada vez
maiores. Como as empresas podem se organizar de forma eficaz e
criativa para a inovação?
R.: Tratando a inovação como um ecossistema. Ou seja, eles precisam
ir além de ver a inovação como um processo. A partir do início,
deve ser uma prioridade de liderança. Inovação requer estratégia,
29
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
boa governança e espaço para praticar (seu laboratório). Isso per-
mitirá que a organização se adapte a toda a incerteza e mudança
que acontece em nosso mundo. Você precisa ser magro, rápido, e
promover uma cultura de intraempreendedorismo.
5 Big Data e as tecnologias de análise avançada prometem uma
visão sem precedentes sobre as operações de negócios e clientes,
permitindo que as empresas não apenas aumentem a eficiência
operacional, níveis de serviço, receita e modelos de negócios, mas
também aumentem a centralização no cliente. Como o Big Data
pode agregar valor às empresas?
R.: No cenário atual, Big Data é tudo. Se você tiver dados, você tem a
ferramenta mais poderosa à sua disposição. O Big Data Analytics
ajuda as empresas a transformar dados brutos em insights
significativos e acionáveis que podem moldar suas estratégias
de negócios. A contribuição mais importante do Big Data para os
negócios são as decisões de negócios orientadas por dados. O Big
Data torna possível que as organizações baseiem suas decisões em
informações e insights tangíveis.
TÓPICO 3
1 O Hadoop é uma estrutura de software de código aberto
para armazenar dados e executar aplicativos em clusters de
hardware de commodities. Ele fornece armazenamento maciço
para qualquer tipo de dados, enorme poder de processamento
e a capacidade de lidar com tarefas ou trabalhos simultâneos
praticamente ilimitados. Diante deste contexto, qual afirmação
sobre Hadoop é falsa:
30
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
a) ( ) Ele funciona com hardware de commodities.
b) ( ) É uma parte do projeto Apache patrocinado pela ASF.
c) (X) É melhor para o streaming em tempo real de dados.
d) ( ) Ele pode lidar com qualquer tipo de dados.
2 Qual é o nome da estrutura de programação originalmente de-
senvolvida pelo Google que suporta o desenvolvimento de apli-
cativos para processamento de grandes conjuntos de dados em
um ambiente de computação distribuída?
a) (X) MapReduce.
b) ( ) Hive.
c) ( ) ZooKeeper.
d) ( ) Tableau.
3 Apache Hadoop é uma plataforma que lida com grandes conjun-
tos de dados de forma distribuída. A estrutura usa MapReduce
para dividir os dados em blocos e atribuir os pedaços a nós em
um cluster. MapReduce, então, processa os dados em paralelo em
cada nó para produzir uma saída única. O Spark foi desenvolvi-
do em qual linguagem de programação?
a) ( ) Java.
b) (X) Scala.
c) ( ) Python.
d) ( ) R.
4 A enorme quantidade de dados geradas em um ritmo feroz e
em todos os tipos de formatos é o que chamamos hoje de Big
Data. A complexa estrutura de dados hoje em dia requer soluções
sofisticadas para a transformação de dados, para tornar as
informações mais acessíveis aos usuários. Diante deste contexto,
sintetize como o Hadoop está relacionado com o Big Data?
31
BIG DATA ANALYTICS: ANÁLISE E VISUALIZAÇÃO DOS DADOS
R.: Quando falamos de Big Data, falamos de Hadoop. O Hadoop
é uma estrutura de código aberto para armazenar, processar e
analisar conjuntos de dados complexos não estruturados para
obter insights e inteligência.
5 Os avanços na tecnologia da informação e comunicação
apresentam as soluções mais viáveis para a análise de Big Data
em termos de eficiência e escalabilidade. Este contexto retrata um
pouco do Framework MapReduce e, com base nele, explique um
programa MapReduce.
R.: Um programa MapReduce consiste em três partes, ou seja, Dri-
ver, Mapper e Reducer.
O código driver é executado na máquina cliente e é responsável
por construir a configuração do trabalho e submetê-lo ao Cluster
Hadoop. O código Driver conterá o método principal() que aceita
argumentos da linha de comando.
O código Mapper lê os arquivos de entrada como <chave valor>
pares e emite pares de valores-chave. A classe Mapper amplia o
MapReduceBase e implementa a interface Mapper. A interface
Mapper espera quatro genéricos, que definem os tipos dos pares
de tecla/valor de entrada e saída. Os dois primeiros parâmetros
definem a chave de entrada e os tipos de valor, os dois segundos
definem a tecla de saída e os tipos de valor.
O código Redutor lê as saídas geradas pelos diferentes mapeadors
como <chave valor> pares e emite pares de valores-chave. A classe
Redutor amplia o MapReduceBase e implementa a interface
Redutor.A interface Redutor espera quatro genéricos, que
definem os tipos dos pares de tecla/valor de entrada e saída. Os
dois primeiros parâmetros definem a chave intermediária e os
tipos de valor, os dois segundos definem a chave de saída final e
os tipos de valor.