Big Data Analytic e a Tomada de Decisões (17324)

•

Exatas

10

0

10

0

Andier Prates Ramos

23/02/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.948 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645387)
Peso da Avaliação 10,00
Prova 42776945
Qtd. de Questões 20
Nota 10,00
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que
limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo
de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns
fatores, quais destes é possível destacar?
A partir das alternativas abaixo, assinale a CORRETA:
A O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de
performance.
B A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos
anômalos.
C O volume intenso e variado de dados que estão sendo gerados e requeridos para análise.
D O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise
tradicionais.
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de
grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que
possui diversas bibliotecas ou módulos.

Que características do Apache Hadoop são consideradas centrais, tanto para termos de
armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA:
A
Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em
Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que
processa paralelamente os dados de forma eficiente.
B
Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de
dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e
eficiente de programação.
C Armazenamento por meio de um sistema de arquivos distribuído e processamento
computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente.
D Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser
gerenciado por uma única máquina além de processamento em GPU para ganho de performance.
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que
pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
VOLTAR
A+ Alterar modo de visualização
1
2
3
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções
automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em
muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação,
evidenciando as limitações da ação humana para lidar com isso.
Assinale a alternativa correta:
A V – F – F.
B V – V – V.
C F – V – V.
D V – F – V.
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem
total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise
em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado
no mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados
estruturados, semiestruturados e não estruturados.
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.II – Dados semiestruturados.III – Dados não estruturados.
( ) São dados que apresentam uma estrutura flexível e autodescritiva.
( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A II – I – III.
B I – III – II.
C I – II – III.
D II – III – I.
A inovação radical é um produto, processo ou serviço que apresenta características de desempenho
sem precedentes.
Sabendo disso, assinale a alternativa que apresenta uma definição correta de inovação radical:
A Trata-se da implementação de um produto, serviço, sistema de gestão ou método de produção,
que até então não existia no mercado.
B Trata-se da melhoria de sistemas existentes, tornando-os mais baratos, melhores e mais rápidos.
C Trata-se da modificação, aperfeiçoamento, simplificação, consolidação e melhoria de sistemas
existentes.
D Trata-se da implementação de melhorias em um produto, serviço, sistema de gestão ou método
d d i
4
5
de produção existentes.
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências
para análise de Big Data.
A respeito disso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores
quânticos, que prometem alto poder de armazenamento e processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A
ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja,
próximo a elas.
( ) A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta
é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará onipresente
dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e
são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas
cotidianas.
A partir das alternativas abaixo, assinale a CORRETA:
A V – V – V – V.
B F – V – F – V.
C V – F – V – V.
D F – V – F – F.
Inovar significa buscar resultados por meio de novas estratégias, novas ideias e novas ações,
gerenciando estas de forma sistemática e contínua.

SCHERER, F. O.; CARLOMAGNO S. M. A gestão da inovação na prática: como aplicar conceitos
para alancar a inovação. São Paulo: Atlas, 2009 (adaptado).
Assinale a alternativa que corresponde ao conceito expresso no enunciado:
A Modelos de negócios inovadores.
B Gerenciamento de processos.
C Gestão da inovação.
D Business Model Canvas.
“O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as
tendências de mercado e acompanhar o comportamento do consumidor ajuda os negócios em suas
decisões estratégicas e de marketing”.
Disponível em: < https://marketingconteudo.com/big-data-analytics/ >
6
7
8
Em relação ao processo de Big Data, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional,
com etapas bem definidas e dependentes entre si.
B É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode
manipular grandes conjuntos de dados em nuvem.
C É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de
dados e visualização de dados.
D É interativo devido às etapas de todo o processo serem independentes umas das outras, além de
apresentar escopo bem reduzido, simplificando a análise.
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são
potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados
reduzida.
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são
mais próximos entre si.
B Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o
resultado ao longo das iterações.
C Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece
boa capacidade para comunicação dos resultados.
D Apresenta como vantagem a simplicidade e ofato de ser eficiente, mesmo em situações onde o
conjunto de dados é significativo.
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o
desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de
Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta
complexidade de implementação inviabiliza projetos de análises mais amplos.
B É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda,
inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.
C É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o
processo de paralelização menos complexo para o desenvolvedor.
D Apresentam como grande característica o alto poder de processamento com implementação de
baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos
com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma
infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável.
9
10
11

Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das
alternativas abaixo, assinale a CORRETA:
A Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou
inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.
B Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o
que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.
C Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados
estruturados, semiestruturados e/ou não estruturados.
D
Em circunstâncias onde o volume de dados da organização aumente significativamente,
tornando-se necessário comprar novos servidores, o que poderia elevar os custos com
armazenamento.
O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e
possui uma arquitetura que apresenta alguns componentes importantes.
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A
O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque
controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó,
enquanto o segundo processa os dados e comunica ao mestre.
B
O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia
todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha.
Estes apenas executam as tarefas solicitadas.
C
O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao
armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo
apenas obedece às instruções do pai e o notifica quando for o caso.
D
O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e
gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente
nas máquinas destino.
Ferramentas para inovação são metodologias de apoio ao processo de criação de novas concepções.
Diante disso, analise e associe os itens que seguem:
I – Estratégia do oceano azulII – BrainstormingIII – Business Model CanvasIV – Design Thinking
( ) Metodologia de geração de ideias sobre novos produtos, serviços e campanhas publicitárias. Foca,
prioritariamente, a quantidade de ideias geradas, desprezando a qualidade, em um primeiro momento.
( ) Metodologia baseada em ação criativa. É um processo interativo que exige experimentação e cujo
foco principal se volta para o consumidor.
( ) Consiste em um mapa dividido em nove blocos que definirão, de maneira rápida e prática, o
modelo de negócios de uma organização.
( ) Apresenta uma nova maneira de pensar sobre estratégia, resultando na criação de novos espaços e
na separação da concorrência.
Assinale a alternativa que apresenta a sequência correta de respostas:
A II – IV – III – I.
B II – I – III – IV.
C I II IV III
12
13
C I – II – IV – III.
D I – II – III – IV.
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento. II – Coesão. III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
A partir das alternativas abaixo, assinale a CORRETA:
A II – I – III.
B III – II – I.
C II – III – I.
D I – II – III.
O radar da inovação permite avaliar o grau de maturidade inovadora das empresas, uma vez que
considera a inovação um elemento fundamental no âmbito competitivo.
Dito isso, assinale a alternativa que apresenta as treze dimensões que compõem a metodologia do
radar da inovação:
A Oferta, plataforma, marca, clientes, soluções, relacionamento, agregação de valor, processos,
organização, cadeia de fornecimento, presença, rede e ambiente inovador.
B Incremento, radical, parcial, gestão, comércio, serviços, financeiro, processos, marca,
colaboradores, sistemas, certificações e patentes.
C Organização, gestão, cadeia de fornecedores, planilha, rede de investimentos, estratégia, design,
marca, serviços, tecnologia, conhecimento, diferencial e qualidade.
D Venda, oferta, financeiro, clientes, alternativas, dimensão, radical, parcial, rede, processos,
produtos, serviços e incremento.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade
de algoritmos.
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.( ) Métodos baseados em grid.( ) Métodos de particionamento.
( ) Métodos baseados em modelos.( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A I – IV – V – II – III.
B III IV II I V
14
15
16
B III – IV – II – I – V.
C I – V – IV – III – II.
D II – V – III – IV – I.
A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais.
As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar
com dados. Tendo isso em mente, quais são as principais habilidades requeridas para um profissional
de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A
Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e
frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não
relacionais.
B
Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática,
experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo
conhecimento do negócio.
C
Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina,
habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir
resultados.
D Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados,
experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a
transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre
os clusters ou mesmo a capacidade paradetectar e corrigir falhas que eventualmente possam ocorrer
durante o processo.

Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código
abaixo:
I – Clusterização Paralela. II – Clusterização baseada em MapReduce. ( ) GPMR. ( ) PBIRCH.
( ) MR-DBSCAN. ( ) G-DBSCAN. A partir das alternativas abaixo, assinale a CORRETA:
A II – I – I – II.
B I – II – II – I.
C II – I – II – I.
D I – II – I – II.
17
18
O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade
de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe
os itens, conforme o código abaixo:
I – Spark SQL.II – Spark Streaming.III – Spark MLlib.IV – Spark GraphX.
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem
em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos
em tempos.
A partir das alternativas abaixo, assinale a CORRETA:
A II – III – IV – I.
B IV – III – I – II.
C III – II – I – IV.
D III – IV – I – II.
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus
negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus
recursos em análise de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.
B Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
C Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
D Automatização de processos, incentivos fiscais e mão de obra barata.
19
20
Imprimir