Buscar

Big Data Analytic e a Tomada de Decisões (17324)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 1/7
Avaliação
Acadêmico / Notas e Avaliações / Gabarito
Avaliação da Disciplina 
Disciplina: Big Data Analytic e a Tomada de Decisões (17324) 
Nota: 8.5 
Prova: 35900742
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso.
Além disso, a empresa precisa construir uma infraestrutura para lidar com uma in�nidade de fontes e processá-las em um tempo razoável.
 
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:
A)  Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.

B)  Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume
e em diferentes formatos e estruturas.

C)  Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação
com novas formas de analisar os dados.
D)  Em circunstâncias onde o volume de dados da organização aumente signi�cativamente, tornando-se necessário comprar novos servidores, o que
poderia elevar os custos com armazenamento. 
A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em dados não estruturados, que são carregados de
erros advindos da linguagem humana.
 
Com base nisso, classi�que V para as sentenças verdadeiras e F para as falsas:
 
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
 
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
 
( ) Erros ortográ�cos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção
manualmente.
 
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
 
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)  F – F – F – V – V.
B)  F – V – V – F – V. 
C)   V – F – V – V – F. 
D)  F – V – V – V – V.
Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados.
 
Em relação a esses tipos de dados é correto a�rmar que:  
A)  São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela
máquina, o que torna o processo de descoberta de conhecimento inviável. 

B)  Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em
um formato estruturado. 
C)  São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das
Alterar modo de visualização
1
2
3
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes
28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 2/7
poucas empresas que investem recursos em análise de dados textuais.
D)  São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao
formato estruturado e carecem de técnicas para melhorar o processo de análise. 
“O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as tendências de mercado e acompanhar o comportamento do
consumidor ajuda os negócios em suas decisões estratégicas e de marketing”.
Disponível em: < https://marketingconteudo.com/big-data-analytics/ >
 
Em relação ao processo de Big Data, o que é possível a�rmar?
A partir das alternativas abaixo, assinale a CORRETA:
 A)  É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode manipular grandes conjuntos de dados em nuvem.
B)  É interativo devido às etapas de todo o processo serem independentes umas das outras, além de apresentar escopo bem reduzido, simpli�cando a
análise. 
C)  É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de dados e visualização de dados. 
D)  É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional, com etapas bem de�nidas e dependentes entre si.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os
métodos, associando os itens, conforme o código abaixo:
 
I – Algoritmos DIANA, ROCK.
 
II – Algoritmos DBSCAN, OPTICS.
 
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
 
IV – Algoritmos K-Means, CLARANS.
 
V – Algoritmos STING, WAVECLUSTER.
 
( ) Métodos hierárquicos.
 
( ) Métodos baseados em grid.
 
( ) Métodos de particionamento.
 
( ) Métodos baseados em modelos.
 
( ) Métodos baseados em densidade.
 
Assinale a alternativa que apresenta a sequência CORRETA:  
A)  I – V – IV – III – II. 
B)  III – IV – II – I – V.
C)  II – V – III – IV – I. 
D)  I – IV – V – II – III. 
No dia a dia as decisões para análise de Big Data precisam ser assertivas, ou seja, é necessário saber qual o objetivo da análise para que as soluções
realmente possam atender ao real desejo da organização.
 
Nesse sentido, imagine um pequeno cenário: - Um gestor de uma grande empresa alimentícia possui diversos sistemas com grandes volumes de dados de TI
(C l i i di f d i ) l i d i li ã i d ( i �éi ) à
4
5
6
28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 3/7
(CRM, ERP, Bases relacionais e diversos formatos de arquivos). Ele gostaria de monitorar os clientes que são mais aderentes (ou mais �éis) à empresa, com
informações mais atualizadas possíveis. O objetivo é, além de manter aqueles clientes com maior aderência, aproximar aqueles que porventura estejam um
pouco mais distantes da empresa e com real possibilidade de deixarem de ser clientes �xos.
 
Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a CORRETA:

A)  Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark Streaming, armazenar todos os dados (externos e
internos) no HDFS para manter uma base histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à organização.
B)  Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando o HDFS do Hadoop e análise tradicional em cluster para
agrupar clientes com mais �delidade em um mesmo grupo, enquanto que outros formam um segundo grupo. 
C)  Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados poderia �car a cargo do Sqoop e o armazenamento de
dados a cargo do Spark. Os dados podem ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes. 
D)  Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data Warehouse. Posteriormente esses dados podem ser
processados via Hadoop MapReduce. Além disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não da empresa.
A clusterização é uma técnica de aprendizagem não supervisionada que visa classi�car um conjunto de dados semelhantes em um mesmo grupo.
 
No que se refere à clusterização é CORRETO a�rmar que: 

A)  É empregada em situações onde não há conhecimento prévio de uma classe. A classi�cação é feita mediante agrupamento através de algumamedida
de distância. 
B)  Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado. 
C)  Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as
classes de problemas.
D)  É útil para classi�car um grupo de objetos com classes já de�nidas, por exemplo, prever a média de vendas de casas em uma determinada região. 
A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser
bem escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário re�etir antes de implementar uma aplicação para análise de cluster?
 
A partir das alternativas abaixo, assinale a CORRETA:
A)  Veri�car e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e
processamento dos dados.

B)  Veri�car a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas,
assim como avaliar a dimensionalidade. 
C)  Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à
análise paralela em cluster. 
D)  Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e
estruturar uma arquitetura capaz de suportar o tráfego de dados.
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
 
Em relação a essas métricas, associe os itens, conforme o código abaixo:
 
I – Coe�ciente de agrupamento.
 
II – Coesão.
 
III – Clique.
 
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
 
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
 
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
7
8
9
28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 4/7
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)  II – I – III. 
B)  III – II – I.
C)  II – III – I. 
D)   I – II – III. 
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas:
 
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a �m de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso.
 
Assinale a alternativa correta:
A)   V – V – V.
B)   V – F – F.
C)   F – V – V.
D)   V – F – V.
Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas possui particularidades que vão desde a base para
implementação de análise de dados nas empresas até profundos e so�sticados mecanismos de análise dentro das organizações.
 
Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA:

A)  Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é
possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.
B)  É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é
obtido através da criação de modelos de aprendizagem de máquina avançados.
C)  É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante
para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.
D)  Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por
que esse evento aconteceu?” e obtém respostas através de algoritmos de classi�cação.
O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas
�nalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
 
A partir das opções abaixo, classi�que V para as sentenças verdadeiras e F para as falsas:
 
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
 
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto
desempenho.
 
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
 
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento
em lote como em tempo real.
 
A partir das alternativas abaixo, assinale a CORRETA:  
 A) F F V V
10
11
12
28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 5/7
 A)  F – F – V – V. 
B)  V – V – V – F. 
C)  F – V – F – V.
D)  V – V – F – F. 
A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo cenário de explosão e novos formatos para análise
de dados nos meios digitais.
Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?
 
A partir das alternativas abaixo, assinale a CORRETA:
A)  Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos. 
B)  Na Web 1.0 que representou o primeiro contato dos usuários em relação à web. 
C)  Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais. 
D)  Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede.
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data.
 
A respeito disso, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de
armazenamento e processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados
das fontes, por isso o termo “borda”, ou seja, próximo a elas.
( ) A intensi�cação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Arti�cial seja
incorporado nas empresas e se tornará onipresente dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances
de aprendizado e automação de tarefas cotidianas.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)  F – V – F – F.
B)  F – V – F – V.
C)  V – V – V – V. 
D)  V – F – V – V.
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem total controle – ou internas, quando a organização possui
total controle. Ambas são úteis para análise em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado no mercado.
Sobre a estrutura dos dados contidos nas fontes, é possível classi�car em: dados estruturados, semiestruturados e não estruturados.Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura �exível e autodescritiva.
( ) São dados que apresentam uma estrutura bem de�nida com tamanho �xo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
 
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A)  II – III – I.
B)  II – I – III. 
C)  I – II – III. 
D)  I – III – II. 
13
14
15
28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 6/7
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida
com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
 
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
 
I – Clusterização Paralela.
 
II – Clusterização baseada em MapReduce.
 
( ) GPMR.
 
( ) PBIRCH.
 
( ) MR-DBSCAN.
 
( ) G-DBSCAN.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)   I – II – I – II. 
B) I – II – II – I.
C)  II – I – I – II. 
D)   II – I – II – I. 
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos,
algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores,
quais destes é possível destacar?
 
A partir das alternativas abaixo, assinale a CORRETA:
A)  O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.
B)  O volume intenso e variado de dados que estão sendo gerados e requeridos para análise. 
C)  O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.
D)  A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.
A de�nição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas
tomadas de decisão.
 
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a
CORRETA:  
A)   Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte
armazenamento e processamento em larga escala tanto para dados em lote quanto em �uxo contínuo. 
B)  Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de
dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair
insights.

C)  Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário de�nir uma
camada de extração e ingestão de dados e�ciente, política de armazenamento, de�nição do tipo de análise e uma camada para apresentação de
resultados. 
D)  Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto
investimento em máquinas que possam suportar o armazenamento e processamento paralelo a �m de que seja possível analisar os dados e entregá-los à
camada de apresentação.
li i õ d i d d é i di i i d áli l i i d i l lh i d d h
16
17
18
19
28/10/2021 13:01 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 7/7
Uniasselvi © 2021
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho.
Dentre essas propostas surgiram as novas técnicas de clusterização.
 
Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais e�cientes
que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais e�cientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em
técnicas de SCM.
 
A partir das alternativas abaixo, assinale a CORRETA:  
A)  V – V – V
B)  F – V – V.
C)  V – F – F.
D)  V – V – F. 
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
 
Sobre este componente, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só
é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)  F – F – V – V.
B)  V – V – V – F. 
C)  F – V – V – F.
D)  F – V – V – V. 
20
Voltar

Continue navegando