Big Data Analytic e a Tomada de Decisões

•

UNIASSELVI

19

2

19

2

0

Marisete Valim Dias Marques

23/05/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Empreendedorismo e Inovação

4.839 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 - As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas,
especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas técnicas de
clusterização.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de
dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma
paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do seu uso
é um fator determinante para apostar em técnicas de SCM.
A partir das alternativas abaixo, assinale a CORRETA:
A) F – V – V.
B) V – V – F.

C) V – V – V
D) V – F – F.

2 - A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode
ajudar diretamente gestores de negócio em suas tomadas de decisão.
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve
ter? A partir das alternativas abaixo, assinale a CORRETA:

A) Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no
tempo certo. Para isso é necessário definir uma camada de extração e ingestão de dados eficiente, política de
armazenamento, definição do tipo de análise e uma camada para apresentação de resultados.

B) Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas).
Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto para dados
em lote quanto em fluxo contínuo.

C) Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido
mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em
tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.

D) Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma
transparente e única. É necessário alto investimento em máquinas que possam suportar o armazenamento e
processamento paralelo a fim de que seja possível analisar os dados e entregá-los à camada de apresentação.

3 - As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem total
controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise em Big Data,
visto que podem fornecer uma visão mais ampla de como o negócio está posicionado no mercado. Sobre a
estrutura dos dados contidos nas fontes, é possível classificar em: dados estruturados, semiestruturados e não
estruturados.
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura flexível e autodescritiva.
( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A) I – III – II.
B) II – I – III.
C) I – II – III.
D) II – III – I.

4 - Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de
toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a
capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.
( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.
A partir das alternativas abaixo, assinale a CORRETA:
A) II – I – I – II.
B) I – II – I – II.
C) II – I – II – I.
D) I – II – II – I.

5 - O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui
uma arquitetura que apresenta alguns componentes importantes.
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as
tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino.

B) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e
processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às
instruções do pai e o notifica quando for o caso.

C) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os
dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam
as tarefas solicitadas.

D) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas
as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os
dados e comunica ao mestre.

6 - A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais. As
empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar com dados.
Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A) Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks
de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.

B) Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com
todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.

C) Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina,
habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.

D) Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia
em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.

7 - No dia a dia as decisões para análise de Big Data precisam ser assertivas, ou seja, é necessário saber qual
o objetivo da análise para que as soluções realmente possam atender ao real desejo da organização.
Nesse sentido, imagine um pequeno cenário: - Um gestor de uma grande empresa alimentícia possui diversos
sistemas com grandes volumes de dados de TI (CRM, ERP, Bases relacionais e diversos formatos de
arquivos). Ele gostaria de monitorar os clientes que são mais aderentes (ou mais fiéis) à empresa, com
informações mais atualizadas possíveis. O objetivo é, além de manter aqueles clientes com maior aderência,
aproximar aqueles que porventura estejam um pouco mais distantes da empresa e com real possibilidade de
deixarem de ser clientes fixos.
Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a
CORRETA:

A) Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark
Streaming, armazenar todos os dados (externos e internos) no HDFS para manter uma base histórica e realizar
análises preditivas atribuindo scores para mensurar a aderência do cliente à organização.

B) Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data Warehouse.
Posteriormente esses dados podem ser processados via Hadoop MapReduce. Além disso, modelos de
Machine Learning podem ser aplicados para prever se um cliente sairáou não da empresa.

C) Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados poderia ficar
a cargo do Sqoop e o armazenamento de dados a cargo do Spark. Os dados podem ser analisados por
algoritmos de mineração de dados para mapear as atividades dos clientes.

D) Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando o HDFS do
Hadoop e análise tradicional em cluster para agrupar clientes com mais fidelidade em um mesmo grupo,
enquanto que outros formam um segundo grupo.

8 - Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus
negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos
em análise de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A) Automatização de processos, incentivos fiscais e mão de obra barata.
B) Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
C) Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
D) Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.

9 - A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em
dados não estruturados, que são carregados de erros advindos da linguagem humana.
Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os
elementos do texto.
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise
desses dados, é possível realizar essa correção manualmente.
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois
não comprometem a análise.
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados,
por exemplo, para análise de frequência.
A partir das alternativas abaixo, assinale a CORRETA:
A) V – F – V – V – F.
B) F – V – V – F – V.
C) F – V – V – V – V.
D) F – F – F – V – V.

10 - “Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de
linguagem natural têm permitido que computadores possam processar a linguagem natural e começar a
compreender o significado sobre a linguagem humana.”
INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-natural/ >.
“Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está avançando
rapidamente graças ao interesse cada vez maior na comunicação homem-máquina, paralelamente à
disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.” SAS.
Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html >.
Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a
esse conceito e suas aplicações é correto afirmar que:

A) Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de posts no
Facebook. A PLN é um campo definitivamente consolidado e, portanto, a comunicação homem-máquina é
perfeitamente compreendida.

B) Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo
emoções de um discurso. É um tipo de aplicação ainda pouco consolidada e não possui muitos cases, porém,
apresenta grande potencial.

C) Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio de análises
léxicas, sintáticas, semânticas, etc., como é caso quando deseja-se converter voz em texto.

D) Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas
etapas, como a extração semântica no texto que observa padrões de escrita em uma frase.

11 - Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o
poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise
extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais
destes é possível destacar?
A partir das alternativas abaixo, assinale a CORRETA:
A) O volume intenso e variado de dados que estão sendo gerados e requeridos para análise.

B) O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.

C) O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise
tradicionais.

D) A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a
grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura
para lidar com uma infinidade de fontes e processá-las em um tempo razoável.
12 - Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas
abaixo, assinale a CORRETA:
A) Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou
inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.

B) Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que
poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.

C) Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados
estruturados, semiestruturados e/ou não estruturados.

D) Em circunstâncias onde o volume de dados da organização aumente significativamente, tornando-se
necessário comprar novos servidores, o que poderia elevar os custos com armazenamento.

13 - Os meios digitais consistem em um grande potencial para geração e análise dos dados. Nos dias de hoje
as empresas têm investido nesses meios para compreender melhor como seus clientes atuam nestas redes.
Em relação à análise digital é correto afirmar que:

A) Está relacionada a um conjunto de métricas e indicadores para avaliar o comportamento digital de um
usuário, como cliques de mouse, posts nas redes sociais, tempo de sessão e assim por diante. Por ser uma
área recente, ainda não possui ferramentas com recursos suficientes para análise de grande volume de dados.

B) Possui uma diversidade de APIs para acesso e exploração dos dados digitais. São dados como: origens do
tráfego, sites mais visitados, registros de compras em um site de vendas e assim por diante. Apesar de todo o
potencial, a complexidade e o custo para extrair esses dados impedem o amplo uso desses recursos digitais.

C) Conhecida hoje como “Web Analytics” e compreende todas as páginas de um website. A análise de dados
nos websites é feita observando as diferentes métricas de ferramentas como Google Analytics para avaliar o
comportamento virtual do usuário dentro da página.

D) Antigamente restringia-se apenas ao termo “web”, mas nos dias de hoje o termo digital expande a todos os
dispositivos capazes de conectar a web. A base dessas análises está relacionada a indicadores ou métricas
específicas, como: taxa de rejeição, usuários ativos por hora, informações demográficas, etc.

14 - Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns
componentes. O principal deles é o RDD.
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não
possuirum mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de
diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um
novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e
CountByKey são operações de ação.
A partir das alternativas abaixo, assinale a CORRETA:
A) F – V – V – F.
B) V – V – V – F.
C) F – F – V – V.
D) F – V – V – V.

15 - Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados
disponíveis para extração e análise de dados.
Em relação a esses tipos de dados é correto afirmar que:

A) São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A
linguagem humana é incompreensível pela máquina, o que torna o processo de descoberta de conhecimento
inviável.

B) São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de
aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos em análise de dados
textuais.

C) Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a
análise existe a necessidade de transformá-los em um formato estruturado.

D) São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São
extremamente custosos se comparados ao formato estruturado e carecem de técnicas para melhorar o
processo de análise.

16 - Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de
algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.

( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A) II – V – III – IV – I.
B) III – IV – II – I – V.
C) I – IV – V – II – III.
D) I – V – IV – III – II.

17 - A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto de
dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO afirmar que:
A) É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas
de casas em uma determinada região.

B) Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua
popularidade, pode se aplicar a praticamente todas as classes de problemas.

C) É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita
mediante agrupamento através de alguma medida de distância.

D) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.

18 - A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo
cenário de explosão e novos formatos para análise de dados nos meios digitais.
Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?
A partir das alternativas abaixo, assinale a CORRETA:
A) Na Web 1.0 que representou o primeiro contato dos usuários em relação à web.

B) Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas
atividades na rede.

C) Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais.

D) Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos.

19 - Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de
algoritmos.
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A) II – V – III – IV – I.
B) I – V – IV – III – II.
C) III – IV – II – I – V.
D) I – IV – V – II – III.

20 - As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento.
II – Coesão.
III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
A partir das alternativas abaixo, assinale a CORRETA:
A) III – II – I.
B) I – II – III.
C) II – III – I.
D) II – I – III.