Big Data Analytic e a Tomada de Decisões (17324)

•

UNICSUL

2

0

2

0

Fabiano Barreto

29/12/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Governança de Ti

3.091 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

29/12/2022 11:54 Avaliação da Disciplina
about:blank 1/9
Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645387)
Peso da Avaliação 10,00
Prova 59733806
Qtd. de Questões 20
Nota 10,00
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de
grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que
possui diversas bibliotecas ou módulos.

Que características do Apache Hadoop são consideradas centrais, tanto para termos de
armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA:
A
Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em
Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que
processa paralelamente os dados de forma eficiente.
B Armazenamento por meio de um sistema de arquivos distribuído e processamento
computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente.
C
Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de
dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e
eficiente de programação.
D Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser
gerenciado por uma única máquina além de processamento em GPU para ganho de performance.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade
de algoritmos.
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.( ) Métodos baseados em grid.( ) Métodos de particionamento.
( ) Métodos baseados em modelos.( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A III – IV – II – I – V.
B I – IV – V – II – III.
C II – V – III – IV – I.
D I – V – IV – III – II.
VOLTAR
A+ Alterar modo de visualização
1
2
29/12/2022 11:54 Avaliação da Disciplina
about:blank 2/9
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns
componentes. O principal deles é o RDD.
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única
limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de
diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma
transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma
etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que
collect, count e CountByKey são operações de ação.
A partir das alternativas abaixo, assinale a CORRETA:
A F – V – V – V.
B V – V – V – F.
C F – V – V – F.
D F – F – V – V.
Os meios digitais consistem em um grande potencial para geração e análise dos dados. Nos dias de
hoje as empresas têm investido nesses meios para compreender melhor como seus clientes atuam
nestas redes.
Em relação à análise digital é correto afirmar que:
A
Conhecida hoje como “Web Analytics” e compreende todas as páginas de um website. A análise
de dados nos websites é feita observando as diferentes métricas de ferramentas como Google
Analytics para avaliar o comportamento virtual do usuário dentro da página.
B
Antigamente restringia-se apenas ao termo “web”, mas nos dias de hoje o termo digital expande
a todos os dispositivos capazes de conectar a web. A base dessas análises está relacionada a
indicadores ou métricas específicas, como: taxa de rejeição, usuários ativos por hora, informações
demográficas, etc.
C
Possui uma diversidade de APIs para acesso e exploração dos dados digitais. São dados como:
origens do tráfego, sites mais visitados, registros de compras em um site de vendas e assim por
diante. Apesar de todo o potencial, a complexidade e o custo para extrair esses dados impedem o
amplo uso desses recursos digitais.
D
Está relacionada a um conjunto de métricas e indicadores para avaliar o comportamento digital
de um usuário, como cliques de mouse, posts nas redes sociais, tempo de sessão e assim por
diante. Por ser uma área recente, ainda não possui ferramentas com recursos suficientes para
análise de grande volume de dados.
O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e
possui uma arquitetura que apresenta alguns componentes importantes.
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
3
4
5
29/12/2022 11:54 Avaliação da Disciplina
about:blank 3/9
A
O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia
todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha.
Estes apenas executam as tarefas solicitadas.
B
O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e
gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente
nas máquinas destino.
C
O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque
controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó,
enquanto o segundo processa os dados e comunica ao mestre.
D
O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao
armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo
apenas obedece às instruções do pai e o notifica quando for o caso.
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências
para análise de Big Data.
A respeito disso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os
computadores quânticos, que prometem alto poder de armazenamento e processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem.
A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou
seja, próximo a elas.
( ) A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A
aposta é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará
onipresente dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e
são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas
cotidianas.
A partir das alternativas abaixo, assinale a CORRETA:
A V – F – V – V.
B F – V – F – F.
C F – V – F – V.
D V – V – V – V.
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento. II – Coesão. III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
A partir das alternativas abaixo, assinale a CORRETA:
A I – II – III.
B III – II – I.
6
7
29/12/2022 11:54 Avaliação da Disciplina
about:blank 4/9
C II – III – I.
D II – I – III.
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos
com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma
infraestrutura para lidarcom uma infinidade de fontes e processá-las em um tempo razoável.

Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das
alternativas abaixo, assinale a CORRETA:
A Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados
estruturados, semiestruturados e/ou não estruturados.
B Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou
inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.
C Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o
que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.
D
Em circunstâncias onde o volume de dados da organização aumente significativamente,
tornando-se necessário comprar novos servidores, o que poderia elevar os custos com
armazenamento.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade
de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o
código abaixo:
I – Algoritmos DIANA, ROCK. II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS. V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos. ( ) Métodos baseados em grid. ( ) Métodos de particionamento.
( ) Métodos baseados em modelos. ( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A I – V – IV – III – II.
B II – V – III – IV – I.
C I – IV – V – II – III.
D III – IV – II – I – V.
A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e
algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de
sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise
de cluster?
A partir das alternativas abaixo, assinale a CORRETA:
8
9
10
29/12/2022 11:54 Avaliação da Disciplina
about:blank 5/9
A
Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de
dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar
o tráfego de dados.
B
Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os
parâmetros que serão necessários para as próximas etapas, assim como avaliar a
dimensionalidade.
C Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data
adequada para garantir o rápido armazenamento e processamento dos dados.
D Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar
por uma ferramenta que possa fornecer suporte à análise paralela em cluster.
“O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as
tendências de mercado e acompanhar o comportamento do consumidor ajuda os negócios em suas
decisões estratégicas e de marketing”.
Disponível em: < https://marketingconteudo.com/big-data-analytics/ >
Em relação ao processo de Big Data, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode
manipular grandes conjuntos de dados em nuvem.
B É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional,
com etapas bem definidas e dependentes entre si.
C É interativo devido às etapas de todo o processo serem independentes umas das outras, além de
apresentar escopo bem reduzido, simplificando a análise.
D É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de
dados e visualização de dados.
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que
pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções
automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em
muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação,
evidenciando as limitações da ação humana para lidar com isso.
Assinale a alternativa correta:
A V – F – V.
B V – V – V.
C F – V – V.
D V – F – F.
11
12
29/12/2022 11:54 Avaliação da Disciplina
about:blank 6/9
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus
negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus
recursos em análise de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.
B Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
C Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
D Automatização de processos, incentivos fiscais e mão de obra barata.
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são
potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados
reduzida.
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece
boa capacidade para comunicação dos resultados.
B Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são
mais próximos entre si.
C Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o
conjunto de dados é significativo.
D Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o
resultado ao longo das iterações.
A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente
em dados não estruturados, que são carregados de erros advindos da linguagem humana.
Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação
entre os elementos do texto.

( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a
análise desses dados, é possível realizar essa correção manualmente.

( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é
necessária, pois não comprometem a análise.

( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser
utilizados, por exemplo, para análise de frequência.
A partir das alternativas abaixo, assinale a CORRETA:
A F – V – V – V – V.
13
14
15
29/12/2022 11:54 Avaliação da Disciplina
about:blank 7/9
B F – F – F – V – V.
C F – V – V – F – V.
D V – F – V – V – F.
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem
total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise
em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado
no mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados
estruturados, semiestruturados e não estruturados.
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.II – Dados semiestruturados.III – Dados não estruturados.
( ) São dados que apresentamuma estrutura flexível e autodescritiva.
( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A I – II – III.
B II – III – I.
C II – I – III.
D I – III – II.
No dia a dia as decisões para análise de Big Data precisam ser assertivas, ou seja, é necessário saber
qual o objetivo da análise para que as soluções realmente possam atender ao real desejo da
organização.

Nesse sentido, imagine um pequeno cenário: - Um gestor de uma grande empresa alimentícia possui
diversos sistemas com grandes volumes de dados de TI (CRM, ERP, Bases relacionais e diversos
formatos de arquivos). Ele gostaria de monitorar os clientes que são mais aderentes (ou mais fiéis) à
empresa, com informações mais atualizadas possíveis. O objetivo é, além de manter aqueles clientes
com maior aderência, aproximar aqueles que porventura estejam um pouco mais distantes da empresa
e com real possibilidade de deixarem de ser clientes fixos.

Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a
CORRETA:
A
Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando
o HDFS do Hadoop e análise tradicional em cluster para agrupar clientes com mais fidelidade em
um mesmo grupo, enquanto que outros formam um segundo grupo.
B
Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark
Streaming, armazenar todos os dados (externos e internos) no HDFS para manter uma base
histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à
organização.
16
17
29/12/2022 11:54 Avaliação da Disciplina
about:blank 8/9
C
Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data
Warehouse. Posteriormente esses dados podem ser processados via Hadoop MapReduce. Além
disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não
da empresa.
D
Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados
poderia ficar a cargo do Sqoop e o armazenamento de dados a cargo do Spark. Os dados podem
ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes.
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o
desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas
de Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda,
inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.
B São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta
complexidade de implementação inviabiliza projetos de análises mais amplos.
C Apresentam como grande característica o alto poder de processamento com implementação de
baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.
D É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o
processo de paralelização menos complexo para o desenvolvedor.
A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais.
As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar
com dados. Tendo isso em mente, quais são as principais habilidades requeridas para um
profissional de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados,
experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
B
Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e
frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não
relacionais.
C
Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina,
habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir
resultados.
D
Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática,
experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo
conhecimento do negócio.
A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto
de dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO afirmar que:
18
19
20
29/12/2022 11:54 Avaliação da Disciplina
about:blank 9/9
A É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é
feita mediante agrupamento através de alguma medida de distância.
B Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua
popularidade, pode se aplicar a praticamente todas as classes de problemas.
C Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou
dissimilaridade elevado.
D É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a
média de vendas de casas em uma determinada região.
Imprimir