AVA - Big Data Analytic e a Tomada de Decisões 1

•

Uniasselvi

André Souza

13/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Sistemas de Informações Gerenciais para Tomada de Decisões

110 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 1/9
Avaliação
Acadêmico / Notas e Avaliações / Gabarito
Avaliação da Disciplina
Disciplina: Big Data Analytic e a Tomada de Decisões (17324)
Prova: 44949722
O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um
conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo:
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada e�ciência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos.
A partir das alternativas abaixo, assinale a CORRETA:

A)
IV – III – I – II.

B)
III – IV – I – II.
C)
III – II – I – IV.
D)
II – III – IV – I.
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho.
Dentre essas propostas surgiram as novas técnicas de clusterização.
Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais e�cientes
que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais e�cientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em
técnicas de SCM.
A partir das alternativas abaixo, assinale a CORRETA:

A)
V – V – F.
B)
V – F – F.
C)
F – V – V.
D)
V V V
Alterar modo de visualização
1
2
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 2/9
V – V – V
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a �m de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso.
Assinale a alternativa correta:

A)
F – V – V.

B)
V – V – V.
C)
V – F – F.
D)
V – F – V.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os
métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:

A)
I – V – IV – III – II.
B)
I – IV – V – II – III.
3
4
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 3/9
C)
III – IV – II – I – V.
D)
II – V – III – IV – I.
“O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as tendências de mercado e acompanhar o comportamento do
consumidor ajuda os negócios em suas decisões estratégicas e de marketing”.
Disponível em: < https://marketingconteudo.com/big-data-analytics/ >
Em relação ao processo de Big Data, o que é possível a�rmar?
A partir das alternativas abaixo, assinale a CORRETA:

A)
É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de dados e visualização de dados.
B)
É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional, com etapas bem de�nidas e dependentes entre si.
C)
É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode manipular grandes conjuntos de dados em nuvem.
D)
É interativo devido às etapas de todo o processo serem independentes umas das outras, além de apresentar escopo bem reduzido, simpli�cando a análise.
A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo cenário de explosão e novos formatos para análise
de dados nos meios digitais.
Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?
A partir das alternativas abaixo, assinale a CORRETA:

A)
Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos.
B)
Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais.
C)
Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede.
D)
Na Web 1.0 que representou o primeiro contato dos usuários em relação à web.
Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas possui particularidades que vão desde a base para
implementação de análise de dados nas empresas até profundos e so�sticados mecanismos de análise dentro das organizações.
Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA:
A)
Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que
esse evento aconteceu?” e obtém respostas através de algoritmos de classi�cação.

B)
Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é
possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.
C)
É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante
para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.
D)
5
6
7
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 4/9
É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é
obtido através da criação de modelos de aprendizagem de máquina avançados.
Os meios digitais consistem em um grande potencial para geração e análise dos dados. Nos dias de hoje as empresas têm investido nesses meios para
compreender melhor como seus clientes atuam nestas redes.
Em relação à análise digital é correto a�rmar que:
A)
Possui uma diversidade de APIs para acesso e exploração dos dados digitais. São dados como: origens do tráfego, sites mais visitados, registros de
compras em um site de vendas e assim por diante. Apesar de todo o potencial, a complexidade e o custo para extrair esses dados impedem o amplo uso
desses recursos digitais.
B)
Está relacionada a um conjunto de métricas e indicadores para avaliar o comportamento digital de um usuário, como cliques de mouse, posts nas redes
sociais, tempo de sessão e assim por diante. Por ser uma área recente, aindanão possui ferramentas com recursos su�cientes para análise de grande
volume de dados.

C)
Antigamente restringia-se apenas ao termo “web”, mas nos dias de hoje o termo digital expande a todos os dispositivos capazes de conectar a web. A base
dessas análises está relacionada a indicadores ou métricas especí�cas, como: taxa de rejeição, usuários ativos por hora, informações demográ�cas, etc.
D)
Conhecida hoje como “Web Analytics” e compreende todas as páginas de um website. A análise de dados nos websites é feita observando as diferentes
métricas de ferramentas como Google Analytics para avaliar o comportamento virtual do usuário dentro da página.
O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas
�nalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
A partir das opções abaixo, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto
desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento
em lote como em tempo real.
A partir das alternativas abaixo, assinale a CORRETA:
A)
F – V – F – V.
B)
F – F – V – V.
C)
V – V – F – F.

D)
V – V – V – F.
A clusterização é uma técnica de aprendizagem não supervisionada que visa classi�car um conjunto de dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO a�rmar que:
8
9
10
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 5/9

A)
Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.
B)
Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as
classes de problemas.
C)
É útil para classi�car um grupo de objetos com classes já de�nidas, por exemplo, prever a média de vendas de casas em uma determinada região.

D)
É empregada em situações onde não há conhecimento prévio de uma classe. A classi�cação é feita mediante agrupamento através de alguma medida de
distância.
Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados.
Em relação a esses tipos de dados é correto a�rmar que:

A)
Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em
um formato estruturado.
B)
São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina,
o que torna o processo de descoberta de conhecimento inviável.
C)
São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato
estruturado e carecem de técnicas para melhorar o processo de análise.
D)
São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das
poucas empresas que investem recursos em análise de dados textuais.
“Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de linguagem natural têm permitido que computadores
possam processar a linguagem natural e começar a compreender o signi�cado sobre a linguagem humana.”
INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-natural/ >.
“Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está avançando rapidamente graças ao interesse cada vez
maior na comunicação homem-máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.” SAS.
Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html >.
Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a esse conceito e suas aplicações é correto
a�rmar que:
A)
Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de posts no Facebook. A PLN é um campo de�nitivamente
consolidado e, portanto, a comunicação homem-máquina é perfeitamente compreendida.
B)
Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo emoções de um discurso. É um tipo de aplicação
ainda pouco consolidada e não possui muitos cases, porém, apresenta grande potencial.

C)
Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio de análises léxicas, sintáticas, semânticas, etc., como é
caso quando deseja-se converter voz em texto.
D)
Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas etapas, como a extração semântica no texto que
observa padrões de escrita em uma frase.
11
12
13
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 6/9
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso.
Além disso, a empresa precisa construir uma infraestrutura para lidar com uma in�nidade de fontes e processá-las em um tempo razoável.
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:
A)
Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.

B)
Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e
em diferentes formatos e estruturas.
C)
Em circunstâncias onde o volume de dados da organização aumente signi�cativamente, tornando-se necessário comprar novos servidores, o que poderia
elevar os custos com armazenamento.
D)
Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com
novas formas de analisar os dados.
A de�nição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas
tomadas de decisão.
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a
CORRETA:
A)
Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte
armazenamento e processamento em larga escala tanto para dados em lote quanto em �uxo contínuo.
B)
Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento
em máquinas que possam suportar o armazenamento e processamento paralelo a �m de que seja possível analisar os dados e entregá-los à camada de
apresentação.
C)
Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de
dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair
insights.

D)
Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário de�nir umacamada de extração e ingestão de dados e�ciente, política de armazenamento, de�nição do tipo de análise e uma camada para apresentação de
resultados.
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coe�ciente de agrupamento.
II – Coesão.
III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
13
14
15
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 7/9
A partir das alternativas abaixo, assinale a CORRETA:
A)
I – II – III.

B)
II – I – III.
C)
III – II – I.

D)
II – III – I.
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida
com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.
( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.
A partir das alternativas abaixo, assinale a CORRETA:
A)
I – II – I – II.

B)
II – I – II – I.
C)
II – I – I – II.
D)
I – II – II – I.
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É
uma solução open-source da Apache que possui diversas bibliotecas ou módulos.
Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas
abaixo, assinale a CORRETA:
A)
Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de
processamento em GPU para ganho de performance.
B)
Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é
16
17
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 8/9
feito pelo Hadoop MapReduce que processa paralelamente os dados de forma e�ciente.

C)
Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído
por intermédio de um modelo simples e e�ciente de programação.
D)
Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo
mais e�ciente.
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos,
algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores,
quais destes é possível destacar?
A partir das alternativas abaixo, assinale a CORRETA:
A)
O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.
B)
O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.
C)
A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.

D)
O volume intenso e variado de dados que estão sendo gerados e requeridos para análise.
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data.
A respeito disso, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de
armazenamento e processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados
das fontes, por isso o termo “borda”, ou seja, próximo a elas.
( ) A intensi�cação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Arti�cial seja
incorporado nas empresas e se tornará onipresente dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances
de aprendizado e automação de tarefas cotidianas.
A partir das alternativas abaixo, assinale a CORRETA:

A)
V – V – V – V.
B)
V – F – V – V.
C)
F – V – F – F.
D)
F – V – F – V.
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
Sobre este componente, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação Quando se aplica uma transformação um novo RDD é criado mas o conjunto de dados só
18
19
20
13/06/2022 19:35 AVA
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 9/9
Uniasselvi © 2022
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só
é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.
A partir das alternativas abaixo, assinale a CORRETA:

A)
F – V – V – V.
B)
V – V – V – F.

C)
F – V – V – F.
D)
F – F – V – V.
Voltar