Buscar

Avaliação Big Data Analytic e a Tomada de Decisões (17324)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Avaliação
Acadêmico / Notas e Avaliações / Gabarito
Avaliação da Disciplina 
Disciplina: Big Data Analytic e a Tomada de Decisões (17324) 
Prova: 41658428
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho. Dentre essas
propostas surgiram as novas técnicas de clusterização.
 
Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais e�cientes que técnicas
de SMC.
( ) Embora as técnicas de MMC sejam mais e�cientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM.
 
A partir das alternativas abaixo, assinale a CORRETA:  
A)  V – F – F.
B)  F – V – V.
C)  V – V – F. 
D)  V – V – V
Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados.
 
Em relação a esses tipos de dados é correto a�rmar que:  
A)  São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato
estruturado e carecem de técnicas para melhorar o processo de análise. 
B)  São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das poucas
empresas que investem recursos em análise de dados textuais.
C)  São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina, o que
torna o processo de descoberta de conhecimento inviável. 

D)  Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em um formato
estruturado. 
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma
solução open-source da Apache que possui diversas bibliotecas ou módulos.
 
Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a
CORRETA: 
A)   Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais
e�ciente. 

B)  Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por
intermédio de um modelo simples e e�ciente de programação.
C)   Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em
GPU para ganho de performance. 
D)  Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo
Hadoop MapReduce que processa paralelamente os dados de forma e�ciente.
A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser bem
escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário re�etir antes de implementar uma aplicação para análise de cluster?
 
A partir das alternativas abaixo, assinale a CORRETA:
A) Garantir uma arquitetura robusta para suportar o volume e variedade dos dados bem como optar por uma ferramenta que possa fornecer suporte à análise paralela
Alterar modo de visualização
1
2
3
4
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes
A)  Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela
em cluster. 

B)  Veri�car a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como
avaliar a dimensionalidade. 
C)  Veri�car e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e processamento
dos dados.
D)  Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e estruturar uma
arquitetura capaz de suportar o tráfego de dados.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos,
associando os itens, conforme o código abaixo:
 
I – Algoritmos DIANA, ROCK.
 
II – Algoritmos DBSCAN, OPTICS.
 
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
 
IV – Algoritmos K-Means, CLARANS.
 
V – Algoritmos STING, WAVECLUSTER.
 
( ) Métodos hierárquicos.
 
( ) Métodos baseados em grid.
 
( ) Métodos de particionamento.
 
( ) Métodos baseados em modelos.
 
( ) Métodos baseados em densidade.
 
Assinale a alternativa que apresenta a sequência CORRETA:  
A)  III – IV – II – I – V.
B)  II – V – III – IV – I. 
C)  I – V – IV – III – II. 
D)  I – IV – V – II – III. 
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a
empresa precisa construir uma infraestrutura para lidar com uma in�nidade de fontes e processá-las em um tempo razoável.
 
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:
A)  Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas
formas de analisar os dados.
B)  Em circunstâncias onde o volume de dados da organização aumente signi�cativamente, tornando-se necessário comprar novos servidores, o que poderia elevar os
custos com armazenamento. 
C)  Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.

D)  Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em
diferentes formatos e estruturas.
A demanda por pro�ssionais de análise de dados ampliou o escopo de exigências destes pro�ssionais. As empresas estão interessadas em pro�ssionais capacitados e
que tenham habilidades em trabalhar com dados. Tendo isso em mente, quais são as principais habilidades requeridas para um pro�ssional de dados?
A partir das alternativas abaixo assinale a CORRETA:
5
6
7
A partir das alternativas abaixo, assinale a CORRETA:
A)  Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de
bancos de dados não relacionais.
B)  Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do
conceito de Big Data.

C)  Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e
capacidade para transmitir resultados.
D)  Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e
manipulação) e amplo conhecimento do negócio.
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem total controle – ou internas, quando a organização possui total
controle. Ambas são úteis para análise em Big Data, visto quepodem fornecer uma visão mais ampla de como o negócio está posicionado no mercado. Sobre a estrutura
dos dados contidos nas fontes, é possível classi�car em: dados estruturados, semiestruturados e não estruturados.
 
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura �exível e autodescritiva.
( ) São dados que apresentam uma estrutura bem de�nida com tamanho �xo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
 
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A)  I – III – II. 
B)  I – II – III. 
C)  II – III – I.
D)  II – I – III. 
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data.
 
A respeito disso, classi�que V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e
processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes,
por isso o termo “borda”, ou seja, próximo a elas.
( ) A intensi�cação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Arti�cial seja incorporado nas
empresas e se tornará onipresente dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de
aprendizado e automação de tarefas cotidianas.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)  F – V – F – F.
B)  V – F – V – V.
C)  F – V – F – V.
D)  V – V – V – V. 
A de�nição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas tomadas de
decisão.
 
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA:  
A)  Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em
máquinas que possam suportar o armazenamento e processamento paralelo a �m de que seja possível analisar os dados e entregá-los à camada de apresentação.

B)  Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário de�nir uma camada de
extração e ingestão de dados e�ciente, política de armazenamento, de�nição do tipo de análise e uma camada para apresentação de resultados. 
C)   Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte armazenamento e
8
9
10
processamento em larga escala tanto para dados em lote quanto em �uxo contínuo. 
D)  Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no
Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas
circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível
destacar?
 
A partir das alternativas abaixo, assinale a CORRETA:
A)  A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.
B)  O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.
C)  O volume intenso e variado de dados que estão sendo gerados e requeridos para análise. 
D)  O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.
“Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de linguagem natural têm permitido que computadores possam
processar a linguagem natural e começar a compreender o signi�cado sobre a linguagem humana.”
INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-natural/ >.
 
“Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está avançando rapidamente graças ao interesse cada vez maior na
comunicação homem-máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.” SAS.
Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html >.
 
Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a esse conceito e suas aplicações é correto a�rmar que:  

A)   Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio de análises léxicas, sintáticas, semânticas, etc., como é caso quando
deseja-se converter voz em texto. 
B)   Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas etapas, como a extração semântica no texto que observa
padrões de escrita em uma frase.
C)   Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de posts no Facebook. A PLN é um campo de�nitivamente consolidado
e, portanto, a comunicação homem-máquina é perfeitamente compreendida. 
D)   Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo emoções de um discurso. É um tipo de aplicação ainda pouco
consolidada e não possui muitos cases, porém, apresenta grande potencial. 
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são potencialmente interessantes em cenários de baixa complexidade - com
quantidade de dados reduzida.
 
Em relação aos métodos hierárquicos é CORRETO a�rmar que:
A)  Apresenta como vantagem a simplicidade e o fato de ser e�ciente, mesmo em situações onde o conjunto de dados é signi�cativo.
B)  Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece boa capacidade para comunicação dos resultados. 
C)  De�ne aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o resultado ao longo das iterações.
D)  Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são mais próximos entre si. 
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a
distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
 
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
 
I – Clusterização Paralela.
 
II – Clusterização baseada em MapReduce.
 
( ) GPMR.
 
( ) PBIRCH
11
12
13
14
( ) PBIRCH.
 
( ) MR-DBSCAN.
 
( ) G-DBSCAN.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)   I – II – I – II. 
B)   II – I – II – I. 
C) I – II – II – I.
D)  II – I – I – II. 
A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em dados não estruturados, que são carregados de erros advindos
da linguagem humana.
 
Com base nisso, classi�que V para as sentenças verdadeiras e F para as falsas:
 
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
 
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
 
( ) Erros ortográ�cos precisamser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção manualmente.
 
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
 
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A)  F – V – V – F – V. 
B)   V – F – V – V – F. 
C)  F – V – V – V – V.
D)  F – F – F – V – V.
No dia a dia as decisões para análise de Big Data precisam ser assertivas, ou seja, é necessário saber qual o objetivo da análise para que as soluções realmente possam
atender ao real desejo da organização.
 
Nesse sentido, imagine um pequeno cenário: - Um gestor de uma grande empresa alimentícia possui diversos sistemas com grandes volumes de dados de TI (CRM, ERP,
Bases relacionais e diversos formatos de arquivos). Ele gostaria de monitorar os clientes que são mais aderentes (ou mais �éis) à empresa, com informações mais
atualizadas possíveis. O objetivo é, além de manter aqueles clientes com maior aderência, aproximar aqueles que porventura estejam um pouco mais distantes da empresa
e com real possibilidade de deixarem de ser clientes �xos.
 
Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a CORRETA:
A)  Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando o HDFS do Hadoop e análise tradicional em cluster para agrupar
clientes com mais �delidade em um mesmo grupo, enquanto que outros formam um segundo grupo. 
B)  Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data Warehouse. Posteriormente esses dados podem ser processados via
Hadoop MapReduce. Além disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não da empresa.
C)  Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados poderia �car a cargo do Sqoop e o armazenamento de dados a cargo do
Spark. Os dados podem ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes. 

D)  Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark Streaming, armazenar todos os dados (externos e internos) no
HDFS para manter uma base histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à organização.
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big
Data. Em relação às técnicas de Multi Machine Clustering, o que é possível a�rmar?
 
15
16
17
A partir das alternativas abaixo, assinale a CORRETA:

A)  É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para
o desenvolvedor. 
B)  Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH. 
C)  É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
D)  São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos. 
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos.
 
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
 
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
 
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
 
Assinale a alternativa que apresenta a sequência CORRETA:  
A)  III – IV – II – I – V.
B)  I – V – IV – III – II. 
C)  I – IV – V – II – III.
D)  II – V – III – IV – I.
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado
empresas a investirem parte de seus recursos em análise de dados?
 
A partir das alternativas abaixo, assinale a CORRETA:
 
A)  Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
B)  Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.
C)  Automatização de processos, incentivos �scais e mão de obra barata. 
D)  Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido. 
O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui uma arquitetura que apresenta alguns componentes
importantes.
 
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A)  O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”,
enquanto que o segundo apenas obedece às instruções do pai e o noti�ca quando for o caso. 
B)  O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza
as atividades diretamente nas máquinas destino. 
C)  O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e noti�ca aos escravos (Data
Node) em caso de falha. Estes apenas executam as tarefas solicitadas.

D)   O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos
dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre. 
18
19
20
Voltar
Uniasselvi © 2021

Continue navegando