Buscar

Avaliação da Disciplina

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645387)
Peso da Avaliação 10,00
Prova 67562927
Qtd. de Questões 20
Nota 9,50
No dia a dia as decisões para análise de Big Data precisam ser assertivas, ou seja, é necessário saber 
qual o objetivo da análise para que as soluções realmente possam atender ao real desejo da 
organização.
 
Nesse sentido, imagine um pequeno cenário: - Um gestor de uma grande empresa alimentícia possui 
diversos sistemas com grandes volumes de dados de TI (CRM, ERP, Bases relacionais e diversos 
formatos de arquivos). Ele gostaria de monitorar os clientes que são mais aderentes (ou mais fiéis) à 
empresa, com informações mais atualizadas possíveis. O objetivo é, além de manter aqueles clientes 
com maior aderência, aproximar aqueles que porventura estejam um pouco mais distantes da empresa 
e com real possibilidade de deixarem de ser clientes fixos.
 
Qual seria a solução mais viável para auxiliar esse gestor? A partir das alternativas abaixo, assinale a 
CORRETA:
A
 Monitoramento das atividades dos clientes nas redes sociais através da coleta de dados via Spark
Streaming, armazenar todos os dados (externos e internos) no HDFS para manter uma base
histórica e realizar análises preditivas atribuindo scores para mensurar a aderência do cliente à
organização.
B
 Coleta dos dados estruturados utilizando o HiveQL e armazenamento em batch (lote) utilizando
o HDFS do Hadoop e análise tradicional em cluster para agrupar clientes com mais fidelidade em
um mesmo grupo, enquanto que outros formam um segundo grupo. 
C
 Aplicação de processos tradicionais de ETL e armazenamento de dados no Data Lake ou Data
Warehouse. Posteriormente esses dados podem ser processados via Hadoop MapReduce. Além
disso, modelos de Machine Learning podem ser aplicados para prever se um cliente sairá ou não
da empresa.
D
 Construção de uma arquitetura de BI híbrida (lote e dados em tempo real). A coleta de dados
poderia ficar a cargo do Sqoop e o armazenamento de dados a cargo do Spark. Os dados podem
ser analisados por algoritmos de mineração de dados para mapear as atividades dos clientes. 
 VOLTAR
A+ Alterar modo de visualização
1
Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas 
possui particularidades que vão desde a base para implementação de análise de dados nas empresas 
até profundos e sofisticados mecanismos de análise dentro das organizações.
 
Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A 
partir das alternativas abaixo, assinale a CORRETA:
A
 Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma
automatizada com mínima intervenção humana. Isso é possível graças às experiências
desenvolvidas que são aperfeiçoadas ao longo do tempo.
B
 É um processo voltado para responder perguntas do passado para inferir situações que venham a
ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as
decisões obtidas pelos algoritmos implementados.
C
 É um tipo de análise voltado para responder apenas perguntas de situações que ainda não
ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos
de aprendizagem de máquina avançados.
D
 Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com
independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém
respostas através de algoritmos de classificação.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade 
de algoritmos.
 
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
 
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
 
2
3
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
 
Assinale a alternativa que apresenta a sequência CORRETA: 
A I – V – IV – III – II. 
B III – IV – II – I – V.
C I – IV – V – II – III.
D II – V – III – IV – I.
A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto 
de dados semelhantes em um mesmo grupo.
 
No que se refere à clusterização é CORRETO afirmar que: 
A Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua
popularidade, pode se aplicar a praticamente todas as classes de problemas.
B É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a
média de vendas de casas em uma determinada região. 
C É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é
feita mediante agrupamento através de alguma medida de distância. 
D Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou
dissimilaridade elevado. 
4
A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e 
algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de 
sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise 
de cluster?
 
A partir das alternativas abaixo, assinale a CORRETA:
A Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data
adequada para garantir o rápido armazenamento e processamento dos dados.
B
 Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de
dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar
o tráfego de dados.
C Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar
por uma ferramenta que possa fornecer suporte à análise paralela em cluster. 
D
 Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os
parâmetros que serão necessários para as próximas etapas, assim como avaliar a
dimensionalidade. 
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o 
desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas 
de Multi Machine Clustering, o que é possível afirmar?
 
A partir das alternativas abaixo, assinale a CORRETA:
A São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta
complexidade de implementação inviabiliza projetos de análises mais amplos. 
B É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o
processo de paralelização menos complexo para o desenvolvedor.
C Apresentam como grande característica o alto poder de processamento com implementação de
baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH. 
5
6
D É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda,
inclusive, torna o processo de paralelização mais transparente para o desenvolvedor. 
O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses 
componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência 
de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
 
A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:
 
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes 
estruturadas.
 
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez 
que suporta um grande volume de dados mantendo alto desempenho.
 
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
 
( ) O Apache Mahout é um componente responsável por trabalhar diretamentecom os dados da 
fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A F – V – F – V.
B V – V – F – F. 
C F – F – V – V. 
D V – V – V – F. 
7
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos 
com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma 
infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável.
 
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das 
alternativas abaixo, assinale a CORRETA:
A Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o
que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.
B Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados
estruturados, semiestruturados e/ou não estruturados.
C Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou
inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.
D
 Em circunstâncias onde o volume de dados da organização aumente significativamente,
tornando-se necessário comprar novos servidores, o que poderia elevar os custos com
armazenamento. 
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem 
total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise 
em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado 
no mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados 
estruturados, semiestruturados e não estruturados.
 
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura flexível e autodescritiva.
( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
 
8
9
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A I – III – II. 
B II – I – III. 
C II – III – I.
D I – II – III. 
O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade 
de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, 
associe os itens, conforme o código abaixo:
 
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
 
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para 
trabalharem em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos 
em tempos.
 
A partir das alternativas abaixo, assinale a CORRETA:
A IV – III – I – II.
B II – III – IV – I. 
10
C III – II – I – IV.
D III – IV – I – II. 
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que 
pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
 
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções 
automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em 
muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, 
evidenciando as limitações da ação humana para lidar com isso.
 
Assinale a alternativa correta:
A F – V – V.
B V – F – F.
C V – V – V.
D V – F – V.
A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e 
pode ajudar diretamente gestores de negócio em suas tomadas de decisão.
 
11
12
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura 
tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA: 
A
 Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de
um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes
volumes de dados em tempo real e uma camada de visualização que será útil para gestores de
negócio extrair insights.
B
 Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de
forma transparente e única. É necessário alto investimento em máquinas que possam suportar o
armazenamento e processamento paralelo a fim de que seja possível analisar os dados e entregá-
los à camada de apresentação.
C
 Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas).
Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto
para dados em lote quanto em fluxo contínuo. 
D
 Capacidade para armazenar e processar grandes volumes de dados entregando a informação
certa no tempo certo. Para isso é necessário definir uma camada de extração e ingestão de dados
eficiente, política de armazenamento, definição do tipo de análise e uma camada para
apresentação de resultados. 
Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados 
disponíveis para extração e análise de dados.
 
Em relação a esses tipos de dados é correto afirmar que: 
A
 São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas.
São extremamente custosos se comparados ao formato estruturado e carecem de técnicas para
melhorar o processo de análise. 
B
 São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua
estrutura. A linguagem humana é incompreensível pela máquina, o que torna o processo de
descoberta de conhecimento inviável. 
C
 São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo
poder de aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos
em análise de dados textuais.
13
D Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível
realizar a análise existe a necessidade de transformá-los em um formato estruturado. 
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
 
Em relação a essas métricas, associe os itens, conforme o código abaixo:
 
I – Coeficiente de agrupamento.
 
II – Coesão.
 
III – Clique.
 
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
 
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
 
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A II – III – I. 
B I – II – III. 
C II – I – III. 
D III – II – I.
14
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade 
de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o 
código abaixo:
 
I – Algoritmos DIANA, ROCK.
 
II – Algoritmos DBSCAN, OPTICS.
 
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
 
IV – Algoritmos K-Means, CLARANS.
 
V – Algoritmos STING, WAVECLUSTER.
 
( ) Métodos hierárquicos.
 
( ) Métodos baseados em grid.
 
( ) Métodos de particionamento.
 
( ) Métodos baseados em modelos.
 
( ) Métodos baseados em densidade.Assinale a alternativa que apresenta a sequência CORRETA: 
A III – IV – II – I – V.
B I – IV – V – II – III. 
15
C I – V – IV – III – II. 
D II – V – III – IV – I. 
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são 
potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados 
reduzida.
 
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são
mais próximos entre si. 
B Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o
conjunto de dados é significativo.
C Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o
resultado ao longo das iterações.
D Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece
boa capacidade para comunicação dos resultados. 
A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um 
novo cenário de explosão e novos formatos para análise de dados nos meios digitais.
Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?
 
A partir das alternativas abaixo, assinale a CORRETA:
A Na Web 1.0 que representou o primeiro contato dos usuários em relação à web. 
16
17
B Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de
suas atividades na rede.
C Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos. 
D Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais. 
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a 
transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre 
os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer 
durante o processo.
 
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código 
abaixo:
 
I – Clusterização Paralela.
 
II – Clusterização baseada em MapReduce.
 
( ) GPMR.
 
( ) PBIRCH.
 
( ) MR-DBSCAN.
 
( ) G-DBSCAN.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A I – II – I – II. 
B II – I – I – II. 
18
C I – II – II – I.
D II – I – II – I. 
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns 
componentes. O principal deles é o RDD.
 
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única 
limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de 
diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma 
transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma 
etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que 
collect, count e CountByKey são operações de ação.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A F – V – V – V. 
B V – V – V – F. 
C F – F – V – V.
D F – V – V – F.
“Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de 
linguagem natural têm permitido que computadores possam processar a linguagem natural e começar 
a compreender o significado sobre a linguagem humana.”
19
20
INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-
natural/ >.
 
“Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está 
avançando rapidamente graças ao interesse cada vez maior na comunicação homem-máquina, 
paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.” 
SAS.
Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-
natural.html >.
 
Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em 
relação a esse conceito e suas aplicações é correto afirmar que: 
A
 Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio
de análises léxicas, sintáticas, semânticas, etc., como é caso quando deseja-se converter voz em
texto. 
B
 Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza
algumas etapas, como a extração semântica no texto que observa padrões de escrita em uma
frase.
C
 Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva
extraindo emoções de um discurso. É um tipo de aplicação ainda pouco consolidada e não possui
muitos cases, porém, apresenta grande potencial. 
D
 Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de
posts no Facebook. A PLN é um campo definitivamente consolidado e, portanto, a comunicação
homem-máquina é perfeitamente compreendida. 
Imprimir

Continue navegando