Buscar

Prova de Big Data Analytic e a Tomada de Decisões

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível destacar?
 
A partir das alternativas abaixo, assinale a CORRETA:
A
 O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.
B
 O volume intenso e variado de dados que estão sendo gerados e requeridos para análise. 
C
 O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.
D
 A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.
2
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos em análise de dados?
 
A partir das alternativas abaixo, assinale a CORRETA:
 
A
 Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido. 
B
 Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
C
 Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.
D
 Automatização de processos, incentivos fiscais e mão de obra barata. 
3
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos.
 
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
 
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
 
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
 
Assinale a alternativa que apresenta a sequência CORRETA:  
A
 I – IV – V – II – III.
B
 II – V – III – IV – I.
C
 III – IV – II – I – V.
D
 I – V – IV – III – II. 
4
O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo:
 
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
 
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos.
 
A partir das alternativas abaixo, assinale a CORRETA:
A
  III – II – I – IV.
B
  II – III – IV – I. 
C
  III – IV – I – II. 
D
  IV – III – I – II.
5
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos.
 
Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA: 
A
 Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que processa paralelamente os dados de forma eficiente.
B
 Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e eficiente de programação.
C
  Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance. 
D
  Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente. 
6
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável.
 
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:
A
 Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.
B
 Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.
C
 Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.
D
 Em circunstâncias onde o volume de dados da organização aumente significativamente, tornando-se necessário comprar novos servidores, o que poderia elevar os custos com armazenamento. 
7
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
 
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A
 F – V – V – V. 
B
 F – V – V – F.
C
 V – V – V – F. 
D
 F – F – V – V.
8
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data.
 
A respeito disso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja, próximo a elas.
( ) A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará onipresente dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas cotidianas.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A
 F – V – F – V.
B
 F – V – F – F.
C
 V – F – V – V.
D
 V – V – V – V. 
9
A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise de cluster?
 
A partir das alternativas abaixo, assinale a CORRETA:
A
 Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como avaliar a dimensionalidade.B
 Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela em cluster. 
C
 Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar o tráfego de dados.
D
 Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e processamento dos dados.
10
O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui uma arquitetura que apresenta alguns componentes importantes.
 
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A
 O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino. 
B
 O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam as tarefas solicitadas.
C
  O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre. 
D
 O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às instruções do pai e o notifica quando for o caso.

Continue navegando