Buscar

CCT0854 - BIG DATA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

BIG DATA 
1a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A1_201803107685_V2 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
Um dos desdobramentos de big data é o big data analytics, que se refere aos softwares capazes de tratar dados para transformá-
los em informações úteis às organizações. O big data analytics difere do business intelligence por 
 
 Analisar dúvidas já conhecidas para as quais se deseje obter resposta 
 
Analisar o que já existe, definindo as melhores hipóteses 
 
Analisar o que já existe e o que está por vir, apontando novos caminhos 
 Dar enfoque à coleta, à transformação e à disponibilização dos dados 
 
Priorizar o ambiente de negócios em detrimento de outras áreas 
Respondido em 29/03/2021 11:49:11 
 
 
 
2 
 Questão 
 
 
Big Data se refere ao imenso volume de conjuntos de dados que alcançam elevadas ordens de magnitude. O valor real do Big Data 
está no insight que ele produz quando analisado ¿ buscando padrões, derivando significado, tomando decisões e, por fim, 
respondendo ao mundo com inteligência. Referente ao Big Data, é correto afirmar que o termo variedade refere-se: 
 
 Ao banco de dados homogêneo que trata de informações do mesmo tipo definindo padrões de segurança 
 
A um conjunto de dados que são gerados em tempo real, o que requer a oferta imediata de informações úteis 
 A um conjunto de dados mais diversos, incluindo dados estruturados, semiestruturados e não estruturados. É heterogêneo 
e vem em muitos formatos, incluindo texto, documento, imagem, vídeo e outros 
 
Aos data centers físicos que transformam os dados em informações pertinentes ao negócio 
 
Ao controle de dados semiestruturados de formatos definidos como texto e números 
Respondido em 29/03/2021 11:49:12 
 
 
 
 
 
javascript:diminui();
javascript:aumenta();
javascript:abre_colabore('38403','220360279','4443177416');
 
 
 
 
 
 
 
 
 
BIG DATA 
2a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A2_201803107685_V2 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
Um dos desdobramentos de Big Data é a Big Data Analytics, que se refere aos softwares capazes de tratar dados para transformá-
los em informações úteis às organizações. Big Data Analytics difere de Business Intelligence por 
 
 Analisar dúvidas já conhecidas para as quais se deseje obter resposta 
 
Dar enfoque à coleta, à transformação e à disponibilização dos dados 
 
Analisar o que já existe, definindo as melhores hipóteses 
 Analisar o que já existe e o que está por vir, apontando novos caminhos 
 
Priorizar o ambiente de negócios em detrimento de outras áreas 
Respondido em 29/03/2021 11:49:17 
 
 
 
2 
 Questão 
 
 
Com relação aos fundamentos e aos conceitos de Big Data, julgue os itens a seguir. 
I - O volume de dados é uma característica importante de Big Data. 
II - Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. 
III - A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. 
IV - A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. 
Estão certos apenas os itens 
 
 II e IV 
 
I, III e IV 
 
II, III e IV 
 
I e II 
 I e III 
Respondido em 29/03/2021 11:49:19 
javascript:diminui();
javascript:aumenta();
 
 
 
 
 
 
 
 
 
 
 
 
 
 
BIG DATA 
3a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A3_201803107685_V1 23/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
Bancos de Dados não relacionais, também conhecidos como NoSQL, surgiram para armazenar dados não estruturados, usando 
modelos de armazenamento específicos para os tipos de dados que são armazenados, usualmente, fugindo do padrão de 
armazenamento de linhas e colunas dos bancos de dados tradicionais. Em relação ao Banco de Dados NoSQL, quais são as 
categorias consideradas para esse tipo de armazenamento? 
 
 Armazéns chave-valor; Normalização; Banco de dados orientados a coluna 
 Armazéns chave-valor; Banco de dados orientados a documentos; Banco de dados de grafos 
 
Banco de dados orientados a linha; Normalização; Banco de dados orientados a coluna 
 
Banco de dados de grafos; Banco de dados orientados a linha; Formas normais de armazenamento 
 
Primeira forma normal; Banco de dados orientados a documentos; Normalização 
Respondido em 23/03/2021 17:59:00 
 
 
 
2 
 Questão 
 
 
Um dos principais tipos de sistemas gerenciadores de banco de dados são os bancos de dados relacionais. Assinale a alternativa que 
apresenta a forma que todos os dados de um banco de dados relacional são armazenados. 
 
javascript:abre_colabore('38403','220363743','4443181536');
javascript:diminui();
javascript:aumenta();
 Arquivos 
 
Discos 
 Tabelas 
 
Memória 
 
Fitas 
Respondido em 23/03/2021 17:59:02 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
BIG DATA 
4a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A4_201803107685_V1 23/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
O conceito de computação em nuvem (em inglês, cloud computing) refere-se: 
 
 À utilização da memória e da capacidade de armazenamento e cálculo de computadores e servidores compartilhados e 
interligados por meio da Internet, seguindo o princípio da computação em grade 
 
À tecnologia de comunicação de dados que permite uma transmissão de dados mais rápida através de linhas de telefone do 
que um modem convencional pode oferecer, sendo os dados transmitidos mais rapidamente em uma direção do que na 
outra, assimetricamente 
 
Ao armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, 
havendo necessidade de instalação de programas ou, por vezes, de armazenar dados 
 
Ao protocolo de comunicação da comada de aplicação utilizado para sistemas de informação de hipermídia, distribuídos e 
colaborativos, representando a base para a comunicação de dados da World Wide Web 
 
Ao programa que habilita seus usuários a interagirem com documentos HTML hospedados em um servidor da rede, 
destacando-se na era da web 2.0, uma vez que quase tudo do que se necessita está online 
Respondido em 23/03/2021 17:59:11 
 
 
javascript:abre_colabore('38403','219812070','4423146276');
javascript:diminui();
javascript:aumenta();
 
2 
 Questão 
 
 
Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e formatos 
variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a 
 
 Um sistema de armazenamento e processamento de dados massivamente escalável ¿ não é um banco de dados 
 
Um banco de dados com capacidade melhorada 
 
Um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento 
 
Uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos clientes, 
parceiros e sobre o negócio 
 
Um banco de dados com tecnologia de virtualização 
Respondido em 23/03/2021 17:59:13 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
BIG DATA 
5a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A5_201803107685_V1 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
Com relação a análise de dados marque a alternativa INCORRETA. 
 
 A detecção de anomalias nos ajuda a perceber a existência de valores extremos que influenciarão alguns métodos baseados 
em estatística, mesmo em casos em que as anomalias correspondam a dados válidos.javascript:abre_colabore('38403','219805181','4423140462');
javascript:diminui();
javascript:aumenta();
 As ferramentas de análise de dados disponíveis atualmente facilitam a construção de inúmeros algoritmos utilizando uma 
diversidade de dados. Os excelentes resultados nas análises geralmente vêm de dados brutos sem nenhum tipo de 
tratamento. 
 
O foco principal das tarefas da categoria descritiva é caracterizar e apresentar as propriedades de um conjunto de dados de 
maneira concisa e informativa. 
 
Após a captura, armazenamento e processamento dos dados, iniciamos a fase de análise. Nessa fase temos inúmeras 
possibilidades de converter dados brutos em conhecimento. 
 
O objetivo das atividades preditivas é construir um modelo para prever as propriedades e/ou tendências de um conjunto de 
dados desconhecido. 
Respondido em 29/03/2021 11:14:18 
 
 
 
2 
 Questão 
 
 
Marque a opção que apresenta SOMENTE ferramentas utilizadas para análise de dados. 
 
 HBase e Python 
 
R e Apache Spark 
 
Hadoop MapReduce e Apache mahout 
 Apache mahout e Spark mllib 
 
MarkLogic e Weka 
Respondido em 29/03/2021 11:14:20 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
BIG DATA 
6a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A6_201803107685_V1 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
javascript:abre_colabore('38403','220366017','4443094243');
javascript:diminui();
javascript:aumenta();
1 
 Questão 
 
 
Visualização de dados é importante para comunicar a mensagem de forma rápida e eficiente. Marque a opção que representa o tipo 
de visualização que tem como objetivo representar a frequência de ocorrência de cada palavra existente em uma base de dados 
textual. 
 
 Rain of words 
 
Linha 
 
Jogo de palavras 
 Word cloud 
 
Barra 
Respondido em 29/03/2021 11:14:28 
 
 
 
2 
 Questão 
 
 
Existe uma série de ferramentas para visualização de dados. Algumas delas foram desenvolvidas para serem utilizadas no software 
R. Marque a opção em que SOMENTE há exemplos de recursos do software R. 
 
 Matplotlib e pentaho 
 
Shiny e graphX 
 
Power BI e plotly 
 Ploty e rcmdr 
 
MarkLogic e graphX 
Respondido em 29/03/2021 11:14:32 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
BIG DATA 
7a aula 
Lupa 
 
 
 
 
 
javascript:abre_colabore('38403','220366022','4443094248');
javascript:diminui();
javascript:aumenta();
Exercício: CCT0854_EX_A7_201803107685_V1 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
Assinale a opção correta sobre MapReduce, de acordo com Hurwitz (2015) 
 
 A técnica MapReduce é utilizada pelos SGBD para a criação de gatilhos nas tabelas no banco de dados relacionais. 
 
Apesar da utilização da técnica MapReduce para tratar grandes volumes de dados no contexto de Big Data, não é 
recomendável a sua utilização em uma arquitetura distribuída, virtualizada ou multiprocessada. 
 
No contexto de Big Data, a técnica MapReduce não é utilizada por ser pouco eficiente quando o volume de dados é muito 
alto. 
 MapReduce é uma estrutura de software que permite que desenvolvedores escrevam programas que possam processar 
quantidades massivas de dados desestruturados em paralelo, por meio de um grupo distribuído de processadores. 
 
No MapReduce, a função Map coloca um valor inicial em uma variável acumuladora e, então, processa cada elemento de 
uma lista passada pela função Reduce e, ao final, retorna um resultado do acumulador. 
Respondido em 29/03/2021 11:14:53 
 
 
 
2 
 Questão 
 
 
Com referência a Big Data, assinale a opção correta. 
 
 Em Big Data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída, tendo 
como princípio o write-many, read-once. 
 
Para armazenar e recuperar grande volume de dados, Big Data utiliza bancos SQL nativos, que são bancos de dados que 
podem estar configurados em quatro tipos diferentes de armazenamentos: valor chave, colunar, gráfico ou documento. 
 
O sistema de arquivos distribuído Hadoop implementa o algoritmo Dijkstra modificado para busca irrestrita de dados em 
árvores aglomeradas em clusters com criptografia. 
 
A definição mais ampla de Big Data restringe o termo a duas partes ¿ o volume absoluto e a velocidade ¿, o que facilita a 
extração das informações e dos insights de negócios. 
 O MapReduce é considerado um modelo de programação que permite o processamento de dados massivos em um algoritmo 
paralelo e distribuído. 
Respondido em 29/03/2021 11:14:55 
 
 
 
 
 
 
 
 
 
 
javascript:abre_colabore('38403','220362898','4443097010');
 
 
 
 
BIG DATA 
8a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A8_201803107685_V1 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
O Apache Flume é um framework confiável para coletar, agregar e mover com eficiência grandes quantidades de dados. Possui uma 
arquitetura simples e flexível, baseada no fluxo de dados de streaming. O fluxo de dados é tratado por um agente Flume constituído 
de três componentes configuráveis, são eles: 
 
 fonte, canal e destino 
 
bolt, sink e nimbus 
 
canal, supervisor e destino 
 
entrada, canal e destino 
 fonte, canal e sink 
Respondido em 29/03/2021 11:15:03 
 
 
 
2 
 Questão 
 
 
O ecossistema do Hadoop possui um conjunto de ferramentas de alto nível para facilitar a manipulação dos dados em sistemas 
distribuídos. Marque a opção que apresenta a ferramenta projetada para transferir dados entre o Hadoop e um banco de dados 
relacional. 
 
 Mahout 
 Sqoop 
 
Hive 
 
Cassandra 
 
HBase 
Respondido em 29/03/2021 11:15:05 
 
 
 
 
 
javascript:diminui();
javascript:aumenta();
javascript:abre_colabore('38403','220362901','4443097112');
 
 
 
 
 
 
 
 
 
BIG DATA 
9a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A9_201803107685_V1 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
Assinale a opção correta sobre Backups: 
 
 Backups são desnecessários quando utilizamos o sistema HDFS 
 
Backups mantém sempre cópias atualizadas dos dados 
 
Backups são desnecessários quando utilizamos o sistema RAID 1 
 Backups são necessários para recuperação de falhas sistêmicas 
 
Backups não podem ser utilizados para recuperação de uma falha física dos meios de armazenamento 
Respondido em 29/03/2021 11:15:13 
 
 
 
2 
 Questão 
 
 
Imagine uma situação hipotética onde uma Analista de Tecnologia da Informação foi solicitada para configurar um Servidor de 
Arquivos implementando técnicas RAID (Redundant Array of Inexpensive Disks). Para realizar a configuração do RAID, essa Analista 
pretende utilizar o Sistema Operacional GNU/Linux Debian pelo fato desse sistema operacional suportar diversos tipos de RAID via 
software. Durante o processo de configuração do RAID, ela optou pelo RAID do tipo 0. Qual foi a motivação dessa escolha? 
 
 Implementar redundância baseada em paridade 
 Otimizar o desempenho 
 
Implementar um subsistema JBOD 
 
Replicar o conteúdo do disco principal 
 
Implementar redundância 
Respondido em 29/03/2021 11:15:14 
 
javascript:diminui();
javascript:aumenta();
 
 
 
 
 
 
 
 
 
 
 
 
 
BIG DATA 
10a aula 
Lupa 
 
 
 
 
 
Exercício: CCT0854_EX_A10_201803107685_V1 29/03/2021 
Aluno(a): FERNANDO RODRIGUES SILVA 2021.1 EAD 
Disciplina: CCT0854 - BIG DATA 201803107685 
 
 
1 
 Questão 
 
 
A biblioteca do Spark que oferece uma interface relacional para trabalhar com dados estruturados usando operações conhecidas 
baseadas em SQL denomina-se: 
 
 Dataset 
 Spark SQL 
 
DataFrameStreaming 
 
GraphX 
Respondido em 29/03/2021 11:15:22 
 
 
 
2 
 Questão 
 
 
O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com várias vantagens. 
Marque a opção que NÃO representa uma dessas vantagens. 
 
 O Spark é tem a flexibilidade para processar dados em HDFS, HBase, Cassandra, Hive e qualquer outro formato de entrada 
aceito pelo Hadoop 
javascript:abre_colabore('38403','220368797','4443099497');
javascript:diminui();
javascript:aumenta();
 
A combinação de DAG e RDD ajudam ao Spark realizar o processamento paralelo extremamente rápido, em particular 
quando o cluster é grande o suficiente para armazenar todos os dados em memória 
 
O Spark tem um rico conjunto de bibliotecas para implementar processamentos em estilo SQL, processamento de 
streaming, algoritmos de grafos e aprendizado de máquina 
 
No Spark as aplicações têm possibilidade de serem escritas em Java, Scala, Python ou R 
 O Spark tem um gerenciador de recursos do cluster próprio responsável por alocar e monitorar os recursos disponíveis no 
cluster para todas as aplicações 
Respondido em 29/03/2021 11:15:23 
 
 
 
 
 
 
 
 
javascript:abre_colabore('38403','220368799','4443099499');

Outros materiais