Prévia do material em texto
Questões sobre Arquitetura Big Data e Integração de Dados Questão 1 O Big Data passou a ser amplamente utilizado para todos os negócios que envolvem dados há alguns anos. Em um contexto técnico, podemos dizer que o Big Data é: · ( ) Um software com alto poder de processamento de dados. · ( ) Um hardware capaz de armazenar um grande volume de dados. · ( ) Um conjunto de software e hardware preparado para armazenar um grande volume de dados. · ( X ) Um conceito que envolve o processamento de grandes volumes de dados na velocidade e tempo certos. · ( ) Um conjunto de ferramentas que faz parte de um ecossistema open source. Questão 2 Atualmente, usamos os chamados 5Vs para definir as propriedades do Big Data, mas inicialmente essas características eram tratadas como 3Vs. Quais eram essas características iniciais? · ( ) Volume, Velocidade e Valor · ( ) Variedade, Veracidade e Valor · ( ) Valor, Volume e Veracidade · ( X ) Volume, Velocidade e Variedade · ( ) Veracidade, Variedade e Velocidade Questão 3 Um dos Vs do Big Data é a Variedade. O que visa essa característica? · ( X ) À diversidade de tipos e fontes de dados. · ( ) Aos vários componentes que fazem parte do ciclo de vida. · ( ) À variada quantidade de softwares que podem ser aplicados. · ( ) À variedade de relatórios que podem ser gerados. · ( ) À variedade de algoritmos de machine learning que podem ser usados. Questão 4 Quando estamos falando sobre a elaboração de uma estrutura de Big Data, é comum nos referirmos ao termo “Ecossistema de Big Data”. Na prática, isso significa especificamente: · ( ) Uma arquitetura orientada ao descarte tecnológico sustentável. · ( ) Um conjunto de software de transformação de dados. · ( X ) Um conjunto de tecnologias, ferramentas e processos para tratar de grandes volumes de dados. · ( ) Uma arquitetura totalmente baseada na nuvem. · ( ) Uma arquitetura de dados relacionais que pode ser persistida na nuvem ou no próprio ambiente da organização. Questão 5 O Hadoop é um framework de código aberto muito utilizado em um ecossistema de Big Data. Assinale a alternativa que descreve a sua função nesse ambiente. · ( ) Uma linguagem de programação orientada a objetos usada para análise de dados em tempo real. · ( ) Uma plataforma para a realização de consultas SQL em grandes volumes de dados. · ( X ) Uma estrutura de software de para processamento distribuído de grandes volumes de dados. · ( ) Um sistema operacional projetado especificamente para ambiente de Big Data. · ( ) Um software para gerenciamento de dados não relacionais. Questão 6 O que é o HDFS (Hadoop Distributed File System) e qual é a sua principal característica em ambientes de processamento de big data? · ( ) O HDFS é um sistema operacional de código aberto, projetado para suportar dispositivos móveis e tablets, tornando o acesso a dados mais eficiente. · ( ) O HDFS é uma linguagem de programação de alto nível, que facilita a análise de grandes volumes de dados em tempo real. · ( ) O HDFS é uma plataforma para criação e gerenciamento de bancos de dados relacionais, oferecendo alta performance em consultas complexas. · ( X ) HDFS é um sistema de arquivos distribuído, especialmente projetado para armazenar e processar grandes volumes de dados em clusters de computadores. · ( ) O HDFS é uma biblioteca de algoritmos de aprendizado de máquina, voltada para aplicações de inteligência artificial e aprendizado profundo. Questão 7 Comumente, costumamos classificar os dados por seu tipo ou formato. Especificamente falando em classificação por tipo, podemos dizer que os dados podem ser classificados como estruturados, semiestruturados e não-estruturados. No caso dos dados estruturados, assinale a alternativa verdadeira. · ( ) Dados estruturados possuem formatos variados e não podem ser organizados em tabelas. · ( ) Dados estruturados têm uma estrutura rígida e não podem ser facilmente adaptados a diferentes necessidades. · ( X ) Dados estruturados são altamente organizados em formatos tabulares e podem ser eficientemente armazenados em bancos de dados relacionais. · ( ) Dados estruturados são tipicamente desprovidos de metadados, tornando difícil a sua interpretação e análise. · ( ) Dados estruturados não podem ser consultados usando linguagens de consulta como SQL, pois não possuem uma organização pré-definida. Questão 8 Dados não estruturados não possuem um formato predefinido e podem incluir uma ampla gama de informações. Quais dos seguintes exemplos são representativos de dados não estruturados? · ( ) Uma planilha contendo informações de vendas mensais, organizada em colunas de data, produto e valor. · ( ) Um banco de dados de estudantes, com informações de nome, idade, endereço e notas em disciplinas. · ( X ) Um arquivo de áudio contendo uma gravação de uma entrevista com um cliente sobre suas preferências de produto. · ( ) Um conjunto de registros de transações financeiras em um formato tabular, incluindo datas, valores e categorias. · ( ) Uma tabela de dados climáticos, incluindo datas, temperaturas mínimas e máximas e níveis de precipitação. Questão 9 Uma das estruturas mais importantes em um ecossistema de Big Data é o Data Lake. O que é um Data Lake quando abordamos o conceito de gerenciamento de dados? · ( ) Um ambiente em que dados de diferentes fontes são armazenados sem organização. · ( ) Uma infraestrutura para armazenar apenas dados estruturados. · ( X ) Uma abordagem para armazenar todos os tipos de dados em seu formato original, permitindo análises flexíveis. · ( ) Um sistema dedicado a armazenar somente dados tabulares. · ( ) Uma técnica para compactar e otimizar dados antes de armazená-los. Questão 10 Podemos dizer que Delta Lake é uma extensão do conceito de Data Lake. Qual alternativa define corretamente o Delta Lake? · ( ) Uma técnica para processar dados não estruturados em um Data Lake. · ( ) Uma abordagem para dividir dados em várias camadas de armazenamento no Data Lake. · ( ) Um sistema de gerenciamento de bancos de dados relacionais. · ( X ) Uma extensão do Data Lake que oferece recursos de controle de transações e histórico de versões. · ( ) Um algoritmo de otimização para consulta de dados em Data Lakes.