Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível destacar? A partir das alternativas abaixo, assinale a CORRETA: A O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance. B O volume intenso e variado de dados que estão sendo gerados e requeridos para análise. C O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais. D A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos. 2 Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos em análise de dados? A partir das alternativas abaixo, assinale a CORRETA: A Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido. B Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro. C Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico. D Automatização de processos, incentivos fiscais e mão de obra barata. 3 Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo: I – Algoritmos DIANA, ROCK. II – Algoritmos DBSCAN, OPTICS. III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM) IV – Algoritmos K-Means, CLARANS. V – Algoritmos STING, WAVECLUSTER. ( ) Métodos hierárquicos. ( ) Métodos baseados em grid. ( ) Métodos de particionamento. ( ) Métodos baseados em modelos. ( ) Métodos baseados em densidade. Assinale a alternativa que apresenta a sequência CORRETA: A I – IV – V – II – III. B II – V – III – IV – I. C III – IV – II – I – V. D I – V – IV – III – II. 4 O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo: I – Spark SQL. II – Spark Streaming. III – Spark MLlib. IV – Spark GraphX. ( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo. ( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência. ( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil. ( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos. A partir das alternativas abaixo, assinale a CORRETA: A III – II – I – IV. B II – III – IV – I. C III – IV – I – II. D IV – III – I – II. 5 Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos. Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA: A Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que processa paralelamente os dados de forma eficiente. B Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e eficiente de programação. C Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance. D Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente. 6 Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável. Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA: A Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas. B Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados. C Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados. D Em circunstâncias onde o volume de dados da organização aumente significativamente, tornando-se necessário comprar novos servidores, o que poderia elevar os custos com armazenamento. 7 Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD. Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas: ( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas. ( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos. ( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação. ( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação. A partir das alternativas abaixo, assinale a CORRETA: A F – V – V – V. B F – V – V – F. C V – V – V – F. D F – F – V – V. 8 Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data. A respeito disso, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e processamento. ( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja, próximo a elas. ( ) A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará onipresente dentro de seus processos. ( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas cotidianas. A partir das alternativas abaixo, assinale a CORRETA: A F – V – F – V. B F – V – F – F. C V – F – V – V. D V – V – V – V. 9 A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise de cluster? A partir das alternativas abaixo, assinale a CORRETA: A Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como avaliar a dimensionalidade.B Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela em cluster. C Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar o tráfego de dados. D Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e processamento dos dados. 10 O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui uma arquitetura que apresenta alguns componentes importantes. Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA. A O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino. B O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam as tarefas solicitadas. C O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre. D O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às instruções do pai e o notifica quando for o caso.
Compartilhar