Baixe o app para aproveitar ainda mais
Prévia do material em texto
13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 1/9 Avaliação Acadêmico / Notas e Avaliações / Gabarito Avaliação da Disciplina Disciplina: Big Data Analytic e a Tomada de Decisões (17324) Prova: 44949722 O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo: I – Spark SQL. II – Spark Streaming. III – Spark MLlib. IV – Spark GraphX. ( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo. ( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada e�ciência. ( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil. ( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos. A partir das alternativas abaixo, assinale a CORRETA: A) IV – III – I – II. B) III – IV – I – II. C) III – II – I – IV. D) II – III – IV – I. As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas técnicas de clusterização. Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas: ( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume. ( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais e�cientes que técnicas de SMC. ( ) Embora as técnicas de MMC sejam mais e�cientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM. A partir das alternativas abaixo, assinale a CORRETA: A) V – V – F. B) V – F – F. C) F – V – V. D) V V V Alterar modo de visualização 1 2 https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 2/9 V – V – V Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados. Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo. Tendo isso em mente, classi�que V para as sentenças verdadeiras e F para as falsas: ( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a �m de se manterem competitivas. ( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los. ( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso. Assinale a alternativa correta: A) F – V – V. B) V – V – V. C) V – F – F. D) V – F – V. Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo: I – Algoritmos DIANA, ROCK. II – Algoritmos DBSCAN, OPTICS. III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM) IV – Algoritmos K-Means, CLARANS. V – Algoritmos STING, WAVECLUSTER. ( ) Métodos hierárquicos. ( ) Métodos baseados em grid. ( ) Métodos de particionamento. ( ) Métodos baseados em modelos. ( ) Métodos baseados em densidade. Assinale a alternativa que apresenta a sequência CORRETA: A) I – V – IV – III – II. B) I – IV – V – II – III. 3 4 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 3/9 C) III – IV – II – I – V. D) II – V – III – IV – I. “O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as tendências de mercado e acompanhar o comportamento do consumidor ajuda os negócios em suas decisões estratégicas e de marketing”. Disponível em: < https://marketingconteudo.com/big-data-analytics/ > Em relação ao processo de Big Data, o que é possível a�rmar? A partir das alternativas abaixo, assinale a CORRETA: A) É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de dados e visualização de dados. B) É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional, com etapas bem de�nidas e dependentes entre si. C) É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode manipular grandes conjuntos de dados em nuvem. D) É interativo devido às etapas de todo o processo serem independentes umas das outras, além de apresentar escopo bem reduzido, simpli�cando a análise. A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo cenário de explosão e novos formatos para análise de dados nos meios digitais. Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados? A partir das alternativas abaixo, assinale a CORRETA: A) Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos. B) Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais. C) Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede. D) Na Web 1.0 que representou o primeiro contato dos usuários em relação à web. Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas possui particularidades que vão desde a base para implementação de análise de dados nas empresas até profundos e so�sticados mecanismos de análise dentro das organizações. Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA: A) Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classi�cação. B) Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo. C) É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados. D) 5 6 7 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 4/9 É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados. Os meios digitais consistem em um grande potencial para geração e análise dos dados. Nos dias de hoje as empresas têm investido nesses meios para compreender melhor como seus clientes atuam nestas redes. Em relação à análise digital é correto a�rmar que: A) Possui uma diversidade de APIs para acesso e exploração dos dados digitais. São dados como: origens do tráfego, sites mais visitados, registros de compras em um site de vendas e assim por diante. Apesar de todo o potencial, a complexidade e o custo para extrair esses dados impedem o amplo uso desses recursos digitais. B) Está relacionada a um conjunto de métricas e indicadores para avaliar o comportamento digital de um usuário, como cliques de mouse, posts nas redes sociais, tempo de sessão e assim por diante. Por ser uma área recente, aindanão possui ferramentas com recursos su�cientes para análise de grande volume de dados. C) Antigamente restringia-se apenas ao termo “web”, mas nos dias de hoje o termo digital expande a todos os dispositivos capazes de conectar a web. A base dessas análises está relacionada a indicadores ou métricas especí�cas, como: taxa de rejeição, usuários ativos por hora, informações demográ�cas, etc. D) Conhecida hoje como “Web Analytics” e compreende todas as páginas de um website. A análise de dados nos websites é feita observando as diferentes métricas de ferramentas como Google Analytics para avaliar o comportamento virtual do usuário dentro da página. O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas �nalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos. A partir das opções abaixo, classi�que V para as sentenças verdadeiras e F para as falsas: ( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas. ( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho. ( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS. ( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real. A partir das alternativas abaixo, assinale a CORRETA: A) F – V – F – V. B) F – F – V – V. C) V – V – F – F. D) V – V – V – F. A clusterização é uma técnica de aprendizagem não supervisionada que visa classi�car um conjunto de dados semelhantes em um mesmo grupo. No que se refere à clusterização é CORRETO a�rmar que: 8 9 10 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 5/9 A) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado. B) Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas. C) É útil para classi�car um grupo de objetos com classes já de�nidas, por exemplo, prever a média de vendas de casas em uma determinada região. D) É empregada em situações onde não há conhecimento prévio de uma classe. A classi�cação é feita mediante agrupamento através de alguma medida de distância. Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados. Em relação a esses tipos de dados é correto a�rmar que: A) Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em um formato estruturado. B) São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina, o que torna o processo de descoberta de conhecimento inviável. C) São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato estruturado e carecem de técnicas para melhorar o processo de análise. D) São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos em análise de dados textuais. “Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de linguagem natural têm permitido que computadores possam processar a linguagem natural e começar a compreender o signi�cado sobre a linguagem humana.” INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-natural/ >. “Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está avançando rapidamente graças ao interesse cada vez maior na comunicação homem-máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.” SAS. Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html >. Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a esse conceito e suas aplicações é correto a�rmar que: A) Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de posts no Facebook. A PLN é um campo de�nitivamente consolidado e, portanto, a comunicação homem-máquina é perfeitamente compreendida. B) Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo emoções de um discurso. É um tipo de aplicação ainda pouco consolidada e não possui muitos cases, porém, apresenta grande potencial. C) Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio de análises léxicas, sintáticas, semânticas, etc., como é caso quando deseja-se converter voz em texto. D) Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas etapas, como a extração semântica no texto que observa padrões de escrita em uma frase. 11 12 13 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 6/9 Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura para lidar com uma in�nidade de fontes e processá-las em um tempo razoável. Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA: A) Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados. B) Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas. C) Em circunstâncias onde o volume de dados da organização aumente signi�cativamente, tornando-se necessário comprar novos servidores, o que poderia elevar os custos com armazenamento. D) Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados. A de�nição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas tomadas de decisão. Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA: A) Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto para dados em lote quanto em �uxo contínuo. B) Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em máquinas que possam suportar o armazenamento e processamento paralelo a �m de que seja possível analisar os dados e entregá-los à camada de apresentação. C) Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights. D) Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário de�nir umacamada de extração e ingestão de dados e�ciente, política de armazenamento, de�nição do tipo de análise e uma camada para apresentação de resultados. As métricas de segmentação representam outra classe de medidas para análise de redes sociais. Em relação a essas métricas, associe os itens, conforme o código abaixo: I – Coe�ciente de agrupamento. II – Coesão. III – Clique. ( ) É uma medida que representa o grau de ligação existente entre dois vértices. ( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices. ( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices. 13 14 15 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 7/9 A partir das alternativas abaixo, assinale a CORRETA: A) I – II – III. B) II – I – III. C) III – II – I. D) II – III – I. Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo. Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo: I – Clusterização Paralela. II – Clusterização baseada em MapReduce. ( ) GPMR. ( ) PBIRCH. ( ) MR-DBSCAN. ( ) G-DBSCAN. A partir das alternativas abaixo, assinale a CORRETA: A) I – II – I – II. B) II – I – II – I. C) II – I – I – II. D) I – II – II – I. Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos. Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA: A) Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance. B) Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é 16 17 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 8/9 feito pelo Hadoop MapReduce que processa paralelamente os dados de forma e�ciente. C) Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e e�ciente de programação. D) Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais e�ciente. Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível destacar? A partir das alternativas abaixo, assinale a CORRETA: A) O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais. B) O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance. C) A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos. D) O volume intenso e variado de dados que estão sendo gerados e requeridos para análise. Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data. A respeito disso, classi�que V para as sentenças verdadeiras e F para as falsas: ( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e processamento. ( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja, próximo a elas. ( ) A intensi�cação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Arti�cial seja incorporado nas empresas e se tornará onipresente dentro de seus processos. ( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas cotidianas. A partir das alternativas abaixo, assinale a CORRETA: A) V – V – V – V. B) V – F – V – V. C) F – V – F – F. D) F – V – F – V. Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD. Sobre este componente, classi�que V para as sentenças verdadeiras e F para as falsas: ( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas. ( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos. ( ) Fornece suporte a dois tipos de operações: transformação e ação Quando se aplica uma transformação um novo RDD é criado mas o conjunto de dados só 18 19 20 13/06/2022 19:35 AVA https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 9/9 Uniasselvi © 2022 ( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação. ( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação. A partir das alternativas abaixo, assinale a CORRETA: A) F – V – V – V. B) V – V – V – F. C) F – V – V – F. D) F – F – V – V. Voltar
Compartilhar