Baixe o app para aproveitar ainda mais
Prévia do material em texto
Big Data Analytic e a Tomada de Decisões 1 Os Bancos de Dados Não Relacionais (NoSQL) surgiram com o intuito de preencher algumas lacunas advindas dos modelos relacionais. O crescente uso do Big Data nas organizações favoreceu a difusão de bancos NoSQL.Nesse sentido, quais fatores contribuíram para que bancos NoSQL ganhassem destaque nos últimos anos? A partir das alternativas abaixo, assinale a CORRETA: Resposta certa: A escalabilidade, flexibilidade para lidar com diferentes estruturas e rapidez nas consultas. 2 Os Bancos de Dados Não Relacionais podem ser classificados em quatro grandes grupos - aqueles que são orientados a documentos, chave-valor, colunar e orientado a grafos. Com base nisso, associe os itens, conforme o código abaixo: I – Bancos NoSQL do tipo chave-valor. II – Bancos NoSQL orientados a documentos. III – Bancos NoSQL orientados a colunas. IV – Bancos NoSQL orientados a grafos. ( IV ) Armazenam em nós e os relacionamentos entre nós são representados por arestas. (III ) Armazenam os dados em formato tabular que pode conter uma família de colunas com tamanho variável. (I ) Armazenam os dados em um formato simples com baixíssima complexidade de implementação. (II ) Armazenam dados em coleções altamente escaláveis. Cada coleção pode conter dados de diversos tipos. 3 Ao implementar soluções para Big Data é necessário pensar em uma arquitetura que suporte a demanda do negócio. Uma das características fundamentais é saber distinguir entre algumas opções possíveis em termos de processamento. Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas: ( V ) O processamento em batch ou em lote é um tipo de processamento útil para processar grandes conjuntos de dados de forma eficiente. ( F ) O processamento em streaming ou em tempo real também é útil para processar grandes conjuntos de dados e exige um servidor para armazenar as informações. ( V ) A arquitetura lambda adota tanto a forma de processamento em lote como em tempo real. A partir das alternativas abaixo, assinale a CORRETA: 4 A análise de redes sociais envolve um conjunto de métricas para entender o comportamento e a posição dos indivíduos dentro da rede. Em relação às métricas de conexão, associe os itens, conforme o código abaixo: I – Hemofilia. II – Propinquidade. III – Multiplexidade. IV – Mutualidade. (III ) Está relacionada a identificar a força do relacionamento entre dois atores, através das múltiplas formas de interação entre estes em diferentes contextos. (IV ) Uma métrica útil em situações nas quais seja necessário identificar a relação entre os atores na rede, verificando, sobretudo, a presença de relações bidirecionais entre os vértices. (II ) É uma métrica necessária para tentar extrair a tendência de um dado ator adquirir uma nova relação com outros atores na rede através de uma aproximação geográfica. (I ) Adequado para casos onde desejamos verificar a semelhança entre os atores da rede através de parâmetros (ou variáveis) definidas previamente, ou seja, antes da aplicação da análise . A partir das alternativas abaixo, assinale a CORRETA: 5 As métricas de distribuição representam um outro conjunto de métricas para análise de redes sociais. Em relação a essas métricas, associe os itens, conforme o código abaixo: I – Densidade. II – Centralidade. III – Força de conexão. IV – Distância. (II ) É uma das métricas mais conhecidas para análise de redes e visa identificar os atores mais importantes dentro de uma rede. ( III ) Avalia circunstâncias sociais ou emocionais para mensurar a conexão entre atores, por meio de pesos inseridos nos relacionamentos. (IV ) Basicamente é uma medida que realiza a contagem do número de arestas para sair de um determinado ator A até um ator destino B. ( I ) O resultado dessa medida é obtido por meio da taxa entre o número total de relações que uma rede tem em relação ao total de relações possíveis. A partir das alternativas abaixo, assinale a CORRETA: 6 A centralidade é uma métrica de distribuição que, por conta do seu raio de atuação, pode ser classificada a partir de várias métricas. Considerando isso, associe os itens, conforme o código abaixo. I – Grau de centralidade. II – Centralidade de proximidade. III – Centralidade de autovalor. IV – Centralidade betweeness. (III ) É possível medir a influência de um ator na rede, por meio de um score, que é atribuído por outros atores influentes (scores elevados) na rede. ( I ) O foco é identificar atores (vértices) que possuem relacionamento direto entre si. O relacionamento pode ser medido pelo grau de entrada e saída desses vértices. ( IV ) Verifica para cada vértice o total de caminhos mais curtos que passam através deste, e, em seguida, realiza a contagem. Os que possuem maior frequência possuem um elevado grau de influência na rede. ( II ) Determina a distância entre os vértices de uma rede considerando o tamanho dos caminhos mais rápidos para alcançar o destino final. A partir das alternativas abaixo, assinale a CORRETA: 7 Uma das ferramentas mais poderosas para processamento e análise de fluxo contínuo (streaming) de dados é o Apache Spark. A motivação para o surgimento do Spark está relacionada a algumas limitações apresentadas na forma de processamento do Hadoop MapReduce. Face ao exposto, que características tornam o Apache Spark tão atrativo? Resposta correta: Processa grandes volumes de dados de forma iterativa e em memória, o que torna o processamento muito mais veloz se comparado ao Hadoop MapReduce, que processa dados em disco e apresenta altas taxas de latência para processamento iterativo. 8 Sistemas IR possuem várias métricas para avaliar sua performance, dentre elas a Precision (precisão) e a Recall (revocação). Avalie as situações abaixo: SITUAÇÃO 1: Suponha que um usuário digitou em um mecanismo de busca a sentença: “Big Data Analytics”. Sabe-se que existe um total de 500 documentos com potencial relevância na base, ou seja, D = {1,2, ... ,500}. No entanto, na pesquisa foram recuperados apenas 100 documentos destes documentos relevantes. SITUAÇÃO 2: Para o usuário dos 100 documentos que o sistema de IR julgou importantes, apenas 10 são relevantes. Com base nas situações expostas, o que podemos afirmar a respeito destas? Resposta correta: A situação 1 diz respeito à medida Recall que vale 20%, enquanto que a situação 2 refere-se à precisão que foi apenas de 10%. 9 O pré-processamento de textos consiste em um passo importante e uma das primeiras etapas, inclusive para melhoria da qualidade dos dados que serão utilizados nas etapas subsequentes. Considere a frase a seguir: ““Ontem ressebi 20 ligações de clientes reclamando do produto”. Que tipo de tarefas podem ser aplicadas para que o gestor verifique a aceitação do seu produto no mercado, a partir dessa frase? A partir das alternativas abaixo, assinale a CORRETA: Extração de termos (‘tokenização’), remoção de Stopwords, e correção ortográfica do termo ‘ressebi’ e avaliação de sentimento da frase. A extração do número pode ser útil dependendo da análise que será realizada. 10 A Internet das Coisas representa um marco importante na era atual além de ser uma forte tendência para os próximos anos. Inúmeros dispositivos conectados à rede representaram um ativo de informação nas empresas. Com base nisso, o que podemos concluir sobre a Internet das Coisas? A partir das alternativas abaixo, assinale a CORRETA: Refere-se a uma imensidão de novos dispositivos ou “coisas” que serão conectadas entre si e produzirão ainda mais dados, impondo novos desafios no que se refere a infraestrutura, técnicas e análises, privacidade, dentre outras questões.
Compartilhar