Baixe o app para aproveitar ainda mais
Prévia do material em texto
Cosmos • AVA Business intelligence, big data e analytics - ciência de dados Integração e fluxo de dados (ETL) Professor(a): Washington Henrique Carvalho Almeida (Mestrado acadêmico) 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! Um ________________ é um conjunto de dados utilizado no suporte ________________, sendo um repositório de dados _________________, orientado por assunto, _____________, variável no ______________ e _______________. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: data warehouse - à tomada de decisões – históricos – integrado - tempo – não volátil. data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – volátil. sistema BI - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil. data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil. CORRETO data warehouse - à tomada de decisões – atuais e históricos – integrado - espaço – não volátil. Código da questão: 42818 São subcategorias de classificação de ferramentas ETL: I. Ferramentas ETL Pura II. Ferramenta Base de dados integrada III. Ferramenta Business Intelligence Integrada IV. Ferramenta de Produto de Nicho V. ETL automatizada São verdadeiras: Alternativas: I, III e V I, II, III e V I, II, III e IV CORRETO I, III, IV e V I, II, IV e V Código da questão: 42827 A conformação de dados é a combinação de dados de diferentes fontes em uma base de dados única e coerente. São alguns problemas relacionados à conformação de dados: I. Identificação de Entidades. II. Redundância. III. Conflito de Valores. IV. Suavização. V. Agregação. São verdadeiras: Alternativas: I, II, III e V. I, III e V. I, II, III e IV. I, II e III. CORRETO I, II e IV. Código da questão: 42846 São algumas das técnicas de preenchimento de dados aplicadas a valores faltantes: I. Descartar toda a tupla; II. Preencher o valor faltante manualmente; III. Descartar todos os dados; IV. Usar constante global para preencher o valor faltante; V. Preencher os dados faltantes com null. São verdadeiras: Alternativas: I, II, III e V I, II e IV CORRETO I, III e V I, II, III e IV I, II e III Código da questão: 42841 Sobre o processo de ETL, considere as seguintes afirmações: ( ) É realizado o processo de extração dos dados ( ) É realizado o processo de transformação dos dados ( ) É realizado o processo de carga dos dados ( ) É realizado o processo de extração de apenas uma fonte de dados ( ) É realizado o processo apenas de forma tradicional e sem ferramentas de transformação de dados Assinale a alternativa que contenha a sequência correta: Alternativas: V – V – V – F – V V – V – V – V – F V – V – V – V – V V – V – F – V – F V – V – V – F – F CORRETO Código da questão: 42821 O uso de banco de dados é essencial para o processo de manipulação de dados, porém para fins analíticos é de difícil uso, sendo indicado o uso de um data warehouse. Assinale a alternativa que apresenta, corretamente, o principal objetivo de um data warehouse: Alternativas: Alteração de dados Armazenamento de dados Auxiliar à tomada de decisões CORRETO Transformação de dados Recuperação de dados Código da questão: 42817 I. Na arquitetura de duas camadas há uma economia em relação a arquitetura de três camadas PORQUE II. Na arquitetura de duas camadas o servidor de aplicação e banco de dados é executado fisicamente na mesma plataforma de hardware que o data warehouse. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas: Alternativas: As duas asserções estão corretas e a segunda não justifica a primeira. A primeira asserção está incorreta e a segunda está incorreta As duas asserções estão corretas e a segunda justifica a primeira CORRETO A primeira asserção está correta e a segunda está incorreta. A primeira asserção está incorreta e a segunda está correta. Código da questão: 42822 O agrupamento (clustering) é utilizado para eliminar outliers. Porque Os dados são automaticamente divididos em grupos (clusters) e pontos que não pertencem a um dado grupo são eliminados. Alternativas: A primeira asserção está correta e a segunda está incorreta. As duas asserções estão corretas e a segunda não justifica a primeira. A primeira asserção está incorreta e a segunda está incorreta As duas asserções estão corretas e a segunda justifica a primeira CORRETO A primeira asserção está incorreta e a segunda está correta. Código da questão: 42843 I. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse. PORQUE II. Deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada. Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas Alternativas: A primeira asserção está incorreta e a segunda está incorreta A primeira asserção está correta e a segunda está incorreta. As duas asserções estão corretas e a segunda não justifica a primeira. A primeira asserção está incorreta e a segunda está correta. As duas asserções estão corretas e a segunda justifica a primeira CORRETO Código da questão: 42838 São características fundamentais dos data warehouse em relação aos dados: I. Orientado por assunto II. Integrado III. Com apenas dados históricos. IV. Variável no tempo. V. Volátil. São verdadeiras: Alternativas: I, II, III, IV e V I, III e V I, II, IV e V I, II e IV CORRETO I, II, III e IV Código da questão: 42820 Resolução comentada: As palavras que completam as lacunas são “data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil”. O data warehouse é um conjunto de dados que passaram por um processo de extração de várias fontes de dados, limpeza, transformação e carregamento, utilizado para a tomada de decisões, contando como um repositório de dados atuais e com dados históricos, orientados por assunto, integrado, variável no tempo e não-volátil. Resolução comentada: Apenas a V é incorreta. São subcategorias de classificação de ferramentas ETL as ferramentas ETL Puras, ferramenta ETL base de dados integrada, ferramenta ETL Business Intelligence integrada e ferramenta ETL produto de nicho. Resolução comentada: As afirmações IV e V são falsas. São alguns dos problemas relacionas à conformação de dados, a identificação de entidades, a redundância e o conflito de valores. Resolução comentada: As afirmativas III e V estão incorretas. São algumas das técnicas de preenchimento de dados aplicados a valores faltantes o descarte de toda a tupla, preencher o valor faltante manualmente e utilizar uma constante global para preencher o valor faltante. A afirmativa III está incorreta pois descartar todos os dados não é uma técnica de preenchimento, e deixará o usuário sem dados para trabalhar. A afirmativa V está incorreta porque null não é um dado. Resolução comentada: O processo de ETL (Extract Transform Load) consiste em um processo de extração dos dados de várias fontes de dados, limpeza, transformação e carregamento dos dados para o data warehouse. Resolução comentada: O principal objetivo de um data warehouse é auxiliar as organizações na tomada de decisões, pois fornece dados que podem ser utilizados para fins analíticos. Resolução comentada: As duas asserções estão corretas e a segunda justifica a primeira. Na arquitetura de duas camadas há uma economia em relação a arquitetura de três camadas porque na arquitetura deduas camadas o servidor de aplicação e banco de dados é executado fisicamente na mesma plataforma de hardware que o data warehouse. Resolução comentada: As duas asserções estão corretas e a segunda justifica a primeira. O agrupamento (clustering) se utiliza para que sejam eliminados os outliers, porque dessa forma, os dados se dividem em grupos (clusters) e alguns pontos não pertencentes a um dado grupo são eliminados. Resolução comentada: As duas asserções estão corretas e a segunda justifica a primeira. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse porque deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada. Resolução comentada: As afirmativas III e V estão incorretas. Os data warehouse apresentam como características fundamentais dados que devem ser orientados por assunto, integrados e variáveis no tempo. Os data warehouse devem possuir dados atuais e dados históricos e devem ser não voláteis. . Arquivos e Links https://kroton.platosedu.io/lms/m/ https://kroton.platosedu.io/lms/m/ http://www.biblioteca-virtual.com/ https://kroton.platosedu.io/lms/m/mensagem/index
Compartilhar