Buscar

Integração e fluxo de dados (ETL)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Cosmos • AVA Business intelligence, big data e analytics - ciência de dados  
Integração e fluxo de dados (ETL)
Professor(a): Washington Henrique Carvalho Almeida (Mestrado acadêmico)

1)
2)
3)
4)
5)
6)
7)
8)
9)
10)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para
“Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Um ________________ é um conjunto de dados utilizado no suporte ________________, sendo um repositório de dados _________________, orientado por assunto, _____________, variável no ______________ e _______________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
data warehouse - à tomada de decisões – históricos – integrado - tempo – não volátil.
data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – volátil.
sistema BI - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil.
data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil.  CORRETO
data warehouse - à tomada de decisões – atuais e históricos – integrado - espaço – não volátil.
Código da questão: 42818
São subcategorias de classificação de ferramentas ETL:
I. Ferramentas ETL Pura
II. Ferramenta Base de dados integrada
III. Ferramenta Business Intelligence Integrada
IV. Ferramenta de Produto de Nicho
V. ETL automatizada
São verdadeiras:
Alternativas:
I, III e V
I, II, III e V
I, II, III e IV  CORRETO
I, III, IV e V
I, II, IV e V
Código da questão: 42827
A conformação de dados é a combinação de dados de diferentes fontes em uma base de dados única e coerente. São alguns problemas relacionados à conformação de dados:
I. Identificação de Entidades.
II. Redundância.
III. Conflito de Valores.
IV. Suavização.
V. Agregação.
São verdadeiras:
Alternativas:
I, II, III e V.
I, III e V.
I, II, III e IV.
I, II e III.  CORRETO
I, II e IV.
Código da questão: 42846
São algumas das técnicas de preenchimento de dados aplicadas a valores faltantes:
I. Descartar toda a tupla;
II. Preencher o valor faltante manualmente;
III. Descartar todos os dados;
IV. Usar constante global para preencher o valor faltante;
V. Preencher os dados faltantes com null.
São verdadeiras:
Alternativas:
I, II, III e V
I, II e IV  CORRETO
I, III e V
I, II, III e IV
I, II e III
Código da questão: 42841
Sobre o processo de ETL, considere as seguintes afirmações:
( ) É realizado o processo de extração dos dados
( ) É realizado o processo de transformação dos dados
( ) É realizado o processo de carga dos dados
( ) É realizado o processo de extração de apenas uma fonte de dados
( ) É realizado o processo apenas de forma tradicional e sem ferramentas de transformação de dados
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – V – F – V
V – V – V – V – F
V – V – V – V – V
V – V – F – V – F
V – V – V – F – F  CORRETO
Código da questão: 42821
O uso de banco de dados é essencial para o processo de manipulação de dados, porém para fins analíticos é de difícil uso, sendo indicado o uso de um data warehouse. Assinale a alternativa que apresenta,
corretamente, o principal objetivo de um data warehouse:
Alternativas:
Alteração de dados
Armazenamento de dados
Auxiliar à tomada de decisões  CORRETO
Transformação de dados
Recuperação de dados
Código da questão: 42817
I. Na arquitetura de duas camadas há uma economia em relação a arquitetura de três camadas
PORQUE
II. Na arquitetura de duas camadas o servidor de aplicação e banco de dados é executado fisicamente na mesma plataforma de hardware que o data warehouse.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
As duas asserções estão corretas e a segunda não justifica a primeira.
A primeira asserção está incorreta e a segunda está incorreta
As duas asserções estão corretas e a segunda justifica a primeira  CORRETO
A primeira asserção está correta e a segunda está incorreta.
A primeira asserção está incorreta e a segunda está correta.
Código da questão: 42822
O agrupamento (clustering) é utilizado para eliminar outliers.
Porque
Os dados são automaticamente divididos em grupos (clusters) e pontos que não pertencem a um dado grupo são eliminados.
Alternativas:
A primeira asserção está correta e a segunda está incorreta.
As duas asserções estão corretas e a segunda não justifica a primeira.
A primeira asserção está incorreta e a segunda está incorreta
As duas asserções estão corretas e a segunda justifica a primeira  CORRETO
A primeira asserção está incorreta e a segunda está correta.
Código da questão: 42843
I. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse.
PORQUE
II. Deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas
Alternativas:
A primeira asserção está incorreta e a segunda está incorreta
A primeira asserção está correta e a segunda está incorreta.
As duas asserções estão corretas e a segunda não justifica a primeira.
A primeira asserção está incorreta e a segunda está correta.
As duas asserções estão corretas e a segunda justifica a primeira  CORRETO
Código da questão: 42838
São características fundamentais dos data warehouse em relação aos dados:
I. Orientado por assunto
II. Integrado
III. Com apenas dados históricos.
IV. Variável no tempo.
V. Volátil.
São verdadeiras:
Alternativas:
I, II, III, IV e V
I, III e V
I, II, IV e V
I, II e IV  CORRETO
I, II, III e IV
Código da questão: 42820
Resolução comentada:
As palavras que completam as lacunas são “data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil”. O data warehouse é um conjunto de dados que passaram por um
processo de extração de várias fontes de dados, limpeza, transformação e carregamento, utilizado para a tomada de decisões, contando como um repositório de dados atuais e com dados históricos, orientados
por assunto, integrado, variável no tempo e não-volátil.
Resolução comentada:
Apenas a V é incorreta. São subcategorias de classificação de ferramentas ETL as ferramentas ETL Puras, ferramenta ETL base de dados integrada, ferramenta ETL Business Intelligence integrada e ferramenta ETL
produto de nicho.
Resolução comentada:
As afirmações IV e V são falsas. São alguns dos problemas relacionas à conformação de dados, a identificação de entidades, a redundância e o conflito de valores.
Resolução comentada:
As afirmativas III e V estão incorretas. São algumas das técnicas de preenchimento de dados aplicados a valores faltantes o descarte de toda a tupla, preencher o valor faltante manualmente e utilizar uma
constante global para preencher o valor faltante. A afirmativa III está incorreta pois descartar todos os dados não é uma técnica de preenchimento, e deixará o usuário sem dados para trabalhar. A afirmativa V
está incorreta porque null não é um dado.
Resolução comentada:
O processo de ETL (Extract Transform Load) consiste em um processo de extração dos dados de várias fontes de dados, limpeza, transformação e carregamento dos dados para o data warehouse.
Resolução comentada:
O principal objetivo de um data warehouse é auxiliar as organizações na tomada de decisões, pois fornece dados que podem ser utilizados para fins analíticos.
Resolução comentada:
As duas asserções estão corretas e a segunda justifica a primeira. Na arquitetura de duas camadas há uma economia em relação a arquitetura de três camadas porque na arquitetura deduas camadas o servidor
de aplicação e banco de dados é executado fisicamente na mesma plataforma de hardware que o data warehouse.
Resolução comentada:
As duas asserções estão corretas e a segunda justifica a primeira. O agrupamento (clustering) se utiliza para que sejam eliminados os outliers, porque dessa forma, os dados se dividem em grupos (clusters) e
alguns pontos não pertencentes a um dado grupo são eliminados.
Resolução comentada:
As duas asserções estão corretas e a segunda justifica a primeira. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo
de origem necessário para carregar o data warehouse porque deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada.
Resolução comentada:
As afirmativas III e V estão incorretas. Os data warehouse apresentam como características fundamentais dados que devem ser orientados por assunto, integrados e variáveis no tempo. Os data warehouse
devem possuir dados atuais e dados históricos e devem ser não voláteis. .
Arquivos e Links




https://kroton.platosedu.io/lms/m/
https://kroton.platosedu.io/lms/m/
http://www.biblioteca-virtual.com/
https://kroton.platosedu.io/lms/m/mensagem/index

Outros materiais