Buscar

Integracao e fluxo de dados (ETL)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Integração e fluxo de dados (ETL)
Professor(a): Thiago Salhab Alves (Mestrado acadêmico)
1)
2)
3)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação
Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até
cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode
responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo
estabelecido. Boa prova!
De acordo com Kimbal e Caserta (2009), a conformação ou integração de dados diz respeito
a criação de dimensões e instâncias de fatos configuradas, combinando as melhores
informações de várias fontes de dados em uma visão mais abrangente. Dentre um dos
problemas para conformação, estão dados duplicados e vários atributos podendo ser obtidos a
partir de um outro atributo ou conjunto de valores. Assinale a alternativa que apresente,
corretamente, qual o problema descrito acima:
Alternativas:
Redundância.  CORRETO
Valores que os campos podem assumir.
Unidades diferentes.
Identificação de Entidades.
Conflito de Valores.
Código da questão: 42844
O agrupamento (clustering) é utilizado para eliminar outliers.
Porque
Os dados são automaticamente divididos em grupos (clusters) e pontos que não pertencem a
um dado grupo são eliminados.
Alternativas:
A primeira asserção está correta e a segunda está incorreta.
As duas asserções estão corretas e a segunda justifica a primeira  CORRETO
A primeira asserção está incorreta e a segunda está incorreta
A primeira asserção está incorreta e a segunda está correta.
As duas asserções estão corretas e a segunda não justifica a primeira.
Código da questão: 42843
Existem vários métodos para identificar os candidatos de registro alterados para carga de
ETL do microbatch no data warehouse em tempo real:
( ) Timestamps.
( ) Tabelas de log ETL.
( ) Log dos SGBD.
( ) Incompatibilidade de dados.
( ) Monitores de Rede.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
Resolução comentada:
A redundância é um dos problemas que trata dados duplicados e vários atributos,
podendo ser obtidos a partir de outro atributo ou conjunto de valores.
Resolução comentada:
As duas asserções estão corretas e a segunda justifica a primeira. O agrupamento
(clustering) se utiliza para que sejam eliminados os outliers, porque dessa forma, os
dados se dividem em grupos (clusters) e alguns pontos não pertencentes a um dado
grupo são eliminados.
Avaliação enviada com
sucesso
c
h
e
c
k

4)
5)
V – V – F – V – F.
V – V – F – V – V.
V – V – V – F – V.  CORRETO
V – V – V – F – F.
V – V – V – V – V.
Código da questão: 42857
A conformação de dados é a combinação de dados de diferentes fontes em uma base de
dados única e coerente. São alguns problemas relacionados à conformação de dados:
I. Identificação de Entidades.
II. Redundância.
III. Conflito de Valores.
IV. Suavização.
V. Agregação.
São verdadeiras:
Alternativas:
I, II e III.  CORRETO
I, III e V.
I, II, III e V.
I, II e IV.
I, II, III e IV.
Código da questão: 42846
I. Na arquitetura de duas camadas há uma economia em relação a arquitetura de três
camadas 
PORQUE
II. Na arquitetura de duas camadas o servidor de aplicação e banco de dados é executado
fisicamente na mesma plataforma de hardware que o data warehouse.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
A primeira asserção está incorreta e a segunda está incorreta
A primeira asserção está incorreta e a segunda está correta.
As duas asserções estão corretas e a segunda justifica a primeira  CORRETO
A primeira asserção está correta e a segunda está incorreta.
As duas asserções estão corretas e a segunda não justifica a primeira.
Resolução comentada:
Os vários métodos para identificar os candidatos de registro alterados para carga de ETL
do microbatch no data warehouse em tempo real são: Timestamps (método que permite
gravações frequentes de registros de data e hora nos sistemas para as alterações e
leituras frequentes), tabelas de log ETL (tabelas que contém o identificados do registro
novo ou alterado), Log dos SGBD (usados para identificar novas transações e transações
alteradas) e Monitores de Rede (utilitários que monitoram algum conjunto de tráfego em
um rede, filtrando e registrando o tráfego).
Resolução comentada:
As afirmações IV e V são falsas. São alguns dos problemas relacionas à conformação de
dados, a identificação de entidades, a redundância e o conflito de valores.
Resolução comentada:
As duas asserções estão corretas e a segunda justifica a primeira. Na arquitetura de duas
camadas há uma economia em relação a arquitetura de três camadas porque na
arquitetura de duas camadas o servidor de aplicação e banco de dados é executado
fisicamente na mesma plataforma de hardware que o data warehouse.
Avaliação enviada com
sucesso
c
h
e
c
k

6)
7)
8)
Código da questão: 42822
Sobre as ferramentas ETL Puras:
( ) são produtos independentes da base de dados e ferramenta de BI
( ) são produtos dependentes da base de dados e ferramenta de BI
( ) permitem a migração para diferentes base de dados sem mudar o processo de integração
( ) permitem a migração para diferentes base de dados mudando o processo de integração
( ) as empresas não precisam depender de nenhum outro produto para a funcionalidade
oferecida
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – V – F – V
V – V – V – V – V
V – V – V – F – F
V – V – F – V – F
V – F – V – F – V  CORRETO
Código da questão: 42828
São produtos fornecidos como opção ao comprar software de banco de dados e algumas
funcionalidades são incorporadas ao banco de dados e não estão disponíveis separadamente
na própria ferramenta ETL. Assinale a alternativa que apresenta, corretamente, a categoria de
ferramenta de ETL descrita:
Alternativas:
Ferramenta de ETL codificada manualmente
Ferramenta ETL Base de dados integrada  CORRETO
Ferramenta ETL Pura
Ferramenta ETL Produto de Nicho
Ferramenta ETL Business Intelligence Integrada
Código da questão: 42825
O componente final de todas as _______________, além da _________________ e da
____________________ é o conjunto de _____________________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
dimensões – chave estrangeira – chave natural – atributos descritivos.
dimensões – chave primária – chave natural – atributos descritivos.  CORRETO
dimensões – chave primária – chave substituta – atributos descritivos..
dimensões – chave primária – chave estrangeira – atributos descritivos.
dimensões – chave substituta – chave natural – atributos descritivos.
Resolução comentada:
As afirmativas 2 e 4 são falsas. As ferramentas de ETL Pura são produtos independentes
da base de dados e ferramenta ETL de Business Intelligence que se pretende usar. As
empresas não precisam depender de nenhum outro produto para a funcionalidade
oferecida e permitem a migração para diferentes bases de dados sem mudar o processo
de integração.
Resolução comentada:
A Ferramenta ETL Base de dados integrada é um produto fornecido como opção ao
comprar software de banco de dados e algumas funcionalidades são incorporadas ao
banco de dados e não estão disponíveis separadamente na própria ferramenta ETL .
Avaliação enviada com
sucesso
c
h
e
c
k

9)
10)
Código da questão: 42850
O termo ______________________ refere-se ao software que _____________________ de
maneira _____________________ para um data warehouse com certa ________________
minutos após a ____________________ da transação comercial.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
ETL Tempo Real – extrai os dados – assíncrona – urgência - execução.
ETL – move os dados – assíncrona – urgência - execução.
ETL Tempo Real – move os dados – assíncrona – urgência - execução.  CORRETO
ETL Tempo Real –transforma os dados – assíncrona – urgência - execução.
ETL Tempo Real – move os dados – síncrona – urgência - execução.
Código da questão: 42855
Sobre o processo de ETL, considere as seguintes afirmações:
( ) É realizado o processo de extração dos dados
( ) É realizado o processo de transformação dos dados
( ) É realizado o processo de carga dos dados
( ) É realizado o processo de extração de apenas uma fonte de dados
( ) É realizado o processo apenas de forma tradicional e sem ferramentas de transformação de
dados
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – V – F – V
V – V – V – V – F
V – V – V – F – F  CORRETO
V – V – V – V – V
V – V – F – V – F
Código da questão: 42821
Resolução comentada:
As palavras que completam as lacunas são: “dimensões – chave primária – chave natural
– atributos descritivos”. Um conjunto de atributos descritivos, assim como a chave
primária e a chave natural, são considerados componentes finais de todas as dimensões.
Resolução comentada:
As palavras que completam as lacunas são “ETL Tempo Real – move os dados –
assíncrona – urgência – execução”. Um ETL de Tempo Real é um software que realiza a
movimentação dos dados de forma assíncrona para um data warehouse, rápido o
bastante (questão de minutos), após uma transação comercial ser executada.
Resolução comentada:
O processo de ETL (Extract Transform Load) consiste em um processo de extração dos
dados de várias fontes de dados, limpeza, transformação e carregamento dos dados
para o data warehouse.
Arquivos e Links
Avaliação enviada com
sucesso
c
h
e
c
k


Outros materiais