Prévia do material em texto
Prof. Rômulo Santos – romulodba@gmail.com
CIDADE IDIOMAS & CURSOS
PREPARATÓRIOS
CLN 113 - Bloco C - Sala 207 a 210
Asa Norte - Brasília - DF - CEP 70.763-503
Tel: (61) 3340-0433 / 99975-4464 / 98175-4509
E-mail: cursocidade@gmail.com
secretaria@iic.pro.br
Site: www.cursocidade.com.br
Skype: luizcidade
Aula 06:
Banco de Dados
2
Banco de Dados
Introdução:
- Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do
negócio da empresa, que garantem a operação da empresa, também chamadas de
sistemas de produção.
- Aplicações sobre o negócio: são as aplicações que analisam o negócio, ajudando a
interpretar o que ocorreu e a decidir sobre estratégias futuras para a empresa -
compreendem os Sistemas de Apoio à Decisão (SAD).
Consultas típicas de um SAD são:
- Listar a evolução das vendas nos últimos 10 anos.
- Listar o fornecedor que não teve mais do que 20%
de atrasos nas últimas 100 entregas.
3
Banco de Dados
4
Banco de Dados
Data Warehouse (DW): Conceito
Banco de dados especializado, o qual integra e gerencia o fluxo de informações a
partir dos bancos de dados corporativos e fontes de dados externas à Organização.
Um DW oferece os fundamentos e os recursos necessários para um Sistema de Apoio a
Decisão (SAD) eficiente, fornecendo dados integrados e históricos que servem desde
à alta direção, que necessita de informações mais resumidas, até as gerências de baixo
nível, onde os dados detalhados ajudam a observar aspectos mais táticos da
Organização.
5
Banco de Dados
Data Warehouse (DW): Características
Organizados por Assuntos: o DW armazena informações sobre temas específicos
importantes para a empresa. Ex: produtos, contas, clientes, etc.
Integração: característica que define a representação única para os dados provenientes
dos diversos sistemas que formarão a base de dados do DW. A maior parte do trabalho
na construção de um DW está na análise dos sistemas operacionais e dos dados que
eles contêm.
Variação no Tempo: segundo Inmon todos os dados no DW são precisos em algum
instante no tempo, como eles podem estar corretos somente em um determinado
momento, é dito que esses dados "variam com o tempo".
Não Volátil: não existem alterações de dados no DW.
6
Banco de Dados
7
Banco de Dados
OLTP x OLAP: Características
- OLTP (On-line Transaction Processing): BD é constantemente atualizado. Como os
dados estão mudando constantemente, o sistema não pode ajudar no apoio a decisões.
- OLAP (On-line Analytic Processing): envolve consultas interativas aos dados,
seguindo um caminho de análise através de múltiplos passos, como, por exemplo,
aprofundar-se sucessivamente por níveis mais baixos de detalhe de um quesito de
informação específico. OLAP envolve capacidades analíticas, incluindo a derivação de
taxas, variâncias, uso de medidas ou dados numéricos através de muitas dimensões,
devendo suportar modelos para previsões, análises estatísticas e de tendências.
8
Banco de Dados
Modelagem: Relacional x Multidimensional
9
Banco de Dados
Modelagem Multidimensional:
Modelo Star Schema (Modelo Estrela):
Modelo Snowflake (Modelo Flocos de Neve):
10
Banco de Dados
Modelo Flocos de Neve (Snowflake):
Incorpora tabelas dimensionais principais, que têm uma conexão lógica direta com as fact tables
através de suas chaves primárias, e tabelas menores como 'extensões', que são usadas para
armazenar descrições e decodificação para chaves e códigos nas tabelas maiores.
As tabelas dimensionais principais parecem tabelas dimensionais em estrela, exceto pelo fato das
colunas atributo conterem chaves para as tabelas extensões em lugar de descrições de texto. As
tabelas 'extensões' são conectadas com a tabela dimensional principal (ou com outras tabelas
'extensões') através de suas chaves primárias, e contêm texto decodificado e descrições de
valores chave ou codificados, armazenados na tabela dimensional principal.
Embora aceitável, a normalização de dimensões não é recomendável por razões de
desempenho e facilidade de uso:
- A quantidade de tabelas torna a apresentação do modelo mais complexa.
- Otimizadores do SGBD têm mais dificuldade com o esquema complexo.
- A economia de espaço em disco é insignificante em relação ao DW completo.
- Diminui a habilidade de usuários de navegar na dimensão.
11
Banco de Dados
12
Banco de Dados
Projeto de um DW:
- Top-down (Inmon): é quando a empresa cria um DW e depois parte para a
segmentação, ou seja, divide o DW em áreas menores gerando assim pequenos bancos
orientados por assuntos (DM).
- Botton-up (Kimball): é quando a situação é inversa. A empresa por desconhecer a
tecnologia, prefere primeiro, criar um banco de dados para somente uma área. Com isso
os custos são bem inferiores de um projeto de DW completo. A partir da visualização dos
primeiros resultados parte para outra área e assim sucessivamente até resultar num DW.
13
Banco de Dados
Modelagem Multidimensional:
Tabela de Fatos: dados escaláveis
- Tabela central do projeto dimensional. Armazena medições numéricas do negócio.
- Possui chaves de múltiplas partes. Cada parte da chave é uma FK para uma dimensão.
- Cada uma das medições é obtida na interseção de todas as dimensões.
- Em consultas a tabela de fatos são usados centenas, milhares ou milhões de registros
para a construção da resposta.
Obs: fato sem fato (fact less): não possui medidas.
Medidas:
- Aditivas: são as mais frequentes e são obtidas por meio da soma de valores gerados
pela seleção de todas as dimensões. Exemplo: lucro líquido;
- Semi-aditivas: são medidas obtidas a partir da soma de partes de suas dimensões.
Exemplo: quantidade em estoque (não faz sentido somá-la através da dimensão tempo);
- Não-aditivas: são medidas que não podem ser somadas através de nenhuma de suas
dimensões. O exemplo mais comum desse tipo de medidas são valores percentuais.
14
Banco de Dados
Modelagem Multidimensional:
Agregados: fatos pré-calculados
- A modelagem dimensional utilizando o esquema estrela apenas representa os fatos no
nível de granularidade mais baixa (a partir do qual é possível gerar as combinações ou
diferentes perspectivas de análise).
- No entanto, torna-se evidente a vantagem (por razões de desempenho) de pré-calcular
e armazenar fatos sumários, contendo agregações segundo diferentes combinações de
dimensões.
Dimensão: dados descritivos
- Representação dos contextos relevantes para a análise de um fato. Exemplo: Fato:
Vendas. Dimensões: Clientes, Produtos, Tempo, Locais, ...
- Uma dimensão pode conter membros (Ex: Dimensão Tempo: dia, semana, horário) e
ser organizada em hierarquias (Ex: Dimensão Geografia: região → unidade federativa).
- A Surrogate Key é parte da Primary Key da dimensão que é utilizada para conectar a
tabela na fato.
15
Banco de Dados
Modelagem Multidimensional:
Agregados:
16
Banco de Dados
Modelagem Multidimensional:
Tipos de tabelas Dimensão:
- Dimensão Degenerada (Degenerate Dimension): devido a algum critério empregado,
não se tornou uma dimensão e foi inserida como coluna na tabela fato para
desempenhar o papel de integrador dos itens deste próprio documento.
- Dimensão de Alteração Lenta (Slowly Changing Dimension - SCD): dependendo do
valor empregado haverá uma técnica de atualização que será empregada.
- Dimensão de Role-Playing: permite o uso da mesma dimensão para vários objetivos.
Ex: mensurar as vendas pela data do pedido e pela data do recebimento do pedido.
- Dimensão Conformada (Conformed Dimension): quando a dimensão se relaciona
com mais de uma tabela fato e contém todos os dados que as duas precisam;
- Dimensão de Lixo ou Sucata (Junk Dimension): quando tem basicamente 3 colunas:
Surrogate Key, Natural Key e uma descrição.
17
Banco de Dados
Modelagem Multidimensional:
Nível de Granularidade:
- Inmon (1997, p. 364), define granularidade como "o nível de detalhe contido em uma
unidade de dados. Quanto mais detalhe houver, mais baixoo nível de granularidade.
Quanto menos detalhe houver, mais alto o nível de granularidade".
Visualização:
- Uma visão multidimensional é usualmente representada por um cubo. Adequado à
visualização de até 3 dimensões.
Análise tridimensional é bastante utilizada.
- Hipercubo: cubo com mais de 3 dimensões.
18
Banco de Dados
Modelagem Multidimensional:
Roll-up (agregação) ou Drill-up:
- os dados são resumidos com generalização crescente (dia, mês, ano).
19
Banco de Dados
Modelagem Multidimensional:
Drill-down (desmembramento):
- níveis crescentes de detalhes são revelados (ano, mês, dia).
20
Banco de Dados
Modelagem Multidimensional:
Drill Across (envolve mais de uma tabela Fato):
- ocorre quando o usuário pula um nível intermediário dentro de uma mesma dimensão.
Por exemplo: a dimensão tempo é composta por ano, semestre, trimestre, mês e dia. O
usuário estará executando um Drill Across quando ele passar de ano direto para
trimestre ou mês.
Drill Through (detalhar até o nível operacional):
- ocorre quando o usuário passa de uma informação contida em uma dimensão para uma
outra. Por exemplo: Estou na dimensão de tempo e no próximo passo começo a analisar
a informação por região.
21
Banco de Dados
Modelagem Multidimensional:
Pivot (pivoteamento): rotação do cubo (hipercubo).
22
Banco de Dados
Modelagem Multidimensional:
Slice-and-Dice (fatiar e cortar em cubos):
- Slice: seleciona dados de uma única dimensão de um cubo OLAP.
- Dice: extrai um subcubo do cubo original executando uma operação de seleção em
duas ou mais dimensões.
23
Banco de Dados
Modelagem Multidimensional:
Um banco de dados multidimensional ao invés de armazenar os dados como
registros em tabelas, armazena os dados em arrays multidimensionais.
24
Banco de Dados
Modelagem Multidimensional:
- DOLAP (Desktop On Line Analytical Processing) são ferramentas que disparam uma consulta de uma estação
cliente para o servidor, que por sua vez retorna enviando o macro-cubo de volta, para que possa ser analisado
pelo usuário. Ela emite uma consulta para o servidor e recebe as informações de volta para ser analisada na
estação. Essa arquitetura oferece a vantagem de reduzir o tráfego na rede e melhora o desempenho de
processamento do servidor, pois todo o trabalho de analise das informações e feita pela máquina cliente.
- ROLAP (Relational On Line Analytical Processing) utiliza a tecnologia de banco de dados relacionais para
armazenar seus dados, bem como suas consultas são também processadas pelo gerenciador do banco de
dados relacional.
- MOLAP (Multidimensional On Line Analytical Processing) são ferramentas que disparam suas requisições
diretamente ao servidor de Banco de Dados Multidimensional. Após o envio da requisição o usuário continua
manipulando os dados diretamente no servidor, tendo um ganho no desempenho.
- HOLPA (Hybrid On Line Analytical Processing) são ferramentas hibridas. É a combinação entre ROLAP e
MOLAP, pegando o melhor de ambas as categorias a escalabilidade de ROLAP e o alto desempenho do
MOLAP
- SOLAP (Spatial On Line Analytical Processing) mescla a análise de dados geográficos / cartográficos.
25
Banco de Dados
Questão 01: (Quadro Técnico – 2010)
Diversas aplicações foram projetadas, desenvolvidas e implantadas por
Organizações Militares distintas, cada uma com o seu próprio ambiente de
produção. Sempre que o nível gerencial precisa de uma informação para a tomada
de decisão, algumas dificuldades são encontradas, decorrentes da falta de
integração dos bancos de dados. Para se obter um ambiente adaptável e flexível a
mudanças, seguro e que mostre apenas o que realmente é importante e com
informações que possam ser facilmente acessadas, de modo consistente e
combinadas entre si, é necessário construir um:
a) DATA WAREHOUSE.
b) OLTP (On-line Transaction Processing).
c) Banco de Dados Multidimensional.
d) Data Mining.
e) ODS (Operational Data Store).
26
Banco de Dados
Questão 02: (Quadro Técnico – 2011)
O modelo de armazenamento multidimensional, utilizado para a modelagem de
DATA WAREHOUSES, envolve dois tipos de tabelas, que são tabela
a) de dimensão e de fatos.
b) básica e secundária.
c) de dimensão e paralela.
d) principal e secundária.
e) unificada e espelhada.
27
Banco de Dados
Questão 03: (EsFCEx – 2011)
Com relação à teoria de modelagem multidimensional, a figura abaixo ilustra um
conjunto de tabelas modeladas obedecendo o esquema em estrela (Star Schema).
Nestas condições, são ditas tabela FATO e DIMENSÃO respectivamente:
a) TEMPO e LOCAL
b) LOCAL e VENDAS
c) VENDAS e LOCAL
d) PRODUTOS e LOCAL
e) TEMPO e PRODUTOS
28
Banco de Dados
Questão 04: (EsFCEx – 2010)
Com relação às estruturas multidimensionais e arquiteturas OLAP, qual das
alternativas abaixo representa a tecnologia que permite a recuperação de um cubo
de informações a ser analisado inteiramente em uma estação cliente?
a) DOLAP
b) ROLAP
c) MOLAP
d) HOLAP
e) SOLAP
29
Banco de Dados
Questão 05: (EsFCEx – 2009)
Com relação aos sistemas gerenciadores de banco de dados “multidimensionais”,
os dados são armazenados em tabelas de “fatos” e tabelas de “dimensões” que se
relacionam em um esquema denominado:
a) Pilha
b) Fila
c) Anel
d) Deque
e) Estrela
30
Banco de Dados
Questão 06: (Quadro Técnico – 2017)
Observe a seguinte figura que representa
uma operação OLAP.
Segundo Machado (2013), a operação OLAP ilustrada acima, na qual o usuário aumenta
o nível de granularidade, diminuindo o nível de detalhe da informação, é denominada
a) Roll Up.
b) Drill Down.
c) Drill Across.
d) Slice.
e) Dice.
31
Banco de Dados
Questão 07: (Quadro Técnico – 2017)
Segundo Machado (2013), a arquitetura de um ambiente de Data Warehouse inclui, além de
estrutura de dados, mecanismos de comunicação,
processamento e apresentação da informação
para o usuário final, conforme ilustrado a seguir.
De forma geral, além dos repositórios de dados, as ferramentas existentes podem ser divididas em
dois grupo. O primeiro é o responsável pela extração dos dados de múltiplos sistemas operativos e
fontes externas, assim como pela limpeza, transformação e integração dos dados; enquanto o
segundo é o responsável pelas consultas orientadas para o usuário final. Tais ferramentas são,
respectivamente:
a) ETL e OLAP.
b) SGBD e Data Mart.
c) Dashboard e PL/SQL.
d) Metadados e Web Browser.
e) Data Mining e Modelagem Multidimensional.
32
Banco de Dados
Questão 08: (Quadro Técnico – 2011)
Os DATA WAREHOUSES existem para facilitar as consultas complexas, intensivas
em termos de dados e aleatórias frequentes. De maneira adequada, os DATA
WAREHOUSES têm que proporcionar um suporte às consultas muito maior e mais
eficiente do que é exigido dos bancos de dados transacionais. Baseado neste
conceito, em um DATA WAREHOUSE, quando se faz uma operação de DRILL-
DOWN, qual o efeito no resultado obtido na consulta?
a) A execução da tabulação transversal.
b) A impressão de relatórios.
c) A execução de operações de projeção nas dimensões.
d) Um menor nível de detalhamento.
e) Um maior nível de detalhamento.
33
Banco de Dados
Questão 09: (Quadro Técnico – 2010)
Em um ambiente de DATA WAREHOUSE, as medições numéricas de desempenho
da empresa são armazenadas em tabelas que expressam relações muitos-para-
muitos em modelos dimensionais, logo, possuem duas ou mais chaves
estrangeiras. Este tipo de tabela é chamado de:
a) dimensão.
b) fato.
c) ponte.
d) domínio.
e) instância.
34
Banco de Dados
Questão 10: (Quadro Técnico – 2010)
A arquitetura de um Data Warehouse é composta de vários elementos. Aquele que
é uma área de armazenamento, onde serviços de filtragem, combinação,
padronização e classificação de dados são executados, e tem como principal
requisito não ser acessível aos usuários e não fornecer serviços de consulta nem
apresentação é denominado
a) DATA STAGING AREA.
b) sistema operacional de origem.
c) DATA MART.d) OLAP (ON-LINE ANALYTIC PROCESSING).
e) ETL (EXTRACT TRANSFORM AND LOAD).
35
Banco de Dados
Business Intelligence (BI): Conceitos
O termo BI surgiu na década de 80, cunhado pelo Gartner Group, e tem como principais
características:
- Extrair e integrar dados de múltiplas fontes;
- Fazer uso da experiência;
- Analisar dados contextualizados;
- Trabalhar com hipóteses;
- Procurar relações de causa e efeito;
- Transformar os registros obtidos em informação
útil para o conhecimento empresarial.
Business Intelligence é o processo de analisar
informações brutas acumuladas da empresa
e a partir delas obter insights valiosos.
36
Banco de Dados
Business Intelligence (BI): Conceitos
Business Intelligence permite que os responsáveis pelas decisões tenham as
informações certas, na hora certa e no lugar certo, capacitando-os a tomar melhores
decisões corporativas.
As aplicações de BI incluem:
- Sistemas de suporte à decisão;
- Consultas e relatórios;
- Análises OLAP;
- Análises estatísticas;
- Previsões;
- Data Mining.
37
Banco de Dados
Big Data: Conceitos
O analista de dados Douglas Laney em 2001 fez uma contribuição decisiva para a atual
caracterização do Big Data, cunhando os "três V's" populares e cativantes do Big Data
(Volume, Variedade e Velocidade).
Na percepção de Davenport (2014) o Big
Data se refere a dados massivamente
volumosos para caberem em simples
servidores, extremamente desestruturados
para se ajustarem a bancos de dados
relacionais, e continuamente fluídos
para caberem em estruturas estáticas de
armazenagem.
38
Banco de Dados
Big Data: Conceitos
Big Data com 8 V’s
Fonte: Clark (2018)
39
Banco de Dados
Questão 11: (Quadro Técnico – 2017)
Segundo Hurwitz et al.(2015), Big Data não é uma única tecnologia, mas uma
combinação de tecnologias novas e antigas. Soluções Big Data permitem, entre
outras, apoiar a tomada de decisão a partir do processamento de dados com
características complexas. Segundo Rêgo (2013), os desafios de Big Data podem
ser resumidos em cinco dimensões, São elas:
a) atualidade, dinamicidade, validade, utilidade e tendência.
b) vantagem, visão, adaptabilidade, atomicidade e consistência.
c) volume, velocidade, variedade, veracidade e valor.
d) armazenamento, heterogeneidade, distribuição, qualidade e paralelismo.
e) visualização, análise, mídias sociais, apoio à decisão e computação.
40
Banco de Dados
Mineração de Dados:
- Descoberta de novas informações em termos de padrões ou regras
com base em grandes quantidades de dados.
- Processo de empregar uma ou mais técnicas de aprendizado computacional para
analisar e extrair automaticamente conhecimento dos dados.
- A mineração de dados pode ser usada junto com um Data Warehouse para ajudar com
certos tipos de decisões.
- As ferramentas de Mineração de Dados, são especializadas em procurar padrões nos
dados. Essa busca pode ser efetuada automaticamente pelo sistema ou interativamente
com um analista, responsável pela geração de hipóteses.
- Diversas ferramentas distintas, como redes neurais, indução de árvores de decisão,
sistemas baseados em regras e programas estatísticos, tanto isoladamente quanto em
combinação, podem ser então aplicadas ao problema.
41
Banco de Dados
Mineração de Dados:
O resultado da garimpagem pode ser descobrir:
- Regras de associação: venda casada.
- Padrões sequenciais: sequência de compras ao longo do tempo.
- Árvores de classificação: classes de clientes.
Objetivos do Data Mining:
- Previsão: comportamento futuro.
- Identificação: existência de um item, evento ou atividade.
- Classificação: classes de coisas.
- Otimização: melhor uso de recursos.
Tipos de conhecimentos:
- Dedutivo: deduz novas informações com base na aplicação de regras lógicas
previamente especificadas sobre o dado indicado.
- Indutivo: descobre novas regras e padrões com base nos dados fornecidos. Esse é o
foco da mineração de dados.
42
Banco de Dados
Knowledge Discovery in Database – KDD:
- Mineração de dados é, na verdade, uma parte de um processo maior conhecido como
descoberta de conhecimento nos bancos de dados (Knowledge Discovery in
Database - KDD).
- O processo de descoberta de conhecimento em banco de dados compreende seis
fases (Se-Li-En-T-M-A):
1) Seleção de dados: separar dados relevantes.
2) Limpeza de dados: corrigir ou eliminar dados incorretos.
3) Enriquecimento: melhorar os dados com fontes adicionais.
4) Transformação: criar categorias ou agrupar os dados (categorizar e/ou agrupar).
5) Mineração: extrair regras e padrões.
6) Apresentação: análise, assimilação, interpretação, avaliação, divulgação e exposição
das informações.
43
Banco de Dados
Questão 12: (Quadro Técnico – 2011)
A Descoberta de conhecimento em Bancos de Dados (KNOWLEDGE DISCOVERY IN
DATABASES) , normalmente abreviada como KDD, engloba mais que a DATA MINING.
Este processo é composto por seis fases, que são executadas na seguinte ordem:
Seleção de dados;
a) classificação; enriquecimento; transformação ou codificação; DATA MART/ construção de
relatórios; e apresentação da informação descoberta.
b) limpeza; agregação; transformação ou codificação; DATA MINING/construção de relatórios;
e apresentação da informação descoberta.
c) limpeza; enriquecimento; classificação; DATA MINING/ construção de relatórios; e
apresentação da informação descoberta.
d) limpeza; processamento; agregação; DATA MINING/ construção de relatórios; e
apresentação da informação descoberta.
e) limpeza; enriquecimento; transformação ou codificação; DATA MINING/construção de
relatórios; e apresentação da informação descoberta.
44
Banco de Dados
Visão Geral do Processo de Data Mining:
- O processo de Data Mining é composto pelas seguintes fases: preparação,
mineração, análise e aplicação.
45
Banco de Dados
Visão Geral do Processo de Data Mining:
1) Preparação:
- Construir um BD separado para os dados sujeitos ao mining.
- Coletar o dado que será garimpado (fontes variadas).
- Definir os metadados: entender a semântica dos campos (nome, tipo, definição,
descrição, fonte, unidade de medida, valores únicos, periodicidade, etc).
- Selecionar o subconjunto de dados a ser aplicado no projeto de mining (dados
relevantes e efetivos).
- Atentar para a qualidade dos dados.
- Definir para campos consolidados os critérios de reconciliação.
- Carregar o banco de dados para o processo de mining.
Obs: Esse processo pode envolver desde a limpeza dos dados, incluindo campos
omissos ou dados muito fora do normal – os outliers – até a junção de variáveis ou
linhas, combinação de campos e transformação de variáveis.
46
Banco de Dados
Visão Geral do Processo de Data Mining:
2) Mineração:
- Criar os modelos de Data Mining.
- Definir amostras ou população.
- Selecionar dados para treinar o modelo.
- Definir a formatação requerida pelas ferramentas.
- Criar atributos-chave para a análise do negócio.
3) Análise:
- Associação.
- Padrões sequenciais.
- Classificação.
- Agregação.
4) Aplicação:
- Depois de definido e testado o modelo, a aplicação se dá pela utilização daqueles
algoritmos ajustados em situações reais de sistemas.
47
Banco de Dados
Questão 13: (Quadro Técnico – 2014)
Segundo Carlos Barbieri (2011), em Business Intelligence (BI), o conceito de DATA
MINING (mineração de dados) esta relacionado à tendência de buscar correlações
escondidas em altos volumes de dados. Em qual fase do processo de DATA
MINING são definidos os metadados e coletado o dado que será garimpado?
a) Análise.
b) Mineração.
c) Aplicação.
d) Avaliação.
e) Preparação.
48
Banco de Dados
Técnicas para Descoberta de Conhecimento:
1) Regras de Associação: usadas para descobrir elementos que ocorrem em comum
dentro de um determinado conjunto de dados. Ex: itens de uma cesta de supermercado.
Obs: Para que uma regra de associação seja de interesse, a regra deve satisfazer no
mínimo suporte e confiança.
- Suporte: porcentagem mínimade exemplos no banco de dados que contém todos os
itens listados em uma dada regra de associação.
- Confiança: dada uma regra da forma A=>B, a regra da confiança é a probabilidade
condicional que B é verdadeira quando sabemos que A é verdadeira.
2) Padrões Sequenciais: são definidos como processos que visam à identificação de
fatos que implicam outros fatos, em momentos diferentes do tempo. Nesse caso, é
possível estabelecer correlações como: 60% dos clientes que compram livro de HTML,
num espaço máximo de dois meses, voltam para comprar um de XML.
49
Banco de Dados
Técnicas para Descoberta de Conhecimento:
3) Classificação: são processos que definem agrupamentos de itens em classes,
segundo referências estabelecidas. São usados para definir grupos ou classes de
elementos, com base em certos parâmetros preestabelecidos. São usados, por exemplo,
em sistemas de análise de risco de crédito para definir bons e maus pagadores baseado
em atraso de pagamento, classe socioeconômica, idade, etc.
4) Agregação (agrupamento): nenhuma classe é conhecida no momento em que o
operador de agregação é invocado, e o seu objetivo é a obtenção de agrupamentos com
base na similaridade apresentada pelos dados. Diferentes funções de agregação
produzem diferentes agregados e são usadas em trabalhos práticos de segmentação de
mercado, análise de defeitos e análise de feições morfológicas em aplicações de
sensoriamento remoto.
50
Banco de Dados
Questão 14: (EsFCEx – 2012)
Considere a teoria de mineração de dados e as alternativas abaixo:
I – Classificação
II – Associação
III – Limpeza
IV – Agrupamento
V – Totalização
São tarefas / técnicas conhecidas da mineração de dados as alternativas
a) I e III.
b) II e III.
c) I, II e IV.
d) III, IV e V.
e) I, III e V.
51
Banco de Dados
Questão 15: (EsFCEx – 2013)
Analise o esquema seguinte e marque a alternativa correta que indica a regra de associação de
compra cujas métricas de suporte e confiança indicam respectivamente os valores de 40% e 50%.
Considerando a teoria de mineração de dados e a tarefa de associação, a tabela abaixo ilustra algumas
transações relacionadas a compras de supermercado. Os itens marcados com a letra “X” indicam a
ocorrência de compra do produto a cada transação.
Transação Feijão Leite Arroz Cerveja
1 X X X
2 X X X
3 X X
4 X X X
5 X X X
a) {Arroz, Cerveja} → {Leite}
b) {Feijão, Leite} → {Arroz}
c) {Leite, Arroz} → {Feijão}
d) {Arroz} → {Cerveja, Leite}
e) {Cerveja} → {Feijão, Arroz}
52
Gabarito
01 A
02 A
03 C
04 A
05 E
06 A
07 A
08 E
09 B
10 A
11 C
12 E
13 E
14 C
15 B
Prof. Rômulo Santos