Buscar

Data Warehouse e Data Mining

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Data Warehouse e Data Mining 
1. Alguns tipos de dados que fazem parte da mineração estão ligados ou incorporados 
ao que pode ser chamado de __________________ ou data warehouse. Marque a 
alternativa que completa a lacuna do texto: 
Armazém de dados. (Alternativa correta) 
Arquivo simples. 
Business Intelligence. 
Conjunto de rotinas. 
2. O algoritmo Apriori é o primeiro e um dos mais conhecidos para mineração por 
regras de associação. Ele propicia a extração de regras de associação existentes no 
conjunto de dados selecionados. Na maioria das vezes, o algoritmo é empregado em 
bases de dados que aportam um grande volume de dados, sendo que, mediante a sua 
utilização, busca-se desvendar associações úteis entre os itens das relações que fazem 
parte do banco de dados utilizado. A partir do Apriori, foram desenvolvidos outros 
algoritmos que também tencionam gerar regras de associação. Assim, aponte o 
algoritmo que foi desenvolvido tendo como base o Apriori: 
Canopy. 
OneR. 
JRip. 
Eclat. (Alternativa correta) 
3. A matriz de confusão é uma das maneiras mais simples de se representar os 
resultados de um algoritmo de classificação binário. Ela representa classes-variações 
das classes positivo e negativo. Acompanhe a seguir. Verdadeiro positivo (VP): quando 
o dado original corresponde a um item positivo e a predição foi realizada 
corretamente. Verdadeiro negativo (VN): quando um item classificado como negativo 
é corretamente predito como negativo. Falso positivo (FP): quando um item 
classificado como negativo é incorretamente predito como positivo. Falso negativo 
(FN): quando um item classificado como positivo é incorretamente predito como 
negativo. Em um problema no qual a presença de um falso positivo aparenta ser 
crítica, qual seria a melhor métrica para selecionar algoritmos de classificação e seus 
parâmetros? 
Sensibilidade. 
Acurácia. 
Precisão. (Alternativa correta) 
Revocação. 
4. A árvore de decisão (do inglês, decision tree) é um método de classificação em que 
conjuntos de alternativas são avaliadas com base em atributos, visando a separar os 
dados em grupos menores até que seja possível diferenciar as classes. O método 
apresenta esse nome, pois a visualização da estrutura do conjunto de decisões lembra 
uma árvore. Sobre árvores de decisão, é correto afirmar que: 
as árvores de decisão dividem a base de dados em k subconjuntos, repetindo o 
processo de treinamento e teste para cada um dos subconjuntos. 
a construção da árvore começa nos chamados de nós-folha e termina no chamado 
nó-raiz, onde são definidas as classes. 
uma floresta randômica utiliza a combinação de diversas árvores de decisão para 
melhorar a qualidade do resultado geral. (Alternativa correta) 
a árvore de decisão é um método baseado em distâncias, sendo a euclidiana a 
versão mais utilizada. 
5. A Mineração de Dados refere-se à extração não trivial de informações implícitas, 
anteriormente desconhecidas e potencialmente úteis, dos dados armazenados nos 
bancos de dados. Por meio de etapas, o processo de KDD faz a análise da descoberta e 
a seleção desses dados. Considerando o processo de KDD, classifique as etapas a seguir 
como verdadeiras (V) caso elas façam parte do processo ou falsas (F) caso elas não 
façam parte: I - Seleção de dados e pré-processamento. II - Transformação e 
mineração. III - Definição de algoritmos e tecnologias necessárias. Assinale a resposta 
correta: 
F, V, F. 
F, F, F. 
V, V, F. (Alternativa correta) 
V, V, V. 
6. O algoritmo k-vizinhos mais próximos (do inglês k-nearest neighbors — kNN), é um 
classificador baseado em distância simples, em que a classe de um objeto é definida 
com base nas classes dos k vizinhos mais próximos. Suponha que, na etapa de teste, 
com base em seus atributos, um elemento X poderia ser classificado em uma posição 
central de um espaço bidimensional entre três grupos distintos: A, B e C. O parâmetro 
k está configurado para detectar classificações com base nos três vizinhos próximos. 
Em caso de empate, o algoritmo escolhe o primeiro grupo comparado. No entanto, 
analisando a distância euclidiana de X para o elemento mais próximo de cada cluster, 
percebemos que X está a uma distância de 12, 21 e 5 de A, B e C, respectivamente. Em 
qual grupo X foi classificado? 
As informações não são suficientes para dizer onde X foi classificado, pois não se 
sabe a ordem em que os grupos foram comparados. (Alternativa correta) 
X foi classificado nos grupos ABC, pois está em distância compatível com os três 
grupos. 
X foi classificado no grupo B, pois é o que apresenta maior valor de distância. 
X foi classificado no grupo C, pois é o ponto mais próximo. 
7. O gerente do setor de atendimento ao consumidor de uma empresa de cartões de 
crédito detectou um padrão de reclamação nos atendimentos em um determinado 
mês e decidiu reportar isso à equipe de cientistas de dados da empresa. A reclamação 
estava relacionada à ferramenta automática de requisições de aumento no limite de 
compras, que funcionava da seguinte forma: no aplicativo da empresa, um usuário 
poderia requisitar um aumento de limite de crédito de até R$ 1000,00. No entanto, a 
maior parte dos usuários que utilizava a ferramenta reclamava que o sistema apenas 
retornava uma mensagem, informando que um aumento só poderia ser concedido se 
o usuário declarasse um aumento de renda. Porém, mesmo declarando um aumento 
de renda superior ao aumento do limite requisitado, o sistema sempre retornava que 
não poderia ser concedido o aumento. O gerente percebeu que isso acontecia na 
maioria das vezes com usuários que realizavam o pagamento por boleto em agências 
bancárias ou lotéricas. Os boletos poderiam ser baixados pelo aplicativo. Entretanto, 
caso o usuário não efetuasse o pagamento até a data de vencimento, os boletos eram 
enviados em versões impressas, sem qualquer custo adicional. Sabe-se que o sistema 
de classificação de risco de aumentos de crédito utiliza aprendizado supervisionado e 
uma base de dados de histórico de pagamentos obtida nos primeiros seis meses do 
ano. Além disso, a definição se o aumento pode ser aceito ou não está relacionada à 
probabilidade de atrasos. Com base nesse contexto, assinale a alternativa que melhor 
explica esse fenômeno observado pelo gerente. 
Não há viés nas bases de dados usada para treinamento, uma vez que os 
problemas recentes relatados no sistema são oriundos de uma base de dados coletada 
seis meses atrás. 
As requisições de aumento são concedidas, pois os desenvolvedores decidiram 
priorizar usuários que utilizam a plataforma digital, uma vez que eles têm mais 
afinidade com os meios eletrônicos. 
A política da empresa de enviar boletos impressos após o vencimento pode ter 
influenciado o padrão de comportamento dos clientes — o que, consequentemente, 
gerou um viés na base de dados usada para treinamento. (Alternativa correta) 
Não há qualquer vínculo entre o fato dos usuários que realizam pagamento e o 
sistema que usa aprendizado supervisionado, sendo que o padrão detectado pelo 
gerente não passa de mero acaso. 
8. Existem diversos algoritmos de regras de associação e cada um deles tem suas 
especificidades, comportamentos, desempenho, etc. Tais características levam o 
usuário a decidir por aquele mais conveniente para ser utilizado em determinada 
situação. Considerando que os algoritmos têm características distintas, veja a 
descrição a seguir do algoritmo Frequent-Pattern Growth (FP-Growth) e faça o que se 
pede: O FP-Growth é um algoritmo de regras de associação, fundamentado em uma 
estrutura de dados árvore de prefixos para padrões recorrentes, utilizada para 
extração dos conjuntos de itens frequentes na própria estrutura, apropriado para 
armazenar tais informações de forma compactada, possibilitando uma mineração de 
dados eficaz por não necessitar acessos repetitivos à base de dados. Indique quantas 
vezes é necessário que o algoritmo FP-Growth acesse a base de dados. 
1 vez. 
3 vezes.2 vezes. (Alternativa correta) 
4 vezes. 
9. Para realizar a mineração de regras de associação em uma base de dados, é 
necessária a realização de algumas atividades. Precisamente, são quatro atividades 
fundamentais. Assim, indique qual das atividades a seguir faz parte das atividades 
necessárias para a realização de regras de associação em uma base de dados: 
Modelagem. 
Mineração das regras. (Alternativa correta) 
Entendimento do negócio. 
Entendimento dos dados. 
10. A mineração de dados é intrinsecamente ligada a várias outras áreas de estudo, 
como armazenamento de dados e análise da informação. Avalie as seguintes 
definições. I. Conjunto de tecnologias capazes de refinar padrões encontrados e gerar 
informação estratégica para o negócio. 
II. Conjunto de métodos e algoritmos utilizados para buscar informações e padrões 
consistentes. 
III. Grande base de dados estruturados ou não estruturados, capazes de organizar 
grandes volumes de dados. Considerando esses conceitos, assinale a alternativa que 
correlaciona, de forma correta, as tecnologias com sua definição: 
Big Data - Business Intelligence - Data Mining. 
Data Mining - Big Data - Business Intelligence. 
Data Mining - Business Intelligence - Big Data. 
Business Intelligence - Data Mining - Big Data. (Alternativa correta) 
 
 
	1. Alguns tipos de dados que fazem parte da mineração estão ligados ou incorporados ao que pode ser chamado de __________________ ou data warehouse. Marque a alternativa que completa a lacuna do texto:
	2. O algoritmo Apriori é o primeiro e um dos mais conhecidos para mineração por regras de associação. Ele propicia a extração de regras de associação existentes no conjunto de dados selecionados. Na maioria das vezes, o algoritmo é empregado em bases ...
	3. A matriz de confusão é uma das maneiras mais simples de se representar os resultados de um algoritmo de classificação binário. Ela representa classes-variações das classes positivo e negativo. Acompanhe a seguir. Verdadeiro positivo (VP): quando o ...
	4. A árvore de decisão (do inglês, decision tree) é um método de classificação em que conjuntos de alternativas são avaliadas com base em atributos, visando a separar os dados em grupos menores até que seja possível diferenciar as classes. O método ap...
	5. A Mineração de Dados refere-se à extração não trivial de informações implícitas, anteriormente desconhecidas e potencialmente úteis, dos dados armazenados nos bancos de dados. Por meio de etapas, o processo de KDD faz a análise da descoberta e a se...
	6. O algoritmo k-vizinhos mais próximos (do inglês k-nearest neighbors — kNN), é um classificador baseado em distância simples, em que a classe de um objeto é definida com base nas classes dos k vizinhos mais próximos. Suponha que, na etapa de teste, ...
	7. O gerente do setor de atendimento ao consumidor de uma empresa de cartões de crédito detectou um padrão de reclamação nos atendimentos em um determinado mês e decidiu reportar isso à equipe de cientistas de dados da empresa. A reclamação estava rel...
	8. Existem diversos algoritmos de regras de associação e cada um deles tem suas especificidades, comportamentos, desempenho, etc. Tais características levam o usuário a decidir por aquele mais conveniente para ser utilizado em determinada situação. Co...
	9. Para realizar a mineração de regras de associação em uma base de dados, é necessária a realização de algumas atividades. Precisamente, são quatro atividades fundamentais. Assim, indique qual das atividades a seguir faz parte das atividades necessár...
	10. A mineração de dados é intrinsecamente ligada a várias outras áreas de estudo, como armazenamento de dados e análise da informação. Avalie as seguintes definições. I. Conjunto de tecnologias capazes de refinar padrões encontrados e gerar informaçã...
	1. A arquitetura XXXXXXXXX suporta vários usuários e serviços devido à sua flexibilidade. Na primeira camada estão as interfaces que trabalham com o usuário. Na segunda, estão os servidores de banco de dados e aplicações e, por isso, têm a necessidade...
	2. A mineração de dados é o processo de cruzamento de dados complexos em sua forma bruta na busca de padrões e informações úteis. Avalie as seguintes definições: I - Data Mining tem algoritmos e técnicas que utilizam dados para tentar prever resultado...
	3. Todo o conhecimento guardado e, às vezes, escondido servirá para tomadas de decisões estratégicas de negócios. Qual das alternativas a seguir se refere ao conceito de tratamento de grande volume de dados?
	4. O suporte é uma importante medida estatística utilizada em regras de associação. Dada uma regra do (K → L), a sua medida de suporte representa a porcentagem de transações da base de dados em que aparecem os itens de K e L, indicando a relevância de...
	5. A adoção de ferramentas de mineração de dados por empresas de diversos segmentos de negócios se deve principalmente ao vasto número de áreas que podem ser beneficiadas, tanto a curto como a longo prazo. Analise as afirmativas a seguir, que tratam s...
	6. Para discutir Data Warehouses e distingui-los dos banco de dados transacionais, é preciso que haja um modelo de dados apropriado. Neste contexto, o XXXXXXXXX é um termo usado para descrever a análise de dados complexos do Data Warehouse e as ferram...
	7. Os métodos de predição podem ser do tipo discreto, chamado de classificação, ou do tipo contínuo, chamado de estimação ou regressão. A classificação é o processo pelo qual é definido o rótulo de um elemento, quando analisados os contexto de uma det...
	8. Cada vez mais aplicada por empresas que buscam descobrir novas oportunidades ou elucidar contratempos, o Data Mining analisa comportamento e padrões em bases de dados para gerar vantagem competitiva a longo prazo. Em relação ao Data Mining, assinal...
	9. O Data Mining, ou mineração de dados, tem ganhado espaço nas empresas como suporte para decisões sobre mercado e clientes. Analise as afirmativas a seguir, que tratam de operações e aplicações para Data Mining, e classifique-as em verdadeiras (V) o...
	10. São dados que têm algum significado ou classificação de acordo com suas bases, podendo ou não ser utilizados para realizar algum planejamento de capacidade ou da disponibilidade. Dentro da pirâmide do conhecimento, isso está relacionado a:

Outros materiais