Conceitos de Mineração de Dados

•

UNIVALI

Osvaldo Chapov

07/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 22 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Mineração de Dados

476 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Mineração de Dados
Questão 1) - 0,67 ponto(s)
Árvores de decisão são conhecidas por serem modelos computacionais comumente utilizados com intuito de analisar grandes bases de dados auxiliando na tomada de decisão com base no aprendizado adquirido pelas mesmas. A geração das árvores de decisão com a finalidade de analisar os dados é feita por meio de técnicas de Inteligência Artificial e Estatística. Nesse contexto, as técnicas de árvores de decisão geralmente são divididas em técnicas de aprendizado supervisionado e não supervisionado.
Com base em tais afirmações, podem ser citadas como características do aprendizado em árvores de decisão
I. o uso para modelagem descritiva ou preditiva dos dados.
II. a aplicação na predição de rótulos de classes nos exemplos de conjuntos de teste.
III. a definição de atributos contínuos, categóricos ordinais ou não ordinais para cada objeto.
IV. a modelagem descritiva, onde um modelo de classificação é utilizado para classificar exemplos cujas classes são desconhecidas.
É correto o que se afirma em
A)
I, II, III e IV.
B)
III e IV, apenas.
C)
II, III e IV, apenas.
D)
I, II e III, apenas.
E)
I e II, apenas.
Mineração de Dados
Questão 2) - 0,67 ponto(s)
Na busca por dados cada vez mais precisos, a criação de um modelo de mineração faz parte de um processo de perguntas sobre os dados com modelos de respostas e a implantação de um modelo. Dentre os algoritmos mais utilizados no processo de data mining, estão as técnicas de associação, classificação, padrões sequenciais, árvores de decisão e clustering.
Com base nas informações supracitadas, pode-se afirmar que o clustering é
A)
uma técnica utilizada para categorização ou previsão de dados que geralmente se inicia com uma pergunta que tenha duas ou mais respostas, e uma delas direciona para uma questão que será utilizada para classificar ou identificar dados que serão categorizados.
B)
uma técnica que identifica tendências ou a ocorrência de eventos parecidos, sendo geralmente utilizada para entender comportamentos de usuários em relação às compras, de tal forma que os donos de lojas, a partir da análise dos dados, tomem decisões sobre quais produtos irão apresentar para os clientes.
C)
uma técnica em que vários atributos podem ser utilizados para a identificação de uma classe específica de itens.
D)
uma técnica para identificar elementos que tenham a presença de outros elementos em uma mesma operação, encontrando relacionamentos ou padrões entre o conjunto de dados.
E)
uma técnica que agrupa registros semelhantes, ou seja, grupos de elementos que possuem as mesmas propriedades, a fim de que o usuário final possa, entre outras coisas, saber o que está ocorrendo no banco de dados.
Mineração de Dados
Questão 3) - 0,67 ponto(s)
A clusterização ou agrupamento dos dados é importante para que seja possível classificar os dados em relação ao seu grau de semelhança. Considerando a aplicação dos conceitos de completude e consistência para classificação dos dados, julgue os itens a seguir.
I. Um agrupamento completo é aquele que classifica corretamente os exemplos.
II. Um agrupamento consistente é aquele em que é possível classificar todos os dados.
III. Um agrupamento pode ser, no melhor dos casos, completo e consistente. No pior dos casos, incompleto e inconsistente.
É correto o que se afirma em
A)
II e III, apenas.
B)
III, apenas.
C)
I, apenas.
D)
II, apenas.
E)
I e III, apenas.
Mineração de Dados
Questão 4) - 0,67 ponto(s)
A validação dos dados é uma etapa importante no processo de Aprendizado de Máquina. A Validação cruzada é utilizada para avaliar a qualidade do modelo e para ajustá-lo, quando necessário. Um dos métodos existentes é o k-fold. Indique o(s) item(ns) que apresenta(m) característica(s) de tal método.
I. Separar a base de dados em k partes, também chamadas de folds.
II. Das partes separadas, k-1 partes são utilizadas para testes e uma é utilizada como treinamento.
III. Quanto maior o número de folds, menor o custo computacional.
O(s) item é (são)
A)
I e III, apenas.
B)
I e II, apenas.
C)
I, apenas.
D)
III, apenas.
E)
II, apenas.
Mineração de Dados
Questão 5) - 0,67 ponto(s)
Algoritmos de Aprendizado de Máquina permitem que Inteligências Artificiais consigam aprender por meio de inserção de dados. Eles são categorizados de acordo com a forma que atuam e um dos tipos mais versáteis é o Aprendizado Não Supervisionado. A utilização dessa tecnologia permite que as Inteligências Artificiais se tornem mais eficazes e eficientes em suas funcionalidades, pois são capazes de aprender e treinar, o que as possibilita escolher as melhores decisões a partir de suas experiências anteriores.
Tendo em consideração as características do Aprendizado de Máquina, analise a situação hipotética a seguir.
Lúcia é líder de uma equipe de programadores que trabalham em uma empresa de desenvolvimento de software com foco voltado à Inteligência Artificial. Na última semana, ela e a equipe receberam a seguinte missão: desenvolver uma aplicação que fosse capaz de auxiliar um estúdio fotográfico na identificação facial de pessoas presentes em uma coleção de fotos. Esse estúdio é especialista em festas de formatura e, a cada evento, precisa agrupar todas as fotos em que um determinado aluno apareça a fim de despachar o álbum personalizado àquele aluno em questão.
Em decorrência da quantidade de fotos, eventos e alunos por evento, essa análise manual tornou-se inviável à empresa, motivo pelo qual ela procurou soluções na tecnologia para resolver o problema.
Sobre o algoritmo que deve ser utilizado para o reconhecimento facial conforme a situação hipotética apresentada, avalie as asserções a seguir e a relação proposta entre elas.
I. O algoritmo que deverá ser utilizado nesse software de reconhecimento facial é o de Aprendizado Não Supervisionado, devido à sua característica de identificar semelhanças entre os dados analisados — ideal para situações de análises complexas.
PORQUE
II. Algoritmos de Aprendizado Não Supervisionado, geralmente, conseguem resolver a maior parte dos problemas que contenham toda uma gama de dados previamente estabelecidos, o que propicia resultados mais previsíveis do que outros tipos de algoritmos.
A respeito dessas asserções, assinale a opção correta.
A)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
B)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
C)
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
D)
As asserções I e II são proposições falsas.
E)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
Mineração de Dados
Questão 6) - 0,67 ponto(s)
Embora a maioria dos sistemas informatizados produza algum tipo de dado que pode servir como input para a realização de análises e diagnósticos, a recuperação por si só dos dados armazenados não explora todas as vantagens que eles podem oferecer. Uma vez que realizar o processo de descoberta de conhecimento nessas bases de dados de forma manual é ineficiente e inviável, devido ao demasiado volume de dados, técnicas automatizadas para procurar e interpretar esses dados são necessárias. Uma delas é a mineração de dados, do inglês data mining. Os resultados da aplicação da mineração em um conjunto de dados podem apoiar as tomadas de decisões de organizações tanto em âmbito operacional quanto estratégico. Antes da aplicação de qualquer técnica de mineração de dados em uma base, são necessárias algumas atividades que visam definir o conjunto de dados que será utilizado na mineração de dados, melhorar a qualidade dos dados e, por consequência, aumentar o desempenho das técnicas, de forma a serem obtidos melhores resultados. Nesse contexto, o processo para geração de regras para uso da técnica de associação, que é muito utilizada na mineração de dados, pode ser visualizado na imagem a seguir.
MARQUES, L. T. Aplicação das técnicas de associação. Porto Alegre: SAGAH, 2021 (adaptado).
Considerando esse tema, avalie a situaçãoa seguir.
Carla foi contratada recentemente para atuar na área de mineração de dados da empresa Xdata. A fim de se atualizar quanto ao uso da técnica de associação e sua geração de regras, Carla estudou cada uma das etapas no intuito de identificar como chegar às etapas de mineração de regras e avaliação. Ela buscou entender como se dava o processo de mineração de regras.
Tendo em vista o que Carla conseguiu identificar com base nos estudos, avalie as asserções a seguir e a relação proposta entre elas.
I. Carla descobriu que a mineração de regras é realizada utilizando os itens frequentes da base e determinando todas as combinações possíveis destes itens.
PORQUE
II. Essa abordagem impede qualquer tipo de problema combinatório ou computacional, mesmo para bases de tamanho médio a grande, sendo a forma mais utilizada.
A respeito dessas asserções, assinale a opção correta.
A)
As asserções I e II são proposições falsas.
B)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
C)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
D)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
E)
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
Mineração de Dados
Questão 7) - 0,67 ponto(s)
O iris flower dataset é uma base de dados composta por 150 amostras de três espécies de flores de íris: setosa, versicolor e virginica. Esse problema, apresentado pelo biólogo e estatístico britânico Ronald Fisher nos anos 1930, até hoje é considerado um dos problemas clássicos de classificação e agrupamento de dados. O conjunto de dados é composto por quatro atributos para cada amostra: largura das pétalas (“Petal.Width”), comprimento das pétalas (“Petal.Length”), largura das sépalas (“Sepal.Width”) e comprimento das sépalas (“Sepal.Length”). Os rótulos são apresentados na coluna “Species”. A popularidade do iris flower dataset se deve à facilidade de se observar como os atributos podem ser utilizados para identificar flores da mesma espécie. Um exemplo de tal comparação pode ser melhor visualizado na imagem a seguir.
MARIANO, D. C. B. Aplicação das técnicas de agrupamento de dados. Porto Alegre: SAGAH, 2021.
Diante disso, considere a situação a seguir.
Durante um processo seletivo para preenchimento da vaga de estágio em mineração de dados foi apresentado aos candidatos o gráfico exposto sobre três tipos de flores e o trecho de código a seguir. Foi solicitado aos candidatos que eles identificassem o que estava representado no gráfico, com base no código.
library("ggplot2")
x = iris$Petal.Width
y = iris$Petal.Length
c = iris$Species
ggplot(iris, aes(x, y, colour=c))+
geom _ point(size=2) +
xlab("Largura das pétalas") +
ylab("Comprimento das pétalas") +
ggtitle("Conjunto de dados de flores de íris")
Tendo em vista o que os candidatos podem ter identificado ao avaliar o trecho de código e o gráfico, avalie as asserções a seguir e a relação proposta entre elas.
I. Os candidatos identificaram que o código apresenta pontos em comum entre os círculos que representam os três tipos de flores.
PORQUE
II. Esses pontos representam amostras de diferentes espécies que possuem características parecidas, como comprimento e largura.
A respeito dessas asserções, assinale a opção correta.
A)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
B)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
C)
As asserções I e II são proposições falsas.
D)
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
E)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
Mineração de Dados
Questão 8) - 0,67 ponto(s)
A informação é o ativo mais importante para os negócios das organizações, tornando-se algo essencial para ganho de competitividade entre as empresas de pequeno, médio e grande porte. As estratégias assumidas para tal ganho devem basear-se em informações concretas, visando a uma minimização na ocorrência de erros para a tomada de decisões por parte dos gestores.
Avanços tecnológicos têm facilitado a obtenção dessas informações através de processos de Knowledge Discovery in Database (KDD), ou seja, Descoberta de Conhecimento em Banco de Dados. O KDD pode ser visto como o processo de descoberta de padrões e tendências por análise de grandes conjuntos de dados, tendo como principal etapa o processo de mineração, consistindo na execução prática de análise e de algoritmos específicos que, sob limitações de eficiência computacionais aceitáveis, produz uma relação particular de padrões a partir de dados.
DANTAS, Eric Rommel G. et al. O uso da descoberta de conhecimento em base de dados para apoiar a tomada de decisões. V Simpósio de Excelência em Gestão e Tecnologia, 2008, 1-10, p. 1. Disponível em: https://www.aedb.br/seget/arquivos/artigos08/331_331_Artigo_SEGET_EJDR_Versao_Final_010808.pdf. Acesso em: 25 mar. 2020.
Julgue as situações a seguir, verificando se a tecnologia KDD foi utilizada para auxiliar no desenvolvimento das estratégias apresentadas.
I. Uma empresa de revenda de produtos de higiene e beleza busca definir o perfil do cliente mais rentável e os produtos que eles adquirem, para assim elaborar as estratégias de marketing e de desenvolvimento de relacionamento com o cliente.
II. Um gestor de franquias de alimentação com mais de 20.000 unidades espalhadas no mundo busca identificar os produtos mais vendidos por faixa etária e regiões, buscando segmentar seus produtos por idade e preferência.
III. Uma empresa de alimentos busca avaliar todos os tipos de chocolate gourmet existente no Brasil, juntamente com os padrões de consumo e preferências dos consumidores, para introduzir um novo produto no mercado.
É correto o que se afirma em
A)
II e III, apenas.
B)
I, apenas.
C)
I e II, apenas.
D)
I, II e III.
E)
III, apenas.
Mineração de Dados
Questão 9) - 0,67 ponto(s)
K-means, também conhecido como k-médias, é um dos mais populares algoritmos de agrupamento. Dado determinado conjunto multidimensional de dados, o k-means permite que amostras sejam separadas em um total de k grupos com base nas similaridades de seus atributos. Inicialmente, o algoritmo determina k posições aleatórias para representar os centros de cada grupo (denominados centroides). Pelos fundamentos do k-means, os pontos devem estar mais próximos de cada centroide para que possam fazer parte dele. A cada rodada, o ponto médio entre todos os pontos do grupo é usado para determinar o novo centroide que representará o grupo. Isso será repetido até determinado número máximo de iterações. Vale lembrar que o k-means exige que a quantidade de grupos seja informada no momento de sua execução.
MARIANO, D. C. B. Aplicação das técnicas de agrupamento de dados. Porto Alegre: SAGAH, 2021 (adaptado).
Com relação ao tema, analise o caso a seguir.
Cássio foi contratado para trabalhar na empresa Mega Data no setor responsável por tratar, gerenciar e minerar de dados. Em dúvida sobre o funcionamento do algoritmo K-means em técnicas de agrupamento, Cássio resolveu consultar seu superior para sanar sua dúvida, ele queria entender como era feito o processo de agrupamento com esse algoritmo.
Tendo em vista o que o superior respondeu a Cássio, avalie as asserções a seguir e a relação proposta entre elas.
I. O superior informou a Cássio que o K-means calcula o ponto médio entre todos os elementos de cada cluster a cada rodada.
PORQUE
II. Esse processo se repete até que a posição do centroide não seja fortemente alterada pelo cálculo da média.
A respeito dessas asserções, assinale a opção correta.
A)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
B)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
C)
As asserções I e II são proposições falsas.
D)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
E)As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
Mineração de Dados
Questão 10) - 0,67 ponto(s)
Para que seja possível determinar quão boa é uma regra de associação gerada a partir de uma base de dados, é necessário determinar medidas de interesses para que sejam realizados esses procedimentos. Regras que compreendem itens mutuamente exclusivos ou que abranjam um número reduzido de transações são moderadamente relevantes. Dessa forma, é factível indicar, de forma prática, medidas de interesse que avaliam as características obtidas nas regras. As mais utilizadas são: o suporte, a confiança, o lift e a convicção. No entanto, existe uma vasta gama de medidas estatísticas. O suporte, ou cobertura, de uma regra é uma medida significativa, uma vez que regras com valores muito baixos de suporte dão-se apenas eventualmente. Sob a perspectiva de negócios, regras com suporte relativamente baixo também são de pouco interesse, visto que não tem fundamento promover itens que os clientes compraram pouco em conjunto. Logo, o suporte geralmente é utilizado para eliminar regras pouco importantes.
MARQUES, L. T. Aplicação das técnicas de associação. Porto Alegre: SAGAH, 2021.
Com relação ao tema, analise a situação a seguir.
Ao final de uma reunião da empresa, para tratar das novas regras de Mineração de Dados a serem adotadas, Rogério precisou pesquisar sobre o assunto, uma vez que não conhecia a expressão citada para representar a medida de interesse chamada de suporte. Rogério não conseguiu entender a expressão mesmo após a explicação do seu gestor. A expressão pode ser visualizada a seguir.
Suporte (M N) = (Frequência de M U N) / (Total de T)
Tendo em vista o que Rogério descobriu após sua pesquisa, avalie as asserções a seguir e a relação entre elas.
I. Rogério descobriu que a (Frequência de M U N) é a contagem do suporte da regra, que equivale ao número de transações que contêm determinado conjunto de itens, e que (Total de T) é o número total de transações da base.
PORQUE
II. O suporte de uma regra de associação, {M} {N}, determina a frequência de ocorrência da regra, ou melhor, a probabilidade de essa regra ser identificada no conjunto total de transações da base.
A respeito dessas asserções, assinale a opção correta.
A)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
B)
As asserções I e II são proposições falsas.
C)
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
D)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
E)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
Mineração de Dados
Questão 11) - 0,67 ponto(s)
A mineração de dados é um processo realizado por meio de estratégias automatizadas cujo propósito é a descoberta de conhecimento significativo em grandes bases de dados. Para isso, utilizam-se algoritmos capazes de examinar grandes bases de dados de maneira eficiente e evidenciar padrões interessantes nelas escondidos. A ferramenta WEKA (do inglês Waikato Environment for Knowledge Analysis) é formada por um conjunto de implementações de algoritmos de variadas técnicas de mineração de dados. O WEKA está implementado na linguagem Java, tendo como principal característica sua portabilidade; assim, é possível utilizá-lo em diferentes sistemas operacionais, além de usufruir os principais benefícios da orientação a objetos. Está disponível na web e pode ser acessado por meio de uma interface gráfica do usuário, de aplicativos de terminal padrão ou de uma API (Application Programming Interface) Java. É largamente utilizado para aplicações de ensino, pesquisa e industriais, e abrange muitas ferramentas integradas para tarefas de aprendizado de máquina padrão. Ainda, ele possibilita acesso transparente a caixas de ferramentas conhecidas, como scikit-learn, R e Deeplearning4j.
MARQUES, Leonardo Torres. Introdução ao WEKA. Porto Alegre: SAGAH, 2021 (adaptado).
Com relação ao tema, analise o caso a seguir.
Pedro, após ser contratado para estagiar em uma empresa de mineração de dados, recebeu o arquivo ARFF a seguir para analisar. Os gestores queriam avaliar a capacidade de Pedro de interpretar este tipo de arquivo gerado pelo WEKA.
Tendo em vista qual pode ter sido a resposta de Pedro aos gestores, avalie as asserções a seguir e a relação proposta entre elas.
I. Pedro disse aos gestores que no arquivo apresentado é possível identificar informações como domínio do atributo, valores que os atributos podem representar e atributo classe.
PORQUE
II. O arquivo ARFF é dividido em duas partes, sendo a primeira uma lista de todos os atributos na qual se deve estabelecer o tipo do atributo e/ou os valores que ele pode simbolizar.
A respeito dessas asserções, assinale a opção correta.
A)
As asserções I e II são proposições falsas.
B)
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
C)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
D)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
E)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
Mineração de Dados
Questão 12) - 0,67 ponto(s)
Ter o poder de obter insights rapidamente para incrementar as ações de marketing é, sem dúvidas, uma vantagem estratégica para os negócios. Essas informações possibilitam perceber oportunidades e ir além de dados brutos e gráficos para conquistar clientes e atingir objetivos práticos, provendo capacidade de predizer as necessidades do público-alvo e descobrir fatores capazes de influenciar suas decisões de compra. Analisar o comportamento dos consumidores e identificar padrões ao longo do tempo geram informações que podem ser utilizadas pela equipe de marketing, que então estará mais apta a desenvolver campanhas regionais ou a oferta direcionada de produtos, adequada a cada consumidor ou grupos de consumidores. Essas informações resultam em ações de marketing direcionadas, com muito mais chance de chamar a atenção e engajar o público-alvo. Porém, a ideia não é nova; faz anos que os profissionais observam o comportamento de compra dos clientes, de forma a perceber que existem produtos que são comumente comprados em conjunto, por exemplo, como bebidas e aperitivos, massa e queijo ralado. Ciente disso, o estabelecimento reposiciona os produtos, colocando os dois itens um ao lado do outro. Trata-se de uma ação simples, mas que é capaz de gerar grande impacto nas vendas.
SANTOS, M. S. Aplicações de data mining. Porto Alegre: SAGAH, 2021.
Em um dia de trabalho, Gustavo foi questionado por um estagiário recém-contratado sobre qual a importância do conhecimento gerado por meio de data mining para gerar ações de marketing direcionadas. Assim, tendo em vista o que o Gustavo pode ter respondido ao estagiário, avalie as asserções a seguir e a relação proposta entre elas.
I. Gustavo informou ao estagiário que quanto maior o volume de dados, melhor é o resultado da inferência, pois possibilita uma melhor análise dos dados e posterior criação de ações de marketing direcionadas.
PORQUE
II. A mineração de dados facilita esse tipo de inferência, identificando associações de produtos, datas e horários para definir o leiaute de prateleiras e de corredores nos estabelecimentos.
A respeito dessas asserções, assinale a opção correta.
A)
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
B)
As asserções I e II são proposições falsas.
C)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
D)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
E)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
Mineração de Dados
Questão 13 - (Enade, 2008) ) - 0,67 ponto(s)
A figura acima mostra uma árvore de decisão construída por um algoritmo de aprendizado indutivo a partir de um conjunto de dados em que os objetos são descritos por 4 atributos: X1,X2, X3 e X4. Dado um objeto de classe desconhecida, essa árvore classifica o objeto na classe 1 ou na classe 2. A tabela a seguir apresenta três objetos a serem classificados: O1, O2 e O3.
A que classes corresponderiam, respectivamente, os objetos O1, O2 e O3?
A)
1, 2 e 1
B)
1, 1 e 1
C)
1, 1 e 2
D)
2, 1 e 2
E)
2, 2 e 1
Mineração de Dados
Questão 14 - (Enade, 2017) ) - 0,67 ponto(s)
Uma empresa da indústria farmacêutica está implantando um datawarehouse que servirá de base para geração de suas informações gerenciais. Durante o processo de análise, descobre-se que dois sistemas transacionais adquiridos de empresas diferentes armazenam dados cadastrais de forma diversa: o primeiro utiliza "m" e "f" para representar os sexos masculino e feminino, respectivamente. Já o segundo sistema representa os mesmos sexos como "1" e "2" respectivamente. Além disso, outros sistemas transacionais da própria empresa alimentam-se de dados desses sistemas.
Sabendo que os dados de ambos sistemas transacionais alimentarão o datawarehouse que está sendo implantado na referida empresa, avalie as afirmações a seguir.
I. A empresa deve definir um padrão e utilizar uma solução de ETL (Extract, Transform and Load) para adequar os dados de entrada para o datawarehouse ao padrão definido.
II. A empresa deve armazenar, na tabela de fatos do datawarehouse, a sigla do sistema de origem para saber interpretar os dados.
III. A empresa deve solicitar aos fornecedores dos aplicativos que a representação de seus dados ocorra de forma padronizada.
É correto o que se afirma em
A)
II, apenas.
B)
I, apenas.
C)
II e III, apenas.
D)
I, II e III.
E)
I e III, apenas.
Mineração de Dados
Questão 15) - 0,67 ponto(s)
Um dos grandes desafios para se classificarem dados é a quantidade de classes que se fazem necessárias para uma boa classificação dos dados existentes, seja para treinamento, seja para teste de um modelo de aprendizado criado. Indique o(s) item(ns) que apresenta(m) decisão(ões) de parada que pode(m) ser utilizada(s) para limitar o particionamento em uma Árvore de Decisão.
I. Quando não existirem mais atributos para particionamento.
II. Quando não existirem mais amostras no conjunto de treinamento.
III. Quando todas as amostras de um nó pertencerem a diferentes classes.
O(s) item(ns) é (são)
A)
II e III, apenas.
B)
II, apenas.
C)
I e II, apenas.
D)
I, apenas.
E)
I e III, apenas.