Mineração de Dados AV1 3

Ciência de Dados

•

UNAMA

Tecnologia da Informação

20/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Mineração de Dados AV1 
Conteúdo do exercício 
1. Pergunta 1 
0,5/0,5 
Leia o trecho a seguir: 
“Aqui o que é feito é dividir o domínio de uma variável numérica em intervalos. Alguns autores 
consideram o processo de discretização como pertencente ao processo de redução dos valores das 
variáveis.”GOLDSCHMIDT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emmanuel. Data Mining: Conceitos, 
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015. p. 56. 
Com base no trecho acima e no conteúdo estudado sobre a discretização de dados, pode-se afirmar 
que: 
Ocultar opções de resposta 
1. deletam valores inferiores ao suporte mínimo. 
2. geram gráficos e analisam visualmente os dados. 
3. Correta: 
criam intervalos de dados para simplificar a leitura. 
Resposta correta 
4. arredondam números decimais para facilitar a leitura. 
5. criam conjuntos de confiança para melhorar a compreensão. 
2. Pergunta 2 
0/0,5 
Leia o trecho a seguir: 
“Esta operação consiste em ajustar a escala dos valores de cada atributo de forma que estes sejam 
mapeados para valores restritos a intervalos pequenos. Tais como -1 a 1, ou de 0 até 
1.”GOLDSCHMIDT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emmanuel. Data Mining: Conceitos, técnicas, 
algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015. p. 61. 
Com base no trecho acima e no conteúdo estudado sobre a normalização de dados, pode-se afirmar 
que: 
Ocultar opções de resposta 
1. Incorreta: 
a normalização pela soma faz o somatório de todos os dados e depois divide pelas linhas. 
2. os valores da normalização linear começam sempre no zero e podem superar o valor de 1. 
3. a normalização linear subtrai o valor pelo mínimo e divide pela diferença de máximo e 
mínimo. 
Resposta correta 
4. a normalização deleta os valores aberrantes, nulos e ruidosos, tornando-os homogêneos. 
5. a normalização reduz os dados em intervalos por faixa etária ou classe social, por exemplo. 
3. Pergunta 3 
0/0,5 
Leia o trecho a seguir: 
“Também é possível criar triggers (gatilhos) com mais de um procedimento. Para isso primeiro precisa 
definir um delimiter, ou seja, um sinal para delimitar qual será o fim de uma instrução, e que não seja o 
ponto e vírgula.”SALVADOR, Fabio. Programando em PHP, integração com MYSQL. São Paulo: Viena, 
2012. p. 229. 
Com base no trecho acima e no conteúdo estudado, a respeito de funções no MySQL, pode-se dizer que: 
I. São criadas na mesma query no MySQL. 
II. Colocam os intervalos em novos nomes se necessário. 
III. Automatizam processos. 
IV. Utilizam a sintaxe start e end. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. Incorreta: 
I e II. 
2. I e IV. 
3. II e IV. 
4. II e III. 
Resposta correta 
5. III e IV. 
4. Pergunta 4 
0,5/0,5 
Leia o trecho a seguir: 
“A integração busca padronizar formatos e convenções de nomes, além da retirada de inconsistências. 
Um Armazém de Dados contém dados históricos, que variam com o tempo (geralmente por um 
período de vários anos). Tais dados são ordenados, na maioria das vezes, de maneira a facilitar sua 
análise por um usuário especializado.”PROCACI, Alexandre. Geração de regras de associação 
quantitativas com intervalos não contínuos. Minas Gerais: IC, 2004. p. 17. 
Com base no trecho acima e no conteúdo estudado, pode-se dizer que, antes de fazer a união de dois 
bancos de dados, deve-se: 
Ocultar opções de resposta 
1. Correta: 
Unir duas tabelas, usando o select inner join em um dado que se repete nas duas tabelas. 
Resposta correta 
2. Priorizar sobrecarga, pois, quanto mais dados, melhor. 
3. Unir tabelas de épocas diferentes para ter mais certezas acerca de junções de dados. 
4. Priorizar medidas diferentes a fim de evitar redundância. 
5. Mesclar duas tabelas no MySQL utilizando o comando intersection. 
5. Pergunta 5Crédito total dado 
0,5/0,5 
Leia o trecho a seguir: 
“Existem dois problemas principais associados à discretização de atributos quantitativos. Primeiro, se 
o número de intervalos for muito grande, consequentemente, a freqüência destes intervalos será 
baixa.”PROCACI, Alexandre. Geração de regras de associação quantitativas com intervalos não 
contínuos. Minas Gerais: IC, 2004. p. 3. 
Com base no trecho acima e no conteúdo estudado, sobre a função delete from vendas where nome= 
'blusa' and preco_produto > 2000; pode-se dizer que: 
I. vendas é o nome do database, deve-se ser criado e usado no início. 
II. preco_produto é o nome da coluna. 
III. quando nome = 'blusa' e preco_produto for maior que 2000, as ocorrências que satisfaçam essa 
condição serão deletadas. 
IV. o operador and (e) é mais liberal que o operador or (ou). 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. I e IV. 
2. III e IV. 
3. I e II. 
4. II e IV. 
5. Correta: 
II e III. 
Resposta correta 
6. Pergunta 6 
0,5/0,5 
Leia o trecho a seguir: 
“O algoritmo para geração de itemsets freqüentes segue os mesmos passos do Apriori tradicional, 
apresentando apenas algumas pequenas modificações. A principal delas está na geração do conjunto 
itens freqüentes. Pois, além de encontrar o suporte de cada intervalo dos atributos quantitativos e de 
cada valor dos atributos categóricos, para os atributos quantitativos, são contados também, os 
suportes de todas as combinações possíveis de intervalos adjacentes, desde que o suporte destas 
combinações não ultrapasse o suporte máximo determinado pelo usuário.”PROCACI, Alexandre 
Geração de regras de associação quantitativas com intervalos não contínuos. Minas Gerais: IC, 2004. p. 
30. 
Com base no trecho acima e no conteúdo estudado, ordene as etapas que são necessárias seguir para 
filtrar por Apriori no Weka: 
( ) Abrir o arquivo. 
( ) Clicar em exportar. 
( ) Criar um arquivo .arff. 
( ) Clicar em Start. 
( ) Clicar em associate. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 5, 2, 1, 4, 5. 
2. 2, 5, 1, 4, 3. 
3. 5, 2, 3, 1, 4. 
4. 1, 3, 2, 5, 4. 
5. Correta: 
3, 1, 2, 5, 4. 
Resposta correta 
7. Pergunta 7 
0,5/0,5 
Leia o trecho abaixo: 
“Na grande maioria das situações, devido ao grande volume de dados, esse processo manual torna-se 
impraticável. Ainda segundo Fayyad, o KDD (Knowledge Discovery in Databases ou Descoberta de 
Conhecimento nas Bases de Dados) é uma tentativa de solucionar o problema causado pela chamada 
"era da informação": a sobrecarga de dados.”Fonte: CAMILO, Oliveira; SILVA, João. Mineração de 
dados: Conceitos, tarefas, métodos e ferramentas. Goiás: UFG, 2009. P. 4. 
Com base no texto acima e no conteúdo da disciplina, sobre as etapas do processo KDD, pode-se dizer 
que: 
Ocultar opções de resposta 
1. A clusterização é feita na fase de enriquecimento. 
2. Correta: 
O enriquecimento é feito após a limpeza de dados. 
Resposta correta 
3. As seleções são feitas na etapa de pós processamento. 
4. Análises como KNN são feitas na primeira etapa. 
5. A mineração é feita antes da etapa de enriquecimento. 
8. Pergunta 8 
0,5/0,5 
Leia o trecho abaixo: 
“Decidida a encontrar uma solução que pusesse fim a essa situação, a Inmetrics se propôs a avaliar a 
opção de operar o dashboard em um ambiente de num. Depois de realizar alguns testes com 
provedores de serviços em nuvem, concluiu que poderia ser uma alternativa bastante 
adequada.”Fonte: PRADO, Edmir; ALEXANDRE, Cesar. Fundamentos de sistemas de informação. 
Campos, 2014. Ebook. 
Com base no texto acima e no conteúdo sobre Dashboards, pode-se dizer que: 
Ocultar opções de resposta 
1. Para fazer dashboard é necessário clicar na guia Página Inicial e inserir gráfico. 
2. Dashboards são criados a partir de KNN, cluster e Regressão. 
3. Primeiro cria-se o dashboard, depois é possível criar a tabela. 
4. Correta: 
Dashboards são gráficos montados em cima de dados atuais e dinâmicos. 
Resposta correta 
5. A grande vantagem de colocar dashboard na nuvem é que vira tabela. 
9. Pergunta 9 
0,5/0,5 
Leia o trecho a seguir: 
“Em particular,a utilização do computador como ferramenta educacional é um tema relevante e atual, 
e tem sido objeto de pesquisa multidisciplinar. As primeiras aplicações em EDM se concentravam em 
construção de modelos voltados à predição do desempenho dos estudantes com bases nos históricos 
anteriores.”Fonte: GOLDSHIMDIT, Ronaldo. BEZERRA, Eduardo. PASSOS, Emannuel. Data Mining: 
Conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever, 2015. P.235. 
Com base no texto acima e com relação ao EDM, pode-se dizer que: 
Ocultar opções de resposta 
1. Tabelas feitas com a função EDM são mais claras e têm menos dados. 
2. Correta: 
Analisar computadores faz parte de mineração em Escolas. 
Resposta correta 
3. EDM serve para a área da saúde, educação e comércio. 
4. A mineração de seguros faz parte da EDM, a fim de gerir dados. 
5. Relatórios de leis políticas subsidiam a criação de EDM. 
10. Pergunta 10 
0,5/0,5 
Leia o trecho a seguir: 
“Suporte (support) e confiança (confidence) são duas medidas de “interessabilidade” 
(interestingness), que refletem respectivamente a utilidade e confiabilidade da regra descoberta. Um 
suporte de 2% para uma regra de associação significa que 2% de todas as transações sob análise 
mostram que computadores e antivírus são comprados juntos.”SARAJANE, M.; LIMA, Clodoaldo. Regras 
de Associação. USP, 2015. p. 5. 
Com base no trecho acima e no conteúdo estudado, sobre o cálculo de suporte, pode-se dizer que: 
Ocultar opções de resposta 
1. Divide o valor maior pelo valor máximo e subtrai a média. 
2. Correta: 
Calcula repetições de vendas de um produto ou conjunto. 
Resposta correta 
3. É feito de forma automática pelo algoritmo Partition. 
4. Seu valor mínimo é 0.4, e analisa frequência de repetições. 
5. É feito para averiguar a condição Se um produto Então outro.