Buscar

AO2 - Mineração de Dados - Fam Online

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

AO2
Entrega 16 jun em 23:59 Pontos 6 Perguntas 10
Disponível 7 jun em 0:00 - 16 jun em 23:59 10 dias Limite de tempo Nenhum
Instruções
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 746 minutos 3,6 de 6
 As respostas corretas estão ocultas.
Pontuação deste teste: 3,6 de 6
Enviado 16 jun em 9:56
Esta tentativa levou 746 minutos.
Importante:
Caso você esteja realizando a atividade através do aplicativo "Canvas Student", é necessário que
você clique em "FAZER O QUESTIONÁRIO", no final da página.
0 / 0,6 ptsPergunta 1IncorretaIncorreta
Leia o texto a seguir:
 
“Uma árvore de decisão é uma estrutura em forma de árvore na qual
cada nó interno corresponde a um teste de um atributo, cada ramo
representa um resultado do teste e os nós folhas representam classes
ou distribuições de classes. O nó mais elevado da árvore é conhecido
como nó raiz, e cada caminho da raiz até um nó folha corresponde a
uma regra de classificação.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de
dados: conceitos básicos, algoritmos e aplicações. São Paulo:
Saraiva, 2016. p. 170.
https://famonline.instructure.com/courses/12584/quizzes/42507/history?version=1
 
Qual alternativa descreve, corretamente, uma característica da árvore
de decisão.
 
Uma árvore de decisão particionará um conjunto em duas partições por
nível, produzindo uma árvore binária.
 
A escolha do atributo que dividirá o conjunto de dados é feita a partir de
medidas de pureza.
 
O algoritmo que induz uma árvore de decisão produzirá o mesmo
resultado a partir do mesmo conjunto de dados.
 
A divisão das partições na árvore de decisão deve ser realizada até
que haja nós folha unitários.
A alternativa está incorreta.
O atributo escolhido para a divisão de um conjunto de dados é
aquele que produz partições mais puras e essa verificação é feita
a partir de medidas de impureza. O objetivo principal das divisões
é obter partições mais homogêneas possíveis. A divisão das
partições segue até que haja homogeneidade nela. Os algoritmos
para árvores de decisão não são determinísticos, ou seja, podem
produzir árvores diferentes a partir do mesmo conjunto de dados.
O número de partições em cada divisão pode variar, não sendo
obrigatória a divisão binária.
 
O objetivo principal para cada divisão feita na árvore de decisão é a
obtenção partições heterogêneas.
0,6 / 0,6 ptsPergunta 2
Avalie o diagrama a seguir:
 
 
Fonte: JANOS, M. 3 Dimensões Inteligência Artificial nas
Empresas, 2020. Disponível em:
 https://www.3dimensoes.com.br/post/overfitting-e-underfitting. Acesso
em: 07 out. 2020.
 
Sobre a tarefa de regressão linear, o diagrama descreve exemplos de
funções aprendidas a partir da análise de dados. Nesse contexto,
selecione a alternativa correta, dentre as disponíveis abaixo, sobre o
ajustamento de funções lineares aos dados. 
 
Overfitting é o nome que se dá quando há muitas variáveis
independentes no conjunto de dados.
 
Superfitting é o nome que se dá quando há muito ajuste dos dados
pela curva da função aprendida.
 
Underfitting é o nome que se dá quando há pouco ajuste dos dados
pela curva da função aprendida.
A alternativa é correta, pois denominamos de underfitting o
fenômeno de pouco ajuste dos dados preditivos pela função
aprendida.
 
Subfitting é o nome que se dá quando há poucas variáveis
independentes no conjunto de dados.
 
Interfitting é o nome que se dá quando há uma correlação forte entre os
valores das variáveis independentes e as dependentes.
0,6 / 0,6 ptsPergunta 3
Leia o texto a seguir:
 
“A análise de grupos pode ser aplicada em diversas áreas do
conhecimento, por exemplo, na medicina, para a identificação de
categorias de diagnósticos, pacientes e remédios; na biologia, para
propor uma taxonomia de animais e plantas; na agricultura, para
categorizar plantas, solos e frutos em diferentes tipos; [...] e muitas
outras.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de
dados: conceitos básicos, algoritmos e aplicações. São Paulo:
Saraiva, 2016. p. 89.
Avalie as seguintes asserções e a relação proposta entre elas.
 
I. Na classificação, os objetos considerados são identificados,
previamente, com seus respectivos rótulos que definem sua
pertinência à classe.
 
PORQUE
 
II. No agrupamento, o problema consiste em segmentar uma base de
dados não rotulada em grupos que tenham algum significado ou
utilidade prática.
 
A respeito dessas asserções, assinale a opção correta:
 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma
justificativa da I.
Alternativa está correta, pois as asserções I e II são proposições
verdadeiras, mas a II não é uma justificativa da I.
A asserção I é verdadeira, pois descreve corretamente o objetivo
da tarefa de classificação e o tipo de dado utilizado nela, ou seja,
os dados rotulados. A asserção II é verdadeira, pois descreve
corretamente o objetivo da tarefa de agrupamento e o tipo de
dado utilizado nela, ou seja, os dados não rotulados. A asserção II
não é uma justificativa da asserção I, pois descrevem tarefas
distintas.
 
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa da I.
 
A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
 As asserções I e II são ambas proposições falsas. 
 
A asserção I é uma proposição verdadeira, e a II é uma proposição
falsa.
0,6 / 0,6 ptsPergunta 4
Avalie a representação a seguir sobre o processo KDD:
 
 
Fonte: SABRI, I. A. A. et al. Web Data Extraction Approach for Deep
Web using WEIDJ.
Procedia Computer Science, v. 163, p. 417-426, 2019.
Sobre as etapas do processo KDD, selecione a alternativa correta
dentre as disponíveis a seguir. 
 
A quarta etapa do KDD é a mineração dos dados cujo objetivo é a
classificação dos dados em partições homogêneas de modo a
possibilitar a extração de regras e padrões úteis para a obtenção de
conhecimento.
 
A segunda etapa do KDD realiza a seleção dos dados que serão
analisados, a partir de diferentes fontes de dados, essa etapa resulta
em um conjunto de dados que delimita o contexto a ser analisado.
 
A quinta etapa é a interpretação dos padrões minerados, dependendo
dos resultados observados, é possível realizar alguma outra tarefa
sobre esses resultados, de modo que haja uma melhora do modelo.
 
A terceira etapa do KDD se refere à transformação dos dados e a
busca pelos atributos que serão importantes para o objetivo, podendo
reduzir o número de variáveis que serão consideradas no processo.
A alternativa está correta pois, a terceira etapa do KDD cuida da
transformação dos dados de modo que sua estrutura e
organização sejam adequadas para a tarefa de mineração
correspondente, além disso há a busca por atributos relevantes
que contribuirão com os resultados pretendidos.
 
A primeira etapa do KDD realiza operações para a diminuição de ruído
nos dados e, também, são definidas as estratégias a respeito de como
tratar a ausência de determinados valores.
0,6 / 0,6 ptsPergunta 5
Leia o texto a seguir:
 
“O pré-processamento, também conhecido como preparação da base
de dados, manipula e transforma os dados brutos de maneira que o
conhecimento neles contido possa ser mais fácil e corretamente
obtido. A melhor maneira de se pré-processar os dados depende de
três fatores centrais: os problemas existentes na base, quais respostas
pretende-se obter e como funcionam as técnicas de mineração.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de
dados:
 conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva,
2016. p. 34.
 
Qual alternativa descreve corretamente as principais tarefas de pré-
processamento?
 
A limpeza cuida da diminuição da base de dados. A integração cuida
da padronização do formato dos dados. A redução cuida da união de
múltiplas fontes de dados. A transformação cuida de permitir que
métodos que trabalham apenas com atributos nominais possam ser
empregados. A discretização cuida da atribuição de valores ausentes,da remoção de ruídos e de corrigir inconsistências.
 
A limpeza cuida de permitir que métodos que trabalham apenas com
atributos nominais possam ser empregados. A integração cuida da
diminuição da base de dados. A redução cuida da união de múltiplas
fontes de dados. A transformação cuida da padronização do formato
dos dados. A discretização cuida da atribuição de valores ausentes, da
remoção de ruídos e de corrigir inconsistências.
 
A limpeza cuida da padronização do formato dos dados. A integração
cuida da diminuição da base de dados. A redução cuida da união de
múltiplas fontes de dados. A transformação cuida de permitir que
métodos que trabalham apenas com atributos nominais possam ser
empregados. A discretização cuida da atribuição de valores ausentes,
da remoção de ruídos e de corrigir inconsistências.
 
A limpeza cuida de permitir que métodos que trabalham apenas com
atributos nominais possam ser empregados. A integração cuida da
união de múltiplas fontes de dados. A redução cuida da diminuição da
base de dados. A transformação cuida da padronização do formato dos
dados. A discretização cuida da atribuição de valores ausentes, da
remoção de ruídos e de corrigir inconsistências.
 
A limpeza cuida da atribuição de valores ausentes, da remoção de
ruídos e de corrigir inconsistências. A integração cuida da união de
múltiplas fontes de dados. A redução cuida da diminuição da base de
dados. A transformação cuida da padronização do formato dos dados.
A discretização cuida de permitir que métodos que trabalham apenas
com atributos nominais possam ser empregados.
Sua resposta está correta.
A limpeza cuida da atribuição de valores ausentes, da remoção
de ruídos e de corrigir inconsistências. A integração cuida da
união de múltiplas fontes de dados. A redução cuida da
diminuição da base de dados. A transformação cuida da
padronização do formato dos dados. A discretização cuida de
permitir que métodos que trabalham apenas com atributos
nominais possam ser empregados.
0 / 0,6 ptsPergunta 6IncorretaIncorreta
Leia o texto a seguir:
 
“O algoritmo k-médias toma como entrada o parâmetro k,
correspondente ao número de grupos desejados, e particiona o
conjunto de n objetos em k grupos, de forma que a similaridade
intragrupo seja alta e a similaridade intergrupo seja baixa. A
similaridade intragrupo é avaliada considerando o valor médio dos
objetos em um grupo, que pode ser visto como o seu centro de
gravidade ou centroide.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de
dados: conceitos básicos, algoritmos e aplicações. São Paulo:
Saraiva, 2016. p. 116.
 
Considere as seguintes descrições a respeito da tarefa de
agrupamento, mais especificamente ao algoritmo k-médias.
 
I. A detecção de agrupamentos é uma tarefa de aprendizado
preditiva também conhecida como clustering. Nesse caso, as
técnicas utilizadas são, comumente, relativas ao aprendizado
supervisionado, ou seja, o conjunto de dados não possui rótulos e
o aprendizado usa apenas os atributos preditivos;
II. Os algoritmos para tarefas preditivas produzem modelos a partir de
um processo de treinamento que utiliza todo o conjunto de dados
disponível. O objetivo é organizar os dados rotulados em grupos de
acordo com uma medida de similaridade ou correlação;
III. Um grupo é um conjunto de objetos similares (homogêneos) e os
objetos que pertencem a grupos diferentes são não similares
(heterogêneos). O principal objetivo do agrupamento é maximizar a
homogeneidade interna nos grupos e a heterogeneidade entre os
grupos.
IV. Dependendo do atributo selecionado, poderemos ter diferentes
grupos. Nesse contexto, a detecção de agrupamentos poderá resultar
em diferentes quantidades de grupos e em composições, também
diferentes, para cada grupo obtido.
 
É correto apenas o que se afirma em: 
 I e II, apenas. 
 III e IV, apenas. 
 I e III, apenas. 
A alternativa está incorreta, pois apenas as afirmações III e IV são
verdadeiras.
A afirmação III é verdadeira, pois objetiva-se grupos homogêneos
internamente e que entre os grupos haja heterogeneidade.
A afirmação IV é verdadeira, pois os atributos selecionados
impactam tanto na quantidade quanto na composição dos grupos.
A afirmação I é verdadeira, pois a tarefa de detecção de
agrupamentos é uma tarefa descritiva relativa ao aprendizado não
supervisionado.
A afirmação II é verdadeira, pois se trata de uma tarefa descritiva
e o objetivo é organizar os dados não rotulados.
 II e III, apenas. 
 I e IV, apenas. 
0 / 0,6 ptsPergunta 7IncorretaIncorreta
Leia o texto a seguir:
 
“O valor de um atributo de um dado objeto é uma medida da
quantidade daquele atributo, a qual pode ser numérica ou categórica.
Os atributos numéricos podem assumir quaisquer valores numéricos
[...] ao passo que as quantidades categóricas assumem valores
correspondentes a símbolos distintos.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de
dados: conceitos básicos, algoritmos e aplicações. São Paulo:
Saraiva, 2016. p. 30.
 
Avalie as seguintes asserções e a relação proposta entre elas.
 
I. Os atributos numéricos discretos têm seus valores obtidos a partir de
processos de medição e os atributos contínuos têm seus valores
obtidos a partir de processos de contagem.
 
PORQUE
 
II. Os valores numéricos discretos pertencem ao conjunto dos números
naturais e os valores numéricos contínuos pertencem ao conjunto dos
números reais.
 
A respeito dessas asserções, assinale a opção correta:
 
A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
 
As asserções I e II são proposições verdadeiras, mas a II não é uma
justificativa da I.
 
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa da I.
 
A asserção I é uma proposição verdadeira, e a II é uma proposição
falsa.
 As asserções I e II são ambas proposições falsas. 
A alternativa está incorreta.
A asserção I é falsa pois os atributos numéricos discretos têm
seus valores obtidos a partir de processos de contagem e os
atributos contínuos têm seus valores obtidos a partir de processos
de medição.
A asserção II é verdadeira, pois os valores numéricos discretos
são aqueles derivados de contagens, portanto pertencem ao
conjunto dos números naturais e os valores numéricos contínuos
são aqueles derivados de medições, portanto pertencem ao
conjunto dos números reais.
0 / 0,6 ptsPergunta 8IncorretaIncorreta
Leia o texto a seguir:
 
“Essas funções são baseadas em critérios que avaliam o quão bom
cada atributo é no papel de dividir o conjunto de dados, considerando
a distribuição de classes presentes no conjunto. [...] O índice Gini usa
um critério baseado em impureza para analisar as diferenças entre as
distribuições de probabilidade dos valores dos atributos de classe.”
 
Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à
Mineração de Dados Com aplicações em R. Rio de Janeiro:
Elsevier, 2016. p. 104.
 
Avalie as seguintes asserções e a relação proposta entre elas.
 
I. A escolha de um atributo para dividir um conjunto de dados pode ser
feita com a utilização do índice Gini, quanto menor for o valor
calculado mais puras serão as partições;
 
PORQUE
 
II. O índice Gini calcula a proporção de classes diferentes em uma
partição e quanto maior for a heterogeneidade da partição, tanto maior
será o valor do índice.
 
A respeito dessas asserções, assinale a opção correta:
 
As asserções I e II são proposições verdadeiras, mas a II não é uma
justificativa da I.
Alternativa está incorreta, pois as asserções I e II são proposições
verdadeiras, e a II é uma justificativa da I.
A asserção I é verdadeira, pois descreve corretamente a
aplicação e a interpretação do índice Gini. A asserção II é
verdadeira, pois descreve corretamente o processo de cálculo do
índice. A asserção II é uma justificativa da asserção I, pois a
escolha é feita como descrito na asserção I e o motivo da escolha
é justificado na asserção II.
 
A asserção I é uma proposição falsa, e a II éuma proposição
verdadeira.
 As asserções I e II são ambas proposições falsas. 
 
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa da I.
 
A asserção I é uma proposição verdadeira, e a II é uma proposição
falsa.
0,6 / 0,6 ptsPergunta 9
Leia o texto a seguir:
 
“As funcionalidades da mineração de dados são usadas para
especificar os tipos de informações a serem obtidas nas tarefas de
mineração. [...] Em muitos casos, o usuário não tem ideia do tipo de
conhecimento contido nos dados ou como usá-lo para gerar modelos
preditivos, [...]”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de
dados: conceitos básicos, algoritmos e aplicações. São Paulo:
Saraiva, 2016. p. 7.
 
Considere as seguintes descrições a respeito das tarefas de
Mineração de Dados:
 
I. A análise descritiva tem por objetivo medir, explorar e descrever
características intrínsecas aos dados.
II. A predição tem por objetivo produzir modelos para avaliar a classe
ou valor de um objeto rotulado.
III. A análise de grupos tem por objetivo separar um conjunto de
objetos em grupos, a partir da aprendizagem supervisionada.
IV. A associação tem por objetivo encontrar relações entre os atributos
em uma base de dados transacional.
 
É correto o que se afirma apenas em: 
 II e III, apenas. 
 I e III, apenas. 
 I e II, apenas. 
 I e IV, apenas. 
A alternativa é correta, pois apenas as afirmações I e IV são
verdadeiras.
A afirmação I é verdadeira, pois a análise descritiva tem por
objetivo sumarizar as principais características dos dados,
utilizando medidas específicas e técnicas descritivas.
A afirmação IV é verdadeira, pois o objetivo da tarefa de
associação é encontrar padrões entre os itens presentes em uma
base de dados transacional.
A afirmação II é falsa, pois a tarefa de predição tem por objetivo
produzir modelos para predizer a classe ou valor de um objeto
que não se conhece o rótulo, portanto não rotulado.
A afirmação III é falsa, pois o objeto da análise de grupos é, de
fato, o particionamento de um conjunto de objetos em grupos, no
entanto a técnica considerada é denominada a aprendizagem não
supervisionada. 
 III e IV, apenas. 
0,6 / 0,6 ptsPergunta 10
Considere a seguinte distribuição conjunta de probabilidade:
 
 
Fonte: LORENA, A. C., FARIA, F. A. Representação do
Conhecimento – Lidando com incerteza. Notas de aula. UNIFESP
(São Paulo), 2015.
 
Avalie as seguintes afirmações a respeito da distribuição de
probabilidade anterior.
 
I. P(cárie) = 0,25;
II. P(cárie ˅ dor de dente) = 0,28;
III. P(cárie | dor de dente) = 0,60;
IV. P(extração) = 0,4.
 
É correto o que se afirma apenas em: 
 II e IV, apenas. 
 II e III, apenas. 
Alternativa está correta, pois apenas as afirmações II e III são
verdadeiras.
A afirmativa I está incorreta, pois P(cárie) = 0.107 + 0.013 + 0.062
+ 0.018 = 0.20.
A afirmativa II está correta pois P(cárie ˅ dor de dente) = 0.107 +
0.013 + 0.062 + 0.018 + 0.014 + 0.066 = 0.28.
A afirmativa II está correta pois P(cárie | dor de dente) = (0.107 +
0.013)/(0.107 + 0.013 + 0.014 + 0.066) = 0.60.
A afirmação IV está incorreta pois P(extração) = 0.107 + 0.014 +
0.062 + 0.145 = 0.328.
 I e III, apenas. 
 III e IV, apenas. 
 I e II, apenas. 
Pontuação do teste: 3,6 de 6

Outros materiais