Buscar

AO2_ Mineração de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

AO2
Entrega 7 dez em 23:59 Pontos 6 Perguntas 10
Disponível 28 nov em 0:00 - 7 dez em 23:59 Limite de tempo Nenhum
Instruções
Este teste foi travado 7 dez em 23:59.
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 188 minutos 5,4 de 6
Pontuação deste teste: 5,4 de 6
Enviado 3 dez em 20:07
Esta tentativa levou 188 minutos.
Importante:
Caso você esteja realizando a atividade através do aplicativo "Canvas Student", é necessário que você clique em
"FAZER O QUESTIONÁRIO", no final da página.
0,6 / 0,6 ptsPergunta 1
Considere a seguinte distribuição conjunta de probabilidade:
 
 
Fonte: LORENA, A. C., FARIA, F. A. Representação do Conhecimento –
Lidando com incerteza. Notas de aula. UNIFESP (São Paulo), 2015.
 
Avalie as seguintes afirmações a respeito da distribuição de probabilidade
anterior.
 
https://famonline.instructure.com/courses/31415/quizzes/156277/history?version=1
I. P(cárie) = 0,25;
II. P(cárie ˅ dor de dente) = 0,28;
III. P(cárie | dor de dente) = 0,60;
IV. P(extração) = 0,4.
 
É correto o que se afirma apenas em: 
 III e IV, apenas. 
 I e II, apenas. 
 II e IV, apenas. 
 I e III, apenas. 
 II e III, apenas. Correto!Correto!
Alternativa está correta, pois apenas as afirmações II e III são verdadeiras.
A afirmativa I está incorreta, pois P(cárie) = 0.107 + 0.013 + 0.062 + 0.018 =
0.20.
A afirmativa II está correta pois P(cárie ˅ dor de dente) = 0.107 + 0.013 +
0.062 + 0.018 + 0.014 + 0.066 = 0.28.
A afirmativa II está correta pois P(cárie | dor de dente) = (0.107 +
0.013)/(0.107 + 0.013 + 0.014 + 0.066) = 0.60.
A afirmação IV está incorreta pois P(extração) = 0.107 + 0.014 + 0.062 + 0.145
= 0.328.
0,6 / 0,6 ptsPergunta 2
Leia o texto a seguir:
 
“As funcionalidades da mineração de dados são usadas para especificar os tipos
de informações a serem obtidas nas tarefas de mineração. [...] Em muitos casos,
o usuário não tem ideia do tipo de conhecimento contido nos dados ou como usá-
lo para gerar modelos preditivos, [...]”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 7.
 
Considere as seguintes descrições a respeito das tarefas de Mineração de Dados:
 
I. A análise descritiva tem por objetivo medir, explorar e descrever
características intrínsecas aos dados.
II. A predição tem por objetivo produzir modelos para avaliar a classe ou valor de
um objeto rotulado.
III. A análise de grupos tem por objetivo separar um conjunto de objetos em
grupos, a partir da aprendizagem supervisionada.
IV. A associação tem por objetivo encontrar relações entre os atributos em uma
base de dados transacional.
 
É correto o que se afirma apenas em: 
 I e III, apenas. 
 II e III, apenas. 
 I e IV, apenas. Correto!Correto!
A alternativa é correta, pois apenas as afirmações I e IV são verdadeiras.
A afirmação I é verdadeira, pois a análise descritiva tem por objetivo sumarizar
as principais características dos dados, utilizando medidas específicas e
técnicas descritivas.
A afirmação IV é verdadeira, pois o objetivo da tarefa de associação é
encontrar padrões entre os itens presentes em uma base de dados
transacional.
A afirmação II é falsa, pois a tarefa de predição tem por objetivo produzir
modelos para predizer a classe ou valor de um objeto que não se conhece o
rótulo, portanto não rotulado.
A afirmação III é falsa, pois o objeto da análise de grupos é, de fato, o
particionamento de um conjunto de objetos em grupos, no entanto a técnica
considerada é denominada a aprendizagem não supervisionada. 
 III e IV, apenas. 
 I e II, apenas. 
0,6 / 0,6 ptsPergunta 3
Avalie a representação a seguir sobre o processo KDD:
 
 
Fonte: SABRI, I. A. A. et al. Web Data Extraction Approach for Deep Web using
WEIDJ.
Procedia Computer Science, v. 163, p. 417-426, 2019.
Sobre as etapas do processo KDD, selecione a alternativa correta dentre as
disponíveis a seguir. 
 
A primeira etapa do KDD realiza operações para a diminuição de ruído nos dados e,
também, são definidas as estratégias a respeito de como tratar a ausência de
determinados valores.
 
A quinta etapa é a interpretação dos padrões minerados, dependendo dos
resultados observados, é possível realizar alguma outra tarefa sobre esses
resultados, de modo que haja uma melhora do modelo.
 
A terceira etapa do KDD se refere à transformação dos dados e a busca pelos
atributos que serão importantes para o objetivo, podendo reduzir o número de
variáveis que serão consideradas no processo.
Correto!Correto!
A alternativa está correta pois, a terceira etapa do KDD cuida da 
transformação dos dados de modo que sua estrutura e organização sejam 
adequadas para a tarefa de mineração correspondente, além disso há a busca 
por atributos relevantes que contribuirão com os resultados pretendidos.
 
A segunda etapa do KDD realiza a seleção dos dados que serão analisados, a partir
de diferentes fontes de dados, essa etapa resulta em um conjunto de dados que
delimita o contexto a ser analisado.
 
A quarta etapa do KDD é a mineração dos dados cujo objetivo é a classificação dos
dados em partições homogêneas de modo a possibilitar a extração de regras e
padrões úteis para a obtenção de conhecimento.
0,6 / 0,6 ptsPergunta 4
Leia o texto a seguir:
 
“A análise de grupos pode ser aplicada em diversas áreas do conhecimento, por
exemplo, na medicina, para a identificação de categorias de diagnósticos,
pacientes e remédios; na biologia, para propor uma taxonomia de animais e
plantas; na agricultura, para categorizar plantas, solos e frutos em diferentes
tipos; [...] e muitas outras.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 89.
Avalie as seguintes asserções e a relação proposta entre elas.
 
I. Na classificação, os objetos considerados são identificados, previamente, com
seus respectivos rótulos que definem sua pertinência à classe.
 
PORQUE
 
II. No agrupamento, o problema consiste em segmentar uma base de dados não
rotulada em grupos que tenham algum significado ou utilidade prática.
 
A respeito dessas asserções, assinale a opção correta:
 
 A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da
I.
Correto!Correto!
Alternativa está correta, pois as asserções I e II são proposições verdadeiras,
mas a II não é uma justificativa da I.
A asserção I é verdadeira, pois descreve corretamente o objetivo da tarefa de
classificação e o tipo de dado utilizado nela, ou seja, os dados rotulados. A
asserção II é verdadeira, pois descreve corretamente o objetivo da tarefa de
agrupamento e o tipo de dado utilizado nela, ou seja, os dados não rotulados.
A asserção II não é uma justificativa da asserção I, pois descrevem tarefas
distintas.
 As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. 
 A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
 As asserções I e II são ambas proposições falsas. 
0,6 / 0,6 ptsPergunta 5
Leia o texto a seguir:
 
“Essas funções são baseadas em critérios que avaliam o quão bom cada atributo
é no papel de dividir o conjunto de dados, considerando a distribuição de classes
presentes no conjunto. [...] O índice Gini usa um critério baseado em impureza
para analisar as diferenças entre as distribuições de probabilidade dos valores
dos atributos de classe.”
 
Fonte: DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à Mineração
de Dados Com aplicações em R. Rio de Janeiro: Elsevier, 2016. p. 104.
 
Avalie as seguintes asserções e a relação proposta entre elas.
 
I. A escolha de um atributo para dividir um conjunto de dados pode ser feita com a
utilização do índice Gini, quanto menor for o valor calculado mais puras serão as
partições;
 
PORQUE
 
II. O índice Gini calculaa proporção de classes diferentes em uma partição e
quanto maior for a heterogeneidade da partição, tanto maior será o valor do
índice.
 
A respeito dessas asserções, assinale a opção correta:
 A asserção I é uma proposição verdadeira, e a II é uma proposição falsa. 
 
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da
I.
 As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I. Correto!Correto!
Alternativa está correta, pois as asserções I e II são proposições verdadeiras,
e a II é uma justificativa da I.
A asserção I é verdadeira, pois descreve corretamente a aplicação e a
interpretação do índice Gini. A asserção II é verdadeira, pois descreve
corretamente o processo de cálculo do índice. A asserção II é uma justificativa
da asserção I, pois a escolha é feita como descrito na asserção I e o motivo
da escolha é justificado na asserção II.
 A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
 As asserções I e II são ambas proposições falsas. 
0,6 / 0,6 ptsPergunta 6
Leia o texto a seguir:
 
“Uma árvore de decisão é uma estrutura em forma de árvore na qual cada nó
interno corresponde a um teste de um atributo, cada ramo representa um
resultado do teste e os nós folhas representam classes ou distribuições de
classes. O nó mais elevado da árvore é conhecido como nó raiz, e cada caminho
da raiz até um nó folha corresponde a uma regra de classificação.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 170.
 
Qual alternativa descreve, corretamente, uma característica da árvore de decisão.
 
Uma árvore de decisão particionará um conjunto em duas partições por nível,
produzindo uma árvore binária.
 
A escolha do atributo que dividirá o conjunto de dados é feita a partir de medidas de
pureza.
Correto!Correto!
A alternativa está correta.
O atributo escolhido para a divisão de um conjunto de dados é aquele que
produz partições mais puras e essa verificação é feita a partir de medidas de
impureza. O objetivo principal das divisões é obter partições mais
homogêneas possíveis. A divisão das partições segue até que haja
homogeneidade nela. Os algoritmos para árvores de decisão não são
determinísticos, ou seja, podem produzir árvores diferentes a partir do mesmo
conjunto de dados. O número de partições em cada divisão pode variar, não
sendo obrigatória a divisão binária.
 
A divisão das partições na árvore de decisão deve ser realizada até que haja nós
folha unitários.
 
O algoritmo que induz uma árvore de decisão produzirá o mesmo resultado a partir
do mesmo conjunto de dados.
 
O objetivo principal para cada divisão feita na árvore de decisão é a obtenção
partições heterogêneas.
0,6 / 0,6 ptsPergunta 7
Leia o texto a seguir:
 
“O algoritmo k-médias toma como entrada o parâmetro k, correspondente ao
número de grupos desejados, e particiona o conjunto de n objetos em k grupos,
de forma que a similaridade intragrupo seja alta e a similaridade intergrupo seja
baixa. A similaridade intragrupo é avaliada considerando o valor médio dos
objetos em um grupo, que pode ser visto como o seu centro de gravidade ou
centroide.”
 
Fonte: CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:
conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. p. 116.
 
Considere as seguintes descrições a respeito da tarefa de agrupamento, mais
especificamente ao algoritmo k-médias.
 
I. A detecção de agrupamentos é uma tarefa de aprendizado preditiva também
conhecida como clustering. Nesse caso, as técnicas utilizadas são,
comumente, relativas ao aprendizado supervisionado, ou seja, o conjunto de
dados não possui rótulos e o aprendizado usa apenas os atributos preditivos;
II. Os algoritmos para tarefas preditivas produzem modelos a partir de um
processo de treinamento que utiliza todo o conjunto de dados disponível. O
objetivo é organizar os dados rotulados em grupos de acordo com uma
medida de similaridade ou correlação;
III. Um grupo é um conjunto de objetos similares (homogêneos) e os objetos que
pertencem a grupos diferentes são não similares (heterogêneos). O principal
objetivo do agrupamento é maximizar a homogeneidade interna nos grupos e a
heterogeneidade entre os grupos.
IV. Dependendo do atributo selecionado, poderemos ter diferentes grupos. Nesse
contexto, a detecção de agrupamentos poderá resultar em diferentes quantidades
de grupos e em composições, também diferentes, para cada grupo obtido.
 
É correto apenas o que se afirma em: 
 II e III, apenas. 
 I e II, apenas. 
 I e III, apenas. 
 III e IV, apenas. Correto!Correto!
A alternativa está correta, pois apenas as afirmações III e IV são verdadeiras.
A afirmação III é verdadeira, pois objetiva-se grupos homogêneos
internamente e que entre os grupos haja heterogeneidade.
A afirmação IV é verdadeira, pois os atributos selecionados impactam tanto na
quantidade quanto na composição dos grupos.
A afirmação I é verdadeira, pois a tarefa de detecção de agrupamentos é uma
tarefa descritiva relativa ao aprendizado não supervisionado.
A afirmação II é verdadeira, pois se trata de uma tarefa descritiva e o objetivo
é organizar os dados não rotulados. 
 I e IV, apenas. 
0,6 / 0,6 ptsPergunta 8
Leia o texto abaixo:
 
Muitos problemas práticos possuem registros históricos relacionando situações
específicas com determinados resultados. Por exemplo, administradoras de
cartões de crédito possuem registros de transações passadas e a informação de
se foram fraudulentas ou não; financeiras possuem cadastros de clientes que
pediram empréstimo associados às formas e condições de pagamento (e até
inadimplências); empresas possuem registros de funcionários com seu perfil e
desempenho no trabalho; entre muitos outros exemplos. Quando cada registro
possui um rótulo de classe ou um valor de saída associado que representa o
resultado histórico de registros passados, o objetivo da análise é, quase
invariavelmente, construir um modelo que possa ser usado para predizer qual
seria essa saída para novos registros, ou seja, registros cuja classe ou valor de
saída são desconhecidos. Para os mesmos exemplos citados anteriormente, a
operadora de cartões de crédito precisa de um modelo que seja capaz de
identificar se uma transação corrente é fraudulenta ou não; as financeiras querem
saber se devem ou não conceder um empréstimo solicitado e qual o valor do
empréstimo a ser concedido; e as empresas desejam saber de antemão o
desempenho de um funcionário que será contratado, de acordo com seu perfil.
 
Fonte: DE CASTRO, L. N. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016.
 
Qual das técnicas a seguir deve ser utilizada se uma operadora de cartões de
crédito precisa identificar se uma transação corrente é fraudulenta ou não?
 Estimativa. 
 Classificação. Correto!Correto!
A alternativa está correta. A técnica de classificação deve ser utilizada se uma 
operadora de cartões de crédito precisa identificar se uma transação corrente 
é fraudulenta ou não. A classificação trata da identificação de uma classe de 
item, estabelecendo conexões entre elementos e seus conjuntos de dados.
 Agrupamento. 
 Detecção de desvio. 
 Associação. 
0,6 / 0,6 ptsPergunta 9
Avalie o diagrama a seguir:
 
 
Fonte: JANOS, M. 3 Dimensões Inteligência Artificial nas Empresas, 2020.
Disponível em: https://www.3dimensoes.com.br/post/overfitting-e-underfitting.
Acesso em: 07 out. 2020.
 
Sobre a tarefa de regressão linear, o diagrama descreve exemplos de funções
aprendidas a partir da análise de dados. Nesse contexto, selecione a alternativa
correta, dentre as disponíveis abaixo, sobre o ajustamento de funções lineares
aos dados. 
 
Superfitting é o nome que se dá quando há muito ajuste dos dados pela curva da
função aprendida.
 
Subfitting é o nome que se dá quando há poucas variáveis independentesno
conjunto de dados.
 
Overfitting é o nome que se dá quando há muitas variáveis independentes no
conjunto de dados.
 
Underfitting é o nome que se dá quando há pouco ajuste dos dados pela curva da
função aprendida.
Correto!Correto!
A alternativa é correta, pois denominamos de underfitting o fenômeno de
pouco ajuste dos dados preditivos pela função aprendida.
 
Interfitting é o nome que se dá quando há uma correlação forte entre os valores das
variáveis independentes e as dependentes.
0 / 0,6 ptsPergunta 10
Leia o texto abaixo:
 
Árvore de decisão é uma das técnicas mais populares de mineração de dados.
Mais comumente usada para resolver a tarefa de classificação de dados, a árvore
de decisão consiste em uma coleção de nós internos e nós folhas, organizados
em um modelo hierárquico (da mesma forma que se organizam as estruturas de
dados do tipo árvore). No contexto da resolução da tarefa de classificação, uma
árvore de decisão representa o modelo capaz de guiar a tomada de decisão sobre
a determinação da classe à qual um exemplar pertence.
A figura abaixo traz um exemplo de um modelo classificador hipotético, na forma
de uma árvore de decisão, para escolha de pratos em um restaurante.
 
 
Fonte: SILVA, L. A. Introdução à mineração de dados: com aplicações em R. Rio
de Janeiro: Elsevier, 2016.
 
Considerando as informações apresentadas, assinale a opção correta.
 
 
Segundo o modelo representado pela árvore, se a ocasião se refere à temperatura
alta e à hora do jantar, deve-se optar por um prato frio.
Resposta corretaResposta correta
 
A construção da árvore é realizada por meio de um algoritmo que não precisa
analisar os atributos descritivos do conjunto de dados previamente rotulado,
consistindo apenas no processo de aprendizado do modelo classificador.
Você respondeuVocê respondeu
A alternativa está incorreta, pois a construção da árvore é realizada por meio
de um algoritmo que iterativamente analisa os atributos descritivos de um
conjunto de dados previamente rotulado, constituindo o processo de
aprendizado do modelo classificador. 
É correto afirmar que segundo o modelo representado pela árvore, se a
ocasião se refere à temperatura alta e à hora do jantar, deve-se optar por um
prato frio.
 
Cada nó folha (temperatura) representa uma decisão sugerida pelo modelo
classificador para a ocasião, sugestão esta, presente no atributo rótulo do conjunto
de dados usado para induzir o modelo.
 
Os nós internos da árvore (tipo de prato) dizem respeito a atributos prescritivos de
uma ocasião em que alguém está no restaurante para realizar uma refeição.
 
A árvore de decisão está classificando as ocasiões em: apropriadas para consumo
de pratos no jantar ou inapropriadas para consumo de pratos no jantar.
Pontuação do teste: 5,4 de 6

Outros materiais