Mineração_de_Dados_-_Atividade_2

•

PUC-RIO

Fábio Ramos da Silva

15/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

• Pergunta 1
1 em 1 pontos

Em um modelo de regressão múltipla, a variável dependente (Y) será determinada por mais de
uma variável independente (X). De modo genérico, um modelo de regressão linear múltipla
com k variáveis independentes e parâmetros pode definir, por exemplo, o termo de erro que é
a diferença entre a variável dependente prevista e o valor real dela.

Considerando o apresentado, considerando a montagem da equação, analise as afirmativas a
seguir:

I - A função é muito próxima da equação da reta, a diferença principal está que existem N
variáveis independentes na regressão linear múltipla.
II - A variável que indica o resíduo de erro informa a equivalência em relação à diferença do
valor real Y e o valor Proposto.
III - Na equação o coeficiente linear é maior que 0 quando todos os X forem iguais a 0.
IV - As variáveis independentes representam a inclinação do gráfico.

Está correto o que se afirma em:

Resposta Selecionada:
I e II, apenas.
Resposta Correta:
I e II, apenas.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois realmente a principal
característica da regressão linear múltipla está na existência de N variáveis
independentes. Os resíduos de erro definem quando o resultado se torna
mais positivo, ou seja, quanto mais próximo de zero melhor é o resultado.

• Pergunta 2
1 em 1 pontos

A redução de atributos também conhecida como “redução de dados vertical” consiste em
reduzir valores distintos em determinados atributos, convertendo em um novo conjunto de
dados, o que pode trazer um melhor desempenho a vários algoritmos de mineração de dados.

Essa é a principal função do PCA, levando isso em consideração, assinale a alternativa
correta:

Resposta
Selecionada:

Supondo que, em um endereço, a informação primordial é a cidade, as
informações com níveis hierárquicos inferiores podem ser
desconsideradas.
Resposta
Correta:

Supondo que, em um endereço, a informação primordial é a cidade, as
informações com níveis hierárquicos inferiores podem ser
desconsideradas.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois a operação de redução
de valores é uma alternativa interessante à opção de corte de atributos
oferecida pela redução de dados vertical. Essa operação consiste em
reduzir o número de valores distintos em determinados atributos.

• Pergunta 3
1 em 1 pontos

A descoberta dos modelos de conhecimento nas bases de dados é o principal foco na
mineração de dados. Dentre várias técnicas utilizadas para formação de modelos de
conhecimento, temos a Descoberta de Conhecimento em Base de Dados (KDD) na qual
podem ser verificadas técnicas de extração de informações por meio de algoritmos.

Neste sentido, dentro da fase de pré-processamento dos dados, assinale a alternativa correta:

Resposta
Selecionada:

A limpeza de dados consiste na remoção de erros existentes nos
dados, falhas que podem afetar o resultado final.
Resposta Correta:
A limpeza de dados consiste na remoção de erros existentes nos
dados, falhas que podem afetar o resultado final.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois o processo de mineração
de dados é constituído de sete etapas: limpeza dos dados, integração dos
dados, seleção dos dados, transformação dos dados, aplicação do
algoritmo de mineração de dados, avaliação dos padrões e representação
do conhecimento adquirido.

• Pergunta 4
1 em 1 pontos

Definimos como séries temporais um conjunto de observações de fenômenos ordenados pelo
tempo, como o consumo de energia elétrica em uma residência, vendas de determinado
produto registradas durante um ano dentro do período de um mês em um estabelecimento
varejista.

Levando em consideração tais características, é correto afirmar que:

Resposta
Selecionada:

São consideradas ações temporais, movimentos de tendências
indicando a motivação gerada no determinado período analisado.
Resposta
Correta:

São consideradas ações temporais, movimentos de tendências
indicando a motivação gerada no determinado período analisado.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois são consideradas como
séries temporais movimentos cíclicos, situações que podem ou não ser
periódicas, não necessariamente em intervalos de tempos iguais,
movimentos sazonais, que ocorrem devido a eventos que se repetem de
tempos em tempos e movimentos irregulares, influenciados por eventos
que ocorrem aleatoriamente.

• Pergunta 5
0 em 1 pontos

Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a
composição de tarefas primárias que tem por objetivo a estruturação dos dados para a
realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e
compreensível.

Neste sentido, assinale a alternativa que trate a respeito dessas etapas:
Resposta
Selecionada:

A RLM deve ser utilizada sempre que tivermos uma variável
independente que se relaciona com duas ou mais variáveis
dependentes.
Resposta
Correta:

No método PCA convertemos a um novo conjunto de dados menor que
o original, para serem utilizados em outras técnicas de análise.
Comentário
da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois os métodos
supervisionados consideram a informação do atributo de classe, não a
organização dos dados em si. A definição de variáveis na RLM consiste nos
atributos que serão analisados sozinhos, a intenção da sumarização é
tornar mais simples a catalogação dos elementos essenciais no processo
e, por fim, a RLM é útil quando uma única variável dependente de se
relacionar com duas ou mais variáveis independentes.

• Pergunta 6
1 em 1 pontos

Quando levamos em consideração uma base de dados extensa com alta dimensionalidade,
realizar a mineração de dados gerando resultados claros e confiáveis se torna uma tarefa bem
complexa. O PCA vem com a função de diminuir essa dimensionalidade.

A respeito da análise de componentes principais, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).

I. ( ) A dimensionalidade de uma base de dados consiste na quantidade de modelos que
fazem a representação dos padrões.
II. ( ) Caso as características contidas sejam as mais salientes, o classificador será mais
rápido ocupando menos memória.
III. ( ) Na aplicação do método PCA, convertemos a um novo conjunto de dados maior que o
original.
IV. ( ) A comparação dos dados após a decomposição estrutural e de valores permite uma
aproximação de alta classificação por meio de funções lineares.

Assinale a alternativa que apresenta a sequência correta:

Resposta Selecionada:
V, V, F, F.
Resposta Correta:
V, V, F, F.
Comentário
da resposta:
Resposta correta. A sequência está correta, pois a dimensionalidade de
uma base de dados consiste na quantidade de modelos que fazem a
representação dos padrões, ou seja, definição do espaço característico
dos dados. O motivo para tratarmos o dimensionamento sempre como
menor possível está ligado ao custo de medição e precisão do
classificador. Assim como caso as características contidas sejam as mais
salientes, o classificador será mais rápido ocupando menos memória.

• Pergunta 7
1 em 1 pontos

Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e
predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta
a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando
apenas com valores numéricos.

Nesse sentido, assinale a alternativa que apresente as características dos mapas auto-
organizáveis:

Resposta
Selecionada:

Os pesos definidos para os algoritmos de mineração precisaminicializar
de forma distribuída em relação à densidade dos vetores de entrada.
Resposta
Correta:

Os pesos definidos para os algoritmos de mineração precisam inicializar
de forma distribuída em relação à densidade dos vetores de entrada.
Comentário da
resposta:
Resposta correta. A alternativa está correta, pois cada nó se conecta a
vetores de entrada, que constituem o conjunto de treinamento do
algoritmo. Pois o algoritmo de treinamento por convenção trabalha
apenas com valores numéricos, o que acaba limitando sua utilização.

• Pergunta 8
0 em 1 pontos

Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que
descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado
processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do
gráfico de dispersão, montagem da equação e substituição dos dados.

Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão,
analise as afirmativas a seguir:

I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das
variáveis dependentes.
II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da
variável independente.
III. O coeficiente de regressão está relacionado ao número de variáveis dependentes.
IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a
necessidade de manter a variável independente.

Está correto o que se afirma em:

Resposta Selecionada:
I e III, apenas.
Resposta Correta:
I e IV, apenas.
Comentário
da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois quando
existe correlação a linha central pode aparecer inclinada, o que indica a
correlação forte. Ou seja, a proximidade dos elementos tem de formar
uma linha central inclinada demonstrando a importância da variável
independente.

• Pergunta 9
1 em 1 pontos

Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização
e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de
regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua principal
funcionalidade: classificação, associação e agrupamento.

Nesse sentido, assinale a alternativa correta:

Resposta
Selecionada:

Na avaliação de padrões, realizar a descrição de classes a partir de
dados fornecidos é denominado como classificação dos dados.
Resposta
Correta:

Na avaliação de padrões, realizar a descrição de classes a partir de
dados fornecidos é denominado como classificação dos dados.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois, para obter de padrões
que deverão ser passados para os algoritmos de obtenção do modelo de
conhecimento, uma das etapas deve ser a classificação das classes, que é
uma das definições utilizadas referenciando a atributos que tenham um
fim semelhante.

• Pergunta 10
1 em 1 pontos

O principal objetivo encontrado na mineração de dados está em transformar a base de
conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na
mineração de dados em si, etapa que vem após o pré-processamento dos dados, são
utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que
utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para
mapear os registros no banco de dados em um intervalo.

Nesse sentido, assinale a alternativa que indique essa função:

Resposta Selecionada:
Regressão.
Resposta Correta:
Regressão.
Comentário
da resposta:
Resposta correta. A alternativa está correta, pois a regressão linear é
utilizada agrupando elementos independentes dentro de uma
problemática, que é a variável dependente formando, dessa forma, o
mapeamento em uma classe analisável com base em um nível de
confiança no resultado final.