Buscar

Mineração_de_Dados_-_Atividade_2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

• Pergunta 1 
1 em 1 pontos 
 
Em um modelo de regressão múltipla, a variável dependente (Y) será determinada por mais de 
uma variável independente (X). De modo genérico, um modelo de regressão linear múltipla 
com k variáveis independentes e parâmetros pode definir, por exemplo, o termo de erro que é 
a diferença entre a variável dependente prevista e o valor real dela. 
 
Considerando o apresentado, considerando a montagem da equação, analise as afirmativas a 
seguir: 
 
I - A função é muito próxima da equação da reta, a diferença principal está que existem N 
variáveis independentes na regressão linear múltipla. 
II - A variável que indica o resíduo de erro informa a equivalência em relação à diferença do 
valor real Y e o valor Proposto. 
III - Na equação o coeficiente linear é maior que 0 quando todos os X forem iguais a 0. 
IV - As variáveis independentes representam a inclinação do gráfico. 
 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
I e II, apenas. 
Resposta Correta: 
I e II, apenas. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois realmente a principal 
característica da regressão linear múltipla está na existência de N variáveis 
independentes. Os resíduos de erro definem quando o resultado se torna 
mais positivo, ou seja, quanto mais próximo de zero melhor é o resultado. 
 
 
• Pergunta 2 
1 em 1 pontos 
 
A redução de atributos também conhecida como “redução de dados vertical” consiste em 
reduzir valores distintos em determinados atributos, convertendo em um novo conjunto de 
dados, o que pode trazer um melhor desempenho a vários algoritmos de mineração de dados. 
 
Essa é a principal função do PCA, levando isso em consideração, assinale a alternativa 
correta: 
 
Resposta 
Selecionada: 
 
Supondo que, em um endereço, a informação primordial é a cidade, as 
informações com níveis hierárquicos inferiores podem ser 
desconsideradas. 
Resposta 
Correta: 
 
Supondo que, em um endereço, a informação primordial é a cidade, as 
informações com níveis hierárquicos inferiores podem ser 
desconsideradas. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois a operação de redução 
de valores é uma alternativa interessante à opção de corte de atributos 
oferecida pela redução de dados vertical. Essa operação consiste em 
reduzir o número de valores distintos em determinados atributos. 
 
 
• Pergunta 3 
1 em 1 pontos 
 
A descoberta dos modelos de conhecimento nas bases de dados é o principal foco na 
mineração de dados. Dentre várias técnicas utilizadas para formação de modelos de 
conhecimento, temos a Descoberta de Conhecimento em Base de Dados (KDD) na qual 
podem ser verificadas técnicas de extração de informações por meio de algoritmos. 
 
Neste sentido, dentro da fase de pré-processamento dos dados, assinale a alternativa correta: 
 
Resposta 
Selecionada: 
 
A limpeza de dados consiste na remoção de erros existentes nos 
dados, falhas que podem afetar o resultado final. 
Resposta Correta: 
A limpeza de dados consiste na remoção de erros existentes nos 
dados, falhas que podem afetar o resultado final. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois o processo de mineração 
de dados é constituído de sete etapas: limpeza dos dados, integração dos 
dados, seleção dos dados, transformação dos dados, aplicação do 
algoritmo de mineração de dados, avaliação dos padrões e representação 
do conhecimento adquirido. 
 
 
• Pergunta 4 
1 em 1 pontos 
 
Definimos como séries temporais um conjunto de observações de fenômenos ordenados pelo 
tempo, como o consumo de energia elétrica em uma residência, vendas de determinado 
produto registradas durante um ano dentro do período de um mês em um estabelecimento 
varejista. 
 
Levando em consideração tais características, é correto afirmar que: 
 
Resposta 
Selecionada: 
 
São consideradas ações temporais, movimentos de tendências 
indicando a motivação gerada no determinado período analisado. 
Resposta 
Correta: 
 
São consideradas ações temporais, movimentos de tendências 
indicando a motivação gerada no determinado período analisado. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois são consideradas como 
séries temporais movimentos cíclicos, situações que podem ou não ser 
periódicas, não necessariamente em intervalos de tempos iguais, 
movimentos sazonais, que ocorrem devido a eventos que se repetem de 
tempos em tempos e movimentos irregulares, influenciados por eventos 
que ocorrem aleatoriamente. 
 
 
• Pergunta 5 
0 em 1 pontos 
 
Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a 
composição de tarefas primárias que tem por objetivo a estruturação dos dados para a 
realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e 
compreensível. 
 
 
Neste sentido, assinale a alternativa que trate a respeito dessas etapas: 
Resposta 
Selecionada: 
 
A RLM deve ser utilizada sempre que tivermos uma variável 
independente que se relaciona com duas ou mais variáveis 
dependentes. 
Resposta 
Correta: 
 
No método PCA convertemos a um novo conjunto de dados menor que 
o original, para serem utilizados em outras técnicas de análise. 
Comentário 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois os métodos 
supervisionados consideram a informação do atributo de classe, não a 
organização dos dados em si. A definição de variáveis na RLM consiste nos 
atributos que serão analisados sozinhos, a intenção da sumarização é 
tornar mais simples a catalogação dos elementos essenciais no processo 
e, por fim, a RLM é útil quando uma única variável dependente de se 
relacionar com duas ou mais variáveis independentes. 
 
 
• Pergunta 6 
1 em 1 pontos 
 
Quando levamos em consideração uma base de dados extensa com alta dimensionalidade, 
realizar a mineração de dados gerando resultados claros e confiáveis se torna uma tarefa bem 
complexa. O PCA vem com a função de diminuir essa dimensionalidade. 
 
A respeito da análise de componentes principais, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) A dimensionalidade de uma base de dados consiste na quantidade de modelos que 
fazem a representação dos padrões. 
II. ( ) Caso as características contidas sejam as mais salientes, o classificador será mais 
rápido ocupando menos memória. 
III. ( ) Na aplicação do método PCA, convertemos a um novo conjunto de dados maior que o 
original. 
IV. ( ) A comparação dos dados após a decomposição estrutural e de valores permite uma 
aproximação de alta classificação por meio de funções lineares. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
Resposta Selecionada: 
V, V, F, F. 
Resposta Correta: 
V, V, F, F. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta, pois a dimensionalidade de 
uma base de dados consiste na quantidade de modelos que fazem a 
representação dos padrões, ou seja, definição do espaço característico 
dos dados. O motivo para tratarmos o dimensionamento sempre como 
menor possível está ligado ao custo de medição e precisão do 
classificador. Assim como caso as características contidas sejam as mais 
salientes, o classificador será mais rápido ocupando menos memória. 
 
 
• Pergunta 7 
1 em 1 pontos 
 
Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e 
predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta 
a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando 
apenas com valores numéricos. 
 
Nesse sentido, assinale a alternativa que apresente as características dos mapas auto-
organizáveis: 
 
Resposta 
Selecionada: 
 
Os pesos definidos para os algoritmos de mineração precisaminicializar 
de forma distribuída em relação à densidade dos vetores de entrada. 
Resposta 
Correta: 
 
Os pesos definidos para os algoritmos de mineração precisam inicializar 
de forma distribuída em relação à densidade dos vetores de entrada. 
Comentário da 
resposta: 
Resposta correta. A alternativa está correta, pois cada nó se conecta a 
vetores de entrada, que constituem o conjunto de treinamento do 
algoritmo. Pois o algoritmo de treinamento por convenção trabalha 
apenas com valores numéricos, o que acaba limitando sua utilização. 
 
 
• Pergunta 8 
0 em 1 pontos 
 
Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que 
descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado 
processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do 
gráfico de dispersão, montagem da equação e substituição dos dados. 
 
Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, 
analise as afirmativas a seguir: 
 
I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das 
variáveis dependentes. 
II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da 
variável independente. 
III. O coeficiente de regressão está relacionado ao número de variáveis dependentes. 
IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a 
necessidade de manter a variável independente. 
 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
I e III, apenas. 
Resposta Correta: 
I e IV, apenas. 
Comentário 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois quando 
existe correlação a linha central pode aparecer inclinada, o que indica a 
correlação forte. Ou seja, a proximidade dos elementos tem de formar 
uma linha central inclinada demonstrando a importância da variável 
independente. 
 
 
• Pergunta 9 
1 em 1 pontos 
 
Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização 
e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de 
regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua principal 
funcionalidade: classificação, associação e agrupamento. 
 
Nesse sentido, assinale a alternativa correta: 
 
Resposta 
Selecionada: 
 
Na avaliação de padrões, realizar a descrição de classes a partir de 
dados fornecidos é denominado como classificação dos dados. 
Resposta 
Correta: 
 
Na avaliação de padrões, realizar a descrição de classes a partir de 
dados fornecidos é denominado como classificação dos dados. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois, para obter de padrões 
que deverão ser passados para os algoritmos de obtenção do modelo de 
conhecimento, uma das etapas deve ser a classificação das classes, que é 
uma das definições utilizadas referenciando a atributos que tenham um 
fim semelhante. 
 
 
• Pergunta 10 
1 em 1 pontos 
 
O principal objetivo encontrado na mineração de dados está em transformar a base de 
conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na 
mineração de dados em si, etapa que vem após o pré-processamento dos dados, são 
utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que 
utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para 
mapear os registros no banco de dados em um intervalo. 
 
Nesse sentido, assinale a alternativa que indique essa função: 
 
Resposta Selecionada: 
Regressão. 
Resposta Correta: 
Regressão. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois a regressão linear é 
utilizada agrupando elementos independentes dentro de uma 
problemática, que é a variável dependente formando, dessa forma, o 
mapeamento em uma classe analisável com base em um nível de 
confiança no resultado final.