Prévia do material em texto
• Pergunta 1 1 em 1 pontos Em um modelo de regressão múltipla, a variável dependente (Y) será determinada por mais de uma variável independente (X). De modo genérico, um modelo de regressão linear múltipla com k variáveis independentes e parâmetros pode definir, por exemplo, o termo de erro que é a diferença entre a variável dependente prevista e o valor real dela. Considerando o apresentado, considerando a montagem da equação, analise as afirmativas a seguir: I - A função é muito próxima da equação da reta, a diferença principal está que existem N variáveis independentes na regressão linear múltipla. II - A variável que indica o resíduo de erro informa a equivalência em relação à diferença do valor real Y e o valor Proposto. III - Na equação o coeficiente linear é maior que 0 quando todos os X forem iguais a 0. IV - As variáveis independentes representam a inclinação do gráfico. Está correto o que se afirma em: Resposta Selecionada: I e II, apenas. Resposta Correta: I e II, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois realmente a principal característica da regressão linear múltipla está na existência de N variáveis independentes. Os resíduos de erro definem quando o resultado se torna mais positivo, ou seja, quanto mais próximo de zero melhor é o resultado. • Pergunta 2 1 em 1 pontos A redução de atributos também conhecida como “redução de dados vertical” consiste em reduzir valores distintos em determinados atributos, convertendo em um novo conjunto de dados, o que pode trazer um melhor desempenho a vários algoritmos de mineração de dados. Essa é a principal função do PCA, levando isso em consideração, assinale a alternativa correta: Resposta Selecionada: Supondo que, em um endereço, a informação primordial é a cidade, as informações com níveis hierárquicos inferiores podem ser desconsideradas. Resposta Correta: Supondo que, em um endereço, a informação primordial é a cidade, as informações com níveis hierárquicos inferiores podem ser desconsideradas. Comentário da resposta: Resposta correta. A alternativa está correta, pois a operação de redução de valores é uma alternativa interessante à opção de corte de atributos oferecida pela redução de dados vertical. Essa operação consiste em reduzir o número de valores distintos em determinados atributos. • Pergunta 3 1 em 1 pontos A descoberta dos modelos de conhecimento nas bases de dados é o principal foco na mineração de dados. Dentre várias técnicas utilizadas para formação de modelos de conhecimento, temos a Descoberta de Conhecimento em Base de Dados (KDD) na qual podem ser verificadas técnicas de extração de informações por meio de algoritmos. Neste sentido, dentro da fase de pré-processamento dos dados, assinale a alternativa correta: Resposta Selecionada: A limpeza de dados consiste na remoção de erros existentes nos dados, falhas que podem afetar o resultado final. Resposta Correta: A limpeza de dados consiste na remoção de erros existentes nos dados, falhas que podem afetar o resultado final. Comentário da resposta: Resposta correta. A alternativa está correta, pois o processo de mineração de dados é constituído de sete etapas: limpeza dos dados, integração dos dados, seleção dos dados, transformação dos dados, aplicação do algoritmo de mineração de dados, avaliação dos padrões e representação do conhecimento adquirido. • Pergunta 4 1 em 1 pontos Definimos como séries temporais um conjunto de observações de fenômenos ordenados pelo tempo, como o consumo de energia elétrica em uma residência, vendas de determinado produto registradas durante um ano dentro do período de um mês em um estabelecimento varejista. Levando em consideração tais características, é correto afirmar que: Resposta Selecionada: São consideradas ações temporais, movimentos de tendências indicando a motivação gerada no determinado período analisado. Resposta Correta: São consideradas ações temporais, movimentos de tendências indicando a motivação gerada no determinado período analisado. Comentário da resposta: Resposta correta. A alternativa está correta, pois são consideradas como séries temporais movimentos cíclicos, situações que podem ou não ser periódicas, não necessariamente em intervalos de tempos iguais, movimentos sazonais, que ocorrem devido a eventos que se repetem de tempos em tempos e movimentos irregulares, influenciados por eventos que ocorrem aleatoriamente. • Pergunta 5 0 em 1 pontos Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a composição de tarefas primárias que tem por objetivo a estruturação dos dados para a realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e compreensível. Neste sentido, assinale a alternativa que trate a respeito dessas etapas: Resposta Selecionada: A RLM deve ser utilizada sempre que tivermos uma variável independente que se relaciona com duas ou mais variáveis dependentes. Resposta Correta: No método PCA convertemos a um novo conjunto de dados menor que o original, para serem utilizados em outras técnicas de análise. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois os métodos supervisionados consideram a informação do atributo de classe, não a organização dos dados em si. A definição de variáveis na RLM consiste nos atributos que serão analisados sozinhos, a intenção da sumarização é tornar mais simples a catalogação dos elementos essenciais no processo e, por fim, a RLM é útil quando uma única variável dependente de se relacionar com duas ou mais variáveis independentes. • Pergunta 6 1 em 1 pontos Quando levamos em consideração uma base de dados extensa com alta dimensionalidade, realizar a mineração de dados gerando resultados claros e confiáveis se torna uma tarefa bem complexa. O PCA vem com a função de diminuir essa dimensionalidade. A respeito da análise de componentes principais, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) A dimensionalidade de uma base de dados consiste na quantidade de modelos que fazem a representação dos padrões. II. ( ) Caso as características contidas sejam as mais salientes, o classificador será mais rápido ocupando menos memória. III. ( ) Na aplicação do método PCA, convertemos a um novo conjunto de dados maior que o original. IV. ( ) A comparação dos dados após a decomposição estrutural e de valores permite uma aproximação de alta classificação por meio de funções lineares. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, V, F, F. Resposta Correta: V, V, F, F. Comentário da resposta: Resposta correta. A sequência está correta, pois a dimensionalidade de uma base de dados consiste na quantidade de modelos que fazem a representação dos padrões, ou seja, definição do espaço característico dos dados. O motivo para tratarmos o dimensionamento sempre como menor possível está ligado ao custo de medição e precisão do classificador. Assim como caso as características contidas sejam as mais salientes, o classificador será mais rápido ocupando menos memória. • Pergunta 7 1 em 1 pontos Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando apenas com valores numéricos. Nesse sentido, assinale a alternativa que apresente as características dos mapas auto- organizáveis: Resposta Selecionada: Os pesos definidos para os algoritmos de mineração precisaminicializar de forma distribuída em relação à densidade dos vetores de entrada. Resposta Correta: Os pesos definidos para os algoritmos de mineração precisam inicializar de forma distribuída em relação à densidade dos vetores de entrada. Comentário da resposta: Resposta correta. A alternativa está correta, pois cada nó se conecta a vetores de entrada, que constituem o conjunto de treinamento do algoritmo. Pois o algoritmo de treinamento por convenção trabalha apenas com valores numéricos, o que acaba limitando sua utilização. • Pergunta 8 0 em 1 pontos Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da equação e substituição dos dados. Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as afirmativas a seguir: I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis dependentes. II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável independente. III. O coeficiente de regressão está relacionado ao número de variáveis dependentes. IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente. Está correto o que se afirma em: Resposta Selecionada: I e III, apenas. Resposta Correta: I e IV, apenas. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois quando existe correlação a linha central pode aparecer inclinada, o que indica a correlação forte. Ou seja, a proximidade dos elementos tem de formar uma linha central inclinada demonstrando a importância da variável independente. • Pergunta 9 1 em 1 pontos Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua principal funcionalidade: classificação, associação e agrupamento. Nesse sentido, assinale a alternativa correta: Resposta Selecionada: Na avaliação de padrões, realizar a descrição de classes a partir de dados fornecidos é denominado como classificação dos dados. Resposta Correta: Na avaliação de padrões, realizar a descrição de classes a partir de dados fornecidos é denominado como classificação dos dados. Comentário da resposta: Resposta correta. A alternativa está correta, pois, para obter de padrões que deverão ser passados para os algoritmos de obtenção do modelo de conhecimento, uma das etapas deve ser a classificação das classes, que é uma das definições utilizadas referenciando a atributos que tenham um fim semelhante. • Pergunta 10 1 em 1 pontos O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os registros no banco de dados em um intervalo. Nesse sentido, assinale a alternativa que indique essa função: Resposta Selecionada: Regressão. Resposta Correta: Regressão. Comentário da resposta: Resposta correta. A alternativa está correta, pois a regressão linear é utilizada agrupando elementos independentes dentro de uma problemática, que é a variável dependente formando, dessa forma, o mapeamento em uma classe analisável com base em um nível de confiança no resultado final.