Baixe o app para aproveitar ainda mais
Prévia do material em texto
Pergunta 1 1 em 1 pontos O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os registros no banco de dados em um intervalo. Nesse sentido, assinale a alternativa que indique essa função: Resposta Selecionada: Correta Regressão. Resposta Correta: Correta Regressão. Comentário da resposta: Resposta correta. A alternativa está correta, pois a regressão linear é utilizada agrupando elementos independentes dentro de uma problemática, que é a variável dependente formando, dessa forma, o mapeamento em uma classe analisável com base em um nível de confiança no resultado final. Pergunta 2 0 em 1 pontos Podemos classificar os métodos de discretização em 5 (cinco) abordagens para sua execução: supervisionado ou não supervisionado, dinâmico ou estático, local ou global, top-down ou bottom-up , direto ou incremental; os quais levam em consideração as faixas contínuas que serão divididas pela sua largura e frequência. Levando em consideração tais abordagens, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) O método pode ser local ou global, no qual se utiliza de um subconjunto de instâncias ou conjuntos inteiros de dados. II. ( ) O método supervisionado considera as faixas contínuas a serem divididas pela largura ou frequência. III. ( ) O método direto divide a faixa em vários intervalos de forma simultânea. IV. ( ) Os métodos top-down se iniciam de uma lista cut-points vazia e inserem novas listas pelos intervalos divididos pela discretização. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: Incorreta F, F, V, V. Resposta Correta: Correta V, F, V, V. Comentário da resposta: Sua resposta está incorreta. A sequência está incorreta, pois os métodos supervisionados consideram a informação do atributo de classe, inversamente ao não supervisionado, que considera as faixas contínuas a serem divididas pela largura ou frequência. Pergunta 3 1 em 1 pontos A discretização envolve a manipulação dos dados de forma que se comportem mais adequadamente com o requerido pelos algoritmos de mineração de dados por meio da divisão em partes de menor complexidade; com o intuito de o processo se tornar mais eficiente na geração dos modelos de conhecimento. Nesse sentido, podemos afirmar que: Resposta Selecionada: Correta O processo de discretização deve passar por 4 (quatro) etapas: classificação, seleção de cut-point, divisão e parada. Resposta Correta: Correta O processo de discretização deve passar por 4 (quatro) etapas: classificação, seleção de cut-point, divisão e parada. Comentário da resposta: Resposta correta. A alternativa está correta, pois o processo de discretização deve passar por quatro etapas que devem ser a classificação dos atributos a serem discretizados, cut-point obedecendo às regras de tamanho das partes, divisão que avalia os cut-points e por fim a parada do processo que pode ser definida pelo usuário ou pela quantidade de cut-points definido. Pergunta 4 1 em 1 pontos O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é aplicável em tarefas de classificação na mineração de dados. Sua aplicação se estende às áreas como finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma ótima opção para resolução em tempo real. A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um teste, o que realmente é válido e o que é um falso cognato. II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre si. III. ( ) O algoritmo tem sua usabilidade muito relacionada a números, tanto inteiros quanto reais. IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores surgimentos da doença, o melhor algoritmo seria o classificador bayesiano. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: Correta V, F, F, V. Resposta Correta: Correta V, F, F, V. Comentário da resposta: Resposta correta. A sequência está correta, pois o classificador vem como opção de avaliar o resultado de um teste e a probabilidade de que seja realmente verdadeiro, e ele tem um melhor desempenho, para análises de imagens médicas, assim como para processamento de linguagem natural por ser um algoritmo mais robusto. Pergunta 5 0 em 1 pontos Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a composição de tarefas primárias que tem por objetivo a estruturação dos dados para a realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e compreensível. Neste sentido, assinale a alternativa que trate a respeito dessas etapas: Resposta Selecionada: Incorreta Discretização dos dados supervisionada consiste em organização dos dados em faixas contínuas divididas pela largura e frequência. Resposta Correta: Correta No método PCA convertemos a um novo conjunto de dados menor que o original, para serem utilizados em outras técnicas de análise. Comentário da resposta: Sua resposta está incorreta. A alternativa está incorreta, pois os métodos supervisionados consideram a informação do atributo de classe, não a organização dos dados em si. A definição de variáveis na RLM consiste nos atributos que serão analisados sozinhos, a intenção da sumarização é tornar mais simples a catalogação dos elementos essenciais no processo e, por fim, a RLM é útil quando uma única variável dependente de se relacionar com duas ou mais variáveis independentes. Pergunta 6 1 em 1 pontos A discretização de dados é uma tarefa importante na mineração de dados quando é necessário facilitar a busca de determinadas informações. A discretização consiste na divisão do todo em partes com menor complexidade, a fim de facilitar a formação do modelo de conhecimento. Nesse sentido, assinale a alternativa correta: Resposta Selecionada: Correta Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é discretizar a data de cadastro e anos. Resposta Correta: Correta Com a necessidade do tempo que determinada pessoa é cliente, por vezes o ideal é discretizar a data de cadastro e anos. Comentário da resposta: Resposta correta. A alternativa está correta, pois a discretização consiste em pegar os dados e realizar o processo facilitador para realizar a mineração dos dados, e isso ocorre ao dividir o todo em partes com nível menor de complexidade, a fim de facilitar a formação da base de conhecimento. Pergunta 7 1 em 1 pontos Os mapas auto-organizáveis, ou mapas de Kohonen, são formados por um número finito e predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando apenas com valores numéricos. Nesse sentido, assinale a alternativa que apresente as características dos mapas auto- organizáveis: Resposta Selecionada: Correta Os pesos definidos para os algoritmos de mineração precisam inicializar de forma distribuída em relação à densidade dos vetores de entrada. Resposta Correta: Correta Os pesos definidos para os algoritmos de mineração precisam inicializar de forma distribuída emrelação à densidade dos vetores de entrada. Comentário da resposta: Resposta correta. A alternativa está correta, pois cada nó se conecta a vetores de entrada, que constituem o conjunto de treinamento do algoritmo. Pois o algoritmo de treinamento por convenção trabalha apenas com valores numéricos, o que acaba limitando sua utilização. Pergunta 8 1 em 1 pontos Consiste em um método popular de centralização de elementos por meio de um cluster que é dividido em N pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de mineração de dados onde sua principal fundamentação é estatística. A quantidade de X partições é definida na entrada. Nesse sentido, assinale a alternativa que indique qual é o método descrito: Resposta Selecionada: Correta K-média. Resposta Correta: Correta K-média. Comentário da resposta: Resposta correta. A alternativa está correta, pois é um dos métodos mais populares a se empregar na mineração de dados. Consiste basicamente em pegar a definição, como parâmetro de entrada, de K pontos de dados centrais dos clusters, em seguida cada registro do banco de dados é atribuído ao cluster cuja distância deste ponto em relação ao centro consiste na menor distância calculada entre os elementos. Pergunta 9 1 em 1 pontos Leia o excerto a seguir: “K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica iterativa para particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. Lloyd em 1957, contudo, só foi publicado no ano de 1982. Esse algoritmo busca minimizar a distância dos elementos de um conjunto de dados com k centros de forma iterativa”. PALMA, L. F. Agrupamento de dados : k-médias. Cruz das almas: Universidade Federal do Recôncavo da Bahia, 2018. Disponível em: http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20 190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf . Acesso em: 17 dez. 2019. Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a seguir: I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos de elemento, não sendo fixo. II. K-média consiste em receber como parâmetro de entrada o número de K partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os pontos. III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças significativas nos valores de divisão de grupos de elementos. IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que não permite certa imunidade a ruídos ou dados mal distribuídos. Está correto o que se afirma em: Resposta Selecionada: Correta II e III, apenas. Resposta Correta: Correta II e III, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois o único parâmetro de entrada define a quantidade de divisões dos elementos, e os valores resultantes decrescem de forma que não se tenha diferenças significativas nos valores Ci entre duas iterações na sequência dentro do algoritmo. Pergunta 10 1 em 1 pontos Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de ocorrer determinado evento. Por exemplo, podemos prever a chuva para amanhã em milímetros com base na pressão atmosférica e em resultados alcançados em outras ocasiões. Para isso, definimos o nível de acerto que esperamos, que geralmente gira em torno de 95%. Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir: I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 0,95 = 0,05, que seria o nível de significância. II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas. III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável entre certo ou errado. IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se dividem entre as extremidades com 5% composto de valores ignorados. Está correto o que se afirma em: Resposta Selecionada: Correta I e IV, apenas. Resposta Correta: Correta I e IV, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois o valor máximo utilizado na equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável com peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um). Assim, jogamos a diferença na cauda do gráfico, que por convenção sempre formará uma curva, com cauda presente nas duas pontas, que possuem os valores a serem ignorados. Quinta-feira, 24 de Junho de 2021 20h49min55s BRT
Compartilhar