Baixe o app para aproveitar ainda mais
Prévia do material em texto
22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 1/21 Pontuação desta tentativa: 8,5 de 10 Enviado 27 jun em 17:05 Esta tentativa levou 76 minutos. 0,5 / 0,5 ptsPergunta 1 Analise as afirmativas: I. uma medida de similaridade ou dissimilaridade expressa em valor real a similaridade ou a diferença entre dois vetores ou instância; II. A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra Mahalanobis. Essa medida se baseia nas correlações entre as variáveis; III. A distância Euclidiana é uma forma de geometria que se baseia na soma das diferenças absolutas de todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à distância calculada em um software de GPS; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. Correto!Correto! Conforme se observa em Theodoridis e Koutroumbas em (2008) uma medida de similaridade ou dissimilaridade expressa em valor real a similaridade ou a diferença entre dois vetores ou instância, para se medir esses valores podem ser utilizadas medidas de distância entre dois pontos. As medidas de distância comumente utilizadas são: distância euclidiana, distância de Mahalanobis e distância de Manhattan. A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra Mahalanobis. Essa medida se baseia nas correlações entre as variáveis. A distância de Manhattan é uma forma de geometria que se baseia na soma das diferenças absolutas de todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à distância calculada em um software de GPS. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 2/21 0,5 / 0,5 ptsPergunta 2 Analise as afirmativas: I. Minerar dados é o processo de descobrir informações relevantes como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em bancos de dados; II. A mineração de dados serve única e exclusivamente para o reconhecimento de outliers e classificação de instâncias; III. Estimação de valores, detecção de outliers e agrupamento de instâncias são algumas das técnicas de análise e reconhecimento de padrões; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – correta, II – correta e III - correta. I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. Correto!Correto! 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 3/21 Minerar dados é o processo de descobrir informações relevantes como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em bancos de dados, depósitos de dados ou outros depósitos de informação. A mineração de dados fornece percepções dos dados, descobrindo padrões e relacionamentos ocultos em grandes bancos de dados e inferindo regras a partir deles, para prever comportamentos futuros (ZAKI; MEIRA, 2014). O reconhecimento de padrões é uma disciplina da ciência que tem como objetivo classificar objetos em um número de categorias ou classes, conforme o observado em (THEODORIDIS; KOUTROUMBAS, 2008). Dependendo da aplicação, esses objetos podem ser, por exemplo, imagens, sinais de ondas de rádio, ou qualquer tipo de medida que se deseja classificar. Observa-se ainda que, com as técnicas de reconhecimento de padrões pode-se, por exemplo (DOUGHERTY, 2012): • estimar valores; • selecionar atributos relevantes para classificação; • reconhecer pontos fora da curva, chamados de outliers; • agrupamento de instâncias; • classificação de instâncias; ou • análise de textos; 0,5 / 0,5 ptsPergunta 3 Analise as afirmativas: I. classificação de clientes mediante ao perfil de compra e crédito; II. comumente aplicado em análise de operações de compras com cartão de crédito, onde se percebem caso ocorram fraudes; III. técnicas de agrupamento podem ser aplicadas para a criação de grupos e separação de indivíduas ou criação de categorias, criação de categorias de documentos, por exemplo, análise de dados de postagens em redes sociais; Selecione a correta alternativa que traz o correto relacionamento entre uma definição e sua técnica associada: I – detecção de outlier, II – clustering e III – classificação. I – classificação , II – detecção de outlier e III – clustering. Correto!Correto! I – clustering , II – classificação e III – estimação de valores ou regressão. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 4/21 I – regras de associação , II – clustering e III – classificação. I – estimação de valores ou regressão, II – classificação e III – regras de associação. Seguem alguns exemplos de aplicabilidade das técnicas (THEODORIDIS; KOUTROUMBAS, 2008): Detecção de outlier: comumente aplicado em análise de operações de compras com cartão de crédito, onde se percebem caso ocorram fraudes; Técnicas de classificação: classificação de clientes mediante ao perfil de compra e crédito; Técnica de clustering: técnicas de agrupamento podem ser aplicadas para a criação de grupos e separação de indivíduas ou criação de categorias, criação de categorias de documentos, por exemplo, análise de dados de postagens em redes sociais; Estimação de valores: estimar leituras de sensores quando há falhas na leitura ou falhas na comunicação entre uma aplicação e o sensor; Seleção de atributos: compreender quais são as características que melhor definem o comportamento de uma espécie; Análise de textos: aplicação que caracteriza um perfil social dadas as suas postagens em uma rede social de textos; 0,5 / 0,5 ptsPergunta 4 Analise as afirmativas: I. A mediana é o valor que separa a metade menor da metade maior da população ou do conjunto de dados; II. Abordagens mais simples para a detecção de outliers utiliza os valores de Quartil no conjunto de dados, que por sua vez utiliza a medida de Mediana; III. Abordagens mais simples para a detecção de outliers utiliza os valores de Quartil no conjunto de dados, que por sua vez utiliza a medida de Media; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. Correto!Correto! I – incorreta, II – correta e III - correta. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 5/21 I – correta, II – correta e III - correta. Abordagens mais simples para a detecção de outliers utiliza os valores de Quartil no conjunto de dados, que por sua vez utiliza a medida de Mediana. A mediana é o valor que separa a metade menor da metade maior da população ou do conjunto de dados. 0,5 / 0,5 ptsPergunta 5 Selecione a alternativa que traz o nome da técnica ou característica definida por: representam um padrão de relacionamento entre itens de dados no domínio da aplicação, que ocorrem com uma determinada frequência nas bases de dados. clustering. regra de associação. Correto!Correto! padrão. classificador. outlier. Regras de Associação representam um padrão de relacionamento entre itens de dados no domínio da aplicação, que ocorrem com uma determinada frequência nas bases de dados. 0,5 / 0,5 ptsPergunta 6 Analise as afirmativas: I. Clustering é um método frequentemente usado para análise exploratória dos dados, onde não há estimativas de quaisquer valores ou agrupamentos,as criações dos grupos ocorrem apenas se encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters; 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 6/21 II. Pode-se usar o método de clustering para realizar segmentação de clientes para permitir programas de marketing direcionados ou especiais; III. As técnicas de clustering não podem ser utilizadas para criar agrupamentos de documentos dada a natureza desestruturada dos textos; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. Correto!Correto! I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. Clustering é um método frequentemente usado para análise exploratória dos dados, onde não há estimativas de quaisquer valores ou agrupamentos, as criações dos grupos ocorrem apenas se encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters. A ideia de semelhanças pode ser explicada com os seguintes exemplos: Considere questões como 1. Como faço para agrupar esses documentos por tópico? 2. Como faço para realizar segmentação de clientes para permitir programas de marketing direcionados ou especiais. 0,5 / 0,5 ptsPergunta 7 Analise as afirmativas: I. método que inicia criando-se tuplas e se vai aumentando o número de participantes do clusters e agrupando as instâncias dada a similaridade, conforme se observa na figura, onde um dendograma é formado pela execução do algoritmo, onde no eixo vertical se observa a escala de similaridade e no eixo horizontal as instâncias a serem agrupadas; II. nesse caso as vértices são os objetos e suas ligações ou arestas são suas similaridades, ao analisar essa estrutura é possível se criar os clusters; III. a ideia principal é continuar o crescimento de um cluster à medida em que sua densidade ou quantidade de objetos em sua vizinhança tenha uma proximidade determinada; 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 7/21 Selecione a correta alternativa quanto às afirmativas relacionados aos métodos de clustering: I – clustering hierárquico, II – baseado em grafos e III – baseado em densidade. Correto!Correto! I – clustering hierárquico, II – baseado em grafos e III – baseado em partição. I – baseado em densidade, II – baseado em grafos e III – clustering hierárquico. I – baseado em grafos, II – baseado em densidade e III – clustering hierárquico. I – baseado em grafos, II – clustering hierárquico e III – baseado em densidade. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 8/21 Na literatura são encontrados diversos tipos de algoritmos de clustering, dentre eles: I. Métodos de partição: às quais são criados os clusters e são agregadas as instâncias a cada um dos clusters dada a execução dos algoritmos; II. Métodos de clusters hierárquicos: método que inicia criando- se tuplas e se vai aumentando o número de participantes do clusters e agrupando as instâncias dada a similaridade, conforme se observa na figura, onde um dendograma é formado pela execução do algoritmo, onde no eixo vertical se observa a escala de similaridade e no eixo horizontal as instâncias a serem agrupadas. Notem que a cada nível se aumenta no número de participantes do cluster, chegando até o nível máximo que será o número total de instâncias do modelo. Dendograma gerado pelo método de clustering hierárquico (Duda e Hart, 2000) III. Métodos com base em densidade de objetos: a ideia principal é continuar o crescimento de um cluster à medida em que sua densidade ou quantidade de objetos em sua vizinhança tenha uma proximidade determinada. Este método permite criar clusters de forma arbitrária com regiões densas separadas entre si por dados dispersos, o algoritmo comumente mencionado na literatura é o DBSCAN. Exemplo de clusters utilizando a técnica de densidade (Zaki e M i 2014) 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 9/21 Meira, 2014) IV. Métodos que utilizam estruturas de grafo: nesse caso as vértices são os objetos e suas ligações ou arestas são suas similaridades, ao analisar a estrutura do grafo ou rede gerada é possível se criar os clusters. Exemplo de clusters usando a estrutura dos grafos(Theodoridis, Koutroumbas, 2008) 0,5 / 0,5 ptsPergunta 8 Analise as afirmativas: I. Caso o valor da Soma dos Erros Quadrados seja muito alto, significa que o cluster está muito especializado, ou seja, poderá se juntar ao outro. II. Caso o valor da Soma dos Erros Quadrados em um cluster seja muito alto, significa que o cluster em si não é coeso e possivelmente, poderá ser separado; III. A medida de soma dos erros quadrados irá mostrar o valor da soma total das distâncias entre cada instância e seus respectivos centroides, nesse caso utilizando a distância euclidiana como medida.; Selecione a correta alternativa quanto às afirmativas relacionada à medida de validação de clusters usando a soma dos erros quadrados: I – incorreta, II – correta e III - correta. Correto!Correto! I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - incorreta. I – correta, II – incorreta e III - correta. A medida de soma dos erros quadrados irá mostrar o valor da soma total das distâncias entre cada instância e seus respectivos centroides, nesse caso utilizando a distância euclidiana como medida. Caso esse valor seja muito alto, significa que o cluster em si não é coeso e possivelmente, poderá ser separado e caso esse valor seja muito baixo, significa que o cluster está muito especializado, ou seja, poderá se juntar ao outro. 0,5 / 0,5 ptsPergunta 9 Analise as afirmativas: I. empregam critérios que são derivados dos dados em si; II. as instâncias foram previamente etiquetadas, com informações oriundas de conhecimento de especialistas e se faz uma validação a 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 10/21 partir dos erros e acertos do algoritmo, sem levar em consideração medidas específicas; III. utilizam critérios que não são inerentes ao Conjunto de dados, mas sim ao domínio de aplicação; Selecione a correta alternativa quanto às afirmativas relacionadas às medidas de validação de clustering internas e externas ao modelo gerado: I – internas, II – internas e III - internas. I – internas, II – externas e III - internas. I – externas, II – externas e III – externas. I – internas, II – externas e III - externas. Correto!Correto! I – internas, II – internas e III - externas. Dada a grande variedade de algoritmos de clustering, observa- se também uma grande variedade de técnicas de validação, que levam em consideração medidas internas aos clusters e medidas externa, considerando o modelo completo (Zaki e Meira, 2014). Medidas externas: as medidas de validação externa utilizam critérios que não são inerentes ao Conjunto de dados, mas sim ao domínio de aplicação. Isso pode ser na forma de conhecimento prévio ou especializado sobre os clusters, por exemplo, as instâncias foram previamente etiquetadas, com informações oriundas de conhecimento de especialistas e se faz uma validação a partir dos erros e acertos do algoritmo, sem levar em consideração medidas específicas. Para esse tipo de técnica pode-se usar as medidas chamada F-measure, que deverá medir a precisão do algoritmo como um todo, técnica comumente utilizada para validação de classificadores ou detecção de outliers. Medidas internas: as medidas internas de validação empregam critérios que são derivados dos dados em si. Por exemplo,podemos usar distâncias intracluster e intercluster para obter medidas de coesão do cluster (por exemplo, quão semelhantes são os pontos no mesmo Cluster?) e de separação (por exemplo, quão distantes estão os pontos em diferentes clusters?). 0,5 / 0,5 ptsPergunta 10 Analise as afirmativas: 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 11/21 I. Tipicamente o Coeficiente de Silhueta total será um valor entre -1 e 1, sendo que o modelo com K que melhor agrupa o conjunto de dados ser o que possuir valor mais próximo de 1. II. O coeficiente de silhueta é uma medida de coesão e separação de clusters; III. O coeficiente de silhueta é baseado na diferença entre a distância média de um ponto para os pontos de seu cluster e a distância média de um objeto a todos os objetos do cluster mais próximo; Selecione a correta alternativa quanto às afirmativas relacionada à medida de validação de clusters usando o coeficiente de silhueta: I – correta, II – correta e III - incorreta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. Correto!Correto! I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. O coeficiente de silhueta é uma medida de coesão e separação de clusters, é baseado na diferença entre a distância média de um ponto para os pontos de seu cluster e a distância média de um objeto a todos os objetos do cluster mais próximo. Para que se validar o modelo proposto é importante executar essa validação para inúmeros valores de K, ou seja, se executar o algoritmo iniciando com K igual a 1 e aumentando gradativamente, para cada execução do algoritmo se calcular o coeficiente de silhueta total (SWC) e se plotar em um gráfico. Tipicamente o SWC será um valor entre -1 e 1, sendo que o modelo com K que melhor agrupa o conjunto de dados ser o que possuir valor mais próximo de 1 0,5 / 0,5 ptsPergunta 11 Analise as afirmativas quanto ao processo de seleção de feições: I. O tf define a importância de uma palavra em um documento; II. Todos os termos que possuem valores de tf altos são importantes para todo o conjunto de documentos; III. Com os pesos de TF/IDF de cada palavra definidos pode-se fazer um ranqueamento das palavras que definem a importância de cada termo no conjunto total de documentos; Selecione a correta alternativa quanto às afirmativas: 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 12/21 I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. Correto!Correto! I – correta, II – correta e III - incorreta. I – correta, II – correta e III - correta. O tf define a importância de uma palavra em um documento e é diretamente proporcional à quantidade de vezes que o termo aparece em um dado documento. Observe que nem todos os termos que possuem valores de tf altos são importantes para todo o conjunto de documentos, pois nem todos os documentos são importantes para a análise. Com os pesos de cada palavra definidos pode-se fazer um ranqueamento, onde, as k feições ou palavras mais importantes para um dado documento j são obtidos pela seleção das k palavras com valores de tf idf ordenados (Souza, 2010). 0 / 0,5 ptsPergunta 12 Analise as afirmativas quanto ao processo de extração e seleção de feições: I. O coeficiente de jaccard pode ser utilizado no processo de word stemming; II. Após a aplicação do processo de extração de feições é aplicado o processo de seleção de feições, que define a importância de cada termo para um documento ou para um dado conjunto de documentos; III. Todos os termos que permaneceram na representação dos documentos ou extração de feições agregam conhecimento; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - correta. ocê respondeuocê respondeu I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - incorreta. esposta corretaesposta correta I – correta, II – incorreta e III - correta. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 13/21 I – incorreta, II – correta e III - correta. As palavras restantes do processo de extração de feições passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como por exemplo conjugações verbais. Para esse fim pode-se usar conceitos de similaridade entre palavras, como por exemplo o coeficiente de jaccard. Após a aplicação do processo de extração de feições é aplicado o processo de seleção de feições, que define a importância de cada termo para um documento ou para um dado conjunto de documentos, pois nem todos os termos que permaneceram na representação dos documentos agregam conhecimento. 0,5 / 0,5 ptsPergunta 13 Analise as afirmativas quanto ao processo de seleção de feições: I. O método comumente utilizado para o esse processo é o TF/IDF; II. TF refere-se à frequência do termo; III. IDF refere-se à inversa da frequência do documento; Selecione a correta alternativa quanto às afirmativas: I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. I – correta, II – correta e III - correta. Correto!Correto! I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - incorreta. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 14/21 Conforme se observa em (Souza, 2010), diversas métricas encontradas na literatura podem ser aplicadas; por exemplo, métodos estatísticos, entropia ou frequência dos termos. Um método comumente utilizado é a o chamado TF/IDF, ou frequência do termo (tf – term frequency), e a inversa da frequência do documento, ou (idf - inverse document frequency), o seu produto é usado para determinar o poder de discriminação de uma dada palavra para um determinado documento ou conjunto de documentos (HAN et al., 2006), (CALVO; LEE; LI, 2004), (ROSE, 1994). 0,5 / 0,5 ptsPergunta 14 Analise as afirmativas quanto ao processo de extração de feições: I. O processo de extração de feições agrupa os passos de conversão de documentos, remoção de palavras e desambiguação; II. Este processo pretende determinar as palavras que caracterizam ou que possuem maior importância em um dado documento; III. Após o processo de extração de feições a dimensionalidade do documento não possuirá relação com a quantidade de palavras; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. Correto!Correto! I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 15/21 O processo de extração de feições agrupa os passos de conversão de documentos, remoção de palavras e desambiguação ilustrados na Figura XX. Este processo pretende determinar as palavras que caracterizam ou que possuem maior importância em um dado documento, para isso são necessários os seguintes passos: 1. Os documentos são transformados em texto plano e dividido em palavras individuais. 2. O conjunto de palavras obtidos com a aplicação do passo anterior é submetido a um processo de remoção de palavras, no qual são removidas palavras que não possuem importância no texto, chamadas na literatura como stop words; neste caso são removidos artigos, numerais, pronomes e verbos. 3. Por fim, as palavras restantes passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como porexemplo conjugações verbais. Para esse fim pode-se usar conceitos de similaridade entre palavras, como por exemplo o coeficiente de jaccard. Observa-se em (HAN et al., 2006) que a dimensionalidade do documento é proporcional à quantidade de palavras que ele possui e após a aplicação destes 3 passos, se consegue um conjunto de palavras mais relevantes ao documento e a consequente diminuição da dimensionalidade dele, conforme mostrado em (BRÜCHER; KNOLMAYER; MITTERMAYER, 2002). 0,5 / 0,5 ptsPergunta 15 Analise as afirmativas quanto ao processo de extração de feições: I. O conjunto de palavras obtidos com a aplicação do passo de transformação é submetido a um processo de remoção de palavras, no qual são removidas palavras que não possuem importância no texto, chamadas na literatura como stop words; II. As palavras restantes passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como por exemplo conjugações verbais.; III. Os documentos não precisam ser transformados em texto plano e dividido em palavras individuais para a análise; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. Correto!Correto! I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 16/21 I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. O processo de extração de feições agrupa os passos de conversão de documentos, remoção de palavras e desambiguação ilustrados na Figura XX. Este processo pretende determinar as palavras que caracterizam ou que possuem maior importância em um dado documento, para isso são necessários os seguintes passos: 1. Os documentos são transformados em texto plano e dividido em palavras individuais. 2. O conjunto de palavras obtidos com a aplicação do passo anterior é submetido a um processo de remoção de palavras, no qual são removidas palavras que não possuem importância no texto, chamadas na literatura como stop words; neste caso são removidos artigos, numerais, pronomes e verbos. 3. Por fim, as palavras restantes passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como por exemplo conjugações verbais. Para esse fim pode-se usar conceitos de similaridade entre palavras, como por exemplo o coeficiente de jaccard. 0 / 0,5 ptsPergunta 16 Analise as afirmativas: I. Numa curva ROC a reta entre os pontos (0,0) e (1,1) se trata de um classificador aleatório; II. Para se implementar a técnica de curva ROC para a validação de classificadores deve-se dividir a base de dados total de treinamento em parcelas; III. Para se implementar a técnica de validação cruzada se faz necessária o cálculo da área abaixo da curva (AUC); Selecione a correta alternativa quanto às afirmativas: I – correta, II – incorreta e III - incorreta. esposta corretaesposta correta I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. ocê respondeuocê respondeu 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 17/21 I – incorreta, II – incorreta e III - incorreta. A curva ROC ou Receive Operating Characteristic possuirá uma área abaixo da curva AUC (Area Under Curve), onde, para um classificador preciso sua área deverá ser 1 e para um classificador ruim ou impreciso sua área será 0, ou seja, classificadores que forem mais próximos de 1, tem um melhor desempenho, classificadores aleatórios possuem AUC em 0,5. Note que, a reta entre os pontos (0,0) e (1,1) se trata de um classificador aleatório. A validação cruzada é uma técnica relativamente simples, onde, pode-se dividir a base de dados total de treinamento em parcelas, por exemplo, validação cruzada de 50%, onde o classificador será treinado com os 50% de dados representativos e validado com os outros 50%, nesse caso, dado que se sabe o resultado da classificação pode-se mediar a acurácia do classificador. 0,5 / 0,5 ptsPergunta 17 Analise as afirmativas: I. O aspecto fundamental é como se chegar aos pontos de divisão, para isso existem algumas métricas; II. Em algoritmos de classificação, uma partição de dados possui entropia superior quando possui baixa desordem, se for relativamente pura; III. A entropia, em geral, mede a quantidade de desordem ou incerteza em um sistema.; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - correta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. Correto!Correto! 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 18/21 O aspecto fundamental é como se chegar aos pontos de divisão, para isso existem algumas métricas, a mais comumente utilizada é a entropia ou teria da informação. A entropia, em geral, mede a quantidade de desordem ou incerteza em um sistema. Em algoritmos de classificação, uma partição de dados possui entropia inferior quando possui baixa desordem, se for relativamente pura, ou seja, se a maioria dos pontos tiverem o mesmo rótulo. Por outro lado, uma partição possui maior entropia ou mais desordem se os objetos forem misturados, e não há uma classe principal, em outras palavras há objetos de classes diferentes misturados. A entropia mede então o grau de pureza de uma classe. 0,5 / 0,5 ptsPergunta 18 Analise as afirmativas: I. A predição numérica ou regressão é definida como uma técnica para se prever valores numéricos a partir de uma dada entrada; II. Para se prever uma variável dependente a partir de uma outra independente usando a regressão linear, se faz necessário determinar a equação da reta de regressão que melhor modela os dados; III. As técnicas de regressão não podem ser utilizadas para a predição dos valores; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. Correto!Correto! 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 19/21 Regressão Linear A predição numérica ou regressão é definida como uma técnica para se prever valores numéricos a partir de uma dada entrada, por exemplo uma situação industrial, onde se deseja prever a quantidade de metros cúbicos de água poluída por um determinado componente na saída de água corrente em um processo químico, dado que esse valor está relacionado à temperatura de entrada da água. Observa-se nesse caso que a variável de quantidade é dependente da variável de temperatura. Nesse exemplo as técnicas de regressão podem ser utilizadas para a predição dos valores (LARSON; FARBER, 2010) (NAVIDI, 2014). Para se prever uma variável dependente a partir de uma outra independente usando a regressão linear, se faz necessário determinar a equação da reta de regressão que melhor modela os dados. A reta de regressão e sua equação podem ser usadas na predição do valor de y, para um dado valor de x (LARSON; FARBER, 2010). 0 / 0,5 ptsPergunta 19 Analise as afirmativas: I. Para a criação de classificadores se deve incialmente passar por uma etapa de treinamento; II. Na etapa inicial é criado um conjunto de treinamento, onde se conhece a quais classes essas instâncias de treinamento pertencem; III. Após a etapa de treinamento o classificador poderá associar novas instâncias a essas classes inicialmente impostas a ele; Selecionea correta alternativa quanto às afirmativas: I – incorreta, II – correta e III - correta. ocê respondeuocê respondeu I – correta, II – correta e III - incorreta. I – incorreta, II – incorreta e III - correta. I – correta, II – correta e III - correta. esposta corretaesposta correta I – correta, II – incorreta e III - correta. 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 20/21 Para a criação de classificadores se deve incialmente passar por uma etapa de treinamento, na qual é criado um conjunto de treinamento, onde se conhece a quais classes essas instâncias de treinamento pertencem, para que seja possível, posteriormente, o classificador associar novas instâncias a essas classes inicialmente impostas a ele. 0,5 / 0,5 ptsPergunta 20 Analise as afirmativas: I. Verdadeiro positivo (TP - true positive): trata-se do número de pontos classificados incorretamente como positivos; II. Falso positivo (FP - false positive): o número de pontos classificados como negativo, porém é positivo para a dada classe; III. Falso negativo (FN - false negative): o número de pontos classificado como positivo para uma dada classe, porém ele deveria ser negativo; Selecione a correta alternativa quanto às afirmativas: I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. Correto!Correto! 22/12/2022 12:03 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/23976/quizzes/63377 21/21 Vamos falar sobre a F-measure que mede na verdade a quantidade de acertos e erros dos algoritmos, ou conhecido como acurácia. Essa medida soma os seguintes acertos e erros do algoritmo: Verdadeiro positivo (TP – true positive): trata-se do número de pontos classificados corretamente como positivos; Falso positivo (FP – false positive): o número de pontos classificados como positivo, porém é negativo para a dada classe, nesse caso um erro; Falso negativo (FN – false negative): o número de pontos classificado como negativo para uma dada classe, porém ele deveria ser positivo, que também se trata de um erro do algoritmo; e Verdadeiro negativo (TN – true negative): número de pontos classificados corretamente como negativos, ou seja, de fato não pertencem à dada classe;
Compartilhar