Baixe o app para aproveitar ainda mais
Prévia do material em texto
28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 1/23 AS Geral Entrega Sem prazo Pontos 10 Perguntas 20 Disponível 20 nov em 0:00 - 30 nov em 23:59 11 dias Limite de tempo Nenhum Tentativas permitidas 3 Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 111 minutos 8 de 10 As respostas corretas estão ocultas. Pontuação desta tentativa: 8 de 10 Enviado 28 nov em 20:55 Esta tentativa levou 111 minutos. Fazer o teste novamente 0,5 / 0,5 ptsPergunta 1 Analise as afirmativas: I. A mediana é o valor que separa a metade menor da metade maior da população ou do conjunto de dados; II. Abordagens mais simples para a detecção de outliers utiliza os valores de Quartil no conjunto de dados, que por sua vez utiliza a medida de Mediana; III. Abordagens mais simples para a detecção de outliers utiliza os valores de Quartil no conjunto de dados, que por sua vez utiliza a medida de Media; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – correta, II – incorreta e III - correta. https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592/history?version=1 https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592/take?user_id=225428 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 2/23 I – incorreta, II – correta e III - correta. I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. Abordagens mais simples para a detecção de outliers utiliza os valores de Quartil no conjunto de dados, que por sua vez utiliza a medida de Mediana. A mediana é o valor que separa a metade menor da metade maior da população ou do conjunto de dados. 0,5 / 0,5 ptsPergunta 2 Analise as afirmativas: I. Minerar dados é o processo de descobrir informações relevantes como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em bancos de dados; II. A mineração de dados serve única e exclusivamente para o reconhecimento de outliers e classificação de instâncias; III. Estimação de valores, detecção de outliers e agrupamento de instâncias são algumas das técnicas de análise e reconhecimento de padrões; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 3/23 Minerar dados é o processo de descobrir informações relevantes como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em bancos de dados, depósitos de dados ou outros depósitos de informação. A mineração de dados fornece percepções dos dados, descobrindo padrões e relacionamentos ocultos em grandes bancos de dados e inferindo regras a partir deles, para prever comportamentos futuros (ZAKI; MEIRA, 2014). O reconhecimento de padrões é uma disciplina da ciência que tem como objetivo classificar objetos em um número de categorias ou classes, conforme o observado em (THEODORIDIS; KOUTROUMBAS, 2008). Dependendo da aplicação, esses objetos podem ser, por exemplo, imagens, sinais de ondas de rádio, ou qualquer tipo de medida que se deseja classificar. Observa-se ainda que, com as técnicas de reconhecimento de padrões pode-se, por exemplo (DOUGHERTY, 2012): • estimar valores; • selecionar atributos relevantes para classificação; • reconhecer pontos fora da curva, chamados de outliers; • agrupamento de instâncias; • classificação de instâncias; ou • análise de textos; 0,5 / 0,5 ptsPergunta 3 Analise as afirmativas: I. uma medida de similaridade ou dissimilaridade expressa em valor real a similaridade ou a diferença entre dois vetores ou instância; II. A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra Mahalanobis. Essa medida se baseia nas correlações entre as variáveis; III. A distância Euclidiana é uma forma de geometria que se baseia na soma das diferenças absolutas de todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à distância calculada em um software de GPS; 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 4/23 Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. Conforme se observa em Theodoridis e Koutroumbas em (2008) uma medida de similaridade ou dissimilaridade expressa em valor real a similaridade ou a diferença entre dois vetores ou instância, para se medir esses valores podem ser utilizadas medidas de distância entre dois pontos. As medidas de distância comumente utilizadas são: distância euclidiana, distância de Mahalanobis e distância de Manhattan. A distância de Mahalanobis foi introduzida em 1936 pelo matemático indiano Prasanta Chandra Mahalanobis. Essa medida se baseia nas correlações entre as variáveis. A distância de Manhattan é uma forma de geometria que se baseia na soma das diferenças absolutas de todas as coordenadas entre um ponto e outro, em outras palavras assemelha-se à distância calculada em um software de GPS. 0,5 / 0,5 ptsPergunta 4 Analise a afirmativa: O objetivo da função é fazer a poda do conjunto de itens candidatos, usando o princípio de que cada subconjunto de um conjunto de itens frequentes também deve ser frequentes. Selecione a alternativa que traz o nome da função definida na afirmativa. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 5/23 função outlier. função apriori. função classify. função kmeans. função apriori-gen. O outro objetivo da função Apriori-gen é fazer a poda do conjunto de itens candidatos, usando o princípio de que cada subconjunto de um conjunto de itens frequentes também deve ser frequentes. Esta regra é utilizada para reduzir o número de candidatos a serem comparados com cada transação na base de dados (GILLMEISTER, 2007) 0,5 / 0,5 ptsPergunta 5 Analise as afirmativas: I. classificação de clientes mediante ao perfil de compra e crédito; II. comumente aplicado em análise de operações de compras com cartão de crédito, onde se percebem caso ocorram fraudes; III. técnicas de agrupamento podem ser aplicadas para a criação de grupos e separação de indivíduas ou criação de categorias, criação de categorias de documentos, por exemplo, análise de dados de postagens em redes sociais; Selecione a correta alternativa que traz o correto relacionamento entre uma definição e sua técnica associada: I – classificação , II – detecção de outlier e III – clustering. I – regras de associação , II – clustering e III – classificação. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 6/23 I – estimação de valores ou regressão, II – classificação e III – regras de associação. I – clustering , II – classificação e III – estimação de valores ou regressão. I – detecção de outlier, II – clustering e III – classificação. Seguem alguns exemplos de aplicabilidade das técnicas (THEODORIDIS; KOUTROUMBAS, 2008): Detecção de outlier: comumente aplicado em análise de operações de compras com cartão de crédito, onde se percebem caso ocorram fraudes; Técnicas de classificação: classificação de clientes mediante ao perfil de compra e crédito; Técnica de clustering: técnicas de agrupamentopodem ser aplicadas para a criação de grupos e separação de indivíduas ou criação de categorias, criação de categorias de documentos, por exemplo, análise de dados de postagens em redes sociais; Estimação de valores: estimar leituras de sensores quando há falhas na leitura ou falhas na comunicação entre uma aplicação e o sensor; Seleção de atributos: compreender quais são as características que melhor definem o comportamento de uma espécie; Análise de textos: aplicação que caracteriza um perfil social dadas as suas postagens em uma rede social de textos; 0,5 / 0,5 ptsPergunta 6 Analise as afirmativas: I. Tipicamente o Coeficiente de Silhueta total será um valor entre -1 e 1, sendo que o modelo com K que melhor agrupa o conjunto de dados ser o que possuir valor mais próximo de 1. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 7/23 II. O coeficiente de silhueta é uma medida de coesão e separação de clusters; III. O coeficiente de silhueta é baseado na diferença entre a distância média de um ponto para os pontos de seu cluster e a distância média de um objeto a todos os objetos do cluster mais próximo; Selecione a correta alternativa quanto às afirmativas relacionada à medida de validação de clusters usando o coeficiente de silhueta: I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. O coeficiente de silhueta é uma medida de coesão e separação de clusters, é baseado na diferença entre a distância média de um ponto para os pontos de seu cluster e a distância média de um objeto a todos os objetos do cluster mais próximo. Para que se validar o modelo proposto é importante executar essa validação para inúmeros valores de K, ou seja, se executar o algoritmo iniciando com K igual a 1 e aumentando gradativamente, para cada execução do algoritmo se calcular o coeficiente de silhueta total (SWC) e se plotar em um gráfico. Tipicamente o SWC será um valor entre -1 e 1, sendo que o modelo com K que melhor agrupa o conjunto de dados ser o que possuir valor mais próximo de 1 0,5 / 0,5 ptsPergunta 7 Analise as afirmativas: 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 8/23 I. Clustering é um método frequentemente usado para análise exploratória dos dados, onde não há estimativas de quaisquer valores ou agrupamentos, as criações dos grupos ocorrem apenas se encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters; II. Pode-se usar o método de clustering para realizar segmentação de clientes para permitir programas de marketing direcionados ou especiais; III. As técnicas de clustering não podem ser utilizadas para criar agrupamentos de documentos dada a natureza desestruturada dos textos; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. Clustering é um método frequentemente usado para análise exploratória dos dados, onde não há estimativas de quaisquer valores ou agrupamentos, as criações dos grupos ocorrem apenas se encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters. A ideia de semelhanças pode ser explicada com os seguintes exemplos: Considere questões como 1. Como faço para agrupar esses documentos por tópico? 2. Como faço para realizar segmentação de clientes para permitir programas de marketing direcionados ou especiais. 0,5 / 0,5 ptsPergunta 8 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 9/23 Analise as afirmativas: I. As medidas de "similaridade" não são boas para o uso em algoritmos de clustering; II. A distância (um inverso de semelhança) entre os pontos dentro de um cluster é sempre menor do que a distância entre pontos em um cluster diferente; III. A escolha do tipo de medida de distância é importante para a execução dos algoritmos de usam medidas de similaridades; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. I – incorreta, II – incorreta e III - incorreta. I – incorreta, II – correta e III - correta. Note que a definição de "similaridade" é específica para o domínio do problema. Estamos definindo semelhança como esses pontos de dados com a mesma característica como "tópico" ou clientes que podem ser perfilados para uma mesma "faixa etária / renda / gênero" ou um "padrão de compra". Se tivermos um vetor de medidas de um atributo dos dados, os pontos de dados agrupados em um cluster terão valores para a medição próxima uns dos outros dos pontos de dados agrupados em um cluster diferente. Em outras palavras, a distância (um inverso de semelhança) entre os pontos dentro de um cluster é sempre menor do que a distância entre pontos em um cluster diferente. Em um cluster, acabamos com um grupo apertado (homogêneo) de pontos de dados que estão distantes dos pontos de dados que acabam em um cluster diferente. 0,5 / 0,5 ptsPergunta 9 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 10/23 Analise as afirmativas: I. escolhe aleatoriamente a quantidade de grupos ou clusters nos quais se deseja agrupar os objetos; II. recebe como parâmetro a quantidade de grupos ou clusters nos quais se deseja agrupar os objetos; III. utiliza medidas de similaridade entre os objetos; Selecione a correta alternativa quanto às afirmativas relacionadas ao algoritmo kmeans: I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – incorreta, II – incorreta e III - incorreta. O algoritmo de clustering k-means foi proposto incialmente por MacQueen (1967), e utiliza medidas de similaridade entre os objetos. O algoritmo deve receber como parâmetro a quantidade de grupos ou clusters nos quais se deseja agrupar os objetos. O algoritmo escolhe aleatoriamente N objetos, que tornam-se representantes de cada cluster, chamados de centroides. A cada iteração do algoritmo, os outros objetos são alocados nos clusters, ou seja, o objeto é colocado no cluster do centroide mais próximo. A cada iteração, o algoritmo recalcula o centroide, usando a média das distâncias entre todos os integrantes do cluster. 0,5 / 0,5 ptsPergunta 10 Selecione a alternativa que traz uma correta definição de algoritmos de clustering. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 11/23 Geram regras de associação que demonstram a presença de um determinado conjunto que implica na presença de algum outro conjunto distinto de itens Comumente utilizada para a classificação de clientes mediante ao perfil de compra e crédito. Os algoritmos de Clustering são métodos de aprendizado não supervisionados usados para a criação de grupos homogêneos, dado um conjunto de dados com base em sua estrutura interna. utilizado para se compreender quais são as características que melhor definem o comportamento de uma espécie. comumente aplicado em análise de operações de compras com cartão de crédito, onde se percebem caso ocorram fraudes. Os algoritmos de Clustering são método de aprendizado não supervisionados usados para a criação de grupos homogêneos, dado um conjunto de dados com base em sua estrutura interna. Clustering é um método frequentemente usado paraanálise exploratória dos dados, onde não há estimativas de quaisquer valores ou agrupamentos, as criações dos grupos ocorrem apenas se encontrando a semelhança entre os dados e agrupando-os em grupos ou clusters. 0 / 0,5 ptsPergunta 11IncorretaIncorreta Analise as afirmativas quanto ao processo de extração e seleção de feições: 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 12/23 I. O coeficiente de jaccard pode ser utilizado no processo de word stemming; II. Após a aplicação do processo de extração de feições é aplicado o processo de seleção de feições, que define a importância de cada termo para um documento ou para um dado conjunto de documentos; III. Todos os termos que permaneceram na representação dos documentos ou extração de feições agregam conhecimento; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. As palavras restantes do processo de extração de feições passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como por exemplo conjugações verbais. Para esse fim pode-se usar conceitos de similaridade entre palavras, como por exemplo o coeficiente de jaccard. Após a aplicação do processo de extração de feições é aplicado o processo de seleção de feições, que define a importância de cada termo para um documento ou para um dado conjunto de documentos, pois nem todos os termos que permaneceram na representação dos documentos agregam conhecimento. 0,5 / 0,5 ptsPergunta 12 Analise as afirmativas quanto ao processo de representação de documentos: 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 13/23 I. Um documento ou um padrão pode ser representado em termos das características ou feições selecionadas, transformadas em vetores de características; II. Cada termo importante deve ter um valor e posição definida no documento ou conjunto de documentos; III. a representação de um documento é dado por: f = (f1, f2, f3, ..., fn ), onde cada fi corresponde ao tf do termo ou feição que i representa; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – correta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - correta. Representação de documentos Um documento ou um padrão pode ser representado em termos das características ou feições selecionadas, transformadas em vetores de características, onde cada termo importante deve ter um valor e posição definida no documento ou conjunto de documentos. Se o processo de seleção produzir n como quantidade de feições e m como quantidade de documentos no conjunto total, o conjunto de documentos será representado por uma matriz de feições m X n. Um dado conjunto n de feições ou características de um dado documento ou conceito é representado por 1 X n vetor de feições representado por f, conforme a representação dada: f = (f1, f2, f3, ..., fn ), onde cada fi corresponde ao tf do termo ou feição que i representa. 0,5 / 0,5 ptsPergunta 13 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 14/23 Analise as afirmativas quanto ao processo de extração de feições: I. O conjunto de palavras obtidos com a aplicação do passo de transformação é submetido a um processo de remoção de palavras, no qual são removidas palavras que não possuem importância no texto, chamadas na literatura como stop words; II. As palavras restantes passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como por exemplo conjugações verbais.; III. Os documentos não precisam ser transformados em texto plano e dividido em palavras individuais para a análise; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – correta e III - correta. I – correta, II – correta e III - correta. I – correta, II – incorreta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - incorreta. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 15/23 O processo de extração de feições agrupa os passos de conversão de documentos, remoção de palavras e desambiguação ilustrados na Figura XX. Este processo pretende determinar as palavras que caracterizam ou que possuem maior importância em um dado documento, para isso são necessários os seguintes passos: 1. Os documentos são transformados em texto plano e dividido em palavras individuais. 2. O conjunto de palavras obtidos com a aplicação do passo anterior é submetido a um processo de remoção de palavras, no qual são removidas palavras que não possuem importância no texto, chamadas na literatura como stop words; neste caso são removidos artigos, numerais, pronomes e verbos. 3. Por fim, as palavras restantes passam por um processo mencionado na literatura como word stemming, que tem por objetivo remover variações de um mesmo termo, como por exemplo conjugações verbais. Para esse fim pode-se usar conceitos de similaridade entre palavras, como por exemplo o coeficiente de jaccard. 0 / 0,5 ptsPergunta 14IncorretaIncorreta Analise as afirmativas: I. O processo de análise de textos possui inúmeras fases, que dado o tipo de projeto e tipo de tecnologia de processamento de textos fará com que algumas das fases sejam agrupadas; II. O processo de categorização de documentos é uma subárea da mineração em textos; III. O processo de remoção de palavras não é uma fase do processo de categorização de documentos; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - correta. I – incorreta, II – incorreta e III - incorreta. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 16/23 I – correta, II – incorreta e III - correta. I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. O processo de categorização de documentos é uma subárea da mineração em textos, que se definido como um processo para agrupar documentos similares, a partir da organização do conhecimento e da remoção de redundâncias e variações de palavras existentes nos documentos (BRüCHER; KNOLMAYER; MITTERMAYER, 2002). A Figura XX ilustra a arquitetura do processo de categorização de documentos. Arquitetura do processo de categorização de documentos. Adaptado de (GUO et al., 2003) O processo de análise de textos possui inúmeras fases, que dado o tipo de projeto e tipo de tecnologia de processamento de textos fará com que algumas das fases sejam agrupadas. Aqui será feita uma descrição de cada etapa de maneira simplificada sem entrar no aspecto de ferramenta ou tecnologia utilizada. 0,5 / 0,5 ptsPergunta 15 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 17/23 Analise as afirmativas quanto ao processo de Conversão de documentos e remoção de palavras: I. Como exemplo, pode-se pensar no resgate de dados de postagens em Blogs, onde cada postagem, deverá ser inicialmente trabalhada para se remover as TAGs HTML, de modo a deixar tudo com texto plano, etiquetadas com características de autor e informações temporais.; II. A separação em pastas dos dados iniciais poderá influenciar o resultado e deverá ser feito de acordo com a análise que se requer; III. A análise não requer se etiquetar o dado com fonte de origemou autor, o agrupamento dos documentos, seja por data, autor ou origem poderão alterar grandemente o resultado da análise de textos e isso deve variar também de acordo com o projeto e tecnologia.; Selecione a correta alternativa quanto às afirmativas: I – correta, II – incorreta e III - correta. I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. I – correta, II – correta e III - correta. 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 18/23 Conversão de documentos e remoção de palavras Ao se trabalhar com diversas fontes de dados de Big Data, o processo inicial de requisição de dados poderá variar bastante, dependendo do tipo de fonte de dados, pode exemplo, dados de redes sociais, dados da WEB, Blogs, fóruns em sistemas específicos, bases de e-mails, enfim, uma infinidade de fontes de dados que deverão ser trabalhadas em suas especificidades. Cabe ressaltar ainda, que dada a característica da análise, é sempre importante se conseguir etiquetar o dado com fonte de origem ou autor, o agrupamento dos documentos, seja por data, autor ou origem poderão alterar grandemente o resultado da análise de textos e isso deve variar também de acordo com o projeto e tecnologia. A fase inicial de Dados de entrada, sejam dados etiquetados deve ser bem definida e trabalhada em sua especificidade de projeto e finalizará com a etapa de conversão dos documentos. Como exemplo, pode-se pensar no resgate de dados de postagens em Blogs, onde cada postagem, deverá ser inicialmente trabalhada para se remover as TAGs HTML, de modo a deixar tudo com texto plano, etiquetadas com características de autor e informações temporais. Nesse passo, hipoteticamente ao trabalhar com a plataforma HADOOP, deverão ser criados diversos arquivos em texto plano e agrupados ou separados de maneira temporal ou por autor em pastas no sistema de arquivos. Note que essa separação em pastas poderá influenciar o resultado e deverá ser feito de acordo com a análise que se requer. 0,5 / 0,5 ptsPergunta 16 Analise as afirmativas: I. Em (DOUGHERTY, 2012) é citado que, para se dividir objetos em classes é necessário observar as características dos objetos, verificar quais características discriminam melhor as classes e a partir delas iniciar o processo de classificação; 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 19/23 II. São exemplos de algoritmos de classificação: classificadores probabilísticos, classificadores baseados na teoria de decisão de Bayes, classificadores lineares baseados em funções de probabilidade; III. São exemplos de algoritmos de classificação: classificadores baseados em rede neurais, métodos estocásticos, classificadores polinomiais; Selecione a correta alternativa quanto às afirmativas: I – correta, II – correta e III - incorreta. I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. Em (THEODORIDIS; KOUTROUMBAS, 2008) e em (DOUGHERTY, 2012) são encontradas diversas técnicas de classificação, como por exemplo, classificadores probabilísticos, classificadores baseados na teoria de decisão de Bayes, classificadores lineares baseados em funções de probabilidade, classificadores baseados em rede neurais, métodos estocásticos, classificadores polinomiais, dentre outros. 0 / 0,5 ptsPergunta 17IncorretaIncorreta Analise as afirmativas: I. O algoritmo a priori é um exemplo de algoritmo de classificação; II. O algoritmo kmeans é um exemplo de algoritmo de classificação; III. As técnicas de classificação podem ser utilizadas para se classificar objetos em um determinado número de categorias ou classes.; Selecione a correta alternativa quanto às afirmativas: 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 20/23 I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. I – incorreta, II – incorreta e III - correta. I – incorreta, II – correta e III - correta. Algoritmos de classificação As técnicas de classificação podem ser utilizadas para se classificar objetos em um determinado número de categorias ou classes. Em (DOUGHERTY, 2012) é citado que, para se dividir objetos em classes é necessário observar as características dos objetos, verificar quais características discriminam melhor as classes e a partir delas iniciar o processo de classificação. Em (THEODORIDIS; KOUTROUMBAS, 2008) e em (DOUGHERTY, 2012) são encontradas diversas técnicas de classificação, como por exemplo, classificadores probabilísticos, classificadores baseados na teoria de decisão de Bayes, classificadores lineares baseados em funções de probabilidade, classificadores baseados em rede neurais, métodos estocásticos, classificadores polinomiais, dentre outros. 0 / 0,5 ptsPergunta 18IncorretaIncorreta Analise as afirmativas: I. Numa curva ROC a reta entre os pontos (0,0) e (1,1) se trata de um classificador aleatório; II. Para se implementar a técnica de curva ROC para a validação de classificadores deve-se dividir a base de dados total de treinamento em parcelas; 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 21/23 III. Para se implementar a técnica de validação cruzada se faz necessária o cálculo da área abaixo da curva (AUC); Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - incorreta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. I – incorreta, II – correta e III - correta. A curva ROC ou Receive Operating Characteristic possuirá uma área abaixo da curva AUC (Area Under Curve), onde, para um classificador preciso sua área deverá ser 1 e para um classificador ruim ou impreciso sua área será 0, ou seja, classificadores que forem mais próximos de 1, tem um melhor desempenho, classificadores aleatórios possuem AUC em 0,5. Note que, a reta entre os pontos (0,0) e (1,1) se trata de um classificador aleatório. A validação cruzada é uma técnica relativamente simples, onde, pode-se dividir a base de dados total de treinamento em parcelas, por exemplo, validação cruzada de 50%, onde o classificador será treinado com os 50% de dados representativos e validado com os outros 50%, nesse caso, dado que se sabe o resultado da classificação pode-se mediar a acurácia do classificador. 0,5 / 0,5 ptsPergunta 19 Analise as afirmativas: I. Verdadeiro positivo (TP - true positive): trata-se do número de pontos classificados incorretamente como positivos; 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 22/23 II. Falso positivo (FP - false positive): o número de pontos classificados como negativo, porém é positivo para a dada classe; III. Falso negativo (FN - false negative): o número de pontos classificado como positivo para uma dada classe, porém ele deveria ser negativo; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – incorreta e III - incorreta. I – correta, II – correta e III - incorreta. I – correta, II – correta e III - correta. I – incorreta, II – correta e III - correta. I – correta, II – incorreta e III - correta. Vamos falar sobre a F-measure que mede na verdade a quantidade de acertos e erros dos algoritmos, ou conhecido como acurácia. Essa medida soma os seguintes acertos e erros do algoritmo: Verdadeiro positivo (TP – true positive): trata-se do número de pontos classificados corretamente como positivos; Falsopositivo (FP – false positive): o número de pontos classificados como positivo, porém é negativo para a dada classe, nesse caso um erro; Falso negativo (FN – false negative): o número de pontos classificado como negativo para uma dada classe, porém ele deveria ser positivo, que também se trata de um erro do algoritmo; e Verdadeiro negativo (TN – true negative): número de pontos classificados corretamente como negativos, ou seja, de fato não pertencem à dada classe; 0,5 / 0,5 ptsPergunta 20 Analise as afirmativas: 28/11/2021 20:55 AS Geral: ALGORITMOS PARA ANÁLISE DE DADOS https://cruzeirodosul.instructure.com/courses/22038/quizzes/57592 23/23 I. Uma árvore de decisão consiste em nós internos que representam as decisões correspondentes aos hiperplanos ou pontos de divisão entre as classes; II. Nós de folha representam regiões ou partições do espaço de dados, que são rotulados com a maioridade da classe; III. Um algoritmo de árvore de decisão permite a criação de clustering e é relativamente simples; Selecione a correta alternativa quanto às afirmativas: I – incorreta, II – correta e III - correta. I – incorreta, II – incorreta e III - correta. I – correta, II – incorreta e III - correta. I – correta, II – correta e III - correta. I – correta, II – correta e III - incorreta. Uma árvore de decisão consiste em nós internos que representam as decisões correspondentes aos hiperplanos ou pontos de divisão entre as classes, e nós de folha que representam regiões ou partições do espaço de dados, que são rotulados com a maioridade da classe. Uma região é então caracterizada pelo subconjunto de pontos de dados que se encontram na região. O algoritmo é relativamente simples, tendo em vista que os pontos de divisão entre as classes estão previamente definidos. Pontuação do teste: 8 de 10
Compartilhar