Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prova Impressa GABARITO | Avaliação Final (Objetiva) - Individual (Cod.:957024) Peso da Avaliação 4,00 Prova 79837178 Qtd. de Questões 10 Acertos/Erros 7/3 Nota 7,00 Na sumarização de textos, nem todas as palavras devem ser indexadas. As palavras conhecidas como “Stopwords”, não devem ser adicionadas. Na verdade, as Stopwords são palavras que não fazem diferença quando indexadas, somente aumentam o tamanho do arquivo de índice. Sobre o código em Python para remover stopwords, ordene os itens a seguir: I- stopwords = set (stopwords.words(‘portugueses’) + list(punctuation)). II- palavras_sem_stopwords = [palavras for palavras in palavras if palavras not in stopwords]. III- from nltk.corpus import stopwords. IV- from string import punctuation. Assinale a alternativa que apresenta a sequência CORRETA: A I - II - III - IV. B III - IV - I - II. C II - I - IV - III. D III - II - I - IV. VOLTAR A+ Alterar modo de visualização 1 A Mineração de Dados é uma das tecnologias mais promissoras da atualidade. Um dos fatores desse sucesso é o fato de dezenas, e muitas vezes centenas de milhões de reais serem gastos pelas companhias na coleta dos dados e, no entanto, nenhuma informação útil é identificada. Sobre os modelos de mineração de dados, assinale a alternativa CORRETA: FONTE: CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), v. 1, n. 1, p. 1-29, 2009. A Previsão, Risco e Probabilidade, Recomendações e Agregações. B Adaptação, Recuo, Recomendações, Localizando sequências e Agrupamento. C Reclusão, Risco e Probabilidade, Recomendações, Localizando sequências e Filtros. D Previsão, Risco e probabilidade, Recomendações, Localizando sequências e Agrupamento. Pode-se dizer que a mineração de dados é uma etapa do processo KDD, usada para auxiliar os especialistas em uma determinada área a atualizar suas bases de conhecimento na busca de alguma vantagem competitiva em seu negócio. Dentre as tarefas de mineração de dados, podemos destacar a sumarização. Considerando a sumarização, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A sumarização de textos é empregada para organizar de maneira lógica informações de diferentes coleções de dados, nas quais podem ser realizadas pesquisas de maneira facilitada por conta de seus resumos. ( ) Embora seja considerada uma tarefa de mineração de dados, a sumarização é parte da classificação automática de textos. ( ) Os objetivos da sumarização se classificam principalmente em dois pontos de vista: o do leitor, portanto o usuário do sumário; e do produtor, o escritor. ( ) A SAT refere-se ao uso de um sistema com o objetivo de produzir uma representação condensada de determinado conteúdo de entrada. Assinale a alternativa que apresenta a sequência CORRETA: A F - F - V - V. 2 3 B V - V - V - V. C V - V - F - F. D V - F - V - V. Ferramenta de mineração de dados, desenvolvida na Universidade de Waikato, na Nova Zelândia, é um software de aprendizado de máquina de código aberto testado e aprovado escrito em Java e está disponível da web e pode ser acessada por meio de uma interface gráfica do usuário, de aplicativos de terminal padrão ou de uma API Java. Sobre a ferramenta descrita, assinale a alternativa CORRETA: A RapidMiner. B Google Collab. C Orange. D WEKA. No pré-processamento, são identificados e corrigidos problemas como dados duplicados, valores faltantes, inconsistências de dados e valores discrepantes. Adicionalmente, é durante esta etapa que os dados são convertidos para um formato apropriado para análise. Sobre os fatores que compõem a qualidade dos dados, assinale a alternativa correta: A Precisão, cleartype, consistência, pontualidade, credibilidade e interpretabilidade. B Precisão, completude, consistência, causalidade, credibilidade e interpretabilidade. Revisar Conteúdo do Livro 4 5 C Precisão, completude, consistência, pontualidade, credibilidade e interpretabilidade. D Precisão, completude, consistência, pontualidade, credibilidade e ausência. Para conseguir os insights certos, o big data é normalmente dividido em três características: Volume: Quantidade de dados; Velocidade: Com que rapidez os dados são processados; Variedade: Os vários tipos de dados. Com relação aos desafios da mineração de dados, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A escalabilidade também pode exigir a implementação de novas estruturas de dados para acessar registros individuais de maneira eficiente. ( ) Conjuntos de dados com temporais ou componentes espaciais também tendem a ter baixa dimensionalidade. ( ) Métodos tradicionais de análise de dados frequentemente lidam com conjuntos de dados contendo atributos do mesmo tipo, contínuos ou categóricos. ( ) Entre os principais desafios enfrentados pelos algoritmos de mineração de dados distribuídos, estão: como reduzir a quantidade de comunicação necessária para realizar o computador distribuído. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: HURWITZ, Judith et al. Big Data para leigos. Alta Books Editora, 2016. A F - V - F - F. B V - F - V - F. C V - F - V - V. D F - F - V - V. As regras de associação representam combinações de itens que ocorrem com determinada frequência em uma base de dados. A mineração de regras de associação torna-se atraente e popular por possuir uma forma fácil de ser compreendida. Sobre as regras de associação, classifique V para as sentenças verdadeiras e F para as falsas: 6 7 ( ) No pré-processamento, itens frequentes são aqueles que atendem algum critério preestabelecido mínimo de frequência, como itens que aparecem pelo menos em determinado número de transações. ( ) Na geração de itens, além de poder cobrir todas as etapas comuns de pré-processamento de dados, como limpeza, integração, redução, transformação e discretização, a adequação. ( ) Na mineração de regras de mineração das regras, as regras são geradas em uma etapa específica, utilizando simplesmente os itens frequentes da base. ( ) Na avaliação são verificadas determinadas regras de associação, podem ser utilizadas diferentes medidas de interesse, dependendo do contexto. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - F - V. B F - F - V - V. C V - F - F - F. D V - F - V - F. A descoberta de Conhecimento em Bancos de Dados (KDD) representa um processo essencial na análise de dados, envolvendo a identificação de padrões, tendências e relações ocultas em grandes conjuntos de informações. Por meio de técnicas avançadas de mineração de dados, o KDD capacita organizações a extrair insights valiosos e tomar decisões estratégicas. Fonte: HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and Techniques. São Paulo: Elsevier, 2011. Sobre a etapa de transformação, analise as seguintes características: I. Dados são convertidos em um formato que permita uma análise mais eficiente. II. Padrões diferentes são unificados. III. Apresentam os resultados das análises. É correto o que se afirma em: Revisar Conteúdo do Livro 8 A I, apenas. B I e II, apenas. C II e III, apenas. D III, apenas. Machine learning é um subcampo da inteligência artificial que consiste em usar métodos computacionais intensivos a fim de detectar padrões e gerar modelos preditivos para o contexto em que está sendo empregado; tendo por característica o autoaprendizado. Considerando as técnicas de agrupamento, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O agrupamento pode ser definido como a busca por uma estrutura de clusters. ( ) Os clusters compartilham características diferentes relevantes para a análise dos dados. ( ) O algoritmo de K-Médias utiliza o critério de compactação e naturalmente apresenta resultados bastante satisfatórios para grupos de formato esférico. ( ) A avaliação dos clusters tem por objetivodeterminar se a estrutura encontrada de fato existe e se faz sentido. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B V - F - V - F. C V - F - F - V. D F - F - F - V. O processo de KDD requer ferramentas especializadas, que permitam a análise sistemática de grandes bases de dados. Muitas dessas análises, por sua vez, utilizam algoritmos clássicos, propostos ainda no início do desenvolvimento da comunicação. Revisar Conteúdo do Livro 9 10 Sobre as etapas do CRISP-DM, assinale a alternativa CORRETA: A Compreensão dos negócios, Entendimento dos dados, Preparação dos dados, Modelagem, Análise dos resultados e Data Warehousing. B Compreensão dos negócios, Entendimento dos dados, Preparação dos dados, Data Mining, Análise dos resultados e Divulgação dos resultados. C Compreensão dos negócios, Entendimento dos dados, enriquecimento semântico, Modelagem, Análise dos resultados e Divulgação dos resultados. D Compreensão dos negócios, Entendimento dos dados, Preparação dos dados, Modelagem, Análise dos resultados e Divulgação dos resultados. Imprimir
Compartilhar