Baixe o app para aproveitar ainda mais
Prévia do material em texto
Quando estamos lidando com PLN é preciso transformar o dado textual em algo compreensível às máquinas para que elas possam operar sobre aquele conjunto. Qual destas é uma opção de transformação para este cenário? Quando nos referimos a tarefa de juntar documentos semelhantes em subconjuntos de forma automática baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo a clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto? Um conjunto de treinamento de PLN é relativamente incomum quando olhamos para a gama de projetos de IA, uma vez que estamos falando de textos, ou comentários, ou qualquer dado em forma textual. O nome do conjunto de documentos passados ao processo de mineração de texto, se chama __________: 7396 - PROCESSAMENTO DE LINGUAGEM NATURAL E RECONHECIMENTO DE VOZ 1. Redução de Dimensionalidade Regressão Vetorização Pivot Table Classificação Data Resp.: 04/10/2023 20:57:08 Explicação: Para fazermos um texto ser compreensível às máquinas precisamos transformar cada token (palavra ou sentença) em um vetor ou tensor, e isto pode ser feito através de TF-IDF ou técnicas de Word2Vec ou Doc2vec. Demais opções fornecidas são técnicas de aprendizado de máquina ou tipos de aprendizado. 2. LSTM K-Means Gaussian Naive Bayes KNN TF-IDF Data Resp.: 04/10/2023 20:57:12 Explicação: TF-IDF é um cálculo estatístico adotado pelo algoritmo do Google para medir quais termos são mais relevantes para um tópico, analisando a frequência com que aparecem em uma página, em comparação à sua frequência em um conjunto maior de páginas. 3. Radical Corpus Símbolo Lema Token Data Resp.: 04/10/2023 20:57:14 Explicação: Um conjunto de textos é um corpus, cada texto por sua vez se divide em sentenças, palavras e por fim caracteres Dentro do processamento de linguagem natural temos uma subdivisão de áreas de especialização, ou tarefas que procuram entender: a estrutura do texto, sentido passado nas mensagens, e referências e co-referências. São assim chamadas então respectivamente de: Ao inspecionarmos as classes gramaticais de um conjunto de palavras estamos passando para nosso algoritmo a noção de estrutura, de regras e composição linguística. Tal técnica pertence a área de análise sintática, permitindo a extração de _________. Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas, e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Sendo assim, nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)? 4. Análise Univariável, Análise Semântica, e Análise Pragmática Análise Sintática, Análise Semântica, e Análise Pragmática Análise Sintática, Análise Semântica, e Análise de Predicados Análise Sintática, Análise Clínica, e Análise Pragmática Análise Sintática, Análise Pragmática, e Análise Semântica Data Resp.: 04/10/2023 20:36:40 Explicação: A opção que descreve respectivamente os objetivos das tarefas de NLP é a opção Análise Sintática, Análise Semântica, e Análise Pragmática.. ¿ Análise sintática - identifica cada classe gramatical de cada token, ou seja, se uma palavra é verbo, substantivo etc.; ¿ Análise semântica - entende o sentido do uso das palavras, em que, normalmente, entra a análise de sentimentos; ¿ Análise pragmática - relaciona e constrói sentenças e referências, como a desambiguação de termos, a relação de palavras etc 5. Lemas Tokens SOP-Tags POS-Tags Segmentos Data Resp.: 04/10/2023 20:57:22 Explicação: POS_Tag ou Part of Speech Tag é a rotulação supervisionada ou semi-supervisionada de tokens de um texto, onde para cada átomo do documento se associa um rótulo de classe gramatical, e.g.: O rato roeu a roupa é POS-Tageado como [artigo definido, substantivo comum, verbo, artigo definido, substantivo comum, artigo definido, substantivo comum]. 6. Vocabulário Tokens Corpus Dicionário Sentenças Data Resp.: 04/10/2023 20:57:35 Spam são conteúdos enviados pelo remetente sem o consentimento do destinatário. Dentre as opções abaixo, qual o melhor algoritmo de detecção de e-mails de spams? Quando estamos falando de análise de sentimentos queremos mapear o sentimento que uma mensagem passa, de positividade, neutralidade ou negatividade. Normalmente fazemos isso pela agregação de polaridades de palavras. Este tipo de tarefa pertence a que família de problemas de aprendizado de máquina supervisionado? Quando fazemos processamento da linguagem natural devemos descartar palavras que se repetem muito e que são tidas como auxiliares, adicionando pouca informação ao modelo. A esse conjunto de palavras damos o nome de _________. Explicação: Precisaremos combinar corpus, uma vez que quanto mais variado for o conjunto de treinamento mais apto estará o modelo. Logo ao incorporarmos diferentes corpus o modelo será capaz de compreender ambas as linguagens 7. GNB DBScan KMeans Regressor de Vetores de Suporte PCA Data Resp.: 04/10/2023 20:58:20 Explicação: O algoritmo de Naive Bayes não só é o único classificador dentre as opções como foi o primeiro utilizado na detecção de spams, e o mais usado atualmente dada sua simplicidade que atinge resultados satisfatórios e gasta menos recursos computacionais se comparado com outros mais sofisticados 8. Regressão Mineração de Regras de Associação Mineração de Processos Agregação Classificação Data Resp.: 04/10/2023 20:58:17 Explicação: Primeiro que dentre as opções, somente Regressão, Classificação, e Mineração de Regras de Associação são opções válidas no que tange aprendizado supervisionado. Dentre estas, regressão se ocupa de predizer um valor numérico, e mineração de regras de associação retornam um conjunto de combinações possíveis mais comuns. Sendo assim, a opção correta é Classificação, que é de fato a rotulação de um registro. Ainda que a análise de sentimentos seja operacionalizada por valores de polarização, no fim estamos tentando atribuir um rótulo ou uma classe de sentimento a um registro. 9. Verbos Sentenças Tokens Clearwords Stopwords Data Resp.: 04/10/2023 20:37:29 Quando nos referimos a classificação de textos, pensamos no NLTK para fazer a parte de NLP, mas, que biblioteca podemos usar para facilitar nossa tarefa de classificação de textos? Explicação: São chamadas stopwords justamente por indicarem esse comportamento de não agregar muita informação sendo necessário parar para retirá-las e por normalmente causarem pausas cognitivas ao lermos textos. 10. DATETIME SKLEARN POLARS NUMPY PANDAS Data Resp.: 04/10/2023 20:58:14 Explicação: Precisaríamos da biblioteca SKLEARN para podermos implementar com facilidade classificadores como árvores de decisão
Compartilhar