Prévia do material em texto
Você acertou 10 de 10 questões Verifique o seu desempenho e continue treinando! Você pode refazer o exercício quantas vezes quiser. Verificar Desempenho A B C D E 1 Marcar para revisão Ao inspecionarmos as classes gramaticais de um conjunto de palavras, estamos passando para nosso algoritmo a noção de estrutura, de regras e composição linguística. Tal técnica pertence à área de análise sintática, permitindo a extração de _________. POS-Tags Tokens Segmentos Lemas SOP-Tags Questão 1 de 10 Corretas (10) Em branco (0) 1 2 3 4 5 6 7 8 9 10 Lista de exercícios Processament… Sair Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado A técnica mencionada no enunciado refere-se à extração de POS-Tags. POS- Tag, ou Part of Speech Tag, é um processo de rotulação supervisionada ou semi- supervisionada de tokens em um texto. Nesse processo, cada palavra ou "átomo" do documento é associada a um rótulo de classe gramatical. Por exemplo, na frase "O rato roeu a roupa", cada palavra seria rotulada da seguinte forma: [artigo definido, substantivo comum, verbo, artigo definido, substantivo comum]. Portanto, ao inspecionar as classes gramaticais de um conjunto de palavras, estamos essencialmente realizando a extração de POS-Tags. 2 Marcar para revisão Um conjunto de treinamento de PLN é relativamente incomum quando olhamos para a gama de projetos de IA, uma vez que estamos falando de textos, ou comentários, ou qualquer dado em forma textual. O nome do conjunto de documentos passados ao processo de mineração de texto, se chama __________: A B C D E Radical Lema Símbolo Token Corpus Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado Na área de Processamento de Linguagem Natural (PLN), o termo "corpus" é usado para se referir a um conjunto de textos. Esses textos podem ser de qualquer tipo: livros, artigos, comentários, entre outros. O corpus é uma ferramenta essencial para a mineração de texto, pois fornece o material necessário para a análise e o treinamento de modelos de IA. Portanto, cada texto individual dentro do corpus pode ser dividido em sentenças, palavras e, finalmente, caracteres para uma análise mais detalhada. 3 Marcar para revisão A B C D E Quando fazemos processamento da linguagem natural, devemos descartar palavras que se repetem muito e que são tidas como auxiliares, adicionando pouca informação ao modelo. A esse conjunto de palavras damos o nome de _________. Clearwords Stopwords Tokens Sentenças Verbos Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado As palavras que são frequentemente descartadas durante o processamento da linguagem natural são chamadas de 'Stopwords'. Essas palavras são geralmente as mais comuns em uma língua (como 'é', 'o', 'a', 'em', etc.) e não contribuem significativamente para o significado de uma frase, sendo, portanto, consideradas 'ruído' no processo de análise. Por isso, são removidas para melhorar a eficiência do processamento e a A B C D E precisão dos resultados. A alternativa correta é a letra B, 'Stopwords'. 4 Marcar para revisão Quando estamos lidando com PLN é preciso transformar o dado textual em algo compreensível às máquinas para que elas possam operar sobre aquele conjunto. Qual destas é uma opção de transformação para este cenário? Regressão Vetorização Classificação Pivot Table Redução de Dimensionalidade Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado Na área de Processamento de Linguagem Natural (PLN), a vetorização é uma técnica comum para transformar dados textuais em um formato que as máquinas possam A B C D E entender e operar. Isso é feito transformando cada token (que pode ser uma palavra ou uma sentença) em um vetor ou tensor. Isso pode ser realizado por meio de técnicas como TF-IDF, Word2Vec ou Doc2vec. As outras opções apresentadas na questão, como regressão, classificação, Pivot Table e redução de dimensionalidade, são técnicas ou tipos de aprendizado de máquina, mas não são métodos diretos para transformar dados textuais em um formato compreensível para as máquinas. 5 Marcar para revisão Spam são conteúdos enviados pelo remetente sem o consentimento do destinatário. Dentre as opções abaixo, qual o melhor algoritmo de detecção de e-mails de spams? GNB KMeans DBScan Regressor de Vetores de Suporte PCA Resposta correta A B C Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O algoritmo GNB, também conhecido como Naive Bayes, é o único classificador entre as opções apresentadas. Ele foi o primeiro a ser utilizado na detecção de spams e ainda é o mais usado atualmente. Isso se deve à sua simplicidade, que proporciona resultados satisfatórios e consome menos recursos computacionais em comparação com outros algoritmos mais sofisticados. Portanto, o GNB é a melhor opção para a detecção de e-mails de spam entre as alternativas apresentadas. 6 Marcar para revisão Quando estamos falando de análise de sentimentos queremos mapear o sentimento que uma mensagem passa, de positividade, neutralidade ou negatividade. Normalmente fazemos isso pela agregação de polaridades de palavras. Este tipo de tarefa pertence a que família de problemas de aprendizado de máquina supervisionado? Regressão Classificação Agregação D E Mineração de Regras de Associação Mineração de Processos Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado Entre as opções apresentadas, apenas Regressão, Classificação e Mineração de Regras de Associação são métodos válidos de aprendizado supervisionado. A Regressão é utilizada para prever um valor numérico, enquanto a Mineração de Regras de Associação retorna um conjunto de combinações possíveis mais comuns. No entanto, a análise de sentimentos se enquadra na categoria de Classificação. Isso porque, apesar de operacionalizar valores de polarização, o objetivo final é atribuir um rótulo ou uma classe de sentimento a um registro. Portanto, a alternativa correta é a Classificação, que se refere à rotulação de um registro. 7 Marcar para revisão Quando nós temos um conjunto de textos aos quais queremos associar rótulos baseados em outros textos já rotulados em categorias específicas, temos um problema de aprendizado de máquina chamado de: A B C D E Agrupamento Semi-Supervisionado Regressão Classificação Rotação Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado Temos aqui um problema de classificação, uma vez que precisamos aprender uma associação entre as features do conjunto e a rotulação já existente para podermos categorizar novos documentos 8 Marcar para revisão Quando nos referimos à classificação de textos, pensamos no NLTK para fazer a parte de NLP, mas, que biblioteca podemos usar para facilitar nossa tarefa de classificação de textos? A B C D E NUMPY POLARS PANDAS SKLEARN DATETIME Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado A biblioteca SKLEARN é a mais adequada para facilitar a tarefa de classificação de textos. Essa biblioteca é amplamente utilizada em aprendizado de máquina e fornece ferramentas simples e eficientes para análise de dados. Ela permite a implementação de diversos algoritmos de classificação, incluindo árvores de decisão, tornando o processo de classificação de textos mais eficiente e menos complexo. 9 Marcar para revisão Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos.Sendo A B C D E assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)? Sentenças Tokens Corpus Vocabulário Dicionário Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado A alternativa correta é 'Corpus'. Isso porque, em processamento de linguagem natural (NLP), o corpus é um conjunto de textos escritos ou falados que servem como base para o aprendizado do modelo. Quanto mais variado for esse conjunto, mais o modelo estará apto a compreender diferentes contextos, expressões idiomáticas e regionalismos. Portanto, ao unir diferentes corpus, estamos ampliando a capacidade do modelo de compreender e A B C D E processar diversas linguagens e suas nuances. 10 Marcar para revisão Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto? TF-IDF KNN K-Means Gaussian Naive Bayes LSTM Resposta correta Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! Gabarito Comentado O TF-IDF, que é a alternativa correta, é um cálculo estatístico que tem sido amplamente adotado em algoritmos de busca, como o do Google, para determinar a relevância de um termo para um documento em um corpus. Ele faz isso ao analisar a frequência com que um termo aparece em um documento específico em comparação com sua frequência em todo o corpus. Isso ajuda a identificar quais palavras são mais significativas para um texto específico, contribuindo para tarefas como a clusterização ou agrupamento de documentos semelhantes. Os outros algoritmos listados, como KNN, K-Means, Gaussian Naive Bayes e LSTM, têm diferentes aplicações e não são especificamente projetados para calcular a relevância de uma palavra em um corpus.