Avaliação II_ML

Inteligência Artificial

UFSC

Prova de Machine Learning em formato de múltipla escolha sobre Naive Bayes, aprendizagem por reforço, stemming, métrica Precisão, distinção entre aprendizado de máquina e mineração de dados, overfitting (divisão treino/teste) e pré-processamento e integração de dados.

Teca R. Da Silva

em 15/12/2023

Material

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Avaliação II – MACHINE LEARNING

1. O Naive Bayes é muito assertivo em cálculos de probabilidades e, portanto, é uma excelente
técnica em análise de sentimentos. Sobre a finalidade do Naive Bayes, assinale a alternativa correta.
Naive Bayes categoriza textos com base na frequência das palavras. (Alternativa correta)
Naive Bayes verifica o idioma de uma palavra.
Naive Bayes verifica as bibilotecas Python utilizadas no algoritmo.
Naive Bayes categoriza as preposições contidas em um texto.
2. No contexto da robótica, uma mão perfuradora pode realizar trabalhos específicos na indústria
petroleira a fim de encontrar combustível. O contexto se refere a tentativa e erro por pessoas, em
que o padrão não é gravado, pois é somente manipulado por uma pessoa. Ao falar do contexto da
aprendizagem de máquina, o que pode ser aplicado?
Os algoritmos de regressão linear e regressão logística poderiam ser utilizados nesse contexto.
No entanto, os dados deveriam ser devidamente mapeados.
Pode-se aplicar o aprendizado por reforço, pois, a cada ação da mão perfuradora, recompensa-
se ou pune-se a fim de que tenha um padrão para o encontro de combustível. (Alternativa correta)
Dado que os dados oriundos desse processo são abundantes, mas não rotulados, pode-se
utilizar o aprendizado não supervisionado e, assim, garantir a eficácia do procedimento.
Não cabe o contexto do aprendizado de máquina, já que o sentido seria o de desenvolver um
sistema comum com um banco de dados relacional, armazenar os dados atuais e realizar a geração
de dashboards.
3. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o objetivo
de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser aplicada sobre
os dados é a que converte uma palavra (termo) para sua forma base. Que técnica é essa?
Rotular texto.
Stemmizar texto. (Alternativa correta)
Classificar texto.
Filtrar texto por expressões regulares.
4. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O modelo
de predição pode fornecer resultados satisfatórios quando avaliado usando uma das métricas, mas
pode apresentar resultados ruins quando avaliado em relação a outras métricas. Por isso, é de
extrema importância saber o que cada métrica pretende aferir. Em relação às métricas de
desempenho utilizadas para aferir a eficiência do modelo de predição ao final da realização
do teste, qual métrica demonstra o quanto o modelo foi assertivo apenas para uma das classes?
Revocação.
F1-score.
Precisão. (Alternativa correta)
Acurácia.
5. O conhecimento sobre algo é oriundo dos dados e informações adquiridas por diversas fontes. A
aprendizagem de máquina ocorre por meio desses artefatos e seu objetivo é sempre o de trazer
soluções computacionais para situações cotidianas no mundo dos negócios. Sobre os conceitos de
aprendizado de máquina e de mineração dos dados, está correto dizer que:
o aprendizado de máquina é um processo automático, com base em grande quantidade de
dados. Já a mineração de dados, trabalha com quantidades limitadas de dados.
o aprendizado de máquina tem como foco a predição, com base em características já
conhecidas, enquanto a mineração de dados extrai informação dos conjuntos de dados. (Alternativa
correta)
a mineração de dados pode ser do tipo de reforço, e o aprendizado de máquina trabalha com
regras de associação com grandes bases de dados.
enquanto o aprendizado de máquina lida com previsão e classificação, a mineração de dados
lida com automação de controle e predição.
6. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema
de overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está "memorizando"
os dados em vez de "aprender" e generalizar. O que fazer com a amostra de dados (recursos) para
mitigar o problema?
Dividir a amostra em duas partes: treinamento e teste. (Alternativa correta)
Filtrar os dados para remover termos indesejados.
Obter dados de bases públicas.
Explorar os dados e entender os recursos.
7. A caracterização dos dados pode definir padrões para determinadas situações. O aprendizado de
máquina precisa disso para construir o conhecimento sobre os dados e as informações. Quando
ocorre o pré-processamento de dados, por meio da identificação dos objetos e seus respectivos
conjuntos, qual técnica está sendo mencionada?
Integração de dados. (Alternativa correta)
Dados desbalanceados.
Amostragem de dados.
Eliminação manual de atributos.
8. Quando um modelo de aprendizagem de máquina é desenvolvido, é comum dividir os dados em
treino e teste, pois, dessa maneira, os modelos não sofrem de overfitting (aprender perfeitamente
os dados de treino e não conseguir prever dados futuros). Os dados de treino são utilizados para
ensinar e criar o modelo. Já os de teste são aplicados no modelo com o intuito de calcular a precisão
do modelo treinado. Nesse sentido, quais das linhas a seguir importa a biblioteca do RAPIDS para
divisão entre treino e teste?
From cuml import metrics.
From sklearn.model_selection import train_test_split.
From cuml.linear_model import LinearRegression.
From cuml.preprocessing.model_selection import train_test_split. (Alternativa correta)
9. A caracterização dos dados analisa-os para definir se os atributos do objeto são quantitativos ou
números, com o objetivo de trazer um tipo para o dado. Além disso, os dados podem possuir
escalas, que definem quais operações os valores dos atributos podem realizar. Sobre a
caracterização dos dados, está correto inferir que:
as escalas definidas na caracterização dos dados podem ser ordinais, já que não trazem muitas
informações, como o CEP.
as escalas intervalares permitem variações entre um intervalo, como exemplo pode-se citar a
previsão da temperatura. (Alternativa correta)
as escalas nominais e ordinais não trazem relação de ordem para seus valores.
as escalas racionais relacionam a ordem das categorias, como o RG.
10. O treinamento de uma rede neural profunda é parte importante no processo de aprendizagem.
Assim, há a utilização de diversos hiperparâmetros. Um passo em relação aos dados consiste na
divisão deles em amostras de treino, teste e validação. Dado que uma base A contém 5 milhões de
dados sobre câncer de pele, classificados como benigno e maligno, e que 20% desse conjunto de
dados não está rotulado, em relação à divisão referida, o que se pode afirmar?
Os dados não rotulados poderiam ser usados para validação e teste, e os rotulados, para o
treinamento. (Alternativa correta)
Os dados não rotulados têm a prioridade de serem encontrados primeiro, a fim de,
posteriormente, realizarem o treinamento.
Pode-se afirmar que não há quantidade suficiente de dados para realizar o treinamento inicial.
Os 20% não rotulados poderiam ser utilizados para a aprendizagem não supervisionada.

1. Um algoritmo é responsável por determinar quais são os passos e como eles devem ser seguidos para resolver algum problema, por meio de um recurso computacional. No aprendizado de máquina, esses algoritmos aprendem por meio dos dados ou de conjunto ...
2. A matriz de confusão, muito usada em machine learning, é facilmente identificada graças ao seu formato peculiar em tabela. Na literatura, é possível encontrá-la sendo chamada também de matriz de erro. Sobre o objetivo da matriz de confusão, assinal...
3. Stemização é um importante processo que não pode ser ignorado, pois, a partir dele, um algoritmo de análise de sentimentos pode ser mais assertivo em seus resultados. Sobre a finalidade do processo de stemização, assinale a alternativa correta.
4. No contexto do jornalismo, são produzidas diversas notícias sobre diferentes assuntos. Ao analisar a ciência de dados e o contexto da classificação, verifica-se que nas notícias não são, comumente, informadas a sua temática. Caso se quisesse saber ...
5. O machine learning podeser usado como uma tecnologia para identificar transações que podem ser fraudulentas. Uma instituição que faz operações de crédito precisa analisar se um novo cliente tem potencial de tornar-se inadimplente; assim, utiliza-s...
6. O Hadoop é um framework escrito em Java para computação distribuída de grandes volumes de dados. Ele foi inspirado em duas tecnologias existentes: o MapReduce e o Google File System. Sobre o Hadoop e o MapReduce, qual das opções a seguir é a correta?
7. Stopwords podem ser um problema, visto que dificultam o treinamento do algoritmo. Assim, removê-las auxilia na redução de ruídos dos dados analisados. A fim de evitá-las, quais medidas devem ser tomadas?
8. Algoritmos de aprendizagem de máquina têm sido acelerados utilizando placas gráficas do tipo GPU. Essas unidades de processamento gráfico podem modelar dados de forma eficiente e sua arquitetura paralela as torna capaz de ser mais veloz que process...
9. Uma empresa gostaria de classificar seus clientes como bons ou maus pagadores. A equipe de ciência de dados tem dados de todos os empréstimos feitos e também como e quando foram feitos os pagamentos. Esses registros têm um rótulo que indica se o cl...
10. Os sentimentos expressos em textos podem ser analisados minuciosamente na busca por insights que possam gerar melhorias nos processos de uma empresa. Essa análise envolve sete etapas. Quais são essas etapas?
1. O Naive Bayes é muito assertivo em cálculos de probabilidades e, portanto, é uma excelente técnica em análise de sentimentos. Sobre a finalidade do Naive Bayes, assinale a alternativa correta.
2. No contexto da robótica, uma mão perfuradora pode realizar trabalhos específicos na indústria petroleira a fim de encontrar combustível. O contexto se refere a tentativa e erro por pessoas, em que o padrão não é gravado, pois é somente manipulado p...
3. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o objetivo de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser aplicada sobre os dados é a que converte uma palavra (termo) para s...
4. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O modelo de predição pode fornecer resultados satisfatórios quando avaliado usando uma das métricas, mas pode apresentar resultados ruins quando avaliado em relaçã...
5. O conhecimento sobre algo é oriundo dos dados e informações adquiridas por diversas fontes. A aprendizagem de máquina ocorre por meio desses artefatos e seu objetivo é sempre o de trazer soluções computacionais para situações cotidianas no mundo do...
6. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema de overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está "memorizando" os dados em vez de "aprender" e generalizar. O que fazer com...
7. A caracterização dos dados pode definir padrões para determinadas situações. O aprendizado de máquina precisa disso para construir o conhecimento sobre os dados e as informações. Quando ocorre o pré-processamento de dados, por meio da identificação...
8. Quando um modelo de aprendizagem de máquina é desenvolvido, é comum dividir os dados em treino e teste, pois, dessa maneira, os modelos não sofrem de overfitting (aprender perfeitamente os dados de treino e não conseguir prever dados futuros). Os d...
9. A caracterização dos dados analisa-os para definir se os atributos do objeto são quantitativos ou números, com o objetivo de trazer um tipo para o dado. Além disso, os dados podem possuir escalas, que definem quais operações os valores dos atributo...
10. O treinamento de uma rede neural profunda é parte importante no processo de aprendizagem. Assim, há a utilização de diversos hiperparâmetros. Um passo em relação aos dados consiste na divisão deles em amostras de treino, teste e validação. Dado qu...

Avaliação II_ML

Inteligência Artificial

UFSC

Ferramentas de estudo

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Mais conteúdos dessa disciplina