Buscar

Avaliação II_ML

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Avaliação II – MACHINE LEARNING 
 
1. O Naive Bayes é muito assertivo em cálculos de probabilidades e, portanto, é uma excelente 
técnica em análise de sentimentos. Sobre a finalidade do Naive Bayes, assinale a alternativa correta. 
Naive Bayes categoriza textos com base na frequência das palavras. (Alternativa correta) 
Naive Bayes verifica o idioma de uma palavra. 
Naive Bayes verifica as bibilotecas Python utilizadas no algoritmo. 
Naive Bayes categoriza as preposições contidas em um texto. 
2. No contexto da robótica, uma mão perfuradora pode realizar trabalhos específicos na indústria 
petroleira a fim de encontrar combustível. O contexto se refere a tentativa e erro por pessoas, em 
que o padrão não é gravado, pois é somente manipulado por uma pessoa. Ao falar do contexto da 
aprendizagem de máquina, o que pode ser aplicado? 
Os algoritmos de regressão linear e regressão logística poderiam ser utilizados nesse contexto. 
No entanto, os dados deveriam ser devidamente mapeados. 
Pode-se aplicar o aprendizado por reforço, pois, a cada ação da mão perfuradora, recompensa-
se ou pune-se a fim de que tenha um padrão para o encontro de combustível. (Alternativa correta) 
Dado que os dados oriundos desse processo são abundantes, mas não rotulados, pode-se 
utilizar o aprendizado não supervisionado e, assim, garantir a eficácia do procedimento. 
Não cabe o contexto do aprendizado de máquina, já que o sentido seria o de desenvolver um 
sistema comum com um banco de dados relacional, armazenar os dados atuais e realizar a geração 
de dashboards. 
3. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o objetivo 
de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser aplicada sobre 
os dados é a que converte uma palavra (termo) para sua forma base. Que técnica é essa? 
Rotular texto. 
Stemmizar texto. (Alternativa correta) 
Classificar texto. 
Filtrar texto por expressões regulares. 
4. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O modelo 
de predição pode fornecer resultados satisfatórios quando avaliado usando uma das métricas, mas 
pode apresentar resultados ruins quando avaliado em relação a outras métricas. Por isso, é de 
extrema importância saber o que cada métrica pretende aferir. Em relação às métricas de 
desempenho utilizadas para aferir a eficiência do modelo de predição ao final da realização 
do teste, qual métrica demonstra o quanto o modelo foi assertivo apenas para uma das classes? 
Revocação. 
F1-score. 
Precisão. (Alternativa correta) 
Acurácia. 
5. O conhecimento sobre algo é oriundo dos dados e informações adquiridas por diversas fontes. A 
aprendizagem de máquina ocorre por meio desses artefatos e seu objetivo é sempre o de trazer 
soluções computacionais para situações cotidianas no mundo dos negócios. Sobre os conceitos de 
aprendizado de máquina e de mineração dos dados, está correto dizer que: 
o aprendizado de máquina é um processo automático, com base em grande quantidade de 
dados. Já a mineração de dados, trabalha com quantidades limitadas de dados. 
o aprendizado de máquina tem como foco a predição, com base em características já 
conhecidas, enquanto a mineração de dados extrai informação dos conjuntos de dados. (Alternativa 
correta) 
a mineração de dados pode ser do tipo de reforço, e o aprendizado de máquina trabalha com 
regras de associação com grandes bases de dados. 
enquanto o aprendizado de máquina lida com previsão e classificação, a mineração de dados 
lida com automação de controle e predição. 
6. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema 
de overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está "memorizando" 
os dados em vez de "aprender" e generalizar. O que fazer com a amostra de dados (recursos) para 
mitigar o problema? 
Dividir a amostra em duas partes: treinamento e teste. (Alternativa correta) 
Filtrar os dados para remover termos indesejados. 
Obter dados de bases públicas. 
Explorar os dados e entender os recursos. 
7. A caracterização dos dados pode definir padrões para determinadas situações. O aprendizado de 
máquina precisa disso para construir o conhecimento sobre os dados e as informações. Quando 
ocorre o pré-processamento de dados, por meio da identificação dos objetos e seus respectivos 
conjuntos, qual técnica está sendo mencionada? 
Integração de dados. (Alternativa correta) 
Dados desbalanceados. 
Amostragem de dados. 
Eliminação manual de atributos. 
8. Quando um modelo de aprendizagem de máquina é desenvolvido, é comum dividir os dados em 
treino e teste, pois, dessa maneira, os modelos não sofrem de overfitting (aprender perfeitamente 
os dados de treino e não conseguir prever dados futuros). Os dados de treino são utilizados para 
ensinar e criar o modelo. Já os de teste são aplicados no modelo com o intuito de calcular a precisão 
do modelo treinado. Nesse sentido, quais das linhas a seguir importa a biblioteca do RAPIDS para 
divisão entre treino e teste? 
From cuml import metrics. 
From sklearn.model_selection import train_test_split. 
From cuml.linear_model import LinearRegression. 
From cuml.preprocessing.model_selection import train_test_split. (Alternativa correta) 
9. A caracterização dos dados analisa-os para definir se os atributos do objeto são quantitativos ou 
números, com o objetivo de trazer um tipo para o dado. Além disso, os dados podem possuir 
escalas, que definem quais operações os valores dos atributos podem realizar. Sobre a 
caracterização dos dados, está correto inferir que: 
as escalas definidas na caracterização dos dados podem ser ordinais, já que não trazem muitas 
informações, como o CEP. 
as escalas intervalares permitem variações entre um intervalo, como exemplo pode-se citar a 
previsão da temperatura. (Alternativa correta) 
as escalas nominais e ordinais não trazem relação de ordem para seus valores. 
as escalas racionais relacionam a ordem das categorias, como o RG. 
10. O treinamento de uma rede neural profunda é parte importante no processo de aprendizagem. 
Assim, há a utilização de diversos hiperparâmetros. Um passo em relação aos dados consiste na 
divisão deles em amostras de treino, teste e validação. Dado que uma base A contém 5 milhões de 
dados sobre câncer de pele, classificados como benigno e maligno, e que 20% desse conjunto de 
dados não está rotulado, em relação à divisão referida, o que se pode afirmar? 
Os dados não rotulados poderiam ser usados para validação e teste, e os rotulados, para o 
treinamento. (Alternativa correta) 
Os dados não rotulados têm a prioridade de serem encontrados primeiro, a fim de, 
posteriormente, realizarem o treinamento. 
Pode-se afirmar que não há quantidade suficiente de dados para realizar o treinamento inicial. 
Os 20% não rotulados poderiam ser utilizados para a aprendizagem não supervisionada. 
 
	1. Um algoritmo é responsável por determinar quais são os passos e como eles devem ser seguidos para resolver algum problema, por meio de um recurso computacional. No aprendizado de máquina, esses algoritmos aprendem por meio dos dados ou de conjunto ...
	2. A matriz de confusão, muito usada em machine learning, é facilmente identificada graças ao seu formato peculiar em tabela. Na literatura, é possível encontrá-la sendo chamada também de matriz de erro. Sobre o objetivo da matriz de confusão, assinal...
	3. Stemização é um importante processo que não pode ser ignorado, pois, a partir dele, um algoritmo de análise de sentimentos pode ser mais assertivo em seus resultados. Sobre a finalidade do processo de stemização, assinale a alternativa correta.
	4. No contexto do jornalismo, são produzidas diversas notícias sobre diferentes assuntos. Ao analisar a ciência de dados e o contexto da classificação, verifica-se que nas notícias não são, comumente, informadas a sua temática. Caso se quisesse saber ...
	5. O machine learning podeser usado como uma tecnologia para identificar transações que podem ser fraudulentas. Uma instituição que faz operações de crédito precisa analisar se um novo cliente tem potencial de tornar-se inadimplente; assim, utiliza-s...
	6. O Hadoop é um framework escrito em Java para computação distribuída de grandes volumes de dados. Ele foi inspirado em duas tecnologias existentes: o MapReduce e o Google File System. Sobre o Hadoop e o MapReduce, qual das opções a seguir é a correta?
	7. Stopwords podem ser um problema, visto que dificultam o treinamento do algoritmo. Assim, removê-las auxilia na redução de ruídos dos dados analisados. A fim de evitá-las, quais medidas devem ser tomadas?
	8. Algoritmos de aprendizagem de máquina têm sido acelerados utilizando placas gráficas do tipo GPU. Essas unidades de processamento gráfico podem modelar dados de forma eficiente e sua arquitetura paralela as torna capaz de ser mais veloz que process...
	9. Uma empresa gostaria de classificar seus clientes como bons ou maus pagadores. A equipe de ciência de dados tem dados de todos os empréstimos feitos e também como e quando foram feitos os pagamentos. Esses registros têm um rótulo que indica se o cl...
	10. Os sentimentos expressos em textos podem ser analisados minuciosamente na busca por insights que possam gerar melhorias nos processos de uma empresa. Essa análise envolve sete etapas. Quais são essas etapas?
	1. O Naive Bayes é muito assertivo em cálculos de probabilidades e, portanto, é uma excelente técnica em análise de sentimentos. Sobre a finalidade do Naive Bayes, assinale a alternativa correta.
	2. No contexto da robótica, uma mão perfuradora pode realizar trabalhos específicos na indústria petroleira a fim de encontrar combustível. O contexto se refere a tentativa e erro por pessoas, em que o padrão não é gravado, pois é somente manipulado p...
	3. Em um processo de classificação de texto, os dados precisam ser pré-processados, com o objetivo de preparar os recursos para a classificação. Uma entre várias técnicas que pode ser aplicada sobre os dados é a que converte uma palavra (termo) para s...
	4. Avaliar o algoritmo de aprendizado de máquina é parte essencial de qualquer projeto. O modelo de predição pode fornecer resultados satisfatórios quando avaliado usando uma das métricas, mas pode apresentar resultados ruins quando avaliado em relaçã...
	5. O conhecimento sobre algo é oriundo dos dados e informações adquiridas por diversas fontes. A aprendizagem de máquina ocorre por meio desses artefatos e seu objetivo é sempre o de trazer soluções computacionais para situações cotidianas no mundo do...
	6. Antes de aplicar o classificador sobre os recursos, é necessário estar atendo ao problema de overfitting, ou seja, quando o modelo fica "muito" treinado para os dados e está "memorizando" os dados em vez de "aprender" e generalizar. O que fazer com...
	7. A caracterização dos dados pode definir padrões para determinadas situações. O aprendizado de máquina precisa disso para construir o conhecimento sobre os dados e as informações. Quando ocorre o pré-processamento de dados, por meio da identificação...
	8. Quando um modelo de aprendizagem de máquina é desenvolvido, é comum dividir os dados em treino e teste, pois, dessa maneira, os modelos não sofrem de overfitting (aprender perfeitamente os dados de treino e não conseguir prever dados futuros). Os d...
	9. A caracterização dos dados analisa-os para definir se os atributos do objeto são quantitativos ou números, com o objetivo de trazer um tipo para o dado. Além disso, os dados podem possuir escalas, que definem quais operações os valores dos atributo...
	10. O treinamento de uma rede neural profunda é parte importante no processo de aprendizagem. Assim, há a utilização de diversos hiperparâmetros. Um passo em relação aos dados consiste na divisão deles em amostras de treino, teste e validação. Dado qu...

Continue navegando