PUCPR AR - Tecnicas de Machine Learning

Machine Learning

•

PUC-PR

0

Lucas Wenceslau

05/12/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Machine Learning

1.326 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1 (1,00 ponto):
Fernanda trabalha em uma seguradora e recebeu a solicitação para criar um algoritmo o qual prevê se uma pessoa acionará ou não o seguro durante os próximos meses. Sabe-se que proporcionalmente existem muito mais pessoas que não acionam o seguro do que pessoas que acionam o seguro. Considerando isso, Fernanda precisará implementar uma forma de representar corretamente a performance do algoritmo: isto é, se ele está errando muito ou se está errando pouco.
Assinale a alternativa a qual implementa uma forma válida de mostrar os resultados.
Alternativas
A)
from sklearn.metrics import *
mean_squared_error(y_test, y_pred)
B) Gabarito da Questão
from sklearn.metrics import *
confusion_matrix(y_test, y_pred)
C)
from sklearn.metrics import *
recall_score(y_test, y_pred)
D)
from sklearn.metrics import *
accuracy_score(y_test, y_pred)
Pergunta 2 (1,00 ponto):
Melissa atuou na criação de um algoritmo preditivo para um dataset de cartão de crédito. O trabalho dela consistiu em ler uma base histórica contendo dados cadastrais de pessoas que solicitaram um cartão de crédito e que tiveram o seu pedido aprovado ou recusado dependendo dos seus dados cadastrais como renda, idade e escolaridade. Até então todo este trabalho de análise era manual – logo, a ideia do trabalho de Melissa é criar um algoritmo que possa identificar novos casos e automaticamente aprovar ou rejeitar o pedido de cartão de crédito com o uso de um algoritmo de aprendizagem supervisionada. Em outras palavras, existem dois valores para serem preditos: ou a solicitação é aprovada, ou é reprovada.
Considerando o texto-base acima, analise as seguintes afirmativas:
I. Como existem dois grupos possíveis a serem preditos este cenário é um problema de classificação.
II. Para resolver o problema pode-se utilizar uma técnica disponibilizada pelo scikit-learn.
III. Como a ideia é prever valores futuros este é um problema de previsão de séries temporais.
IV. Para resolver este problema deveremos somente utilizar uma técnica de aprendizagem não supervisionada.
Assinale a alternativa a qual possui somente as afirmativas corretas.
Alternativas
A)
II e III.
B) Gabarito da Questão
I e II.
C)
I, III e IV.
D)
II, III e IV.
Pergunta 3 (1,00 ponto):
Oswaldo criou um algoritmo para uma empresa da área automobilística. No processo, utilizou técnicas de aprendizagem supervisionada e não-supervisionada. O emprego de uma técnica de aprendizagem não-supervisionado foi necessário antes da aprendizagem supervisionada para maximizar a acurácia. Após chegar nos melhores parâmetros ele recebeu a tarefa de transformar o seu código para o formato de pipeline.
Assinale a alternativa a qual implementa corretamente um treinamento de um pipeline e, em seguida, retorna as predições para um mesmo pipeline para um problema de classificação.
Alternativas
A)
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)
B)
pipe.fit_transform(X_train, y_train)
pipe.inverse_transform(X_test, y_test)
C)
pipe.fit(X_train, y_train)
pipe.score(X_train, y_train)
D) Gabarito da Questão
pipe.fit(X_train, y_train)
pipe.predict(X_test, y_test)
Pergunta 4 (1,00 ponto):
Arthur está analisando uma base de dados das vendas registradas de uma rede de farmácias para identificar oportunidades para alavancar os negócios, reduzir possíveis desperdícios e encontrar oportunidades de melhoria as quais até o momento não eram aparentes aos gestores. Ao analisar esta base de dados de vendas, Arthur se deparou com o seguinte conjunto de atributos:
1. Data e hora que a venda foi registrada;
2. O método de pagamento daquela venda (crédito, débito ou dinheiro);
3. O valor total registrado da venda;
4. A porcentagem do valor total em medicamentos para aquela venda;
5. A porcentagem do valor total em perfumaria para aquela venda;
6. A porcentagem do valor total em refrigerantes e snacks para aquela venda;
7. O CPF do operador de caixa responsável por registrar aquela venda;
8. O CPF, idade e sexo do consumidor para aquela venda. Nem todas as vendas possuem os dados do consumidor.
Considerando a situação apresentada acima, analise as seguintes afirmativas:
I. É possível criar um algoritmo de regressão para prever o método de pagamento.
II. É possível criar um algoritmo de aprendizagem não-supervisionada para descobrir quais perfis de clientes existem.
III. É possível criar um algoritmo de regressão para prever as vendas por semana, mas para isso será necessário manipular a base para agruparmos as vendas por semana.
IV. É possível criar um algoritmo de classificação para prever a porcentagem gasta em medicamentos para compras futuras.
Assinale a alternativa que apresenta apenas as afirmativas factíveis para o cenário apresentado.
Alternativas
A)
II e IV.
B)
I, II e IV.
C) Gabarito da Questão
II e III.
D)
I, III e IV.
Pergunta 5 (1,00 ponto):
Paulo está participando de um hackathon. O hackathon é um tipo de competição a qual envolve pessoas de diferentes perfis (incluindo, por exemplo, desenvolvedores, analistas de sistemas, cientistas de dados e designers) para a resolução de um desafio com o desenvolvimento de um software em um prazo curto – geralmente, durante um final de semana ininterrupto. O hackathon que Paulo está participando é organizado por uma rede de hipermercados da região que, como objetivo, propõe o desenvolvimento de um software para prever o comportamento dos consumidores nos próximos dias com o intuito de manter as prateleiras sempre com produtos e, ao mesmo tempo, evitando desperdícios em dias de menor movimento. Sendo assim, Paulo pensa em criar um algoritmo de séries temporais usando Python para prever as compras no futuro.
Considerando o texto-base acima, analise as seguintes afirmativas:
I. Para treinar um algoritmo preditivo para séries temporais precisaremos, pelo menos, de dois atributos: a data e o valor observado para aquela data.
II. Paulo poderá utilizar o Prophet como uma opção para desenvolver um algoritmo para a predição de séries temporais.
III. Para dividir a base em treinamento e teste devemos utilizar o train_test_split uma vez que o backtest somente deve ser utilizado para problemas de classificação e regressão que não envolvam séries temporais.
IV. O ARIMA é uma técnica estatística a qual também pode ser empregada para a previsão de séries temporais. Um dos seus parâmetros, por exemplo, estabelece quantas observações devem ser consideradas para calcular a média móvel (do inglês – moving average (MA)).
Assinale a alternativa a qual possui somente as afirmativas corretas.
Alternativas
A) Gabarito da Questão
I, II e IV.
B)
I, III e IV.
C)
I e IV.
D)
I, II, III.
Pergunta 6 (1,00 ponto):
Os trabalhos que envolvem o desenvolvimento de algoritmos de machine learning (ML) em Python geralmente utilizam notebooks e aplicações como o Jupyter Notebook ou o JupyterLab para o seu desenvolvimento.
Considerando o texto-base acima, analise as seguintes afirmativas:
I. O desenvolvimento de código utilizando notebooks ocorre geralmente dentro de um navegador. Logo, é dentro do navegador que trabalhamos com o Jupyter Notebook ou o JupyterLab.
II. Para se trabalhar com notebooks precisaremos, obrigatoriamente, trabalhar com bibliotecas de aprendizagem supervisionada.
III. O emprego de células dentro de um notebook possibilita uma melhor organização do código ao dividirmos o código em células com código e células com markdown (HTML).
IV. O emprego de células possibilita que re-executemos a mesma célula diversas vezes sem ter a necessidade de executar todas as outras células que possam existir antes ou depois em um dado notebook.
Assinale a alternativa a qual possui somente as afirmativas corretas.
Alternativas
A)
I, II e IV.
B) Gabarito da Questão
I, III e IV.
C)
I e IV.
D)
II, III e IV.
Pergunta 7 (1,00 ponto):
Arthur está analisando uma base de dados das vendas registradas de uma rede de farmácias para identificar oportunidades para alavancar os negócios, reduzir possíveis desperdícios e encontrar oportunidades de melhoria as quais até o momento não eram aparentesaos gestores. Ao analisar esta base de dados de vendas, Arthur se deparou com o seguinte conjunto de atributos:
1. Data e hora que a venda foi registrada;
2. O método de pagamento daquela venda (crédito, débito ou dinheiro);
3. O valor total registrado da venda;
4. A porcentagem do valor total em medicamentos para aquela venda;
5. A porcentagem do valor total em perfumaria para aquela venda;
6. A porcentagem do valor total em refrigerantes e snacks para aquela venda;
7. O CPF do operador de caixa responsável por registrar aquela venda;
O CPF, idade e sexo do consumidor para aquela venda. Nem todas as vendas possuem os dados do consumidor.
A partir do texto base, avalie as seguintes asserções e a relação proposta entre elas:
I. É possível criar um algoritmo de classificação ou de regressão para esta base de dados.
PORQUE
II. Existem, para esta base de dados, colunas que representam dados categóricos (categorias) e dados numéricos (valores).
Considerando estas asserções, assinale a alternativa correta.
Alternativas
A)
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
B)
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
C) Gabarito da Questão
As asserções I e II são proposições verdadeiras, e a II é uma justificativa da I.
D)
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
Pergunta 8 (1,00 ponto):
Patrícia trabalha em um banco e desenvolveu um algoritmo para prever se um novo cliente poderia ou não ter um pedido de um novo cartão de crédito aprovado a partir de uma base histórica a qual a grande maioria dos casos (ao menos 80%) tiveram os seus cartões aprovados. Este algoritmo é um modelo de ML de classificação e que ela desenvolveu utilizando o LightGBM. Após treinar o modelo ela compreende que necessita avaliar se ele está com uma performance aceitável ou não.
Considerando o texto-base acima, considere as seguintes afirmativas:
I. O “accuracy” é uma métrica simples que pode ser utilizada para retornar uma taxa de assertividade do algoritmo: quanto mais próximo de 1.00, melhor.
II. O F1 score é uma métrica a qual une o precision e recall: quanto mais próximo de 1.00, melhor.
III. A matriz de confusão é uma métrica visual que permite facilmente identificar os casos que foram identificados corretamente e incorretamente.
IV. O “precision” pode ser utilizado como única métrica para avaliar a performance.
Assinale a alternativa a qual possui somente as afirmativas corretas.
Alternativas
A)
I, II e IV.
B)
I, III e IV.
C) Gabarito da questão
II e III.
D)
II, III e IV.
Pergunta 9 (1,00 ponto):
Raphael resolveu testar durante o final de semana todos os algoritmos de regressão do scikit-learn para descobrir qual deles seria o melhor para o seu dataset. Ao gerar os resultados para a sua base de testes ele percebeu que as predições eram muito parecidas da realidade em alguns casos, mas para outros nem tanto. No caso, a ideia de Raphael é prever a temperatura mínima em graus Celsius dos próximos 30 dias e, ao aplicar a métrica RMSE (root mean squared error), percebeu um erro de 2.3 em um dos seus modelos.
Considerando a situação-problema de Raphael ele deve interpretar que
Alternativas
A)
o modelo está ruim: esta métrica representa a porcentagem de aderência entre o valor real e o previsto. Quanto mais próximo de 100, melhor e quanto mais próximo de 0, pior. O valor de 2.3 está mais próximo do 0 implicando, desta maneira, a má performance do modelo.
B)
o modelo está muito ruim: o mínimo aceitável é de 0 e o máximo seria 1. O valor de 2.3 está fora desta escala e potencialmente representa um erro altíssimo,
C) Gabarito da questão
o modelo está tendo um erro na ordem de 2.3 graus Celsius dado que o RMSE informa o seu erro na mesma unidade de medida da coluna sendo prevista: no caso, a temperatura.
D)
o modelo está tendo um erro de 2.3% nas suas predições.
Pergunta 10 (1,00 ponto):
O scikit-learn, LightGBM e XGBoost são bibliotecas que incluem técnicas de aprendizagem supervisionada. Logo, com estas bibliotecas é possível criarmos algoritmos preditivos utilizando a linguagem de programação Python.
Considerando o texto-base acima, considere as seguintes afirmativas:
I. O LightGBM e o XGBoost implementam a mesma técnica de “gradient boosting”.
II. Podemos ter predições diferentes dependendo da técnica de aprendizagem escolhida.
III. A utilização de redes neurais e deep learning sempre oferecerá os melhores resultados.
IV. O scikit-learn inclui técnicas de aprendizagem supervisionada como SVM, KNN e Random Forest.
Assinale a alternativa a qual possui somente as afirmativas corretas.
Alternativas
A) Gabarito da questão
I, II e IV.
B)
I, III e IV.
C)
II e IV.
D)
I e II.