Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

https://t.me/kakashi_copiador
https://t.me/kakashi_copiador
Curso regular Ciência de dados – 
Machine Learning
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
Regressão
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
Categorias de aprendizado
Classificação
Prof. Erick Muzart
Aprendizado
supervisionado
classificação
regressão
agrupamento
não 
supervisionado
redução de dimensionlidade
regras de associação
sistemas de recomendação
https://t.me/kakashi_copiador
Machine Learning
Máquina de previsão:
• Classificação
• Regressão
Classificação Regressão
https://t.me/kakashi_copiador
❑ Avaliar desempenho de um modelo, comparando o erro entre os valores 
previstos e os valores observados (ou reais/verdadeiros)
❑ Principais métricas: RMSE, R-quadrado (R2)
❑ RMSE: Root Mean Squared Error: erro quadrático médio:
raiz_quadrada ( média ( (previsto – observado)^2))
❑ R-quadrado: representa a proporção da variabilidade dos dados 
explicada pelo modelo. 0 < R2 < 1
Regressão
Prof. Erick Muzart
Avaliando Regressão
https://t.me/kakashi_copiador
❑ Apesar das diferenças apontadas entre Classificação e Regressão é 
frequentemente possível converter uma tarefa de um tipo para outro, 
modificando a representação da variável target:
❑ Classificação -> Regressão: com múltiplas classes ordenadas, associar 
um valor númerico para cada
❑ Regressão -> Classificação: dividir o conjunto de possíveis valores 
numéricos em intervalos; cada intervalo se torna uma classe
❑ A maior parte dos modelos que estudaremos possuem versões levemente 
diferentes para classificação e para regressãoRegressão
Prof. Erick Muzart
Classificação <-> Regressão
https://t.me/kakashi_copiador
[fim] Regressão
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
MODELOS PREDITIVOS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Modelo preditivo?
❑ Modelos lineares: regressão linear e regressão logística
❑ K-NN: k-vizinhos mais próximos
❑ Árvore de decisão 
❑ Rede neural feed-forward
❑ Naive Bayes
❑ Outros modelos importantes (derivados dos modelos básicos anteriores)
Modelos
Prof. Erick Muzart
Modelos
https://t.me/kakashi_copiador
❑ Modelo preditivo abstrato: define como relacionar as variáveis de entrada 
(independentes) com o resultado esperado (variável dependente ou target)
❑ Diferentes modelos geram formas matematicamente muito diferentes de 
construir a relação entre as variáveis de entrada e de saída, tornando-os 
assim capazes de captar padrões estatísticos também diferentes
❑ Em regra, é preciso realizar experimentos computacionais, avaliando o 
desempenho de modelos de tipos diferentes para descobrir qual o mais 
adequado à uma tarefa e dados específicos.
❑ Cada tipo de modelo tem suas características, lógica de funcionamento, 
pontos fortes e fracos. Não é preciso ser capaz de reimplementar um 
algoritmo do zero para entender suas propriedades fundamentais.
Modelos
Prof. Erick Muzart
Modelo preditivo
https://t.me/kakashi_copiador
❑ Tarefa: definição genérica daquilo que se deseja produzir como resultado 
do modelo preditivo. Ex: classificar um documento em três possíveis categorias 
ou prever o valor de determinada medida.
❑ Técnicas de ML: conjunto de procedimentos que permite melhorar resultados 
preditivos. Ex: ‘regularização’: técnica para prevenir overfit; ‘separação 
treino/teste’: técnica para medir desempenho em generalização de um modelo.
❑ Algoritmo de ML: "fórmula" no sentido mais lato, que permite relacionar as 
variáveis independentes para prever a variável dependente. Ex: regressão linear
❑ Modelo (treinado): objeto computacional que efetivamente transforma uma 
observação (variáveis independentes) em uma previsão utilizando um algoritmo 
específico, instanciado e treinado, tendo-se assim determinado os parâmetros 
ótimos do modelo, por meio do treinamento. 
Modelos
Prof. Erick Muzart
Tarefa, Técnica, Algoritmo e Modelo...
https://t.me/kakashi_copiador
❑ Estimar um valor provável de venda de apartamento, utilizando um 
histórico de preços
Modelos
Prof. Erick Muzart
Desafio preditivo
[Awab 2017]
Como utilizar esses 
dados para realizar 
uma predição de 
valor?
Jardim America, 
120m2, 2 vagas, 20 
anos, conservação b
https://t.me/kakashi_copiador
[FIM]MODELOS PREDITIVOS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
MODELOS LINEARES – REGRESSÃO 
LINEAR
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Estimativa de preço como soma ponderada de suas características (área, 
bairro, vagas, conservação, etc.)
❑ O valor de cada característica do imóvel é multiplicado por um peso 
específico para aquela característica:
Preço Estimado = PesoÁrea * área + PesoBairro * bairro + PesoVagas * vagas + 
PesoConservação * Conservação
Modelos Lineares
Prof. Erick Muzart
Regressão Linear
Otimização dos parâmetros da reta por 
mínimos quadrados.
Desempenho do modelo medido por R2: 
percentual da variabilidade explicada
https://t.me/kakashi_copiador
Considerando o relacionamento entre a variável independente X e a variável dependente Y, 
mostrado na figura abaixo, assinale a alternativa correta.
Regression Plot
Y = 4,58602 - 0,606447 X
S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5%
A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.
B - O relacionamento entre X e Y é fraco e não deve ser considerado.
C - Não existe relação linear entre as variáveis analisadas.
D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.
Modelos Lineares
Prof. Erick Muzart
Fundatec/PrefPortoAlegre-Estat/2021
https://t.me/kakashi_copiador
Considerando o relacionamento entre a variável independente X e a variável dependente Y, 
mostrado na figura abaixo, assinale a alternativa correta.
Regression Plot
Y = 4,58602 - 0,606447 X
S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5%
A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.
B - O relacionamento entre X e Y é fraco e não deve ser considerado.
C - Não existe relação linear entre as variáveis analisadas.
D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.
Modelos Lineares
Prof. Erick Muzart
Fundatec/PrefPortoAlegre-Estat/2021
https://t.me/kakashi_copiador
Considerando o relacionamento entre a variável independente X e a variável dependente Y, 
mostrado na figura abaixo, assinale a alternativa correta.
Regression Plot
Y = 4,58602 - 0,606447 X
S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5%
A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.
B - O relacionamento entre X e Y é fraco e não deve ser considerado.
C - Não existe relação linear entre as variáveis analisadas.
D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.
Modelos Lineares
Prof. Erick Muzart
Fundatec/PrefPortoAlegre-Estat/2021
https://t.me/kakashi_copiador
[FIM]MODELOS LINEARES – 
REGRESSÃO LINEAR
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
MODELOS LINEARES – REGRESSÃO 
LOGÍSTICA
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
Modelos
Prof. Erick Muzart
Regressão logística
❑ Algoritmo de classificação, resulta de uma regressão linear seguida de 
transformação logística, realizada pela função sigmóide
❑ A função sigmóide transforma o resultado sem limite da regressão linear, 
para valor no intervalo [0, 1] que pode ser interpretado como a probabilidade 
da classe positiva
https://t.me/kakashi_copiador
A regressão logística é um modelo de regressão no qual a relação entre as variáveis 
independentese a variável dependente é representada por uma função degrau, a qual, por 
sua vez, pode ser representada por uma spline.
(C) Certo
(E) Errado
Supervisionado ou não
Prof. Erick Muzart
Cespe/Sefaz-AL/2021
https://t.me/kakashi_copiador
A regressão logística é um modelo de regressão no qual a relação entre as variáveis 
independentes e a variável dependente é representada por uma função degrau, a qual, por 
sua vez, pode ser representada por uma spline.
(C) Certo
(E) Errado
Supervisionado ou não
Prof. Erick Muzart
Cespe/Sefaz-AL/2021
https://t.me/kakashi_copiador
Assinale a alternativa que indique o problema mais apropriado para aplicação da 
regressão logística.
A - Para obter o risco relativo de se desenvolver a diabetes tipo 2, em um período de 10 
anos, associado com o peso do indivíduo e outros fatores de risco.
B - Para descrever o tamanho esperado de crianças com menos de um ano, de acordo 
com sua idade em meses.
C - Para predizer o tempo de sobrevivência de pacientes de câncer de pulmão, de acordo 
com características clínicas do paciente.
D - Para descrever a distribuição de pesos de indivíduos do sexo feminino em uma certa 
comunidade
E - Para predizer o número de casos de uma doença em diferentes municípios de acordo 
com algumas variáveis populacionais e epidemiológicas.
Supervisionado ou não
Prof. Erick Muzart
FGV/Fiocruz/2010
https://t.me/kakashi_copiador
Assinale a alternativa que indique o problema mais apropriado para aplicação da 
regressão logística.
A - Para obter o risco relativo de se desenvolver a diabetes tipo 2, em um período de 10 
anos, associado com o peso do indivíduo e outros fatores de risco.
B - Para descrever o tamanho esperado de crianças com menos de um ano, de acordo 
com sua idade em meses.
C - Para predizer o tempo de sobrevivência de pacientes de câncer de pulmão, de acordo 
com características clínicas do paciente.
D - Para descrever a distribuição de pesos de indivíduos do sexo feminino em uma certa 
comunidade
E - Para predizer o número de casos de uma doença em diferentes municípios de acordo 
com algumas variáveis populacionais e epidemiológicas.
Supervisionado ou não
Prof. Erick Muzart
FGV/Fiocruz/2010
https://t.me/kakashi_copiador
Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido].
58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o 
modelo de regressão logística, uma vez que a variável dependente se apresenta de forma 
quantitativa. 
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido].
58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o 
modelo de regressão logística, uma vez que a variável dependente se apresenta de forma 
quantitativa. 
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido].
58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o 
modelo de regressão logística, uma vez que a variável dependente se apresenta de forma 
quantitativa. 
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
[FIM]MODELOS LINEARES – 
REGRESSÃO LOGÍSTICA
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
K-VIZINHOS MAIS PRÓXIMOS (KNN)
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Previsão baseada nos valores conhecidos “mais similares” ou mais 
próximos em termos de distância entre características.
❑ k-vizinhos mais próximos ou em inglês k-nearest neighbors (knn): 
memoriza dados de treinamento e para cada nova previsão identifica as k 
observações conhecidas mais próximas de onde se deseja uma previsão, 
retornando a média desses vizinhos.
knn
Prof. Erick Muzart
knn
https://t.me/kakashi_copiador
Machine Learning
Máquina de previsão:
• Classificação
• Regressão
Classificação Regressão
https://t.me/kakashi_copiador
Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra 
pertence na tabela a seguir.
Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos 
mais próximos com k=3 e usando a distância euclidiana usual. Suas classes previstas são, 
respectivamente: 
(A) A, B, A; 
(B) B, A, A; 
(C) A, B, B; 
(D) A, A, B; 
(E) A, A, A.
knn
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra 
pertence na tabela a seguir.
Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos 
mais próximos com k=3 e usando a distância euclidiana usual. Suas classes previstas são, 
respectivamente: 
(A) A, B, A; 
(B) B, A, A; 
(C) A, B, B; 
(D) A, A, B; 
(E) A, A, A.
knn
Prof. Erick Muzart
FGV/TCU/2021
Classificar um ponto requer calcular quais os 3 
pontos mais próximos e escolher a classe da maioria 
desses 3 vizinhos mais próximos:
Pontos:
(1,1): (0,1)A, (1,0)A, (1,2)A -> maioria A
(0,0): (0,1)A, (1,0) A, [(1,-1)B ou (-1,1)B] -> maioria 
A
(-1,2): (-1,1)B, (0,2)B, (0,1)A -> maioria B
Classes: A, A, B
https://t.me/kakashi_copiador
[FIM]K-VIZINHOS MAIS PRÓXIMOS (KNN)
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
Regras de Associação: Apriori
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Exemplo de aprendizado não supervisionado
❑ Descoberta de relações interessantes entre variáveis: regras
❑ Análise de cesta de compras (market basket analysis): produtos são 
comprados numa mesma transação; a partir de múltiplas transações 
procura-se prever quais co-ocorrências de produtos são mais relevantes
Apriori
Prof. Erick Muzart
Regras de Associação
https://t.me/kakashi_copiador
❑ Regras: Se compra A e B então compra C
{A, B -> C}
Ex regra: {Cerveja, Gelo -> Carvão}
❑ Regras mais interessantes?
• Suporte: frequência de itens da regra
3 ocorrências de 10: 0,3
• Confiança: percentual de ocorrências dos 
itens que respeitam a regra
3 ocorrências respeitadas sobre 3: 100%
Apriori
Prof. Erick Muzart
Regras de Associação
https://t.me/kakashi_copiador
Considere o seguinte histórico de dez compras em uma loja de conveniência 
onde, para cada compra, aparecem assinalados os produtos adquiridos. Na 
aplicação do algoritmo Apriori para essa amostra, a medida de confiança 
(confidence) para a associação {cerveja → gelo} é:
(A) 1,0
(B) 0,6
(C) 0,5
(D) 0,3
(E) 0,1 
Apriori
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
https://t.me/kakashi_copiador
Considere o seguinte histórico de dez compras em uma loja de conveniência 
onde, para cada compra, aparecem assinalados os produtos adquiridos. Na 
aplicação do algoritmo Apriori para essa amostra, a medida de confiança 
(confidence) para a associação {cerveja → gelo} é:
(A) 1,0
(B) 0,6
(C) 0,5
(D) 0,3
(E) 0,1 
Apriori
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
Confiança: percentual de ocorrências dos 
itens que respeitam a regra
Ocorrências {cerveja, gelo}: 3
Ocorrências {cerveja} : 6
Confiança = n{cerveja, gelo} / 
n{cerveja}
 = 3/6 = 0,5 
https://t.me/kakashi_copiador
❑ Constrói o conjunto de regras das mais simples (único item) às mais 
complexas (múltiplos itens)
❑ Para cada nível de regra, calcula o número de ocorrências nos dados 
(suporte) e elimina as regras com suporte inferior a um patamar mínimo
❑ As regras que subsistirem são expandidas para mais um produto...
Apriori
Prof. Erick Muzart
Apriori
https://t.me/kakashi_copiador
❑ Aplicação, com suporte >= 5
{Cerveja -> Gelo} : suporte 3
{ Gelo - > Carvão} : suporte 5, confiança 
100%
Pode-se ordenar as regras pelo maior produto 
suporte x confiança
Apriori
Prof. Erick Muzart
Apriori
https://t.me/kakashi_copiador[fim]Regras de Associação: Apriori
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
ÁRVORE DE DECISÃO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Imaginem que vocês queiram prever se um dado passageiro do Titanic 
sobreviveu ou não ao desastre: que sequência de perguntas sobre as 
características do passageiro melhor ajudariam a prever se sobreviveu?
❑ Intuitivamente algumas características dos passageiros seriam mais 
importantes: sexo, idade, classe... Como descobrir quais as mais importantes 
e em que sequência deveriam ser avaliadas para estimar a probabilidade de 
sobrevivência?
Modelos
Prof. Erick Muzart
Intuição árvore de decisão
https://t.me/kakashi_copiador
Modelos
Prof. Erick Muzart
Árvore de decisão: Titanic
https://t.me/kakashi_copiador
Modelos
Prof. Erick Muzart
Árvore de decisão no sklearn
https://t.me/kakashi_copiador
Modelos
Prof. Erick Muzart
Árvore de decisão no sklearn
https://t.me/kakashi_copiador
❑ Descobre sequências de regras do tipo “Se variável X maior do que p então” 
que permitem separar observações em grupos de uma classe majoritária
❑ A variável e o “ponto de corte” escolhidos para separar uma amostra de dados 
são o que permite gerar subconjuntos mais homogêneos: ganho de informação 
ou redução de entropia
❑ Modelo altamente interpretável: regras simples e de fácil visualização
❑ Árvore de decisão pode ser utilizada tanto para classificação como para 
regressão
❑ Otimiza-se a árvore, realizando sua “poda” por diversos critérios: profundidade, 
tamanho mínimo das folhas, ganho mínimo de informação, etc.
Modelos
Prof. Erick Muzart
Árvore de decisão
https://t.me/kakashi_copiador
Uma árvore de decisão representa um determinado número de caminhos 
possíveis de decisão e os resultados de cada um deles, apresentando muitos 
pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm 
processo de previsão completamente transparente e lidam facilmente com 
diversos atributos numéricos, assim como atributos categóricos, podendo até 
mesmo classificar dados sem atributos definidos. 
61 A entropia de uma árvore de decisão aborda o aspecto da quantidade de 
informações que está associada às respostas que podem ser obtidas às 
perguntas formuladas, representando o grau de incerteza associado aos dados.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Uma árvore de decisão representa um determinado número de caminhos 
possíveis de decisão e os resultados de cada um deles, apresentando muitos 
pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm 
processo de previsão completamente transparente e lidam facilmente com 
diversos atributos numéricos, assim como atributos categóricos, podendo até 
mesmo classificar dados sem atributos definidos. 
61 A entropia de uma árvore de decisão aborda o aspecto da quantidade de 
informações que está associada às respostas que podem ser obtidas às 
perguntas formuladas, representando o grau de incerteza associado aos dados.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1, x2), para 
cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada 
nessa amostra foi “Sim”, “Não”, “Sim”,“Não”, respectivamente.
A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma 
árvore de decisão é:
(A) x1 > 2 (“Sim”) e x1 ≤ 2 (“Não”);
(B) x1 > 5 (“Sim”) e x1 ≤ 5 (“Não”);
(C) x2 > 3 (“Sim”) e x2 ≤ 3 (“Não”);
(D) x2 > 6 (“Sim”) e x2 ≤ 6 (“Não”);
(E) x1 > 1 (“Sim”) e x1 ≤ 1 (“Não”).
knn
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1, x2), para 
cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada 
nessa amostra foi “Sim”, “Não”, “Sim”,“Não”, respectivamente.
A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma 
árvore de decisão é:
(A) x1 > 2 (“Sim”) e x1 ≤ 2 (“Não”);
(B) x1 > 5 (“Sim”) e x1 ≤ 5 (“Não”);
(C) x2 > 3 (“Sim”) e x2 ≤ 3 (“Não”);
(D) x2 > 6 (“Sim”) e x2 ≤ 6 (“Não”);
(E) x1 > 1 (“Sim”) e x1 ≤ 1 (“Não”).
knn
Prof. Erick Muzart
FGV/TCU/2021
X1 X2 resp
6 4 S
2 8 N
10 6 S
5 2 N
Numa árvore de decisão cada nó é construído 
com a variável e o ponto de corte que gera a 
partição mais “pura” possível!
Testamos cada variável e cada possível ponto de 
corte:
X2: todas as partições misturadas
X1: partições puras se o corte for em < 6 ou > 5:
Regra: se x1 > 5 então S; se x1 <= 5 então N 
Alternativa B
https://t.me/kakashi_copiador
[FIM]ÁRVORE DE DECISÃO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
Exercício síntese 1
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
Considere uma matriz de confusão de um modelo de classificação binária de relatórios 
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do 
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas 
como:
(A) Precision = 0.71. Recall = 0.83;
(B) Precision = 0.83. Recall = 0.71;
(C) Precision = 0.83. Recall = 0.90;
(D) Precision = 0.90. Recall = 0.71;
(E) Precision = 0.90. Recall = 0.83.
Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
https://t.me/kakashi_copiador
Considere uma matriz de confusão de um modelo de classificação binária de relatórios 
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do 
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas 
como:
(A) Precision = 0.71. Recall = 0.83;
(B) Precision = 0.83. Recall = 0.71;
(C) Precision = 0.83. Recall = 0.90;
(D) Precision = 0.90. Recall = 0.71;
(E) Precision = 0.90. Recall = 0.83.
Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
 valor previsto
 negativo positivo
valor real
negativo Verdadeiro 
Negativo
Falso Positivo 
(Erro tipo I)
positivo Falso Negativo
(Erro tipo II)
Verdadeiro 
Positivo
https://t.me/kakashi_copiador
Considere uma matriz de confusão de um modelo de classificação binária de relatórios 
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do 
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas 
como:
(A) Precision = 0.71. Recall = 0.83;
(B) Precision = 0.83. Recall = 0.71;
(C) Precision = 0.83. Recall = 0.90;
(D) Precision = 0.90. Recall = 0.71;
(E) Precision = 0.90. Recall = 0.83.
Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
 valor previsto
 negativo positivo
valor real
negativo
100
Verdadeiro 
Negativo
40
Falso Positivo 
(Erro tipo I)
positivo
20
Falso Negativo
(Erro tipo II)
200
Verdadeiro 
Positivo
https://t.me/kakashi_copiador
Considere uma matriz de confusão de um modelo de classificação binária de relatórios 
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do 
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas 
como:
Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
 valor previsto
 negativo positivo
valor 
real
negati
vo
100
Verdadeiro 
Negativo
40
Falso 
Positivo 
(Erro tipo I)
positiv
o
20
Falso 
Negativo
(Erro tipo II)
200
Verdadeiro 
Positivo
Sensibilidade (recall) = VP / (VP + FN) “proporção de positivos 
corretos” = 200/(200+20) = 200/220 ~ 91%
Precisão = VP / (VP + FP) “proporçãode previsões positivas 
corretas” = 200 / (200+40) = 200/240 ~ 83%
(C) Precision = 0.83. Recall = 0.90;
https://t.me/kakashi_copiador
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo 
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas 
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de 
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em 
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale 
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. 
A - Algoritmos de associação. 
B - Algoritmos de clusterização. 
C - Árvores de decisão. 
D - Modelagem de dados. 
E - Regressão linear.
Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
https://t.me/kakashi_copiador
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo 
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas 
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de 
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em 
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale 
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. 
A - Algoritmos de associação. 
B - Algoritmos de clusterização. 
C - Árvores de decisão. 
D - Modelagem de dados. 
E - Regressão linear.
Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
https://t.me/kakashi_copiador
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo 
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas 
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de 
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em 
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale 
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. 
A - Algoritmos de associação. 
B - Algoritmos de clusterização. 
C - Árvores de decisão. 
D - Modelagem de dados. 
E - Regressão linear.
Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
https://t.me/kakashi_copiador
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo 
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas 
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de 
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em 
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale 
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. 
A - Algoritmos de associação. 
B - Algoritmos de clusterização. 
C - Árvores de decisão. 
D - Modelagem de dados. 
E - Regressão linear.
Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
O que precisaria ser modificado no 
enunciado para que a alternativa correta 
fosse cada uma das demais alternativas 
disponíveis?
https://t.me/kakashi_copiador
REDES NEURAIS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Perceptron
❑ Múltiplas camadas (MLP)
❑ Redes Neurais Artificiais feed-forward
❑ Deep Learning
Redes Neurais
Prof. Erick Muzart
Redes Neurais
https://t.me/kakashi_copiador
Redes Neurais
Prof. Erick Muzart
Perceptron
https://t.me/kakashi_copiador
❑ Perceptrons conectados em múltiplas camadas (MLP)
❑ Unidades totalmente conectadas, entre camadas
❑ Feed-forward: 
• sinal sempre se propaga para frente
• sem ciclos
❑ Deep Learning: múltiplas camadas escondidas
• diversidade de arquiteturas de conexão
❑ Treinamento: 
• ajuste dos pesos por retro-propagação (back propagation)Redes Neurais
Prof. Erick Muzart
Múltiplas Camadas
https://t.me/kakashi_copiador
❑ Deep Learning: muitas unidades em 
múltiplas camadas escondidas
• diversidade de arquiteturas de conexão: 
convolutivas (CNN), recorrentes (RNN), 
LSTM (Long Short-Term Memory), etc.
• em geral, o desempenho de um modelo 
aumenta com seu tamanho e quantidade 
de dados de treinamento
❑ Treinamento por ajuste dos pesos por 
retro-propagação: back propagation
Redes Neurais
Prof. Erick Muzart
Múltiplas Camadas
https://t.me/kakashi_copiador
Função de ativação
❑ Tangente hiperbólica
❑ Sigmóide
https://t.me/kakashi_copiador
Redes Neurais
Prof. Erick Muzart
Função de ativação
❑ ReLU : Rectified Linear Unit
f(x) = max(0, x)
https://t.me/kakashi_copiador
No contexto das redes neurais, é 
comum o uso da função sigmoid no 
papel de função de ativação. 
Assinale a definição correta dessa 
função na referida aplicação.
Redes Neurais
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
https://t.me/kakashi_copiador
No contexto das redes neurais, é 
comum o uso da função sigmoid no 
papel de função de ativação. 
Assinale a definição correta dessa 
função na referida aplicação.
Redes Neurais
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
https://t.me/kakashi_copiador
Analise a rede neural exibida a seguir. Sobre essa rede, analise as afirmativas a seguir. 
I. Não possui camadas intermediárias (hidden layers). 
II. Admite três sinais de entrada (input units) além do intercept term. 
III. É apropriada para aplicações de deep learning. Está correto o que se afirma em 
(A) I, apenas. 
(B) II, apenas. 
(C) III, apenas. 
(D) I e II, apenas. 
(E) I, II e III. 
Redes Neurais
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
https://t.me/kakashi_copiador
(C) ou (E): Cada unidade de uma rede neural artificial possui um valor e um peso, no seu nível mais 
básico, para indicar sua importância relativa.
(C) ou (E): Redes neurais do tipo LSTM (long short-term memory) mantêm o nível de precisão 
independentemente do tamanho do modelo utilizado.
Redes Neurais
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
(C) ou (E): Cada unidade de uma rede neural artificial possui um valor e um peso, no seu nível mais 
básico, para indicar sua importância relativa.
(C) ou (E): Redes neurais do tipo LSTM (long short-term memory) mantêm o nível de precisão 
independentemente do tamanho do modelo utilizado.
Redes Neurais
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
70 Uma RNA é formada por unidades que fazem operações a partir das 
entradas (sinais) recebidas pelas suas conexões; cada sinal é multiplicado por 
um peso e, após a soma ponderada dos sinais, caso o nível de atividade atinja o 
threshold, a unidade produz uma determinada resposta de saída. 
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
70 Uma RNA é formada por unidades que fazem operações a partir das 
entradas (sinais) recebidas pelas suas conexões; cada sinal é multiplicado por 
um peso e, após a soma ponderada dos sinais, caso o nível de atividade atinja o 
threshold, a unidade produz uma determinada resposta de saída. 
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
71 Em RNA formada unicamente de perceptron, uma pequena alteração nos 
pesos de um único perceptron na rede pode ocasionar grandes mudanças na 
saída desse perceptron; mesmo com a inserção das funções de ativação, não é
possível controlar o nível da mudança, por isso, essas redes são voltadas para a 
resolução de problemas específicos, tais como regressão e previsão de séries 
temporais.
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximositens, relativos a redes neurais artificiais (RNA).
71 Em RNA formada unicamente de perceptron, uma pequena alteração nos 
pesos de um único perceptron na rede pode ocasionar grandes mudanças na 
saída desse perceptron; mesmo com a inserção das funções de ativação, não é
possível controlar o nível da mudança, por isso, essas redes são voltadas para a 
resolução de problemas específicos, tais como regressão e previsão de séries 
temporais.
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
72 As funções de ativação são elementos importantes nas redes neurais 
artificiais; essas funções introduzem componente não linear nas redes neurais, 
fazendo que elas possam aprender mais do que relações lineares entre as 
variáveis dependentes e independentes, tornando-as capazes de modelar 
também relações não lineares.
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
72 As funções de ativação são elementos importantes nas redes neurais 
artificiais; essas funções introduzem componente não linear nas redes neurais, 
fazendo que elas possam aprender mais do que relações lineares entre as 
variáveis dependentes e independentes, tornando-as capazes de modelar 
também relações não lineares.
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
73 O algoritmo de backpropagation consiste das fases de propagação e de 
retro propagação: na primeira, as entradas são passadas através da rede e as 
previsões de saída são obtidas; na segunda, se calcula o termo de correção dos
pesos e, por conseguinte, a atualização dos pesos.
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).
73 O algoritmo de backpropagation consiste das fases de propagação e de 
retro propagação: na primeira, as entradas são passadas através da rede e as 
previsões de saída são obtidas; na segunda, se calcula o termo de correção dos
pesos e, por conseguinte, a atualização dos pesos.
Certo ou Errado?
Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1, x2). 
Essa rede aplica pesos w1 em x1, w2 em x2 e adiciona um viés w0. A função de ativação é dada pela 
função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e 
será utilizada para classificar observações em y=+1 ou y=-1.
Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos:
(A) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como -1 os pontos acima da reta;
(B) (x1 = 1/2, x2 = 0) e (x1 = 0, x2 = 1/3) e classifica como +1 os pontos acima da reta;
(C) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como +1 os pontos acima da reta;
(D) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = 1/3) e classifica como +1 os pontos acima da reta;
(E) (x1 = 1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como -1 os pontos acima da reta.
Redes Neurais
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1, x2). 
Essa rede aplica pesos w1 em x1, w2 em x2 e adiciona um viés w0. A função de ativação é dada pela 
função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e 
será utilizada para classificar observações em y=+1 ou y=-1.
Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos:
Redes Neurais
Prof. Erick Muzart
FGV/TCU/2021
Descrição dos parâmetros da rede neural 
(perceptron: única unidade)
A saída z do perceptron é a combinação linear das 
entradas xi multiplicadas pelos pesos wi:
z = 2x1 + 3x2 + 1
https://t.me/kakashi_copiador
Para determinar as condições para que z seja positivo ou negativo, 
identificamos quando é igual a zero: 2x1 +3x2 + 1 = 0
A equação define uma reta entre x1 e x2.
Verifica-se que os seguintes pontos encontram-se na reta: (-1/2, 0) 
e (0, -1/3).
Quaisquer pontos (x1, x2) “acima” da reta resultarão em z > 0 ou 
y=+1
(C) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como +1 
os pontos acima da reta;
Redes Neurais
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
NAIVE BAYES
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Imagine que você queira adivinhar se determinada pessoa é um homem ou 
uma mulher, por meio de perguntas sobre essa pessoa
❑ Inicialmente, sem nenhuma informação disponível pode considerar que a 
probabilidade de ser uma mulher é de 50% (ou algum outro ponto de partida 
em função do seu conhecimento da composição do grupo)
❑ Em seguida, imagine perguntas sobre características que sejam mais 
informativas: altura, peso, comprimento de cabelo, idade, escolaridade, força, 
etc.
❑ Cada informação obtida pode afetar a probabilidade estimada até então. Mas 
como e quanto? Depende da frequência relativa dessa característica entre os 
grupos de homens e de mulheres...
Naive Bayes
Prof. Erick Muzart
Naive Bayes
https://t.me/kakashi_copiador
❑ Classificador probabilístico baseado no teorema de Bayes, com hipótese forte 
(ingênua) de independência entre seus atributos (variáveis)
❑ Teorema de Bayes: P(A|B) = P(B|A) * P(A) / P(B)
P(A|B) : a probabilidade condicional de A dado B
Posterior = prévia * verossimilhança / evidência
❑ Cada nova informação sobre um objeto altera a probabilidade de que ele seja 
de alguma classe; essas alterações de probabilidade refletem frequências de 
ocorrências dos atributos nos dados de treinamento e hipótese sobre a sua 
distribuição de valores (normal, multinomial, Bernoulli)
❑ Rápido e escalável, funciona bem tanto com poucos ou com muitos dados. 
Muito utilizado em filtro de spam e PLNNaive Bayes
Prof. Erick Muzart
Naive Bayes
https://t.me/kakashi_copiador
Um cientista de dados deve utilizar uma técnica de mineração de dados que não usa 
regras ou árvore de decisão ou qualquer outra representação explícita do classificador, 
mas que usa o ramo da matemática conhecido como teoria das probabilidades para 
encontrar a mais provável das possíveis classificações. Sabendo disso, assinale a 
alternativa que apresenta corretamente o nome da técnica a ser utilizada pelo cientista de 
dados. 
A - Regras de decisão. 
B - Árvore binária. 
C - Entropia. 
D - Classificação Naive Bayes. 
E - Agrupamento.
Naive Bayes
Prof. Erick Muzart
AOCP/MJSP/2020
https://t.me/kakashi_copiador
Um cientista de dados deve utilizar uma técnica de mineração de dados que não usa 
regras ou árvore de decisão ou qualquer outra representação explícita do classificador, 
mas que usa o ramo da matemática conhecido como teoria das probabilidades para 
encontrar a mais provável das possíveis classificações. Sabendo disso, assinale a 
alternativa que apresenta corretamente o nome da técnica a ser utilizada pelo cientista de 
dados. 
A - Regras de decisão. 
B - Árvore binária. 
C - Entropia. 
D - Classificação Naive Bayes. 
E - Agrupamento.
Naive Bayes
Prof. Erick Muzart
AOCP/MJSP/2020
https://t.me/kakashi_copiador
(C) ou (E): A classificação Naive Bayes parte da suposição de que as variáveis envolvidas em 
machine learning são independentes entre si.
Naive Bayes
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
(C) ou (E): A classificação Naive Bayes parte da suposição de que as variáveis envolvidas em 
machine learning são independentes entre si.
Naive Bayes
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
A = “Eu gostei do livro, apesar do livroser longo” – positiva;
B = “Esse livro é muito legal” – positiva;
C = “Eu não gostei do livro, não gosto muito desse autor” – negativa.
Para calcular as probabilidades de uma sentença ser positiva e de uma determinada palavra aparecer 
na sentença, dado que a sentença é positiva, em Aprendizado de Máquinas, pode-se usar o Naive 
Bayes. Com a utilização dessa técnica, e com base nos dados das três sentenças acima, os valores das 
estimativas de máxima verossimilhança de P(positiva) e P(livro|positiva) são, respectivamente:
(A) 1/3 e 1/2;
(B) 1/3 e 3/14;
(C) 2/3 e 3/14;
(D) 2/3 e 1/2;
(E) 2/3 e 2/3.
Naive Bayes
Prof. Erick Muzart
FGV/CGU/2021
https://t.me/kakashi_copiador
A = “Eu gostei do livro, apesar do livro ser longo” – positiva;
B = “Esse livro é muito legal” – positiva;
C = “Eu não gostei do livro, não gosto muito desse autor” – negativa.
Para calcular as probabilidades de uma sentença ser positiva e de uma determinada palavra aparecer 
na sentença, dado que a sentença é positiva, em Aprendizado de Máquinas, pode-se usar o Naive 
Bayes. Com a utilização dessa técnica, e com base nos dados das três sentenças acima, os valores das 
estimativas de máxima verossimilhança de P(positiva) e P(livro|positiva) são, respectivamente:
(A) 1/3 e 1/2;
(B) 1/3 e 3/14;
(C) 2/3 e 3/14;
(D) 2/3 e 1/2;
(E) 2/3 e 2/3.
Naive Bayes
Prof. Erick Muzart
FGV/CGU/2021
P(positiva) = Número sentenças positivas / Número total sentenças
 = 2 / 3
P(livro | positiva) = Número ocorrências “livro” nas sentenças positivas /
Número de palavras nas sentenças positivas
 = 3 / 14
https://t.me/kakashi_copiador
OBRIGADO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
https://t.me/kakashi_copiador

Mais conteúdos dessa disciplina