Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Big Data
Aula 09 – Análise Preditiva – Desempenho em 
classificação com Spark
Profa. Rafaella Nascimento | rafaella.nascimento@pe.senac.br
Imagem de Garry Killian no Freepik
https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm
https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm
Agenda
Classificação 
Avaliação de modelos
Atividade 1
Arquitetura Big Data
Arquitetura em Big Data
Fonte de 
dados
Armazenamento de 
dados
Armazenamento
de dados 
analíticos
Orquestração
Aprendizado 
de
Máquina
Análise e 
relatórios
Processamento 
em lotes
Processamento 
de fluxo
Ingestão de mensagens 
em tempo real
Ciclo de vida da Data Analytics
O ciclo de vida da data analytics define o
roteiro de como os dados serão gerados,
coletados, processados, usados e analisados
para atingir os objetivos de negócio.
Desc oberta de 
d ad os
P reparação de 
d ad os
P lanejamento de 
u m modelo
C o nstrução de um 
mo d elo
P u blicação de 
resu ltados
O p eracionalização
Desempenho na Aprendizagem 
Supervisionada: Classificação
Aprendizagem Supervisionada
• Sabemos que os algoritmos de aprendizagem aprendem a partir de dados.
• Podemos utilizar dados históricos para realizar estas atividades.
Como vimos, precisamos de:
1. Dados para treinamento do modelo e
2. Dados para teste do modelo.
Particionamento de Dados
Aprendizagem Supervisionada
• Na aprendizagem supervisionada, ao particionar a base de dados, os valores a serem preditos são
ocultados da base de teste (e guardados para posteriormente verificar o erro de predição).
A base de teste forma os dados não vistos.
O modelo vai estimar o valor da variável
resposta.
Dados Preditos: VP, VN, FP e FN
(resposta do modelo)
• Após treinar um modelo de classificação deve-se utilizar o conjunto de dados para testar o quanto o
modelo acerta (base de teste).
• Em muitos casos não basta apenas saber o quanto o modelo acertou para dizer se ele é bom.
• Métricas diferentes devem ser utilizadas para essa avaliação.
Possibilidades
Resposta do 
programa
Pergunta
Jogar 
tênis?
Sim
Acertou Errou
Não
Acertou Errou
Matriz de Confusão
• As predições podem ter quatro possíveis classes:
1. Verdadeiro positivo (VP): quando o modelo diz que a classe é positiva
e verifica-se que ele acertou;
2. Verdadeiro negativo (VN): quando o método diz que a classe é
negativa e, ao verificar a resposta, vê-se que é negativa;
3. Falso positivo (FP): quando o modelo diz que a classe é positiva, mas
ao verificar, vê-se que a classe era negativa;
4. Falso negativo (FN): quando o método diz que a classe é negativa, mas
ao verificar a resposta, vê-se que é positiva.
A matriz de confusão indica a quantidade de ocorrências que o 
programa teve para cada uma das quatro categorias.
Matriz de Confusão
Exemplo: O modelo fez predições de ser um bom dia para jogar tênis
durante 100 dias.
• O modelo disse que é um bom dia (Sim) em 55 dias e que não era um
bom dia (Não) em 45.
• No entanto percebemos que jogou-se tênis em 50 dias e que não se
jogou em 50. 40
15
10
35
VP = 40
FP = 15
FN = 10
VN = 35
Acurácia (ACC)
• Avalia o percentual de acertos (taxa de acerto).
40
15
10
35
= 75/100 = 75%
VP = 40
FP = 15
FN = 10
VN = 35
Sensibilidade (recall)
• Essa métrica avalia a capacidade do modelo de detectar com sucesso resultados classificados como
positivos.
40
15
10
35
= 40/50 = 80%
VP = 40
FP = 15
FN = 10
VN = 35
Precisão
• A precisão é uma métrica que avalia a quantidade de verdadeiros positivos sobre a soma de todos
os valores positivos.
40
15
10
35
= 40/(40+15) = 73%
VP = 40
FP = 15
FN = 10
VN = 35
Qual melhor métrica?
• A acurácia nos dá visão geral sobre o desempenho do modelo.
• Sistema de detecção de Spam: Falso positivo pode ser considerado um problema mais crítico
(mensagem importante rotulada como spam).
PRECISÃO
• Sistema de detecção de falhas em avião: Falso negativo problema crítico (uma peça com problema
mas o sistema indica que está tudo certo).
Falsos negativos ~0: SENSIBILIDADE
E para problemas com mais
de 2 classes?
A matriz de confusão exibirá da mesma forma a confusão e os acertos para cada classe:
- Acurácia: métrica geral
- Precisão e recall: métrica para cada classe
Exemplo prático
Link colab
https://colab.research.google.com/drive/12UG1VIMlN1WP9zyXiHR-SO8tWKBGrtOP?usp=sharing
Big Data
Dúvidas?
Profa. Rafaella Nascimento | rafaella.nascimento@pe.senac.br
Imagem de Garry Killian no Freepik
https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm
https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm
	Slide 1
	Slide 2: Agenda
	Slide 3: Arquitetura Big Data
	Slide 4: Ciclo de vida da Data Analytics
	Slide 5
	Slide 6: Aprendizagem Supervisionada
	Slide 7: Aprendizagem Supervisionada
	Slide 8: Dados Preditos: VP, VN, FP e FN (resposta do modelo)
	Slide 9: Matriz de Confusão
	Slide 10: Matriz de Confusão
	Slide 11: Acurácia (ACC)
	Slide 12: Sensibilidade (recall)
	Slide 13: Precisão
	Slide 14: Qual melhor métrica?
	Slide 15: E para problemas com mais de 2 classes?
	Slide 16: Exemplo prático
	Slide 17

Mais conteúdos dessa disciplina