Prévia do material em texto
Big Data Aula 09 – Análise Preditiva – Desempenho em classificação com Spark Profa. Rafaella Nascimento | rafaella.nascimento@pe.senac.br Imagem de Garry Killian no Freepik https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm Agenda Classificação Avaliação de modelos Atividade 1 Arquitetura Big Data Arquitetura em Big Data Fonte de dados Armazenamento de dados Armazenamento de dados analíticos Orquestração Aprendizado de Máquina Análise e relatórios Processamento em lotes Processamento de fluxo Ingestão de mensagens em tempo real Ciclo de vida da Data Analytics O ciclo de vida da data analytics define o roteiro de como os dados serão gerados, coletados, processados, usados e analisados para atingir os objetivos de negócio. Desc oberta de d ad os P reparação de d ad os P lanejamento de u m modelo C o nstrução de um mo d elo P u blicação de resu ltados O p eracionalização Desempenho na Aprendizagem Supervisionada: Classificação Aprendizagem Supervisionada • Sabemos que os algoritmos de aprendizagem aprendem a partir de dados. • Podemos utilizar dados históricos para realizar estas atividades. Como vimos, precisamos de: 1. Dados para treinamento do modelo e 2. Dados para teste do modelo. Particionamento de Dados Aprendizagem Supervisionada • Na aprendizagem supervisionada, ao particionar a base de dados, os valores a serem preditos são ocultados da base de teste (e guardados para posteriormente verificar o erro de predição). A base de teste forma os dados não vistos. O modelo vai estimar o valor da variável resposta. Dados Preditos: VP, VN, FP e FN (resposta do modelo) • Após treinar um modelo de classificação deve-se utilizar o conjunto de dados para testar o quanto o modelo acerta (base de teste). • Em muitos casos não basta apenas saber o quanto o modelo acertou para dizer se ele é bom. • Métricas diferentes devem ser utilizadas para essa avaliação. Possibilidades Resposta do programa Pergunta Jogar tênis? Sim Acertou Errou Não Acertou Errou Matriz de Confusão • As predições podem ter quatro possíveis classes: 1. Verdadeiro positivo (VP): quando o modelo diz que a classe é positiva e verifica-se que ele acertou; 2. Verdadeiro negativo (VN): quando o método diz que a classe é negativa e, ao verificar a resposta, vê-se que é negativa; 3. Falso positivo (FP): quando o modelo diz que a classe é positiva, mas ao verificar, vê-se que a classe era negativa; 4. Falso negativo (FN): quando o método diz que a classe é negativa, mas ao verificar a resposta, vê-se que é positiva. A matriz de confusão indica a quantidade de ocorrências que o programa teve para cada uma das quatro categorias. Matriz de Confusão Exemplo: O modelo fez predições de ser um bom dia para jogar tênis durante 100 dias. • O modelo disse que é um bom dia (Sim) em 55 dias e que não era um bom dia (Não) em 45. • No entanto percebemos que jogou-se tênis em 50 dias e que não se jogou em 50. 40 15 10 35 VP = 40 FP = 15 FN = 10 VN = 35 Acurácia (ACC) • Avalia o percentual de acertos (taxa de acerto). 40 15 10 35 = 75/100 = 75% VP = 40 FP = 15 FN = 10 VN = 35 Sensibilidade (recall) • Essa métrica avalia a capacidade do modelo de detectar com sucesso resultados classificados como positivos. 40 15 10 35 = 40/50 = 80% VP = 40 FP = 15 FN = 10 VN = 35 Precisão • A precisão é uma métrica que avalia a quantidade de verdadeiros positivos sobre a soma de todos os valores positivos. 40 15 10 35 = 40/(40+15) = 73% VP = 40 FP = 15 FN = 10 VN = 35 Qual melhor métrica? • A acurácia nos dá visão geral sobre o desempenho do modelo. • Sistema de detecção de Spam: Falso positivo pode ser considerado um problema mais crítico (mensagem importante rotulada como spam). PRECISÃO • Sistema de detecção de falhas em avião: Falso negativo problema crítico (uma peça com problema mas o sistema indica que está tudo certo). Falsos negativos ~0: SENSIBILIDADE E para problemas com mais de 2 classes? A matriz de confusão exibirá da mesma forma a confusão e os acertos para cada classe: - Acurácia: métrica geral - Precisão e recall: métrica para cada classe Exemplo prático Link colab https://colab.research.google.com/drive/12UG1VIMlN1WP9zyXiHR-SO8tWKBGrtOP?usp=sharing Big Data Dúvidas? Profa. Rafaella Nascimento | rafaella.nascimento@pe.senac.br Imagem de Garry Killian no Freepik https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm https://br.freepik.com/vetores-gratis/visualizacao-de-nuvem-de-big-data-infografico-futurista-computacao-em-nuvem-de-informacoes-complexidade-de-dados-visuais-analise-de-graficos-de-negocios-complexos-representacao-de-rede-social-grafico-de-dados-abstratos_25858987.htm Slide 1 Slide 2: Agenda Slide 3: Arquitetura Big Data Slide 4: Ciclo de vida da Data Analytics Slide 5 Slide 6: Aprendizagem Supervisionada Slide 7: Aprendizagem Supervisionada Slide 8: Dados Preditos: VP, VN, FP e FN (resposta do modelo) Slide 9: Matriz de Confusão Slide 10: Matriz de Confusão Slide 11: Acurácia (ACC) Slide 12: Sensibilidade (recall) Slide 13: Precisão Slide 14: Qual melhor métrica? Slide 15: E para problemas com mais de 2 classes? Slide 16: Exemplo prático Slide 17