Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inteligência Artificial Aula 07 – Particionamento de Dados Profa. Rafaella Nascimento rafaellalnascimento@fac.pe.senac.br Particionamento de Dados Particionamento de dados • Precisamos estimar o desempenho de generalização em dados futuros (não vistos). Exemplo: ➔ um sistema de diagnóstico para a doença X. ➔ o padrão da doença foi aprendido por um algoritmo a partir de dados de pacientes já diagnosticados. ➔ como saber se o modelo aprendeu bem estas características e fará bons diagnósticos para futuros pacientes? • Identificar o algoritmo de aprendizado mais adequado e comparar o desempenho de diferentes algoritmos. Avaliar a performance do modelo Particionamento de dados • Na aprendizagem supervisionada, ao particionar a base de dados, os valores a serem preditos são ocultados da base de teste (e guardados para posteriormente verificar o erro de predição). A base de teste forma os dados não vistos. O modelo vai estimar o valor da variável resposta. Particionamento de dados HOLDOUT • Divide aleatoriamente o seu conjunto de dados em um conjunto de 'treinamento' e 'teste’. • O conjunto de treinamento é onde o modelo é treinado (aprendizagem). • O conjunto de teste é usado para ver o desempenho do modelo em dados não vistos. • Uma divisões comuns ao usar o método hold-out: 80% treinamento e os 20% restantes para teste. 75% treinamento e os 25% restantes para teste. • Para base de N grande (dados representativos). O problema com este método é que não é certo que o set de teste separado seja representativo do total da base de dados SEM REPOSIÇÃO Particionamento de dados K-FOLD CROSS-VALIDATION • A validação cruzada ou 'validação cruzada em k partes' divide o conjunto de dados aleatoriamente em ‘k’ grupos. • Um dos grupos é usado como conjunto de teste e os demais são usados como conjunto de treinamento. • O processo é repetido até que cada grupo único seja usado como conjunto de teste. Particionamos nossa base original em k-folds de mesmo tamanho. Nesse exemplo, nosso k=6 A avaliação final é média de cada subconjunto SEM REPOSIÇÃO Particionamento de dados STRATIFIED K-FOLD CROSS-VALIDATION • A validação cruzada ou 'validação cruzada estratificada’ é considerada em cenários que há desbalanceamento da variável resposta (classes). • Cada parte amostral (fold) contém aproximadamente a mesma porcentagem de amostras de cada classe. • Para regressão, o valor médio da resposta deve ser aproximadamente igual em todos os folds. A avaliação final é média de cada subconjunto Classe A Classe B SEM REPOSIÇÃO Fatores que afetam o desempenho do modelo • O algoritmo utilizado. • A distribuição dos dados (dados desbalanceados). • A representatividade das classes. • Dimensão dos dados (tamanho das bases de treinamento e de teste). Resumindo... • Holdout: para N grande • K-fold Cross Validation: para N intermediário Avaliando o Modelo Esquema do processo de Aprendizagem de Máquina Definir o tipo de Aprendizagem de Máquina (Supervisionada ou Não Supervisionada) Particionar os dados de forma aleatória em base de Treino e Teste Gerar vários modelos (escolher diferentes técnicas) usando a base de Treino Avaliar os modelos usando a base de Teste Comparar os resultados e determinar o modelo que obteve melhor solução Processo Iterativo repetido n vezesPara cada modelo guarda n resultados Como determinar o melhor modelo??? Avaliando o Modelo Modelo 1 Modelo 2 Modelo 3 M1 M2 M3 Dúvidas? Profa. Rafaella Nascimento rafaellalnascimento@fac.pe.senac.br
Compartilhar