Buscar

AULA 07 - Particionamento de Dados

Prévia do material em texto

Inteligência Artificial
Aula 07 – Particionamento de Dados
Profa. Rafaella Nascimento
rafaellalnascimento@fac.pe.senac.br
Particionamento de Dados
Particionamento de dados
• Precisamos estimar o desempenho de generalização em dados futuros (não vistos).
Exemplo: 
➔ um sistema de diagnóstico para a doença X.
➔ o padrão da doença foi aprendido por um algoritmo a partir de dados de pacientes já diagnosticados.
➔ como saber se o modelo aprendeu bem estas características e fará bons diagnósticos para futuros 
pacientes?
• Identificar o algoritmo de aprendizado mais adequado e comparar o desempenho de 
diferentes algoritmos.
Avaliar a performance do modelo
Particionamento de dados
• Na aprendizagem supervisionada, ao particionar a base de dados, os valores a serem 
preditos são ocultados da base de teste (e guardados para posteriormente verificar o erro 
de predição).
A base de teste forma os dados não vistos.
O modelo vai estimar o valor da variável 
resposta.
Particionamento de dados
HOLDOUT
• Divide aleatoriamente o seu conjunto de dados em um conjunto de 'treinamento' e 'teste’. 
• O conjunto de treinamento é onde o modelo é treinado (aprendizagem). 
• O conjunto de teste é usado para ver o desempenho do modelo em dados não vistos. 
• Uma divisões comuns ao usar o método hold-out:
80% treinamento e os 20% restantes para teste.
75% treinamento e os 25% restantes para teste.
• Para base de N grande (dados representativos).
O problema com este método é que não é certo que 
o set de teste separado seja representativo do total 
da base de dados
SEM REPOSIÇÃO
Particionamento de dados
K-FOLD CROSS-VALIDATION
• A validação cruzada ou 'validação cruzada em k partes' divide o conjunto de dados 
aleatoriamente em ‘k’ grupos. 
• Um dos grupos é usado como conjunto de teste e os demais são usados como conjunto de 
treinamento. 
• O processo é repetido até que cada grupo único seja usado como conjunto de teste.
Particionamos nossa 
base original em k-folds 
de mesmo tamanho.
Nesse exemplo, nosso 
k=6
A avaliação final é média de cada subconjunto
SEM REPOSIÇÃO
Particionamento de dados
STRATIFIED K-FOLD CROSS-VALIDATION
• A validação cruzada ou 'validação cruzada estratificada’ é considerada em cenários que há 
desbalanceamento da variável resposta (classes). 
• Cada parte amostral (fold) contém aproximadamente a mesma porcentagem de amostras de 
cada classe.
• Para regressão, o valor médio da resposta deve ser aproximadamente igual em todos os 
folds.
A avaliação final é média de cada subconjunto
Classe A
Classe B
SEM REPOSIÇÃO
Fatores que afetam o 
desempenho do modelo
• O algoritmo utilizado.
• A distribuição dos dados (dados desbalanceados).
• A representatividade das classes.
• Dimensão dos dados (tamanho das bases de treinamento e de teste).
Resumindo...
• Holdout: para N grande
• K-fold Cross Validation: para N intermediário
Avaliando o Modelo
Esquema do processo de Aprendizagem de Máquina
Definir o tipo de Aprendizagem de Máquina (Supervisionada ou Não Supervisionada)
Particionar os dados de forma aleatória em base de Treino e Teste
Gerar vários modelos (escolher diferentes técnicas) usando a base de Treino
Avaliar os modelos usando a base de Teste
Comparar os resultados e determinar o modelo que obteve melhor solução
Processo 
Iterativo 
repetido 
n vezesPara cada modelo guarda n
resultados 
Como determinar o melhor modelo???
Avaliando o Modelo
 
Modelo 1 Modelo 2 Modelo 3
 M1 M2 M3
Dúvidas?
Profa. Rafaella Nascimento
rafaellalnascimento@fac.pe.senac.br

Continue navegando