AULA 07 - Particionamento de Dados

•

UNIP

0

Ricardo Toledo

23/05/2023

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Inteligência Artificial

15.633 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Inteligência Artificial
Aula 07 – Particionamento de Dados
Profa. Rafaella Nascimento
rafaellalnascimento@fac.pe.senac.br
Particionamento de Dados
Particionamento de dados
• Precisamos estimar o desempenho de generalização em dados futuros (não vistos).
Exemplo:
➔ um sistema de diagnóstico para a doença X.
➔ o padrão da doença foi aprendido por um algoritmo a partir de dados de pacientes já diagnosticados.
➔ como saber se o modelo aprendeu bem estas características e fará bons diagnósticos para futuros
pacientes?
• Identificar o algoritmo de aprendizado mais adequado e comparar o desempenho de
diferentes algoritmos.
Avaliar a performance do modelo
Particionamento de dados
• Na aprendizagem supervisionada, ao particionar a base de dados, os valores a serem
preditos são ocultados da base de teste (e guardados para posteriormente verificar o erro
de predição).
A base de teste forma os dados não vistos.
O modelo vai estimar o valor da variável
resposta.
Particionamento de dados
HOLDOUT
• Divide aleatoriamente o seu conjunto de dados em um conjunto de 'treinamento' e 'teste’.
• O conjunto de treinamento é onde o modelo é treinado (aprendizagem).
• O conjunto de teste é usado para ver o desempenho do modelo em dados não vistos.
• Uma divisões comuns ao usar o método hold-out:
80% treinamento e os 20% restantes para teste.
75% treinamento e os 25% restantes para teste.
• Para base de N grande (dados representativos).
O problema com este método é que não é certo que
o set de teste separado seja representativo do total
da base de dados
SEM REPOSIÇÃO
Particionamento de dados
K-FOLD CROSS-VALIDATION
• A validação cruzada ou 'validação cruzada em k partes' divide o conjunto de dados
aleatoriamente em ‘k’ grupos.
• Um dos grupos é usado como conjunto de teste e os demais são usados como conjunto de
treinamento.
• O processo é repetido até que cada grupo único seja usado como conjunto de teste.
Particionamos nossa
base original em k-folds
de mesmo tamanho.
Nesse exemplo, nosso
k=6
A avaliação final é média de cada subconjunto
SEM REPOSIÇÃO
Particionamento de dados
STRATIFIED K-FOLD CROSS-VALIDATION
• A validação cruzada ou 'validação cruzada estratificada’ é considerada em cenários que há
desbalanceamento da variável resposta (classes).
• Cada parte amostral (fold) contém aproximadamente a mesma porcentagem de amostras de
cada classe.
• Para regressão, o valor médio da resposta deve ser aproximadamente igual em todos os
folds.
A avaliação final é média de cada subconjunto
Classe A
Classe B
SEM REPOSIÇÃO
Fatores que afetam o
desempenho do modelo
• O algoritmo utilizado.
• A distribuição dos dados (dados desbalanceados).
• A representatividade das classes.
• Dimensão dos dados (tamanho das bases de treinamento e de teste).
Resumindo...
• Holdout: para N grande
• K-fold Cross Validation: para N intermediário
Avaliando o Modelo
Esquema do processo de Aprendizagem de Máquina
Definir o tipo de Aprendizagem de Máquina (Supervisionada ou Não Supervisionada)
Particionar os dados de forma aleatória em base de Treino e Teste
Gerar vários modelos (escolher diferentes técnicas) usando a base de Treino
Avaliar os modelos usando a base de Teste
Comparar os resultados e determinar o modelo que obteve melhor solução
Processo
Iterativo
repetido
n vezesPara cada modelo guarda n
resultados
Como determinar o melhor modelo???
Avaliando o Modelo

Modelo 1 Modelo 2 Modelo 3
M1 M2 M3
Dúvidas?
Profa. Rafaella Nascimento
rafaellalnascimento@fac.pe.senac.br