Buscar

IF67B C71 aula19

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

IF71B-C71 - Inteligeˆncia Artificial
Aula 19 - Aprendizado de Ma´quina
Profa. Dra. Priscila T iemi çaeda Saito
k psaito@utfpr.edu.br
2o Semestre 2016
19/10/16
Roteiro
1 Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 2 / 68
Aprendizado de Ma´quina
Sub-campo da inteligeˆncia artificial
I dedicado ao desenvolvimento de algoritmos e te´cnicas que permitam ao
computador “aprender” ou aperfeic¸oar seu desempenho em alguma
tarefa
Essencial em a´reas de reconhecimento de padro˜es e visa˜o
computacional
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 3 / 68
Aprendizado de Ma´quina
Sub-campo da inteligeˆncia artificial
I dedicado ao desenvolvimento de algoritmos e te´cnicas que permitam ao
computador “aprender” ou aperfeic¸oar seu desempenho em alguma
tarefa
Essencial em a´reas de reconhecimento de padro˜es e visa˜o
computacional
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 3 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 4 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 5 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 6 / 68
Aprendizado de Ma´quina
Realidade de fato x imagem da realidade
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 7 / 68
Aprendizado de Ma´quina
Surgiu da necessidade de criar programas que aprendam um
determinado comportamento ou padra˜o automaticamente a partir de
exemplos ou observac¸o˜es
Relac¸a˜o com minerac¸a˜o de dados
I aprendizado pode ser visto como identificac¸a˜o de padro˜es a partir de
dados
Relac¸a˜o com o aprendizado humano
I seres humanos (e outros animais) sa˜o capazes de generalizar a partir de
exemplos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 8 / 68
Aprendizado de Ma´quina - Motivac¸a˜o
Escrever um programa de computador que:
I reconhec¸a pessoas pelo rosto
I problemas:
F diferentes expresso˜es faciais
F alterac¸o˜es na face (ex.: o´culos, bigode)
F cortes de cabelo
F ...
caracter´ısticas ba´sicas, quando misturadas, originam
categorias mais complexas de emoc¸o˜es
Que caracter´ısticas considerar?
Seres humanos: reconhecimento de padro˜es
aprendizado do que deve ser observado apo´s va´rios exemplos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 9 / 68
Motivac¸a˜o
Escrever um programa de computador que:
I fac¸a diagno´stico de pacientes por sintomas e exames
F me´dico: formac¸a˜o e experieˆncia
I responda a questo˜es sobre vendas como:
F quais produtos sa˜o vendidos em conjunto?
F que produto recomendar a um cliente?
F como agrupar clientes para melhor marketing?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 10 / 68
IA e AM
IA era vista como a´rea teo´rica
I aplicac¸o˜es em problemas de pouco valor pra´tico
1970: disseminac¸a˜o maior em problemas reais
I sistemas especialistas / baseados em conhecimento
F conhecimento de especialista codificado
F frequentemente por regras lo´gicas
Como codificar subjetividade/intuic¸a˜o de especialista?
E como lidar com falta de cooperac¸a˜o?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 11 / 68
IA e AM
Necessidade de ferramentas mais autoˆnomas
I reduzindo necessidade de intervenc¸a˜o humana e dependeˆncia de
especialistas
Aprendizado de Ma´quina: te´cnicas capazes de criar, a partir da
experieˆncia passada, uma hipo´tese (func¸a˜o) capaz de resolver o problema
Ex.: Se a temperatura > 37o C e tem dores enta˜o esta´ doente
I regra definida a partir de prontua´rios me´dicos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 12 / 68
Aprendizado de Ma´quina
Reconhecimento de Padro˜es
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 13 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 14 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 15 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 16 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 17 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 18 / 68
Aprendizado de Ma´quina
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 19 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
Objetivo
Encontrar modelos, func¸o˜es ou regras que separem corretamente grupos de
objetos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 20 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
Objetivo
Encontrar modelos, func¸o˜es ou regras que separem corretamente grupos de
objetos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 21 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
Objetivo
Encontrar modelos, func¸o˜es ou regras que separem corretamente grupos de
objetos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 22 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
Objetivo
Encontrar modelos, func¸o˜es ou regras que separem corretamente grupos de
objetos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 23 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
Objetivo
Encontrar modelos, func¸o˜es ou regras que separem corretamente grupos de
objetos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 24 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 25 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 26 / 68
O que e´ aprendizado?
Um programa aprende a partir da experieˆncia E, em relac¸a˜o a uma classe
de tarefas T, com medida de desempenho P, se seu desempenho em T,
medido por P, melhor com E (Mitchell, 1997)
Algoritmos de AM: induzem uma func¸a˜o ou hipo´tese capaz de resolver o
problema a partir de instaˆncias do problema a ser resolvido
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 27 / 68
Exemplo 1
Problema: aprender a jogar damas
I tarefa T: jogar damas
I medida de desempenho P: ?
I experieˆncia E: ?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 28 / 68
Exemplo 1
Problema: aprender a jogar damas
I tarefa T: jogar damas
I medida de desempenho P: porcentagem de jogos vencidos contra
adversa´rios
I experieˆncia E: praticar jogando
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 29 / 68
Exemplo 2
Problema: filtrar mensagens de email
I tarefa T: categorizar mensagens de email como spam ou leg´ıtima
I medida de desempenho P: ?
I experieˆncia E: ?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 30 / 68
Exemplo 2
Problema: filtrar mensagens de email
I tarefa T: categorizar mensagens de email como spam ou leg´ıtima
I medida de desempenho P: porcentagem de mensagens de spam
corretamente identificadas
I experieˆncia E: conjunto de exemplos de spams
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 31 / 68
Exemplo 3
Problema: reconhecer escrita manual
I tarefa T: reconhecer e classificar d´ıgitos manuscritos em imagens
I medida de desempenho P: ?
I experieˆncia E: ?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 32 / 68
Exemplo 3
Problema: reconhecer escrita manual
I tarefa T: reconhecer e classificar d´ıgitos manuscritos em imagens
I medida de desempenho P: porcentagem de d´ıgitos corretamente
identificados
I experieˆncia E: exemplos de d´ıgitos manuscritos com as respectivasclassificac¸o˜es
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 33 / 68
Exemplo 4
Problema: carro autoˆnomo (aprender a dirigir)
I tarefa T: dirigir em uma rodovia pu´blica usando sensores de visa˜o
I medida de desempenho P: ?
I experieˆncia E: ?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 34 / 68
Exemplo 4
Problema: carro autoˆnomo (aprender a dirigir)
I tarefa T: dirigir em uma rodovia pu´blica usando sensores de visa˜o
I medida de desempenho P: distaˆncia me´dia percorrida antes de um
erro
I experieˆncia E: sequeˆncia de imagens e comandos de direc¸a˜o
registrados observando um motorista humano
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 35 / 68
Exemplo 5
Problema: diagno´stico me´dico
I tarefa T: diagnosticar o estado de um paciente dado um conjunto de
sintomas
I medida de desempenho P: ?
I experieˆncia E: ?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 36 / 68
Exemplo 5
Problema: diagno´stico me´dico
I tarefa T: diagnosticar o estado de um paciente dado um conjunto de
sintomas
I medida de desempenho P: porcentagem de pacientes corretamente
diagnosticados
I experieˆncia E: prontua´rios me´dicos de pacientes com seus diagno´sticos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 37 / 68
Exemplo 6
Problema: detectar bons clientes
I tarefa T: classificar potenciais clientes como bons ou maus pagadores
I medida de desempenho P: ?
I experieˆncia E: ?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 38 / 68
Exemplo 6
Problema: detectar bons clientes
I tarefa T: classificar potenciais clientes como bons ou maus pagadores
I medida de desempenho P: porcentagem de clientes classificados
I experieˆncia E: uma base de dados histo´rica em que os clientes ja´
conhecidos sa˜o previamente classificados como bons ou maus pagadores
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 39 / 68
Infereˆncia Indutiva
A infereˆncia indutiva e´ um dos principais meios para a aquisic¸a˜o de
novos conhecimentos
Induc¸a˜o: racioc´ınio para obter concluso˜es sobre todos os membros de
uma classe pelo exame de alguns membros da classe
Racioc´ınio do particular para o geral
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 40 / 68
Infereˆncia Indutiva - Exemplo
Se eu noto que:
I todos pacientes com de´ficit de atenc¸a˜o atendidos em 1986 sofriam de
ansiedade
I todos pacientes com de´ficit de atenc¸a˜o atendidos em 1987 sofiram de
ansiedade
I ...
I posso inferir que pacientes que sofrem de de´ficit de atenc¸a˜o tambe´m
sofrem de ansiedade
Isto pode ser ou na˜o verdade, mas propicia uma boa generalizac¸a˜o
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 41 / 68
Conjunto de Dados
Experieˆncia pode ser provida por um conjunto de dados (de
treinamento)
Ex.: base de dados de um hospital
Id Nome Idade Sexo Peso Manchas Temp Int Est Diagno´stico
4201 Joa˜o 28 M 79 Concentradas 38,0 2 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Sauda´vel
1920 Jose´ 18 M 43 Inexistentes 38,5 8 MG Doente
4340 Cla´udia 21 F 52 Uniformes 37,6 1 PE Sauda´vel
2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente
1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente
3027 Paulo 34 M 67 Uniformes 38,4 2 GO Sauda´vel
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 42 / 68
Conjunto de Dados
Hospital
Id Nome Idade Sexo Peso Manchas Temp Int Est Diagno´stico
4201 Joa˜o 28 M 79 Concentradas 38,0 2 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Sauda´vel
1920 Jose´ 18 M 43 Inexistentes 38,5 8 MG Doente
4340 Cla´udia 21 F 52 Uniformes 37,6 1 PE Sauda´vel
2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente
1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente
3027 Paulo 34 M 67 Uniformes 38,4 2 GO Sauda´vel
Meta: induzir hipo´tese para fazer diagno´sticos corretos para novos
pacientes
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 43 / 68
Conjunto de Dados
Hospital
Id Nome Idade Sexo Peso Manchas Temp Int Est Diagno´stico
4201 Joa˜o 28 M 79 Concentradas 38,0 2 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Sauda´vel
1920 Jose´ 18 M 43 Inexistentes 38,5 8 MG Doente
4340 Cla´udia 21 F 52 Uniformes 37,6 1 PE Sauda´vel
2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente
1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente
3027 Paulo 34 M 67 Uniformes 38,4 2 GO Sauda´vel
Cada linha (paciente) e´ um dado (objeto, exemplo, padra˜o ou registro)
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 44 / 68
Conjunto de Dados
Hospital
Id Nome Idade Sexo Peso Manchas Temp Int Est Diagno´stico
4201 Joa˜o 28 M 79 Concentradas 38,0 2 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Sauda´vel
1920 Jose´ 18 M 43 Inexistentes 38,5 8 MG Doente
4340 Cla´udia 21 F 52 Uniformes 37,6 1 PE Sauda´vel
2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente
1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente
3027 Paulo 34 M 67 Uniformes 38,4 2 GO Sauda´vel
Cada objeto e´ uma tupla com valores de caracter´ısticas (atributos,
campos ou varia´veis), que descrevem seus principais aspectos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 45 / 68
Conjunto de Dados
Hospital
Id Nome Idade Sexo Peso Manchas Temp Int Est Diagno´stico
4201 Joa˜o 28 M 79 Concentradas 38,0 2 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Sauda´vel
1920 Jose´ 18 M 43 Inexistentes 38,5 8 MG Doente
4340 Cla´udia 21 F 52 Uniformes 37,6 1 PE Sauda´vel
2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente
1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente
3027 Paulo 34 M 67 Uniformes 38,4 2 GO Sauda´vel
Atributos de sa´ıda (alvo/meta): presente em algumas tarefas, seus valores
devem ser estimados usando outros atributos (de entrada/preditivos)
Importante: atributos de identificac¸a˜o e nome na˜o possuem relac¸a˜o com a
doenc¸a e na˜o sa˜o utilizados como entradas
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 46 / 68
Conjunto de Dados
Hospital
Id Nome Idade Sexo Peso Manchas Temp Int Est Diagno´stico
4201 Joa˜o 28 M 79 Concentradas 38,0 2 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Sauda´vel
1920 Jose´ 18 M 43 Inexistentes 38,5 8 MG Doente
4340 Cla´udia 21 F 52 Uniformes 37,6 1 PE Sauda´vel
2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente
1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente
3027 Paulo 34 M 67 Uniformes 38,4 2 GO Sauda´vel
Importante: lidar com dados imperfeitos (ru´ıdos, ausentes, etc.)
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 47 / 68
Conjunto de Dados
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 48 / 68
Conjunto de Dados
Hipo´tese?
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 49 / 68
Aprendizado de Ma´quina
Classificac¸a˜o de Imagens
Divisa˜o quanto ao conhecimento de classes
I Supervisionada
F treinamento: conjunto de amostras rotuladas (xi , yj)
F exemplos de te´cnicas: k-NN, a´rvores de decisa˜o, SVMs, redes neurais
I Na˜o Supervisionada
F treinamento: conjunto de amostras na˜o rotuladas (xi )
F efetua-se o agrupamento dos dados para se obter os proto´tipos das
classes
I Semi-supervisionada
F treinamento: conjunto de amostras rotuladas e na˜o rotuladas
F propaga-se os ro´tulos para as amostras na˜o rotuladas, a partir das
amostras rotuladas
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 50 / 68
Generalizac¸a˜o
Capacidade de generalizac¸a˜o de uma hipo´tese
I propriedade de continuar va´lida para outros objetos que na˜o fazem
partede seu conjunto de treinamento
Problemas
Overfitting: especializac¸a˜o nos dados de treinamento, na˜o generaliza
Underfitting: baixo acerto mesmo nos dados de treinamento
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 51 / 68
Overfitting
Sobreajuste ou overtraining
Fenoˆmeno que ocorre quando o modelo estat´ıstico se ajusta em
demasiado ao conjunto de dados/amostras
E´ comum que a amostra apresente dsvios causados por erros de
medic¸a˜o ou fatores aleato´rios, ocorre o sobreajuste quando o modelo
se ajusta a estes
Teorema do patinho feio (de Watanabe)
Caso haja um conjunto suficientemente grande de caracter´ısticas em
comum, sem uma outra refereˆncia previamente estabelecida, e´ poss´ıvel
fazer com que dois padro˜es arbitra´rios sejam considerados similares
Um cisne e um pato e um par de cisnes podem ficar igualmente similares
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 52 / 68
Overfitting
Como contornar esse problema?
Cross-validation
I consiste em separar os dados em treinamento e teste
I essa divisa˜o dos dados em subconjuntos ajuda a evitar que o modelo
aprenda as particularidades dos dados
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 53 / 68
Conjuntos de Dados
Em geral, dividido em 2 subconjuntos disjuntos:
I conjunto de treinamento usado para o aprendizado do conceito
I conjunto de teste usado para medir o grau de efetividade do conceito
aprendido
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 54 / 68
Conjuntos de Dados
Preparac¸a˜o dos dados
Fase que antecede o processo de aprendizagem, para facilitar ou
melhorar o processo
Exemplos:
I remover exemplos incorretos
I transformar o formato dos exemplos para que possam ser usados com
um determinado modelo
I selecionar um subconjunto de atributos relevantes (FSS - Feature
Subset Selection)
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 55 / 68
Conjuntos de Dados
Ru´ıdos ou outliers, exemplos imperfeitos que podem ser derivados do
processo de aquisic¸a˜o, transformac¸a˜o ou rotulac¸a˜o das classes
Ex.: exemplos com os mesmos atributos mas com classes diferentes
x1 x2 x3 x4 y
overcast 19 65 yes dont go
rain 19 70 yes dont go
rain 23 80 yes dont go
sunny 23 95 no dont go
sunny 28 91 yes dont go
sunny 30 85 no dont go
overcast 19 65 yes go
rain 21 80 no go
rain 22 95 no go
sunny 22 70 no go
overcast 23 90 yes go
rain 25 81 no go
sunny 25 72 yes go
overcast 26 75 no go
overcast 29 78 no go
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 56 / 68
Conjuntos de Dados
Estat´ısticas comuns no trato com dados multivariados
Tais estat´ısticas se aplicam, de modo geral, a cada atributo do vetor
de atributos
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 57 / 68
Conjuntos de Dados
Amplitude Total
I trata-se da dispersa˜o entre o maior e o menor valor de um determinado
atributo
R = maxjXi (j)−minjXi (j)
I Exemplo: para um atributo “idade”
F 20, 25, 27, 28, 40, 30, 31 e 19
F R = 40 - 19 = 21
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 58 / 68
Conjuntos de Dados
Me´dia ou esperanc¸a
I e´ o valor que aponta para onde mais se concentram os dados de uma
distribuic¸a˜o
I pode tambe´m ser chamado de centro´ide
I a me´dia aritme´tica e´ a forma mais simples de calcular uma me´dia
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 59 / 68
Conjuntos de Dados
Mediana
I dado um conjunto de dados organizados em ordem crescente, a
mediana e´ o valor que ocupa a posic¸a˜o central do conjunto
F dado o conjunto {2, 2, 3, 5, 5, 6, 7, 7, 9, 9, 10}
F mediana sera´ igual a 6
I se a quantidade de valores e´ ı´mpar, a mediana sera´ simplesmente o
valor central
I se a quantidade de valores e´ par, a mediana sera´ a me´dia dos dois
valores centrais
F dado o conjunto {0, 1, 1, 2, 3, 4, 5, 5, 6, 6, 7, 8}
F mediana sera´ igual a (4+5)/2 = 4.5
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 60 / 68
Conjuntos de Dados
Moda
I dado um conjunto de dados, a moda e´ o valor com maior frequeˆncia
individula, ou seja, aquele que mais se repete dentro do conjunto de
dados
F dado o conjunto {0, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 7, 8}
F moda sera´ igual a 2
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 61 / 68
Conjuntos de Dados
Normalizac¸o˜es
I Min-Max
I Z-Score
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 62 / 68
Conjuntos de Dados
Normalizac¸a˜o Min-Max
I valores do atributo sa˜o normalizados linearmente (entre [0,1]) com base
nos valores ma´ximo e m´ınimo
v ′ = (v−min1)max1−min1
I v ′ = novo valor do atributo 1
I v = valor original do atributo 1
I min1 = valor m´ınimo do atributo 1
I max1 = valor ma´ximo do atributo 1
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 63 / 68
Conjuntos de Dados
Normalizac¸a˜o Z-Score
I valores do atributo sa˜o normalizados com base na me´dia e no desvio
padra˜o do atributo
v ′ = (v−med1)desv−pad1
I v ′ = novo valor do atributo 1
I v = valor original do atributo 1
I med1 = me´dia do atributo 1
I desv − pad1 = desvio padra˜o do atributo 1
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 64 / 68
AM: Outras Motivac¸o˜es
Automatizar o processo de aquisic¸a˜o de conhecimento
Entender melhor os mecanismos de aprendizado humano
Algumas tarefas sa˜o melhor definidas e/ou executadas a partir de
exemplos
I ex.: reconhecer pessoas
Ser humano na˜o e´ capaz de explicar (e programar) sua habilidade
para executar alguns tipos de tarefas
I dirigir
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 65 / 68
AM: Outras Motivac¸o˜es
Quantidade de conhecimento dispon´ıvel pode ser muito grande para
ser descrito (e programado) por humanos
I ex.: diagno´stico me´dico
Algumas tarefas exigem ca´lculos complexos, poss´ıveis apenas com
computador
I interrelacionar/correlacionar grandes quantidades de dados
Modelos podem se adaptar a novas situac¸o˜es
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 66 / 68
Pacotes e Conjuntos de Dados
UCI Machine Learning Repository
I http://archive.ics.uci.edu/ml/
Weka
I http://www.cs.waikato.ac.nz/ml/weka/
Keel
I http://www.keel.es/
R Project
I http://www.r-project.org/
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 67 / 68
Trabalho
Definic¸a˜o dos conjuntos de dados a serem utilizados
UTFPR (CP) IF71B-C71 (Inteligeˆncia Artificial) Aula 19 - AM 68 / 68
	Aprendizado de Máquina

Outros materiais