AULA 04 - Aprendizagem Supervisionada - Árvores de Decisão

•

UNIP

1

0

1

0

Ricardo Toledo

23/05/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Inteligência Artificial

15.626 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Inteligência Artificial
Aula 04 – Aprendizagem Supervisionada:
Árvores de Decisão
Profa. Rafaella Nascimento
rafaellalnascimento@fac.pe.senac.br
Aprendendo a partir de exemplos
Aprendizagem
• Um agente estará aprendendo se melhorar o seu desempenho nas tarefas futuras de
aprendizagem após fazer observações sobre o mundo.
• A partir de uma coleção de pares de entrada e saída, aprender uma função que
prevê a saída para novas entradas.
Hipótese
Função
Modelo
Generalização
Aprendizagem
Qualquer componente de um agente pode ser melhorado através da aprendizagem
a partir dos dados.
As melhorias e as técnicas usadas para construí-los depende de quatro fatores principais:
• Que componente deve ser melhorado (desempenho, aprendizado..).
• O conhecimento prévio que o agente já tem (percepções, aprendizado).
• Que representação é usada para os dados e para o componente (atômica, fatorada, estruturada).
• Que feedback está disponível para aprendizagem (retorno, resposta).
Aprendizagem
Agente Motorista de Táxi
1. Toda vez que o instrutor gritar “Freie!”, o agente poderá aprender uma regra de
condição-ação sobre quando frear
2. O agente também sabe toda vez que o instrutor não grita. Ao ver muitas imagens
que lhe mostram ônibus, o agente pode aprender a reconhecê-los.
3. Experimentando ações e observando os resultados - por exemplo, freando
bruscamente em uma estrada molhada -, ele poderá aprender os efeitos de suas
ações.
4. Se não receber nenhuma gorjeta dos passageiros que foram sacudidos durante o
percurso, poderá aprender um componente útil de sua função de utilidade global.
Aprendizagem
• A aprendizagem de máquina abrange entradas que formam uma representação
fatorada - um vetor de valores e atributos - e saídas que podem ser tanto um valor
contínuo numérico como um valor discreto.
• A aprendizagem de uma função geral ou regra (que pode ser ou não verdade) a partir de
pares específicos de entrada-saída é chamada de aprendizagem indutiva.
Feedback para aprender
Existem três tipos de feedback que determinam os três principais tipos de aprendizagem:
Aprendizagem
Aprendizagem
supervisionada
Produz uma função inferida que será utilizada para mapear novos
exemplos.
Aprendizagem não
supervisionada
Os algoritmos dessa aprendizagem buscam descobrir padrões ou
regras ocultas.
Aprendizagem
por reforço
Definido o objetivo, o agente deve buscar a melhor forma de
resolver um problema. Ele gerencia recompensas e
penalidades.
Aprendizagem
Feedback para aprender: Aprendizagem Supervisionada
O agente observa alguns exemplos de pares de entrada e saída, e aprende uma
função que faz o mapeamento da entrada para a saída.
- As entradas são percepções e a saída é fornecida por um instrutor que diz “Freie!” ou “Vire à
esquerda”.
- As entradas são imagens da câmera, e as saídas vêm de um instrutor que diz “isso é ônibus”.
• O valor da saída está disponível diretamente da percepção do agente.
• O ambiente é o instrutor.
Agente Motorista de Táxi
Feedback para aprender: Aprendizagem Não Supervisionada
• O agente aprende padrões na entrada, embora não seja fornecido nenhum feedback
explícito.
• A tarefa mais comum de aprendizagem não supervisionada é o agrupamento: a
detecção de grupos de exemplos de entradas potencialmente úteis.
- Um agente de táxi pode desenvolver gradualmente um conceito de “dia de tráfego bom” e “dia
de tráfego ruim” sem nunca ter sido rotulados exemplos de cada um deles previamente.
Aprendizagem
Agente Motorista de Táxi
Aprendizagem
Feedback para aprender: Aprendizagem por Reforço
O agente aprende a partir de uma série de reforços - recompensas ou punições.
- Não receber gorjeta ou 5 estrelas ao final de uma corrida dá ao agente do táxi a indicação de que
algo saiu errado.
- Cabe ao agente decidir qual das ações anteriores ao reforço foram as maiores responsáveis por
isso.
Agente Motorista de Táxi
Caracterização dos dados
Conjunto de dados: objetos que podem representar um fenômeno do mundo físico.
= representação fatorada
11
VariáveisCaracterísticas do fenômeno
Exemplos/Objetos do fenômeno
Chamamos esse conjunto de dados
de BASE DE DADOS ou DATA
SETS.
Caracterização dos dados
Tipo e escala de variáveis:
12
Numéricas Categóricas/Classes
Contínua Discreta Nominal Ordinal
Peso, altura,
temperatura
Nº de filhos, nº de
carros Sexo, cor dos olhos
Classe social, grau
de instrução
Aprendizagem
não
supervisionada
Aprendizagem supervisionada
Caracterização de dados
VariáV Classificação
Regressão
Existe variável alvo na base de dados?
Agrupamento
Associação
variáveis categóricas /classes
variáveis numéricas
Aprendizagem Supervisionada
Aprendizagem de Máquina
Aprendizagem Supervisionada
A tarefa de aprendizagem supervisionada é a seguinte:
Dado um conjunto de treinamento de N pares de exemplos de entrada e saída
onde cada yj foi gerado por uma função desconhecida y = f(x),
espera-se descobrir uma função h que se aproxime da função verdadeira f.
A função h é uma hipótese.
x = entradas
y = saídas
Aprendizagem de Máquina
Aprendizagem Supervisionada
• Aprendizagem é uma busca através do espaço de hipóteses possíveis por aquele que terá
um bom desempenho, mesmo em novos exemplos além do conjunto de treinamento.
• Para medir a precisão de uma hipótese, fornecemos um conjunto de testes de exemplos
que são distintos do conjunto de treinamento.
• Uma hipótese generaliza bem se prevê corretamente o valor de y para novos exemplos.
• Preferir a hipótese consistente mais simples para os dados.
Aprendizagem de Máquina
Aprendizagem Supervisionada
Exemplo de pares (x, f(x)):
Hipótese linear
consistente
Hipótese de polinômio
7º grau consistente
Dados diferentes:
ajuste polinomial exato ou
ajuste linear aproximado?
Aprendizagem de Máquina
Aprendizagem Supervisionada
Quando a saída y for de um conjunto finito de valores (como ensolarado, nublado ou chuvoso),
o problema da aprendizagem será chamado de classificação.
Quando y for um número (como, temperatura de amanhã), o problema de aprendizagem é
chamado de regressão.
Aprendizagem de Máquina
Aprendizagem Supervisionada
Podem ser representados a partir de características como:
• Através de algoritmos, são construídos padrões e hipóteses sobre as instâncias de um
problema a partir do aprendizado de um indutor sobre um conjunto anterior de exemplos.
• Os indutores podem ser uma regressão ou um classificador.
• A regressão é fundamentada na estimativa de valores reais dado um padrão de instância.
• A classificação é articulada em prever a classe de uma instância não-rotulada a partir de suas características.
Variável de interesse (variável resposta)
Numérica ou Discreta (classe)
Aprendizagem de Máquina
Aprendizagem Supervisionada para classificação
Técnicas:
• ÁRVORE DE DECISÃO
• MÁQUINAS DE VETOR DE SUPORTE
• K-VIZINHOS MAIS PRÓXIMOS
• NAIVE BAYES
• RANDOM FOREST
• REGRESSÃO LOGÍSTICA
• REDE NEURAL
Aprendizagem para classificação:
1. Árvore de decisão
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
• A indução de árvore de decisão é uma das formas mais simples de aprendizagem de máquina.
• Representa uma função que toma como entrada um vetor de valores de atributos e retorna
uma “decisão” ou um valor de saída único.
• Os valores de entrada e saída podem ser discretos (categóricos) ou contínuos.
• Para classificação, a saída tem um número fixo de valores possíveis.
• Como exemplo temos a classificação booleana, em que cada exemplo é classificado como
verdadeiro (positivo) ou falso (negativo) - 2 valores possíveis.
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
• Cada nó interno contém um teste sobre os
valores de um dado atributo.
• Folhas da árvore são associadas às classes .
• Comumente, acompanhadas com graus de
confiança .
• Novas instâncias classificadas percorrendo a
árvore a partir da raiz até as folhas .
raiznó interno
folhas
graus de
confiança
Árvores de Decisão
Regra de classificação
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
• Uma árvore de decisão utiliza uma estratégia de dividir-para-conquistar:
- Um problema complexo é decomposto em subproblemas mais simples.
- Recursivamente a mesma estratégia é aplicada a cada sub-problema.
• A capacidade de discriminação de uma árvore vem da:
- Divisão do espaço definido pelos atributos em subespaços.
- A cada sub-espaço é associada uma classe.
Aprendizagem Supervisionada:
Classificação
Aprendizagem Supervisionada:
Classificação: Exemplo
Problema/Pergunta: Devo jogar tênis ou não?
É um bom dia para treinar?
Solução: Desenvolver um sistema que ajude a responder
as perguntas, indicando se devo jogar ou não.
Variável resposta:
Tipo de aprendizagem:
?
Sim, “Jogar Tênis’’
Supervisionada, “Classificação’’
Objetivo: Construir um sistema que CLASSIFICA se é um bom dia
para jogar tênis de acordo com algumas características do contexto.
Aprendizagem Supervisionada:
Classificação: Exemplo
Características que influenciam a resposta:
• Temperatura
• Tempo
• Umidade
• Vento
?
Variáveis Explicativas Explicam Variável Resposta
Classes/Categoria: Sim
Não
Aprendizagem Supervisionada:
Classificação: Exemplo
Dia Tempo Temperatura Umidade Vento Jogar Tênis
1 Sol Quente Elevada Fraco Não
2 Sol Quente Elevada Forte Não
3 Nuvens Quente Elevada Fraco Sim
4 Chuva Ameno Elevada Fraco Sim
5 Chuva Fresco Normal Fraco Sim
6 Chuva Fresco Normal Forte Não
7 Nuvens Fresco Normal Fraco Sim
8 Sol Ameno Elevada Fraco Não
9 Sol Fresco Normal Fraco Sim
10 Chuva Ameno Normal Forte Sim
11 Sol Ameno Normal Forte Sim
12 Nuvens Ameno Elevada Forte Sim
13 Nuvens Quente Normal Fraco Sim
14 Chuva Ameno Elevada Forte Não
Base de dados histórica sobre os últimos dias de treino:
Dados Treino
Aprendizagem Supervisionada:
Classificação: Exemplo
Posso construir uma estrutura de decisão a partir de uma
estrutura de árvore:Não consideramos
Tempo
Sol Nuvens Chuva
Sim
Umidade Vento
FracoNormal ForteElevada
Não Sim Sim Não
Vento Forte = Sim 1 ocorrência
Vento Forte = Não 2 ocorrências
Aprendizagem Supervisionada:
Classificação: Exemplo
Agora tenho uma estrutura que ajuda a tomar a decisão:
Dia Tempo Temperatura Umidade Vento Jogar Tênis
HOJE Sol Amena Elevada Fraco ??? Hoje não é
um bom dia
para treinar
Árvore de decisão induzida a partir do conjunto de
treinamento com 15 elementos.
Aprendizagem Supervisionada:
Classificação: Exemplo
• Portanto, modelei o problema de classificação a
partir de uma estrutura em árvores.
• A partir dos dados, aprendi a relação das variáveis
que me ajudam a ter uma resposta.
• Usei a estrutura de Aprendizagem da Árvore de
Decisão.
Aprendizagem Supervisionada:
Classificação: Exemplo
Dia Tempo Temperatura Umidade Vento Jogar Tênis
1 Sol 85 85 Fraco Não
2 Sol 80 90 Forte Não
3 Nuvens 83 86 Fraco Sim
4 Chuva 70 96 Fraco Sim
5 Chuva 68 80 Fraco Sim
6 Chuva 65 70 Forte Não
7 Nuvens 64 65 Fraco Sim
8 Sol 72 95 Fraco Não
9 Sol 69 70 Fraco Sim
10 Chuva 75 80 Forte Sim
11 Sol 75 70 Forte Sim
12 Nuvens 72 90 Forte Sim
13 Nuvens 81 75 Fraco Sim
14 Chuva 71 91 Forte Não
Seria possível construir
uma árvore de decisão
com dados numéricos?
Sim!!!!
Aprendizagem Supervisionada:
Classificação: Exemplo
Aprendizagem Supervisionada:
Classificação: Exemplo
• O algoritmo encontrou um limite para separar os
valores numéricos relacionados à umidade que
permite uma boa divisão dos dados.
maior 75 Menor ou igual a 75
Árvores de Decisão
Um exemplo de árvore de decisão booleana consiste em um par (x, y), onde x é um vetor de
valores para os atributos de entrada e y é um valor único de saída booleano.
• A ideia da construção da árvore é sempre testar o atributo mais importante em primeiro
lugar = o que faz mais diferença para a classificação de um exemplo.
• Esse teste divide o problema em subproblemas menores.
Aprendizagem Supervisionada:
Classificação
características resposta
Árvores de Decisão
A ideia:
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
1. Se todos os exemplos restantes forem positivos
(ou todos negativos), terminamos: podemos
responder Sim ou Não.
2. Se existem alguns exemplos positivos e alguns
negativos, escolha o melhor atributo para
dividi-los.
3. O algoritmo de aprendizagem não incluiu testes
para o atributo Temperatura porque pode
classificar todos os exemplos sem ele.
4. O algoritmo seleciona o valor de saída mais
comum em um conjunto de exemplos (maioria),
resolvendo os empates.
Aprendizagem Supervisionada:
Classificação
chegar na resposta
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
• A aprendizagem de árvore de decisão foi projetada para minimizar aproximadamente a
profundidade da árvore final.
• A ideia é escolher o atributo que vá o mais longe possível na tentativa de fornecer uma
classificação exata dos exemplos.
• Um atributo perfeito divide os exemplos em conjuntos, cada um dos quais será todo positivo ou
negativo que se tornarão as folhas da árvore.
• Precisamos de uma medida formal e poderemos implementar a função IMPORTÂNCIA do
atributo.
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
Como definir a raiz?
• Para lidar com esta escolha são introduzidos dois novos conceitos, a Entropia e o Ganho.
• A construção de uma árvore de decisão é guiada pelo objetivo de diminuir a entropia ou
seja a aleatoriedade - dificuldade de previsão- da variável que define as classes.
• O atributo alvo (Jogar) tem duas classes:
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
• Considerando o atributo Tempo temos o cálculo da entropia:
Tempo:
• Desse modo, calculamos o ganho de informação:
Ginf(Tempo) = = 0,0246
Aprendizagem Supervisionada:
Classificação
Árvores de Decisão
Considerando os outros atributos:
– Ganho(Tempo) = 0.246
– Ganho(Umidade, T) = 0.151
– Ganho(Vento, T) = 0.048
– Ganho(Temperatura, T) = 0.029
Portanto, essa técnica adota uma estratégia de dividir para conquistar: sempre testar o atributo
mais importante em primeiro lugar, se aumentar o ganho, então é considerado como nó.
Atributo Tempo é o escolhido na raiz.
O processo segue para novos atributos até não restar caminho sem folhas.
Exercício

Qual a melhor decisão?
Um bar tradicional tem como grande problema a flutuação de sua demanda, influenciada
principalmente pelo tempo (chuva ou não). Quando o tempo está ruim, o movimento é pequeno e
os custos com as bandas e com a bebida pesam bastante. Entretanto, se o bar está cheio, a
oportunidade de ganhar dinheiro é muito boa, desde que não falte cerveja e a festa termine tarde.
Se você fosse o dono do bar, que estratégia adotaria:
A. Agressiva – grande estoque de bebida e boas bandas.
B. Básica – estoque intermediário e as bandas de sempre.
C. Cautelosa – baixo estoque de bebida e apenas uma banda.
Há a estimativa que a chance de chuva para a próxima 5ªfeira (dia de maior movimento) é de 45%.
A estratégia Agressiva garante lucro de $3.000 com tempo bom e prejuízo de $800, caso chova A
estratégia Básica garante lucro de $2.000 com tempo bom e lucro de $700, caso chova A estratégia
Cautelosa garante lucro de $1.500 com tempo bom e lucro de $1.000 com tempo ruim
Dúvidas?
Profa. Rafaella Nascimento
rafaellalnascimento@fac.pe.senac.br