Buscar

Avaliação_e_Seleção_de_ModelosVF

Prévia do material em texto

Avaliação e Seleção de Modelos
Creativision 1 / 65
Avaliação de modelos
Introdução
Notação e Definições Básicas
Viés, Variância e Complexidade do Modelo
Avaliação do modelo
Conjuntos de treinamento, validação e teste
Previsão de desempenho: limites de confiança
Holdout e validação cruzada
Matriz de confusão, medidas de desempenho
Curvas ROC e AUC
Comparando algoritmos de classificação: teste t, teste não paramétrico
Creativision 2 / 65
Introdução
O desempenho de generalização de um método de aprendizagem está
relacionado à sua capacidade de previsão em dados de validação/teste
independentes.
A avaliação deste desempenho é extremamente importante na prática,
pois:
orienta a escolha dos modelos de aprendizagem (seleção de
modelos)
nos dá uma medida da qualidade do modelo escolhido (avaliação
de modelos)
Creativision 3 / 65
Notação e Definições Básicas
Deixe X ∈ Rp denotar um vetor de entrada aleatório com valor real, e
Y ∈ R uma variável de saída aleatória com valor real, com distribuição
conjunta Pr(X,Y ).
Procuramos uma função f(X) para prever Y , dados valores da entrada
X.
Esta teoria requer uma função de perda L(Y, f(X)) para penalizar erros
na previsão.
Para Y ∈ R, o mais comum e conveniente é perda do erro quadrático:
L(Y, f(X)) = (Y − f(X))2.
Isso nos leva a um critério para escolher f , o erro de previsão esperado
(quadrado):
EPE(f) = E[(Y − f(X))2] (1)
=
∫
[y − f(x)]2 Pr(dx, dy). (2)
Creativision 4 / 65
Notação e Definições Básicas
A função f que minimiza EPE(f) é
f̂(x) = E[Y |X = x],
a expectativa condicional, também conhecida como função regressão
(Hastie, Tibshirani, Friedman, 2009, p.18).
Em um problema de classificação (Y ∈ C = {1, 2, . . . ,K}), a função de
perda mais comum é a 0-1 perda, onde cada erro de classificação é
penalizado com uma única unidade:
L(Y, f(X)) = I(Y ̸= f(X)).
Aqui I denota a função do indicador:
I(Y ̸= f(X)) = 1 if Y ̸= f(X); de outra forma, I(Y ̸= f(X)) = 0.
Creativision 5 / 65
Notação e Definições Básicas
A função f que minimiza EPE(f) é
f̂(x) = arg max
c∈C
Pr(c|X = x).
Ou seja, atribuímos a x a classe com probabilidade condicional máxima
(Hastie, Tibshirani, Friedman, 2009, p.21).
Creativision 6 / 65
Viés, Variância e Complexidade do Modelo
Vamos considerar que temos uma variável alvo Y ∈ R, um vetor de
entradas X e um modelo de predição f̂(X) que foi estimado a partir de
um conjunto de treinamento T .
Também consideramos a perda de erro quadrática para medir erros
entre Y e f̂(X): L(Y, f̂(X)) = (Y − f̂(X))2 .
O erro de teste, também conhecido como erro de generalização, é o
erro de predição sobre uma amostra de teste independente, dado um
conjunto de treinamento específico T :
ErrT = E[L(Y, f̂(X))|T ],
onde X e Y são sorteados aleatoriamente de sua distribuição
(população). O conjunto de treinamento T é fixo, e o erro de teste
refere-se ao erro deste conjunto de treinamento específico.
Creativision 7 / 65
Viés, Variância e Complexidade do Modelo
Uma quantidade relacionada é o erro de previsão esperado (ou erro de
teste esperado):
Err = E[L(Y, f̂(X))] = E[ErrT ].
Aqui, esta expectativa considera não apenas a aleatoriedade de X,Y ,
mas também a aleatoriedade no conjunto de treinamento T que
produziu f̂ .
Suponhamos que Y = f(x) + ε, onde E(ε) = 0, V ar(ϵ) = σ2
ε .
É possível derivar uma expressão para o erro de previsão esperado de
um ajuste de regressão f̂(X) em um ponto de entrada X = x0, usando
perda de erro quadrático:
Err(x0) = E[(Y − f̂(x0))2|X = x0]
= σ2
ε + [Ef̂(x0) − f(x0))]2 + E[f̂(x0) − Ef̂(x0))]2
= σ2
ε + Viés2(f̂(x0)) + V ar(f̂(x0))
= Erro irredutível + Viés2 + Variância.
Creativision 8 / 65
Viés, Variância e Complexidade do Modelo
Primeiro termo: variância do alvo em torno de sua média verdadeira,
f(x0)
Segundo termo: viés quadrático, o valor pelo qual a média da nossa
estimativa difere da média verdadeira
Terceiro termo: variância, o desvio quadrático esperado de f̂(x0) em
torno de sua média.
Creativision 9 / 65
Viés, Variância e Complexidade do Modelo
Linhas azuis: erros estimados em conjuntos de treinamento
Linhas vermelhas: erros estimados em conjuntos de teste
Linhas em negrito: erros médios
Creativision 10 / 65
Viés, Variância e Complexidade do Modelo - Visão
mais intuitiva
A incapacidade de um modelo de capturar a verdadeira relação entre
variáveis e o objeto a ser predito é o que chamamos de VIÉS. Então, quando
o erro de viés é alto significa que o modelo não está aprendendo nada.
Creativision 11 / 65
Viés, Variância e Complexidade do Modelo - Visão
mais intuitiva
A variância é a sensibilidade de um modelo ao ser usado com outros
datasets diferentes do treinamento. Se o modelo é muito sensível aos dados
de treinamento, ou seja, identificou tão bem a relação entre os dados de
treinamento que quando colocado em teste irá errar.
Creativision 12 / 65
Viés, Variância e Complexidade do Modelo - Visão
mais intuitiva
Creativision 13 / 65
Viés, Variância e Complexidade do Modelo - Visão
mais intuitiva
Creativision 14 / 65
Avaliação do modelo
Quão bom é o classificador?
Medida de desempenho natural para problemas de classificação: taxa
de erro
Successo: a classe da instância foi prevista corretamente
Erro: a classe da instância foi prevista incorretamente
Taxa de erros: proporção de erros cometidos em todo o conjunto
de instâncias
Erro de substituição: taxa de erro obtida dos dados de treinamento
Extremamente otimista – especialmente se o classificador se
ajustar demais
Creativision 15 / 65
Conjuntos de treinamento, validação e teste
Conjunto de treinamento: instâncias usadas para treinar (induzir) o
classificador
Conjunto de validação: instâncias utilizadas para calibrar os parâmetros
do classificador (seleção de modelo)
Conjunto de testes: instâncias independentes que não participaram do
treinamento/calibração (avaliação do modelo)
Suposição: os dados de treinamento, validação e teste são
amostras representativas do problema subjacente
Geralmente, quanto maiores os dados de treinamento, melhor será o
classificador
Quanto maiores os dados de validação/teste, mais precisa será a
estimativa do erro
Procedimento Holdout: método de divisão dos dados originais em
conjuntos de treinamento, validação e teste
Dilema: os dados disponíveis devem ser grandes!
Creativision 16 / 65
Previsão de desempenho
Suponha que a taxa de erro estimada seja 25%. Quão próximo está isso
da verdadeira taxa de erro?
Depende da quantidade de dados de teste
A previsão é como jogar uma moeda (tendenciosa!)
“Cara” é um “sucesso”, “coroa” é um “erro”
Em estatística, uma sucessão de eventos independentes como este é
chamada de processo de Bernoulli.
A teoria estatística nos fornece intervalos de confiança para a
verdadeira proporção subjacente
Creativision 17 / 65
Intervalos de confiança para taxa de sucesso
Podemos dizer: a verdadeira taxa de sucesso (denotada por p) está
dentro de um certo intervalo especificado com uma certa confiança
especificada
Exemplo: S = 750 sucessos em N = 1000 tentativas
Taxa de sucesso estimada: 75%
Quão próximo está da verdadeira taxa de sucesso p?
Resposta: com 80% confiança p em [73.2,76.7]
Outro exemplo: S = 75 e N = 100
Taxa de sucesso estimada: 75%
Com 80% confiança p em [69.1,80.1]
Creativision 18 / 65
Intervalos de confiança
Intervalo de Confiança: O parâmetro mais ou menos a margem de erro
estimada
Parâmetro: valor a ser estimado
Margem de erro: variabilidade, para mais ou para menos
Nível de Confiança: de 80 a 99%
Tamanho da Amostra (n)
Creativision 19 / 65
Nível de Confiança: Z∗
Creativision 20 / 65
Exemplo
Creativision 21 / 65
Exemplo
Creativision 22 / 65
Compensação
Creativision 23 / 65
Tipos de Intervalo de Confiança
Intervalo de Confiança para a média
Intervalo de Confiança para a proporção
Creativision 24 / 65
Intervalo de Confiança para a média
Creativision 25 / 65
Margem de erro deve ser calculada.
Intervalo de Confiança para a proporção
Creativision 26 /65
Intervalos de confiança para taxa de sucesso
Média e variância para um ensaio de Bernoulli:
µ = p, V = p(1 − p)
Taxa de sucesso esperada: média amostral p̂ = S/N
Teorema do Limite Central: Para N grande o suficiente, p̂ segue uma
distribuição normal com média µ = p e variância V/N = p(1 − p)/N
Um intervalo de probabilidade c% [−z ≤ X ≤ z] para uma variável
aleatória com média 0 é dado por:
Pr[−z ≤ X ≤ z] = c%
Para uma distribuição simétrica:
c = Pr[−z ≤ X ≤ z] = 1 − 2 Pr[X ≥ z]
=⇒ Pr[X ≥ z] = 1 − c
2
Creativision 27 / 65
Intervalos de confiança para taxa de sucesso –
Processo de Bernoulli
Limites de confiança para uma variável X com distribuição normal
padrão (média 0 e variância 1):
Por isso:
Pr[−1.65 ≤ X ≤ +1.65] = 90%
Para usar isso, temos que padronizar p̂ para ter média 0 e variância
unitária
Creativision 28 / 65
Intervalos de confiança - distribuição normal padrão
Valor transformado para p̂:
p̂− p√
p(1 − p)/N
(ou seja, subtraia a média e divida pelo desvio padrão)
Equação resultante:
Pr
[
−z ≤ p̂− p√
p(1 − p)/N
≤ z
]
= c
Transformando desigualdades em igualdades e resolvendo p:
p ∈
[
p̂+ z2
2N ± z
√
p̂
N
− p̂2
N
+ z2
4N2
/(
1 + z2
N
)]
Creativision 29 / 65
Intervalos de confiança - distribuição normal padrão
Exemplos
p̂ = 75%, N = 1000, c = 80% (de modo que z = 1,28):
p ∈ [0.732, 0.767]
p̂ = 75%, N = 100, c = 80% (de modo que z = 1,28):
p ∈ [0.691, 0.801]
p̂ = 75%, N = 10, c = 80% (de modo que z = 1,28):
p ∈ [0.549, 0.881] !!
A aproximação normal para processos de Bernoulli só é válida para N
grande (ou seja, N > 50)
Creativision 30 / 65
Estimativa de Holdout
O que fazer se a quantidade de dados for limitada?
O método holdout reserva uma certa quantia para teste e usa o restante
para treinamento
Normalmente: um terço para teste, o restante para treinamento
Problema: as amostras podem não ser representativas
Exemplo: a classe pode estar faltando nos dados de teste
Versão avançada usa estratificação
Garante que cada classe seja representada com proporções
aproximadamente iguais em ambos os subconjuntos
Creativision 31 / 65
Método de holdout repetido
A estimativa de holdout pode se tornar mais confiável repetindo o
processo com diferentes subamostras
Em cada iteração, uma certa proporção é selecionada
aleatoriamente para treinamento (possivelmente com
estratificação)
As taxas de erro nas diferentes iterações são calculadas em média
para produzir uma taxa de erro geral
Isso é chamado de método de validação repetido
Ainda não é o ideal: os diferentes conjuntos de validação se sobrepõem
Podemos evitar sobreposições?
Problema: as amostras podem não ser representativas
Exemplo: a classe pode estar faltando nos dados de teste
Versão avançada usa estratificação
Garante que cada classe seja representada com proporções
aproximadamente iguais em ambos os subconjuntos
Creativision 32 / 65
Validação cruzada
Validação cruzada evita conjuntos de validação sobrepostos
Primeira passo: dividir os dados em k subconjuntos de tamanho
igual
Segunda passo: use cada subconjunto para teste, o restante para
treinamento
Chamado validação cruzada k-fold
Subconjuntos podem ser estratificados
As estimativas de erro são calculadas em média para produzir uma
estimativa de erro geral
Método padrão para avaliação: validação cruzada estratificada de dez
vezes
Melhor variante: validação cruzada estratificada repetida
Por exemplo. a validação cruzada de dez vezes é repetida dez
vezes e os resultados são calculados em média (reduz a variância)
Creativision 33 / 65
Validação cruzada – Diagrama
Conjunto de Dados 
1 3 ... V 2 
3 ... V 2 3 ... V 1 2 ... V-1 1 
1 2 V 
Algoritmo 
Classificador 
Classe 
Predita 
Algoritmo 
Classificador 
Classe 
Predita 
Algoritmo 
Classificador 
Classe 
Predita 
... 
Divisão em V 
sub-conjuntos 
V-1 
Creativision 34 / 65
Validação cruzada de deixar um de fora
Deixe um de fora: forma particular de validação cruzada
Defina o número de dobras para o número de instâncias de
treinamento
Ou seja, para n instâncias de treinamento, construa o classificador
n vezes
Pros:
Faz melhor uso dos dados para treinamento
Não envolve subamostragem aleatória
Cons:
Muito caro computacionalmente
Não pode ser estratificado
Há apenas uma instância em cada conjunto de testes!
Ilustração extrema (artificial): conjunto de dados aleatório com o
mesmo número de instâncias de cada uma das duas classes
O melhor indutor prevê classes majoritárias
Acurácia de 50% em dados recentes
Deixar um de fora produz um erro estimado de 100%!
Creativision 35 / 65
Matriz de confusão
A aplicação do classificador em um conjunto de validação/teste produz
uma matriz de confusão, uma tabela de contingência bidimensional
formada pelas frequências absolutas de classes reais e previstas de
instâncias de teste
Para classificação binária (duas classes):
Creativision 36 / 65
Ver Recall vs. Precision (Wikipedia)
Matriz de confusão
VP (Verdadeiros Positivos), VN (Verdadeiros Negativos): instâncias
classificadas corretamente
FN (Falsos Negativos), FP (Falsos Positivos): instâncias
classificadas incorretamente
POS: instâncias positivas:POS = V P + FN ;
NEG: instâncias negativas:NEG = FP + V N ;
PP (Previsto Positivo): PP = V P + FP
PN (Previsto Negativo): PN = V N + FN .
Creativision 37 / 65
Medidas de desempenho
Taxa de erro total, taxa de acurácia total: As medidas mais utilizadas
TEr = (FN + FP )/(NEG+ POS); Acc = (1 − TEr)
Taxa de Verdadeiros Positivos (também chamada de sensibilidade ou
recall): V Pr = V P/POS
Taxa de Verdadeiros Negativos (também chamada de especificidade):
V Nr = V N/NEG
Taxa de falsos negativos: FNr = FN/POS
Taxa de falsos positivos: FPr = FP/NEG
Taxa de precisão: Proporção de instâncias de classe positivas entre
aquelas previstas como positivas.
Precr = V P/PP
Boa medida para classificação incorreta de casos negativos de alto
custo:
Nos mercados de ações, se um trader decidir iniciar uma operação
de compra e manutenção, a sua taxa de sucesso deve ser elevada:
Ineficaz para taxas positivas previstas muito baixas
Usualmente, baixo P P ⇒ alto F N
Não está definido se P P = 0 Creativision 38 / 65
Medidas de desempenho – Exemplo
V Pr = 6/10 = 60%; V Nr = 89/90 = 98.9%
FNr = 4/10 = 40%; FPr = 01/90 = 1.1%
Taxa total de erros: TEr = (4 + 1)/(10 + 90) = 5%
Taxa de precisão: Precr = 6/7 = 85.7%
Excelente para prever classe negativa; muito ruim para prever classe
positiva
Creativision 39 / 65
Curva ROC
ROC: Características operacionais do receptor (Receiver Operating
Characteristic)
Usado na detecção de sinais para mostrar a compensação entre a
taxa de acertos e a taxa de falsos alarmes em canais ruidosos
http://psych.hanover.edu/JavaTest/SDT/index.html
Uso comum para calibração de testes de diagnóstico médico
http://gim.unmc.edu/dxtests/Default.htm
A curva ROC é obtida traçando FPr (ou 1−especificidade) no eixo
horizontal e V Pr (sensibilidade) no eixo vertical
Adequado para
parâmetros de ajuste de algoritmos para o compromisso adequado
entre sensibilidade e especificidade
comparando desempenhos de algoritmos
Creativision 40 / 65
Curva ROC
Creativision 41 / 65
Curva ROC
Ponto ideal: Classificação perfeita
100% verdadeiros positivos, 0% falsos positivos
Quanto mais próximo o ponto (FPr, V Pr) de (0%, 100%), melhor será o
algoritmo
Uma estimativa completamente aleatória (com probabilidade variável de
atribuição positiva) daria um ponto ao longo de uma linha diagonal
(linha de não discriminação)
Source of image in next slide:
"ROC space-2" by ROC_space.png: Indonderivative work:
Kai walz (talk) - ROC_space.png.
Licensed under CC BY-SA 3.0 via Wikimedia Commons
https://commons.wikimedia.org/wiki/File:ROC_space-2.png#/media/
File:ROC_space-2.png
Creativision 42 / 65
ROC – Exemplos
Creativision 43 / 65
ROC – nota histórica
A análise ROC faz parte de um campo denominado "Teoria de Detecção
de Sinais"desenvolvido durante a Segunda Guerra Mundial para a
análise de imagensde radar.
Os operadores de radar tinham que decidir se um sinal na tela
representava um alvo inimigo, uma nave amiga ou apenas ruído.
A teoria da detecção de sinais mede a capacidade dos operadores
de receptores de radar de fazer essas distinções importantes.
Sua capacidade de fazer isso foi chamada de Características
Operacionais do Receptor.
Somente na década de 1970 a teoria da detecção de sinais foi
reconhecida como útil para a interpretação de resultados de
exames médicos.
Creativision 44 / 65
Área sob a Curva ROC
Área sob a curva (AUC): uma das estatísticas resumidas do ROC
Corresponde à integral ∫ ∞
−∞
V Pr(t)FPr(t)dt
onde t é um parâmetro (contínuo) relacionado à sensibilidade
Avaliação:
AUC = 1: classificador perfeito
AUC=0.5: classificador inútil (suposição aleatória)
Em Medicina: critério de classificação da acurácia de um exame
diagnóstico:
.90 − 1 = excelente (A)
.80 − .90 = bom (B)
.70 − .80 = justo (C)
.60 − .70 = pobre (D)
.50 − .60 = falha (F)
Creativision 45 / 65
Área sob a Curva ROC
AUC mede discriminação, ou seja, a capacidade de um classificador
classificar corretamente instâncias de classes positivas e negativas
Probabilidade de que um classificador classifique uma instância
positiva escolhida aleatoriamente acima de uma negativa escolhida
aleatoriamente (assumindo classificações ’positivas’ superiores a
’negativas’)
Computação:
Para um único ponto de teste (correspondente a uma amostra de
teste única e a um valor t único), a AUC pode ser estimada pela
média e pela sensibilidade e especificidade:
AUC = (V Pr + V Nr)/2
(Figura no próximo slide)
Dados vários pontos de teste, construa trapézios sob a curva como
uma aproximação da área (extensão do caso de ponto único
acima)
Creativision 46 / 65
Área sob a Curva ROC – Estimativa
Creativision 47 / 65
Conjuntos de dados desequilibrados: acurâcia vs AUC
Conjuntos de dados desequilibrados:
Alta prevalência de uma classe
Nesses casos, a medida de acurácia pode ser (otimista) enganosa
Tomando o exemplo anterior:
V Pr = 60%; V Nr = 98.9%; FNr = 40%; FPr = 1.1%
Acc = 95%
Alta taxa de acurácia, mas... uma taxa de erro de 40% na classe
positiva!
Creativision 48 / 65
Conjuntos de dados desequilibrados: acurâcia vs AUC
Tomando o exemplo anterior:
V Pr = 0.6; V Nr = 0.989; FNr = 0.4; FPr = 0.011
Acc = 95%
Alta taxa de acurácia, mas... uma taxa de erro de 40% na classe
positiva!
Se a classe positiva correspondesse a uma doença, 40% dos
pacientes doentes seriam classificados como saudáveis!
Estimativa AUC:
AUC = (V Pr + V Nr)/2 = (0.6 + 0.989)/2 = 0.795
De acordo com a tabela de referência da AUC, apenas justo!
Creativision 49 / 65
Comparando Algoritmos de Aprendizagem
Pergunta frequente: qual dos dois esquemas de aprendizagem tem
melhor desempenho?
Nota: isso depende do domínio!
Maneira óbvia: compare estimativas de VCs de 10 dobras
Geralmente suficiente nas aplicações (não perdemos se o método
escolhido não for verdadeiramente melhor)
No entanto, e quanto à pesquisa em aprendizado de máquina?
Necessidade de mostrar de forma convincente que um
determinado método funciona melhor
Uma possível resposta para esta pergunta é usar técnicas estatísticas
Intervalos de confiança e testes de significância
Creativision 50 / 65
Teste de Hipótese
Confirmar ou negar uma premissa usando uma amostra
Esta premissa usa um parâmetro, por exemplo: 56% dos brasileiros não
gostam de estatística
Encontrar diferença não é tudo, é preciso saber se esta diferença é
estatisticamente significante
Creativision 51 / 65
Teste de Hipótese
Creativision 52 / 65
Alfa e valor-p
Creativision 53 / 65
Etapas
Creativision 54 / 65
Fórmulas para Estatísticas de Teste
Creativision 55 / 65
Exemplo Média
Creativision 56 / 65
Exemplo Proporção
Creativision 57 / 65
Erros
Erro do tipo 1: rejeitar H0 quando não deveria
Chance de ocorrer igual a Alfa
Erro do tipo 2: não rejeitar H0 quando deveria ter rejeitado
Depende do tamanho da amostra
Ocorrem devido ao acaso
https://www.statisticssolutions.com/to-err-is-human-what-are-type-i-and-
ii-errors/
Ideal: Amostra grande e Alfa pequeno
Creativision 58 / 65
Consequências da Escolha de Alfa
Creativision 59 / 65
Comparando Algoritmos – Intervalos de confiança
Notação:
ψ: algoritmo de classificação
ψLtr (•): um classificador induzido pelo algoritmo ψ usando o
conjunto de treinamento Ltr
ψLtr (Lts): classes previstas por ψLtr (•) para instâncias do
conjunto Lts
MLts,ψLtr (Lts): a matriz de confusão produzida por classes
verdadeiras e previstas de Lts
h
(
MLts,ψLtr (Lts)
)
: uma medida de desempenho (precisão, erro
total, AUC, etc) produzida por matriz de confusão MLts,ψLtr (Lts)
Dados dois algoritmos distintos ψ e φ, a variável aleatória de interesse é
a diferença entre os desempenhos medidos:
δ = h
(
MLts,ψLtr (Lts)
)
− h
(
MLts,φLtr (Lts)
)
∀(Lts,Ltr) ∈ P(X × {1 . . .K})2.
Creativision 60 / 65
Comparando Algoritmos – Intervalos de Confiança
Denotamos por µδ = EP(X ×{1...K})2(δ)
ou seja, a média das diferenças de desempenho entre φA e ψB em
todos os pares possíveis de treinamento e testes da amostra
Se os algoritmos ψ e φ têm desempenho igual, então µδ = 0.
µδ é desconhecido ⇒ podemos obter um intervalo de confiança para
ele.
Um intervalo de confiança (1 − α)% para µδ:
Intervalo [a, b] obtido de uma amostra que deve incluir o valor
verdadeiro de µδ, com probabilidade 1 − α,
Dizemos que θ pertence ao intervalo [a, b] com confiança 1 − α.
Veremos um método para obter o intervalo de confiança via validação
cruzada.
Creativision 61 / 65
Comparando Algoritmos – Validação cruzada
[H] Input: L: Conjunto de dados original V : Número de dobras VC
Partição L em V subconjuntos disjuntos L1,L2, ...,LV do mesmo tamanho
Para v de 1 a V Tome Lv como conjunto de validação e Lcv = L − Lv como
conjunto de treinamento
Construa classificadores ψLc
v
(•) e φLc
v
(•) usando Lcv
Aplique ambos os classificadores no conjunto de teste Lv, produzindo as
matrizes de confusão MLv,ψLc
v
(Lv) e MLv,φLc
v
(Lv)
Calcule a diferença de desempenho:
δv = h
(
MLv,ψLc
v
(Lv)
)
− h
(
MLv,φLc
v
(Lv)
)
Retorne a média de δ1, δ2, . . . , δV e seu erro padrão correspondente:
δ = 1
V
∑V
v=1
δv, sδ =
√
1
V (V − 1)
∑V
i=1
(δi − δ)2
Creativision 62 / 65
Comparando Algoritmos – Intervalos de Confiança
Se V for grande (V > 100): aproximação pela distribuição normal padrão
Se V for pequeno: aproximação pela distribuição t de Student
Intervalo de confiança para µδ usando distribuição t de Student:
µδ ∈ [a, b] =
[
δ ± z sδ
]
onde z representa o quantil 1 − α/2 da distribuição t de Student com
graus de liberdade V − 1.
Creativision 63 / 65
Comparando Algoritmos – Intervalos de Confiança
Para testar a hipótese H0 : µδ = 0 (ou seja, os algoritmos ψ e φ
funcionam igualmente bem):
Construa o intervalo de confiança [a, b]
se 0 ∈ [a, b]: nós não rejeitamos H0
⇒ As diferenças de desempenho não são significativas em um
nível de confiança (1 − α)%
⇒ Algoritmos são considerados equivalentes em desempenho
se 0 /∈ [a, b]: nós rejeitamos H0
⇒ As diferenças de desempenho são significativas em um nível de
confiança (1 − α)%
⇒ O algoritmo com maior desempenho médio de VC é
considerado melhor
Valores usuais para o nível de confiança:
0.90, 0.95 e 0.99 (α = 0.1, 0.05 e 0.01, respectivamente)
Quanto maior o nível de confiança:
maior (menos preciso) o intervalo
maior será a chance de aceitar H0
Creativision 64 / 65
Referências
T. Hastie, R. Ticshirani, J. Friedman.
The Elements of Statistical Learning. New York: Springer, 2009. Cap. 7
G. Sanchez, E. Marzban.
All Models Are Wrong: Concepts of Statistical Learning. 2020
https://allmodelsarewrong.github.io
M. Kuhn, K. Johnson
Applied Predictive Modeling. New York: Springer, 2013.
Autores do pacote caret, https://topepo.github.io/caret/index.html
M. Zavershynskyi.
MSE and Bias-Variance decomposition. 2017.
https://towardsdatascience.com/
mse-and-bias-variance-decomposition-77449dd2ff55
Creativision65 / 65
https://allmodelsarewrong.github.io
https://topepo.github.io/caret/index.html
https://towardsdatascience.com/mse-and-bias-variance-decomposition-77449dd2ff55
https://towardsdatascience.com/mse-and-bias-variance-decomposition-77449dd2ff55

Continue navegando