Baixe o app para aproveitar ainda mais
Prévia do material em texto
Avaliação e Seleção de Modelos Creativision 1 / 65 Avaliação de modelos Introdução Notação e Definições Básicas Viés, Variância e Complexidade do Modelo Avaliação do modelo Conjuntos de treinamento, validação e teste Previsão de desempenho: limites de confiança Holdout e validação cruzada Matriz de confusão, medidas de desempenho Curvas ROC e AUC Comparando algoritmos de classificação: teste t, teste não paramétrico Creativision 2 / 65 Introdução O desempenho de generalização de um método de aprendizagem está relacionado à sua capacidade de previsão em dados de validação/teste independentes. A avaliação deste desempenho é extremamente importante na prática, pois: orienta a escolha dos modelos de aprendizagem (seleção de modelos) nos dá uma medida da qualidade do modelo escolhido (avaliação de modelos) Creativision 3 / 65 Notação e Definições Básicas Deixe X ∈ Rp denotar um vetor de entrada aleatório com valor real, e Y ∈ R uma variável de saída aleatória com valor real, com distribuição conjunta Pr(X,Y ). Procuramos uma função f(X) para prever Y , dados valores da entrada X. Esta teoria requer uma função de perda L(Y, f(X)) para penalizar erros na previsão. Para Y ∈ R, o mais comum e conveniente é perda do erro quadrático: L(Y, f(X)) = (Y − f(X))2. Isso nos leva a um critério para escolher f , o erro de previsão esperado (quadrado): EPE(f) = E[(Y − f(X))2] (1) = ∫ [y − f(x)]2 Pr(dx, dy). (2) Creativision 4 / 65 Notação e Definições Básicas A função f que minimiza EPE(f) é f̂(x) = E[Y |X = x], a expectativa condicional, também conhecida como função regressão (Hastie, Tibshirani, Friedman, 2009, p.18). Em um problema de classificação (Y ∈ C = {1, 2, . . . ,K}), a função de perda mais comum é a 0-1 perda, onde cada erro de classificação é penalizado com uma única unidade: L(Y, f(X)) = I(Y ̸= f(X)). Aqui I denota a função do indicador: I(Y ̸= f(X)) = 1 if Y ̸= f(X); de outra forma, I(Y ̸= f(X)) = 0. Creativision 5 / 65 Notação e Definições Básicas A função f que minimiza EPE(f) é f̂(x) = arg max c∈C Pr(c|X = x). Ou seja, atribuímos a x a classe com probabilidade condicional máxima (Hastie, Tibshirani, Friedman, 2009, p.21). Creativision 6 / 65 Viés, Variância e Complexidade do Modelo Vamos considerar que temos uma variável alvo Y ∈ R, um vetor de entradas X e um modelo de predição f̂(X) que foi estimado a partir de um conjunto de treinamento T . Também consideramos a perda de erro quadrática para medir erros entre Y e f̂(X): L(Y, f̂(X)) = (Y − f̂(X))2 . O erro de teste, também conhecido como erro de generalização, é o erro de predição sobre uma amostra de teste independente, dado um conjunto de treinamento específico T : ErrT = E[L(Y, f̂(X))|T ], onde X e Y são sorteados aleatoriamente de sua distribuição (população). O conjunto de treinamento T é fixo, e o erro de teste refere-se ao erro deste conjunto de treinamento específico. Creativision 7 / 65 Viés, Variância e Complexidade do Modelo Uma quantidade relacionada é o erro de previsão esperado (ou erro de teste esperado): Err = E[L(Y, f̂(X))] = E[ErrT ]. Aqui, esta expectativa considera não apenas a aleatoriedade de X,Y , mas também a aleatoriedade no conjunto de treinamento T que produziu f̂ . Suponhamos que Y = f(x) + ε, onde E(ε) = 0, V ar(ϵ) = σ2 ε . É possível derivar uma expressão para o erro de previsão esperado de um ajuste de regressão f̂(X) em um ponto de entrada X = x0, usando perda de erro quadrático: Err(x0) = E[(Y − f̂(x0))2|X = x0] = σ2 ε + [Ef̂(x0) − f(x0))]2 + E[f̂(x0) − Ef̂(x0))]2 = σ2 ε + Viés2(f̂(x0)) + V ar(f̂(x0)) = Erro irredutível + Viés2 + Variância. Creativision 8 / 65 Viés, Variância e Complexidade do Modelo Primeiro termo: variância do alvo em torno de sua média verdadeira, f(x0) Segundo termo: viés quadrático, o valor pelo qual a média da nossa estimativa difere da média verdadeira Terceiro termo: variância, o desvio quadrático esperado de f̂(x0) em torno de sua média. Creativision 9 / 65 Viés, Variância e Complexidade do Modelo Linhas azuis: erros estimados em conjuntos de treinamento Linhas vermelhas: erros estimados em conjuntos de teste Linhas em negrito: erros médios Creativision 10 / 65 Viés, Variância e Complexidade do Modelo - Visão mais intuitiva A incapacidade de um modelo de capturar a verdadeira relação entre variáveis e o objeto a ser predito é o que chamamos de VIÉS. Então, quando o erro de viés é alto significa que o modelo não está aprendendo nada. Creativision 11 / 65 Viés, Variância e Complexidade do Modelo - Visão mais intuitiva A variância é a sensibilidade de um modelo ao ser usado com outros datasets diferentes do treinamento. Se o modelo é muito sensível aos dados de treinamento, ou seja, identificou tão bem a relação entre os dados de treinamento que quando colocado em teste irá errar. Creativision 12 / 65 Viés, Variância e Complexidade do Modelo - Visão mais intuitiva Creativision 13 / 65 Viés, Variância e Complexidade do Modelo - Visão mais intuitiva Creativision 14 / 65 Avaliação do modelo Quão bom é o classificador? Medida de desempenho natural para problemas de classificação: taxa de erro Successo: a classe da instância foi prevista corretamente Erro: a classe da instância foi prevista incorretamente Taxa de erros: proporção de erros cometidos em todo o conjunto de instâncias Erro de substituição: taxa de erro obtida dos dados de treinamento Extremamente otimista – especialmente se o classificador se ajustar demais Creativision 15 / 65 Conjuntos de treinamento, validação e teste Conjunto de treinamento: instâncias usadas para treinar (induzir) o classificador Conjunto de validação: instâncias utilizadas para calibrar os parâmetros do classificador (seleção de modelo) Conjunto de testes: instâncias independentes que não participaram do treinamento/calibração (avaliação do modelo) Suposição: os dados de treinamento, validação e teste são amostras representativas do problema subjacente Geralmente, quanto maiores os dados de treinamento, melhor será o classificador Quanto maiores os dados de validação/teste, mais precisa será a estimativa do erro Procedimento Holdout: método de divisão dos dados originais em conjuntos de treinamento, validação e teste Dilema: os dados disponíveis devem ser grandes! Creativision 16 / 65 Previsão de desempenho Suponha que a taxa de erro estimada seja 25%. Quão próximo está isso da verdadeira taxa de erro? Depende da quantidade de dados de teste A previsão é como jogar uma moeda (tendenciosa!) “Cara” é um “sucesso”, “coroa” é um “erro” Em estatística, uma sucessão de eventos independentes como este é chamada de processo de Bernoulli. A teoria estatística nos fornece intervalos de confiança para a verdadeira proporção subjacente Creativision 17 / 65 Intervalos de confiança para taxa de sucesso Podemos dizer: a verdadeira taxa de sucesso (denotada por p) está dentro de um certo intervalo especificado com uma certa confiança especificada Exemplo: S = 750 sucessos em N = 1000 tentativas Taxa de sucesso estimada: 75% Quão próximo está da verdadeira taxa de sucesso p? Resposta: com 80% confiança p em [73.2,76.7] Outro exemplo: S = 75 e N = 100 Taxa de sucesso estimada: 75% Com 80% confiança p em [69.1,80.1] Creativision 18 / 65 Intervalos de confiança Intervalo de Confiança: O parâmetro mais ou menos a margem de erro estimada Parâmetro: valor a ser estimado Margem de erro: variabilidade, para mais ou para menos Nível de Confiança: de 80 a 99% Tamanho da Amostra (n) Creativision 19 / 65 Nível de Confiança: Z∗ Creativision 20 / 65 Exemplo Creativision 21 / 65 Exemplo Creativision 22 / 65 Compensação Creativision 23 / 65 Tipos de Intervalo de Confiança Intervalo de Confiança para a média Intervalo de Confiança para a proporção Creativision 24 / 65 Intervalo de Confiança para a média Creativision 25 / 65 Margem de erro deve ser calculada. Intervalo de Confiança para a proporção Creativision 26 /65 Intervalos de confiança para taxa de sucesso Média e variância para um ensaio de Bernoulli: µ = p, V = p(1 − p) Taxa de sucesso esperada: média amostral p̂ = S/N Teorema do Limite Central: Para N grande o suficiente, p̂ segue uma distribuição normal com média µ = p e variância V/N = p(1 − p)/N Um intervalo de probabilidade c% [−z ≤ X ≤ z] para uma variável aleatória com média 0 é dado por: Pr[−z ≤ X ≤ z] = c% Para uma distribuição simétrica: c = Pr[−z ≤ X ≤ z] = 1 − 2 Pr[X ≥ z] =⇒ Pr[X ≥ z] = 1 − c 2 Creativision 27 / 65 Intervalos de confiança para taxa de sucesso – Processo de Bernoulli Limites de confiança para uma variável X com distribuição normal padrão (média 0 e variância 1): Por isso: Pr[−1.65 ≤ X ≤ +1.65] = 90% Para usar isso, temos que padronizar p̂ para ter média 0 e variância unitária Creativision 28 / 65 Intervalos de confiança - distribuição normal padrão Valor transformado para p̂: p̂− p√ p(1 − p)/N (ou seja, subtraia a média e divida pelo desvio padrão) Equação resultante: Pr [ −z ≤ p̂− p√ p(1 − p)/N ≤ z ] = c Transformando desigualdades em igualdades e resolvendo p: p ∈ [ p̂+ z2 2N ± z √ p̂ N − p̂2 N + z2 4N2 /( 1 + z2 N )] Creativision 29 / 65 Intervalos de confiança - distribuição normal padrão Exemplos p̂ = 75%, N = 1000, c = 80% (de modo que z = 1,28): p ∈ [0.732, 0.767] p̂ = 75%, N = 100, c = 80% (de modo que z = 1,28): p ∈ [0.691, 0.801] p̂ = 75%, N = 10, c = 80% (de modo que z = 1,28): p ∈ [0.549, 0.881] !! A aproximação normal para processos de Bernoulli só é válida para N grande (ou seja, N > 50) Creativision 30 / 65 Estimativa de Holdout O que fazer se a quantidade de dados for limitada? O método holdout reserva uma certa quantia para teste e usa o restante para treinamento Normalmente: um terço para teste, o restante para treinamento Problema: as amostras podem não ser representativas Exemplo: a classe pode estar faltando nos dados de teste Versão avançada usa estratificação Garante que cada classe seja representada com proporções aproximadamente iguais em ambos os subconjuntos Creativision 31 / 65 Método de holdout repetido A estimativa de holdout pode se tornar mais confiável repetindo o processo com diferentes subamostras Em cada iteração, uma certa proporção é selecionada aleatoriamente para treinamento (possivelmente com estratificação) As taxas de erro nas diferentes iterações são calculadas em média para produzir uma taxa de erro geral Isso é chamado de método de validação repetido Ainda não é o ideal: os diferentes conjuntos de validação se sobrepõem Podemos evitar sobreposições? Problema: as amostras podem não ser representativas Exemplo: a classe pode estar faltando nos dados de teste Versão avançada usa estratificação Garante que cada classe seja representada com proporções aproximadamente iguais em ambos os subconjuntos Creativision 32 / 65 Validação cruzada Validação cruzada evita conjuntos de validação sobrepostos Primeira passo: dividir os dados em k subconjuntos de tamanho igual Segunda passo: use cada subconjunto para teste, o restante para treinamento Chamado validação cruzada k-fold Subconjuntos podem ser estratificados As estimativas de erro são calculadas em média para produzir uma estimativa de erro geral Método padrão para avaliação: validação cruzada estratificada de dez vezes Melhor variante: validação cruzada estratificada repetida Por exemplo. a validação cruzada de dez vezes é repetida dez vezes e os resultados são calculados em média (reduz a variância) Creativision 33 / 65 Validação cruzada – Diagrama Conjunto de Dados 1 3 ... V 2 3 ... V 2 3 ... V 1 2 ... V-1 1 1 2 V Algoritmo Classificador Classe Predita Algoritmo Classificador Classe Predita Algoritmo Classificador Classe Predita ... Divisão em V sub-conjuntos V-1 Creativision 34 / 65 Validação cruzada de deixar um de fora Deixe um de fora: forma particular de validação cruzada Defina o número de dobras para o número de instâncias de treinamento Ou seja, para n instâncias de treinamento, construa o classificador n vezes Pros: Faz melhor uso dos dados para treinamento Não envolve subamostragem aleatória Cons: Muito caro computacionalmente Não pode ser estratificado Há apenas uma instância em cada conjunto de testes! Ilustração extrema (artificial): conjunto de dados aleatório com o mesmo número de instâncias de cada uma das duas classes O melhor indutor prevê classes majoritárias Acurácia de 50% em dados recentes Deixar um de fora produz um erro estimado de 100%! Creativision 35 / 65 Matriz de confusão A aplicação do classificador em um conjunto de validação/teste produz uma matriz de confusão, uma tabela de contingência bidimensional formada pelas frequências absolutas de classes reais e previstas de instâncias de teste Para classificação binária (duas classes): Creativision 36 / 65 Ver Recall vs. Precision (Wikipedia) Matriz de confusão VP (Verdadeiros Positivos), VN (Verdadeiros Negativos): instâncias classificadas corretamente FN (Falsos Negativos), FP (Falsos Positivos): instâncias classificadas incorretamente POS: instâncias positivas:POS = V P + FN ; NEG: instâncias negativas:NEG = FP + V N ; PP (Previsto Positivo): PP = V P + FP PN (Previsto Negativo): PN = V N + FN . Creativision 37 / 65 Medidas de desempenho Taxa de erro total, taxa de acurácia total: As medidas mais utilizadas TEr = (FN + FP )/(NEG+ POS); Acc = (1 − TEr) Taxa de Verdadeiros Positivos (também chamada de sensibilidade ou recall): V Pr = V P/POS Taxa de Verdadeiros Negativos (também chamada de especificidade): V Nr = V N/NEG Taxa de falsos negativos: FNr = FN/POS Taxa de falsos positivos: FPr = FP/NEG Taxa de precisão: Proporção de instâncias de classe positivas entre aquelas previstas como positivas. Precr = V P/PP Boa medida para classificação incorreta de casos negativos de alto custo: Nos mercados de ações, se um trader decidir iniciar uma operação de compra e manutenção, a sua taxa de sucesso deve ser elevada: Ineficaz para taxas positivas previstas muito baixas Usualmente, baixo P P ⇒ alto F N Não está definido se P P = 0 Creativision 38 / 65 Medidas de desempenho – Exemplo V Pr = 6/10 = 60%; V Nr = 89/90 = 98.9% FNr = 4/10 = 40%; FPr = 01/90 = 1.1% Taxa total de erros: TEr = (4 + 1)/(10 + 90) = 5% Taxa de precisão: Precr = 6/7 = 85.7% Excelente para prever classe negativa; muito ruim para prever classe positiva Creativision 39 / 65 Curva ROC ROC: Características operacionais do receptor (Receiver Operating Characteristic) Usado na detecção de sinais para mostrar a compensação entre a taxa de acertos e a taxa de falsos alarmes em canais ruidosos http://psych.hanover.edu/JavaTest/SDT/index.html Uso comum para calibração de testes de diagnóstico médico http://gim.unmc.edu/dxtests/Default.htm A curva ROC é obtida traçando FPr (ou 1−especificidade) no eixo horizontal e V Pr (sensibilidade) no eixo vertical Adequado para parâmetros de ajuste de algoritmos para o compromisso adequado entre sensibilidade e especificidade comparando desempenhos de algoritmos Creativision 40 / 65 Curva ROC Creativision 41 / 65 Curva ROC Ponto ideal: Classificação perfeita 100% verdadeiros positivos, 0% falsos positivos Quanto mais próximo o ponto (FPr, V Pr) de (0%, 100%), melhor será o algoritmo Uma estimativa completamente aleatória (com probabilidade variável de atribuição positiva) daria um ponto ao longo de uma linha diagonal (linha de não discriminação) Source of image in next slide: "ROC space-2" by ROC_space.png: Indonderivative work: Kai walz (talk) - ROC_space.png. Licensed under CC BY-SA 3.0 via Wikimedia Commons https://commons.wikimedia.org/wiki/File:ROC_space-2.png#/media/ File:ROC_space-2.png Creativision 42 / 65 ROC – Exemplos Creativision 43 / 65 ROC – nota histórica A análise ROC faz parte de um campo denominado "Teoria de Detecção de Sinais"desenvolvido durante a Segunda Guerra Mundial para a análise de imagensde radar. Os operadores de radar tinham que decidir se um sinal na tela representava um alvo inimigo, uma nave amiga ou apenas ruído. A teoria da detecção de sinais mede a capacidade dos operadores de receptores de radar de fazer essas distinções importantes. Sua capacidade de fazer isso foi chamada de Características Operacionais do Receptor. Somente na década de 1970 a teoria da detecção de sinais foi reconhecida como útil para a interpretação de resultados de exames médicos. Creativision 44 / 65 Área sob a Curva ROC Área sob a curva (AUC): uma das estatísticas resumidas do ROC Corresponde à integral ∫ ∞ −∞ V Pr(t)FPr(t)dt onde t é um parâmetro (contínuo) relacionado à sensibilidade Avaliação: AUC = 1: classificador perfeito AUC=0.5: classificador inútil (suposição aleatória) Em Medicina: critério de classificação da acurácia de um exame diagnóstico: .90 − 1 = excelente (A) .80 − .90 = bom (B) .70 − .80 = justo (C) .60 − .70 = pobre (D) .50 − .60 = falha (F) Creativision 45 / 65 Área sob a Curva ROC AUC mede discriminação, ou seja, a capacidade de um classificador classificar corretamente instâncias de classes positivas e negativas Probabilidade de que um classificador classifique uma instância positiva escolhida aleatoriamente acima de uma negativa escolhida aleatoriamente (assumindo classificações ’positivas’ superiores a ’negativas’) Computação: Para um único ponto de teste (correspondente a uma amostra de teste única e a um valor t único), a AUC pode ser estimada pela média e pela sensibilidade e especificidade: AUC = (V Pr + V Nr)/2 (Figura no próximo slide) Dados vários pontos de teste, construa trapézios sob a curva como uma aproximação da área (extensão do caso de ponto único acima) Creativision 46 / 65 Área sob a Curva ROC – Estimativa Creativision 47 / 65 Conjuntos de dados desequilibrados: acurâcia vs AUC Conjuntos de dados desequilibrados: Alta prevalência de uma classe Nesses casos, a medida de acurácia pode ser (otimista) enganosa Tomando o exemplo anterior: V Pr = 60%; V Nr = 98.9%; FNr = 40%; FPr = 1.1% Acc = 95% Alta taxa de acurácia, mas... uma taxa de erro de 40% na classe positiva! Creativision 48 / 65 Conjuntos de dados desequilibrados: acurâcia vs AUC Tomando o exemplo anterior: V Pr = 0.6; V Nr = 0.989; FNr = 0.4; FPr = 0.011 Acc = 95% Alta taxa de acurácia, mas... uma taxa de erro de 40% na classe positiva! Se a classe positiva correspondesse a uma doença, 40% dos pacientes doentes seriam classificados como saudáveis! Estimativa AUC: AUC = (V Pr + V Nr)/2 = (0.6 + 0.989)/2 = 0.795 De acordo com a tabela de referência da AUC, apenas justo! Creativision 49 / 65 Comparando Algoritmos de Aprendizagem Pergunta frequente: qual dos dois esquemas de aprendizagem tem melhor desempenho? Nota: isso depende do domínio! Maneira óbvia: compare estimativas de VCs de 10 dobras Geralmente suficiente nas aplicações (não perdemos se o método escolhido não for verdadeiramente melhor) No entanto, e quanto à pesquisa em aprendizado de máquina? Necessidade de mostrar de forma convincente que um determinado método funciona melhor Uma possível resposta para esta pergunta é usar técnicas estatísticas Intervalos de confiança e testes de significância Creativision 50 / 65 Teste de Hipótese Confirmar ou negar uma premissa usando uma amostra Esta premissa usa um parâmetro, por exemplo: 56% dos brasileiros não gostam de estatística Encontrar diferença não é tudo, é preciso saber se esta diferença é estatisticamente significante Creativision 51 / 65 Teste de Hipótese Creativision 52 / 65 Alfa e valor-p Creativision 53 / 65 Etapas Creativision 54 / 65 Fórmulas para Estatísticas de Teste Creativision 55 / 65 Exemplo Média Creativision 56 / 65 Exemplo Proporção Creativision 57 / 65 Erros Erro do tipo 1: rejeitar H0 quando não deveria Chance de ocorrer igual a Alfa Erro do tipo 2: não rejeitar H0 quando deveria ter rejeitado Depende do tamanho da amostra Ocorrem devido ao acaso https://www.statisticssolutions.com/to-err-is-human-what-are-type-i-and- ii-errors/ Ideal: Amostra grande e Alfa pequeno Creativision 58 / 65 Consequências da Escolha de Alfa Creativision 59 / 65 Comparando Algoritmos – Intervalos de confiança Notação: ψ: algoritmo de classificação ψLtr (•): um classificador induzido pelo algoritmo ψ usando o conjunto de treinamento Ltr ψLtr (Lts): classes previstas por ψLtr (•) para instâncias do conjunto Lts MLts,ψLtr (Lts): a matriz de confusão produzida por classes verdadeiras e previstas de Lts h ( MLts,ψLtr (Lts) ) : uma medida de desempenho (precisão, erro total, AUC, etc) produzida por matriz de confusão MLts,ψLtr (Lts) Dados dois algoritmos distintos ψ e φ, a variável aleatória de interesse é a diferença entre os desempenhos medidos: δ = h ( MLts,ψLtr (Lts) ) − h ( MLts,φLtr (Lts) ) ∀(Lts,Ltr) ∈ P(X × {1 . . .K})2. Creativision 60 / 65 Comparando Algoritmos – Intervalos de Confiança Denotamos por µδ = EP(X ×{1...K})2(δ) ou seja, a média das diferenças de desempenho entre φA e ψB em todos os pares possíveis de treinamento e testes da amostra Se os algoritmos ψ e φ têm desempenho igual, então µδ = 0. µδ é desconhecido ⇒ podemos obter um intervalo de confiança para ele. Um intervalo de confiança (1 − α)% para µδ: Intervalo [a, b] obtido de uma amostra que deve incluir o valor verdadeiro de µδ, com probabilidade 1 − α, Dizemos que θ pertence ao intervalo [a, b] com confiança 1 − α. Veremos um método para obter o intervalo de confiança via validação cruzada. Creativision 61 / 65 Comparando Algoritmos – Validação cruzada [H] Input: L: Conjunto de dados original V : Número de dobras VC Partição L em V subconjuntos disjuntos L1,L2, ...,LV do mesmo tamanho Para v de 1 a V Tome Lv como conjunto de validação e Lcv = L − Lv como conjunto de treinamento Construa classificadores ψLc v (•) e φLc v (•) usando Lcv Aplique ambos os classificadores no conjunto de teste Lv, produzindo as matrizes de confusão MLv,ψLc v (Lv) e MLv,φLc v (Lv) Calcule a diferença de desempenho: δv = h ( MLv,ψLc v (Lv) ) − h ( MLv,φLc v (Lv) ) Retorne a média de δ1, δ2, . . . , δV e seu erro padrão correspondente: δ = 1 V ∑V v=1 δv, sδ = √ 1 V (V − 1) ∑V i=1 (δi − δ)2 Creativision 62 / 65 Comparando Algoritmos – Intervalos de Confiança Se V for grande (V > 100): aproximação pela distribuição normal padrão Se V for pequeno: aproximação pela distribuição t de Student Intervalo de confiança para µδ usando distribuição t de Student: µδ ∈ [a, b] = [ δ ± z sδ ] onde z representa o quantil 1 − α/2 da distribuição t de Student com graus de liberdade V − 1. Creativision 63 / 65 Comparando Algoritmos – Intervalos de Confiança Para testar a hipótese H0 : µδ = 0 (ou seja, os algoritmos ψ e φ funcionam igualmente bem): Construa o intervalo de confiança [a, b] se 0 ∈ [a, b]: nós não rejeitamos H0 ⇒ As diferenças de desempenho não são significativas em um nível de confiança (1 − α)% ⇒ Algoritmos são considerados equivalentes em desempenho se 0 /∈ [a, b]: nós rejeitamos H0 ⇒ As diferenças de desempenho são significativas em um nível de confiança (1 − α)% ⇒ O algoritmo com maior desempenho médio de VC é considerado melhor Valores usuais para o nível de confiança: 0.90, 0.95 e 0.99 (α = 0.1, 0.05 e 0.01, respectivamente) Quanto maior o nível de confiança: maior (menos preciso) o intervalo maior será a chance de aceitar H0 Creativision 64 / 65 Referências T. Hastie, R. Ticshirani, J. Friedman. The Elements of Statistical Learning. New York: Springer, 2009. Cap. 7 G. Sanchez, E. Marzban. All Models Are Wrong: Concepts of Statistical Learning. 2020 https://allmodelsarewrong.github.io M. Kuhn, K. Johnson Applied Predictive Modeling. New York: Springer, 2013. Autores do pacote caret, https://topepo.github.io/caret/index.html M. Zavershynskyi. MSE and Bias-Variance decomposition. 2017. https://towardsdatascience.com/ mse-and-bias-variance-decomposition-77449dd2ff55 Creativision65 / 65 https://allmodelsarewrong.github.io https://topepo.github.io/caret/index.html https://towardsdatascience.com/mse-and-bias-variance-decomposition-77449dd2ff55 https://towardsdatascience.com/mse-and-bias-variance-decomposition-77449dd2ff55
Compartilhar