Prévia do material em texto
https://t.me/kakashi_copiador https://t.me/kakashi_copiador Curso regular Ciência de dados – Machine Learning Prof. Erick Muzart https://t.me/kakashi_copiador Regressão Prof. Erick Muzart https://t.me/kakashi_copiador Categorias de aprendizado Classificação Prof. Erick Muzart Aprendizado supervisionado classificação regressão agrupamento não supervisionado redução de dimensionlidade regras de associação sistemas de recomendação https://t.me/kakashi_copiador Machine Learning Máquina de previsão: • Classificação • Regressão Classificação Regressão https://t.me/kakashi_copiador ❑ Avaliar desempenho de um modelo, comparando o erro entre os valores previstos e os valores observados (ou reais/verdadeiros) ❑ Principais métricas: RMSE, R-quadrado (R2) ❑ RMSE: Root Mean Squared Error: erro quadrático médio: raiz_quadrada ( média ( (previsto – observado)^2)) ❑ R-quadrado: representa a proporção da variabilidade dos dados explicada pelo modelo. 0 < R2 < 1 Regressão Prof. Erick Muzart Avaliando Regressão https://t.me/kakashi_copiador ❑ Apesar das diferenças apontadas entre Classificação e Regressão é frequentemente possível converter uma tarefa de um tipo para outro, modificando a representação da variável target: ❑ Classificação -> Regressão: com múltiplas classes ordenadas, associar um valor númerico para cada ❑ Regressão -> Classificação: dividir o conjunto de possíveis valores numéricos em intervalos; cada intervalo se torna uma classe ❑ A maior parte dos modelos que estudaremos possuem versões levemente diferentes para classificação e para regressãoRegressão Prof. Erick Muzart Classificação <-> Regressão https://t.me/kakashi_copiador [fim] Regressão Prof. Erick Muzart https://t.me/kakashi_copiador MODELOS PREDITIVOS Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Modelo preditivo? ❑ Modelos lineares: regressão linear e regressão logística ❑ K-NN: k-vizinhos mais próximos ❑ Árvore de decisão ❑ Rede neural feed-forward ❑ Naive Bayes ❑ Outros modelos importantes (derivados dos modelos básicos anteriores) Modelos Prof. Erick Muzart Modelos https://t.me/kakashi_copiador ❑ Modelo preditivo abstrato: define como relacionar as variáveis de entrada (independentes) com o resultado esperado (variável dependente ou target) ❑ Diferentes modelos geram formas matematicamente muito diferentes de construir a relação entre as variáveis de entrada e de saída, tornando-os assim capazes de captar padrões estatísticos também diferentes ❑ Em regra, é preciso realizar experimentos computacionais, avaliando o desempenho de modelos de tipos diferentes para descobrir qual o mais adequado à uma tarefa e dados específicos. ❑ Cada tipo de modelo tem suas características, lógica de funcionamento, pontos fortes e fracos. Não é preciso ser capaz de reimplementar um algoritmo do zero para entender suas propriedades fundamentais. Modelos Prof. Erick Muzart Modelo preditivo https://t.me/kakashi_copiador ❑ Tarefa: definição genérica daquilo que se deseja produzir como resultado do modelo preditivo. Ex: classificar um documento em três possíveis categorias ou prever o valor de determinada medida. ❑ Técnicas de ML: conjunto de procedimentos que permite melhorar resultados preditivos. Ex: ‘regularização’: técnica para prevenir overfit; ‘separação treino/teste’: técnica para medir desempenho em generalização de um modelo. ❑ Algoritmo de ML: "fórmula" no sentido mais lato, que permite relacionar as variáveis independentes para prever a variável dependente. Ex: regressão linear ❑ Modelo (treinado): objeto computacional que efetivamente transforma uma observação (variáveis independentes) em uma previsão utilizando um algoritmo específico, instanciado e treinado, tendo-se assim determinado os parâmetros ótimos do modelo, por meio do treinamento. Modelos Prof. Erick Muzart Tarefa, Técnica, Algoritmo e Modelo... https://t.me/kakashi_copiador ❑ Estimar um valor provável de venda de apartamento, utilizando um histórico de preços Modelos Prof. Erick Muzart Desafio preditivo [Awab 2017] Como utilizar esses dados para realizar uma predição de valor? Jardim America, 120m2, 2 vagas, 20 anos, conservação b https://t.me/kakashi_copiador [FIM]MODELOS PREDITIVOS Prof. Erick Muzart https://t.me/kakashi_copiador MODELOS LINEARES – REGRESSÃO LINEAR Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Estimativa de preço como soma ponderada de suas características (área, bairro, vagas, conservação, etc.) ❑ O valor de cada característica do imóvel é multiplicado por um peso específico para aquela característica: Preço Estimado = PesoÁrea * área + PesoBairro * bairro + PesoVagas * vagas + PesoConservação * Conservação Modelos Lineares Prof. Erick Muzart Regressão Linear Otimização dos parâmetros da reta por mínimos quadrados. Desempenho do modelo medido por R2: percentual da variabilidade explicada https://t.me/kakashi_copiador Considerando o relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura abaixo, assinale a alternativa correta. Regression Plot Y = 4,58602 - 0,606447 X S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5% A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%. B - O relacionamento entre X e Y é fraco e não deve ser considerado. C - Não existe relação linear entre as variáveis analisadas. D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y. E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y. Modelos Lineares Prof. Erick Muzart Fundatec/PrefPortoAlegre-Estat/2021 https://t.me/kakashi_copiador Considerando o relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura abaixo, assinale a alternativa correta. Regression Plot Y = 4,58602 - 0,606447 X S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5% A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%. B - O relacionamento entre X e Y é fraco e não deve ser considerado. C - Não existe relação linear entre as variáveis analisadas. D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y. E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y. Modelos Lineares Prof. Erick Muzart Fundatec/PrefPortoAlegre-Estat/2021 https://t.me/kakashi_copiador Considerando o relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura abaixo, assinale a alternativa correta. Regression Plot Y = 4,58602 - 0,606447 X S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5% A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%. B - O relacionamento entre X e Y é fraco e não deve ser considerado. C - Não existe relação linear entre as variáveis analisadas. D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y. E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y. Modelos Lineares Prof. Erick Muzart Fundatec/PrefPortoAlegre-Estat/2021 https://t.me/kakashi_copiador [FIM]MODELOS LINEARES – REGRESSÃO LINEAR Prof. Erick Muzart https://t.me/kakashi_copiador MODELOS LINEARES – REGRESSÃO LOGÍSTICA Prof. Erick Muzart https://t.me/kakashi_copiador Modelos Prof. Erick Muzart Regressão logística ❑ Algoritmo de classificação, resulta de uma regressão linear seguida de transformação logística, realizada pela função sigmóide ❑ A função sigmóide transforma o resultado sem limite da regressão linear, para valor no intervalo [0, 1] que pode ser interpretado como a probabilidade da classe positiva https://t.me/kakashi_copiador A regressão logística é um modelo de regressão no qual a relação entre as variáveis independentese a variável dependente é representada por uma função degrau, a qual, por sua vez, pode ser representada por uma spline. (C) Certo (E) Errado Supervisionado ou não Prof. Erick Muzart Cespe/Sefaz-AL/2021 https://t.me/kakashi_copiador A regressão logística é um modelo de regressão no qual a relação entre as variáveis independentes e a variável dependente é representada por uma função degrau, a qual, por sua vez, pode ser representada por uma spline. (C) Certo (E) Errado Supervisionado ou não Prof. Erick Muzart Cespe/Sefaz-AL/2021 https://t.me/kakashi_copiador Assinale a alternativa que indique o problema mais apropriado para aplicação da regressão logística. A - Para obter o risco relativo de se desenvolver a diabetes tipo 2, em um período de 10 anos, associado com o peso do indivíduo e outros fatores de risco. B - Para descrever o tamanho esperado de crianças com menos de um ano, de acordo com sua idade em meses. C - Para predizer o tempo de sobrevivência de pacientes de câncer de pulmão, de acordo com características clínicas do paciente. D - Para descrever a distribuição de pesos de indivíduos do sexo feminino em uma certa comunidade E - Para predizer o número de casos de uma doença em diferentes municípios de acordo com algumas variáveis populacionais e epidemiológicas. Supervisionado ou não Prof. Erick Muzart FGV/Fiocruz/2010 https://t.me/kakashi_copiador Assinale a alternativa que indique o problema mais apropriado para aplicação da regressão logística. A - Para obter o risco relativo de se desenvolver a diabetes tipo 2, em um período de 10 anos, associado com o peso do indivíduo e outros fatores de risco. B - Para descrever o tamanho esperado de crianças com menos de um ano, de acordo com sua idade em meses. C - Para predizer o tempo de sobrevivência de pacientes de câncer de pulmão, de acordo com características clínicas do paciente. D - Para descrever a distribuição de pesos de indivíduos do sexo feminino em uma certa comunidade E - Para predizer o número de casos de uma doença em diferentes municípios de acordo com algumas variáveis populacionais e epidemiológicas. Supervisionado ou não Prof. Erick Muzart FGV/Fiocruz/2010 https://t.me/kakashi_copiador Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido]. 58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o modelo de regressão logística, uma vez que a variável dependente se apresenta de forma quantitativa. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido]. 58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o modelo de regressão logística, uma vez que a variável dependente se apresenta de forma quantitativa. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido]. 58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o modelo de regressão logística, uma vez que a variável dependente se apresenta de forma quantitativa. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador [FIM]MODELOS LINEARES – REGRESSÃO LOGÍSTICA Prof. Erick Muzart https://t.me/kakashi_copiador K-VIZINHOS MAIS PRÓXIMOS (KNN) Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Previsão baseada nos valores conhecidos “mais similares” ou mais próximos em termos de distância entre características. ❑ k-vizinhos mais próximos ou em inglês k-nearest neighbors (knn): memoriza dados de treinamento e para cada nova previsão identifica as k observações conhecidas mais próximas de onde se deseja uma previsão, retornando a média desses vizinhos. knn Prof. Erick Muzart knn https://t.me/kakashi_copiador Machine Learning Máquina de previsão: • Classificação • Regressão Classificação Regressão https://t.me/kakashi_copiador Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra pertence na tabela a seguir. Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos mais próximos com k=3 e usando a distância euclidiana usual. Suas classes previstas são, respectivamente: (A) A, B, A; (B) B, A, A; (C) A, B, B; (D) A, A, B; (E) A, A, A. knn Prof. Erick Muzart FGV/TCU/2021 https://t.me/kakashi_copiador Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra pertence na tabela a seguir. Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos mais próximos com k=3 e usando a distância euclidiana usual. Suas classes previstas são, respectivamente: (A) A, B, A; (B) B, A, A; (C) A, B, B; (D) A, A, B; (E) A, A, A. knn Prof. Erick Muzart FGV/TCU/2021 Classificar um ponto requer calcular quais os 3 pontos mais próximos e escolher a classe da maioria desses 3 vizinhos mais próximos: Pontos: (1,1): (0,1)A, (1,0)A, (1,2)A -> maioria A (0,0): (0,1)A, (1,0) A, [(1,-1)B ou (-1,1)B] -> maioria A (-1,2): (-1,1)B, (0,2)B, (0,1)A -> maioria B Classes: A, A, B https://t.me/kakashi_copiador [FIM]K-VIZINHOS MAIS PRÓXIMOS (KNN) Prof. Erick Muzart https://t.me/kakashi_copiador Regras de Associação: Apriori Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Exemplo de aprendizado não supervisionado ❑ Descoberta de relações interessantes entre variáveis: regras ❑ Análise de cesta de compras (market basket analysis): produtos são comprados numa mesma transação; a partir de múltiplas transações procura-se prever quais co-ocorrências de produtos são mais relevantes Apriori Prof. Erick Muzart Regras de Associação https://t.me/kakashi_copiador ❑ Regras: Se compra A e B então compra C {A, B -> C} Ex regra: {Cerveja, Gelo -> Carvão} ❑ Regras mais interessantes? • Suporte: frequência de itens da regra 3 ocorrências de 10: 0,3 • Confiança: percentual de ocorrências dos itens que respeitam a regra 3 ocorrências respeitadas sobre 3: 100% Apriori Prof. Erick Muzart Regras de Associação https://t.me/kakashi_copiador Considere o seguinte histórico de dez compras em uma loja de conveniência onde, para cada compra, aparecem assinalados os produtos adquiridos. Na aplicação do algoritmo Apriori para essa amostra, a medida de confiança (confidence) para a associação {cerveja → gelo} é: (A) 1,0 (B) 0,6 (C) 0,5 (D) 0,3 (E) 0,1 Apriori Prof. Erick Muzart FGV/Niterói-Seplag/2018 https://t.me/kakashi_copiador Considere o seguinte histórico de dez compras em uma loja de conveniência onde, para cada compra, aparecem assinalados os produtos adquiridos. Na aplicação do algoritmo Apriori para essa amostra, a medida de confiança (confidence) para a associação {cerveja → gelo} é: (A) 1,0 (B) 0,6 (C) 0,5 (D) 0,3 (E) 0,1 Apriori Prof. Erick Muzart FGV/Niterói-Seplag/2018 Confiança: percentual de ocorrências dos itens que respeitam a regra Ocorrências {cerveja, gelo}: 3 Ocorrências {cerveja} : 6 Confiança = n{cerveja, gelo} / n{cerveja} = 3/6 = 0,5 https://t.me/kakashi_copiador ❑ Constrói o conjunto de regras das mais simples (único item) às mais complexas (múltiplos itens) ❑ Para cada nível de regra, calcula o número de ocorrências nos dados (suporte) e elimina as regras com suporte inferior a um patamar mínimo ❑ As regras que subsistirem são expandidas para mais um produto... Apriori Prof. Erick Muzart Apriori https://t.me/kakashi_copiador ❑ Aplicação, com suporte >= 5 {Cerveja -> Gelo} : suporte 3 { Gelo - > Carvão} : suporte 5, confiança 100% Pode-se ordenar as regras pelo maior produto suporte x confiança Apriori Prof. Erick Muzart Apriori https://t.me/kakashi_copiador[fim]Regras de Associação: Apriori Prof. Erick Muzart https://t.me/kakashi_copiador ÁRVORE DE DECISÃO Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Imaginem que vocês queiram prever se um dado passageiro do Titanic sobreviveu ou não ao desastre: que sequência de perguntas sobre as características do passageiro melhor ajudariam a prever se sobreviveu? ❑ Intuitivamente algumas características dos passageiros seriam mais importantes: sexo, idade, classe... Como descobrir quais as mais importantes e em que sequência deveriam ser avaliadas para estimar a probabilidade de sobrevivência? Modelos Prof. Erick Muzart Intuição árvore de decisão https://t.me/kakashi_copiador Modelos Prof. Erick Muzart Árvore de decisão: Titanic https://t.me/kakashi_copiador Modelos Prof. Erick Muzart Árvore de decisão no sklearn https://t.me/kakashi_copiador Modelos Prof. Erick Muzart Árvore de decisão no sklearn https://t.me/kakashi_copiador ❑ Descobre sequências de regras do tipo “Se variável X maior do que p então” que permitem separar observações em grupos de uma classe majoritária ❑ A variável e o “ponto de corte” escolhidos para separar uma amostra de dados são o que permite gerar subconjuntos mais homogêneos: ganho de informação ou redução de entropia ❑ Modelo altamente interpretável: regras simples e de fácil visualização ❑ Árvore de decisão pode ser utilizada tanto para classificação como para regressão ❑ Otimiza-se a árvore, realizando sua “poda” por diversos critérios: profundidade, tamanho mínimo das folhas, ganho mínimo de informação, etc. Modelos Prof. Erick Muzart Árvore de decisão https://t.me/kakashi_copiador Uma árvore de decisão representa um determinado número de caminhos possíveis de decisão e os resultados de cada um deles, apresentando muitos pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm processo de previsão completamente transparente e lidam facilmente com diversos atributos numéricos, assim como atributos categóricos, podendo até mesmo classificar dados sem atributos definidos. 61 A entropia de uma árvore de decisão aborda o aspecto da quantidade de informações que está associada às respostas que podem ser obtidas às perguntas formuladas, representando o grau de incerteza associado aos dados. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Uma árvore de decisão representa um determinado número de caminhos possíveis de decisão e os resultados de cada um deles, apresentando muitos pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm processo de previsão completamente transparente e lidam facilmente com diversos atributos numéricos, assim como atributos categóricos, podendo até mesmo classificar dados sem atributos definidos. 61 A entropia de uma árvore de decisão aborda o aspecto da quantidade de informações que está associada às respostas que podem ser obtidas às perguntas formuladas, representando o grau de incerteza associado aos dados. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1, x2), para cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada nessa amostra foi “Sim”, “Não”, “Sim”,“Não”, respectivamente. A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma árvore de decisão é: (A) x1 > 2 (“Sim”) e x1 ≤ 2 (“Não”); (B) x1 > 5 (“Sim”) e x1 ≤ 5 (“Não”); (C) x2 > 3 (“Sim”) e x2 ≤ 3 (“Não”); (D) x2 > 6 (“Sim”) e x2 ≤ 6 (“Não”); (E) x1 > 1 (“Sim”) e x1 ≤ 1 (“Não”). knn Prof. Erick Muzart FGV/TCU/2021 https://t.me/kakashi_copiador Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1, x2), para cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada nessa amostra foi “Sim”, “Não”, “Sim”,“Não”, respectivamente. A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma árvore de decisão é: (A) x1 > 2 (“Sim”) e x1 ≤ 2 (“Não”); (B) x1 > 5 (“Sim”) e x1 ≤ 5 (“Não”); (C) x2 > 3 (“Sim”) e x2 ≤ 3 (“Não”); (D) x2 > 6 (“Sim”) e x2 ≤ 6 (“Não”); (E) x1 > 1 (“Sim”) e x1 ≤ 1 (“Não”). knn Prof. Erick Muzart FGV/TCU/2021 X1 X2 resp 6 4 S 2 8 N 10 6 S 5 2 N Numa árvore de decisão cada nó é construído com a variável e o ponto de corte que gera a partição mais “pura” possível! Testamos cada variável e cada possível ponto de corte: X2: todas as partições misturadas X1: partições puras se o corte for em < 6 ou > 5: Regra: se x1 > 5 então S; se x1 <= 5 então N Alternativa B https://t.me/kakashi_copiador [FIM]ÁRVORE DE DECISÃO Prof. Erick Muzart https://t.me/kakashi_copiador Exercício síntese 1 Prof. Erick Muzart https://t.me/kakashi_copiador Considere uma matriz de confusão de um modelo de classificação binária de relatórios financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos. Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do “tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas como: (A) Precision = 0.71. Recall = 0.83; (B) Precision = 0.83. Recall = 0.71; (C) Precision = 0.83. Recall = 0.90; (D) Precision = 0.90. Recall = 0.71; (E) Precision = 0.90. Recall = 0.83. Supervisionado ou não Prof. Erick Muzart FGV/CGU/2021 https://t.me/kakashi_copiador Considere uma matriz de confusão de um modelo de classificação binária de relatórios financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos. Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do “tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas como: (A) Precision = 0.71. Recall = 0.83; (B) Precision = 0.83. Recall = 0.71; (C) Precision = 0.83. Recall = 0.90; (D) Precision = 0.90. Recall = 0.71; (E) Precision = 0.90. Recall = 0.83. Supervisionado ou não Prof. Erick Muzart FGV/CGU/2021 valor previsto negativo positivo valor real negativo Verdadeiro Negativo Falso Positivo (Erro tipo I) positivo Falso Negativo (Erro tipo II) Verdadeiro Positivo https://t.me/kakashi_copiador Considere uma matriz de confusão de um modelo de classificação binária de relatórios financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos. Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do “tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas como: (A) Precision = 0.71. Recall = 0.83; (B) Precision = 0.83. Recall = 0.71; (C) Precision = 0.83. Recall = 0.90; (D) Precision = 0.90. Recall = 0.71; (E) Precision = 0.90. Recall = 0.83. Supervisionado ou não Prof. Erick Muzart FGV/CGU/2021 valor previsto negativo positivo valor real negativo 100 Verdadeiro Negativo 40 Falso Positivo (Erro tipo I) positivo 20 Falso Negativo (Erro tipo II) 200 Verdadeiro Positivo https://t.me/kakashi_copiador Considere uma matriz de confusão de um modelo de classificação binária de relatórios financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos. Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do “tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas como: Supervisionado ou não Prof. Erick Muzart FGV/CGU/2021 valor previsto negativo positivo valor real negati vo 100 Verdadeiro Negativo 40 Falso Positivo (Erro tipo I) positiv o 20 Falso Negativo (Erro tipo II) 200 Verdadeiro Positivo Sensibilidade (recall) = VP / (VP + FN) “proporção de positivos corretos” = 200/(200+20) = 200/220 ~ 91% Precisão = VP / (VP + FP) “proporçãode previsões positivas corretas” = 200 / (200+40) = 200/240 ~ 83% (C) Precision = 0.83. Recall = 0.90; https://t.me/kakashi_copiador Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. A - Algoritmos de associação. B - Algoritmos de clusterização. C - Árvores de decisão. D - Modelagem de dados. E - Regressão linear. Extras Prof. Erick Muzart FGV/Sefaz-ES/2021 https://t.me/kakashi_copiador Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. A - Algoritmos de associação. B - Algoritmos de clusterização. C - Árvores de decisão. D - Modelagem de dados. E - Regressão linear. Extras Prof. Erick Muzart FGV/Sefaz-ES/2021 https://t.me/kakashi_copiador Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. A - Algoritmos de associação. B - Algoritmos de clusterização. C - Árvores de decisão. D - Modelagem de dados. E - Regressão linear. Extras Prof. Erick Muzart FGV/Sefaz-ES/2021 https://t.me/kakashi_copiador Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. A - Algoritmos de associação. B - Algoritmos de clusterização. C - Árvores de decisão. D - Modelagem de dados. E - Regressão linear. Extras Prof. Erick Muzart FGV/Sefaz-ES/2021 O que precisaria ser modificado no enunciado para que a alternativa correta fosse cada uma das demais alternativas disponíveis? https://t.me/kakashi_copiador REDES NEURAIS Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Perceptron ❑ Múltiplas camadas (MLP) ❑ Redes Neurais Artificiais feed-forward ❑ Deep Learning Redes Neurais Prof. Erick Muzart Redes Neurais https://t.me/kakashi_copiador Redes Neurais Prof. Erick Muzart Perceptron https://t.me/kakashi_copiador ❑ Perceptrons conectados em múltiplas camadas (MLP) ❑ Unidades totalmente conectadas, entre camadas ❑ Feed-forward: • sinal sempre se propaga para frente • sem ciclos ❑ Deep Learning: múltiplas camadas escondidas • diversidade de arquiteturas de conexão ❑ Treinamento: • ajuste dos pesos por retro-propagação (back propagation)Redes Neurais Prof. Erick Muzart Múltiplas Camadas https://t.me/kakashi_copiador ❑ Deep Learning: muitas unidades em múltiplas camadas escondidas • diversidade de arquiteturas de conexão: convolutivas (CNN), recorrentes (RNN), LSTM (Long Short-Term Memory), etc. • em geral, o desempenho de um modelo aumenta com seu tamanho e quantidade de dados de treinamento ❑ Treinamento por ajuste dos pesos por retro-propagação: back propagation Redes Neurais Prof. Erick Muzart Múltiplas Camadas https://t.me/kakashi_copiador Função de ativação ❑ Tangente hiperbólica ❑ Sigmóide https://t.me/kakashi_copiador Redes Neurais Prof. Erick Muzart Função de ativação ❑ ReLU : Rectified Linear Unit f(x) = max(0, x) https://t.me/kakashi_copiador No contexto das redes neurais, é comum o uso da função sigmoid no papel de função de ativação. Assinale a definição correta dessa função na referida aplicação. Redes Neurais Prof. Erick Muzart FGV/Niterói-Seplag/2018 https://t.me/kakashi_copiador No contexto das redes neurais, é comum o uso da função sigmoid no papel de função de ativação. Assinale a definição correta dessa função na referida aplicação. Redes Neurais Prof. Erick Muzart FGV/Niterói-Seplag/2018 https://t.me/kakashi_copiador Analise a rede neural exibida a seguir. Sobre essa rede, analise as afirmativas a seguir. I. Não possui camadas intermediárias (hidden layers). II. Admite três sinais de entrada (input units) além do intercept term. III. É apropriada para aplicações de deep learning. Está correto o que se afirma em (A) I, apenas. (B) II, apenas. (C) III, apenas. (D) I e II, apenas. (E) I, II e III. Redes Neurais Prof. Erick Muzart FGV/Niterói-Seplag/2018 https://t.me/kakashi_copiador (C) ou (E): Cada unidade de uma rede neural artificial possui um valor e um peso, no seu nível mais básico, para indicar sua importância relativa. (C) ou (E): Redes neurais do tipo LSTM (long short-term memory) mantêm o nível de precisão independentemente do tamanho do modelo utilizado. Redes Neurais Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador (C) ou (E): Cada unidade de uma rede neural artificial possui um valor e um peso, no seu nível mais básico, para indicar sua importância relativa. (C) ou (E): Redes neurais do tipo LSTM (long short-term memory) mantêm o nível de precisão independentemente do tamanho do modelo utilizado. Redes Neurais Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 70 Uma RNA é formada por unidades que fazem operações a partir das entradas (sinais) recebidas pelas suas conexões; cada sinal é multiplicado por um peso e, após a soma ponderada dos sinais, caso o nível de atividade atinja o threshold, a unidade produz uma determinada resposta de saída. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 70 Uma RNA é formada por unidades que fazem operações a partir das entradas (sinais) recebidas pelas suas conexões; cada sinal é multiplicado por um peso e, após a soma ponderada dos sinais, caso o nível de atividade atinja o threshold, a unidade produz uma determinada resposta de saída. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 71 Em RNA formada unicamente de perceptron, uma pequena alteração nos pesos de um único perceptron na rede pode ocasionar grandes mudanças na saída desse perceptron; mesmo com a inserção das funções de ativação, não é possível controlar o nível da mudança, por isso, essas redes são voltadas para a resolução de problemas específicos, tais como regressão e previsão de séries temporais. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximositens, relativos a redes neurais artificiais (RNA). 71 Em RNA formada unicamente de perceptron, uma pequena alteração nos pesos de um único perceptron na rede pode ocasionar grandes mudanças na saída desse perceptron; mesmo com a inserção das funções de ativação, não é possível controlar o nível da mudança, por isso, essas redes são voltadas para a resolução de problemas específicos, tais como regressão e previsão de séries temporais. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 72 As funções de ativação são elementos importantes nas redes neurais artificiais; essas funções introduzem componente não linear nas redes neurais, fazendo que elas possam aprender mais do que relações lineares entre as variáveis dependentes e independentes, tornando-as capazes de modelar também relações não lineares. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 72 As funções de ativação são elementos importantes nas redes neurais artificiais; essas funções introduzem componente não linear nas redes neurais, fazendo que elas possam aprender mais do que relações lineares entre as variáveis dependentes e independentes, tornando-as capazes de modelar também relações não lineares. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 73 O algoritmo de backpropagation consiste das fases de propagação e de retro propagação: na primeira, as entradas são passadas através da rede e as previsões de saída são obtidas; na segunda, se calcula o termo de correção dos pesos e, por conseguinte, a atualização dos pesos. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Julgue os próximos itens, relativos a redes neurais artificiais (RNA). 73 O algoritmo de backpropagation consiste das fases de propagação e de retro propagação: na primeira, as entradas são passadas através da rede e as previsões de saída são obtidas; na segunda, se calcula o termo de correção dos pesos e, por conseguinte, a atualização dos pesos. Certo ou Errado? Redes Neurais Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1, x2). Essa rede aplica pesos w1 em x1, w2 em x2 e adiciona um viés w0. A função de ativação é dada pela função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e será utilizada para classificar observações em y=+1 ou y=-1. Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos: (A) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como -1 os pontos acima da reta; (B) (x1 = 1/2, x2 = 0) e (x1 = 0, x2 = 1/3) e classifica como +1 os pontos acima da reta; (C) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como +1 os pontos acima da reta; (D) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = 1/3) e classifica como +1 os pontos acima da reta; (E) (x1 = 1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como -1 os pontos acima da reta. Redes Neurais Prof. Erick Muzart FGV/TCU/2021 https://t.me/kakashi_copiador Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1, x2). Essa rede aplica pesos w1 em x1, w2 em x2 e adiciona um viés w0. A função de ativação é dada pela função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e será utilizada para classificar observações em y=+1 ou y=-1. Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos: Redes Neurais Prof. Erick Muzart FGV/TCU/2021 Descrição dos parâmetros da rede neural (perceptron: única unidade) A saída z do perceptron é a combinação linear das entradas xi multiplicadas pelos pesos wi: z = 2x1 + 3x2 + 1 https://t.me/kakashi_copiador Para determinar as condições para que z seja positivo ou negativo, identificamos quando é igual a zero: 2x1 +3x2 + 1 = 0 A equação define uma reta entre x1 e x2. Verifica-se que os seguintes pontos encontram-se na reta: (-1/2, 0) e (0, -1/3). Quaisquer pontos (x1, x2) “acima” da reta resultarão em z > 0 ou y=+1 (C) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como +1 os pontos acima da reta; Redes Neurais Prof. Erick Muzart FGV/TCU/2021 https://t.me/kakashi_copiador NAIVE BAYES Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Imagine que você queira adivinhar se determinada pessoa é um homem ou uma mulher, por meio de perguntas sobre essa pessoa ❑ Inicialmente, sem nenhuma informação disponível pode considerar que a probabilidade de ser uma mulher é de 50% (ou algum outro ponto de partida em função do seu conhecimento da composição do grupo) ❑ Em seguida, imagine perguntas sobre características que sejam mais informativas: altura, peso, comprimento de cabelo, idade, escolaridade, força, etc. ❑ Cada informação obtida pode afetar a probabilidade estimada até então. Mas como e quanto? Depende da frequência relativa dessa característica entre os grupos de homens e de mulheres... Naive Bayes Prof. Erick Muzart Naive Bayes https://t.me/kakashi_copiador ❑ Classificador probabilístico baseado no teorema de Bayes, com hipótese forte (ingênua) de independência entre seus atributos (variáveis) ❑ Teorema de Bayes: P(A|B) = P(B|A) * P(A) / P(B) P(A|B) : a probabilidade condicional de A dado B Posterior = prévia * verossimilhança / evidência ❑ Cada nova informação sobre um objeto altera a probabilidade de que ele seja de alguma classe; essas alterações de probabilidade refletem frequências de ocorrências dos atributos nos dados de treinamento e hipótese sobre a sua distribuição de valores (normal, multinomial, Bernoulli) ❑ Rápido e escalável, funciona bem tanto com poucos ou com muitos dados. Muito utilizado em filtro de spam e PLNNaive Bayes Prof. Erick Muzart Naive Bayes https://t.me/kakashi_copiador Um cientista de dados deve utilizar uma técnica de mineração de dados que não usa regras ou árvore de decisão ou qualquer outra representação explícita do classificador, mas que usa o ramo da matemática conhecido como teoria das probabilidades para encontrar a mais provável das possíveis classificações. Sabendo disso, assinale a alternativa que apresenta corretamente o nome da técnica a ser utilizada pelo cientista de dados. A - Regras de decisão. B - Árvore binária. C - Entropia. D - Classificação Naive Bayes. E - Agrupamento. Naive Bayes Prof. Erick Muzart AOCP/MJSP/2020 https://t.me/kakashi_copiador Um cientista de dados deve utilizar uma técnica de mineração de dados que não usa regras ou árvore de decisão ou qualquer outra representação explícita do classificador, mas que usa o ramo da matemática conhecido como teoria das probabilidades para encontrar a mais provável das possíveis classificações. Sabendo disso, assinale a alternativa que apresenta corretamente o nome da técnica a ser utilizada pelo cientista de dados. A - Regras de decisão. B - Árvore binária. C - Entropia. D - Classificação Naive Bayes. E - Agrupamento. Naive Bayes Prof. Erick Muzart AOCP/MJSP/2020 https://t.me/kakashi_copiador (C) ou (E): A classificação Naive Bayes parte da suposição de que as variáveis envolvidas em machine learning são independentes entre si. Naive Bayes Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador (C) ou (E): A classificação Naive Bayes parte da suposição de que as variáveis envolvidas em machine learning são independentes entre si. Naive Bayes Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador A = “Eu gostei do livro, apesar do livroser longo” – positiva; B = “Esse livro é muito legal” – positiva; C = “Eu não gostei do livro, não gosto muito desse autor” – negativa. Para calcular as probabilidades de uma sentença ser positiva e de uma determinada palavra aparecer na sentença, dado que a sentença é positiva, em Aprendizado de Máquinas, pode-se usar o Naive Bayes. Com a utilização dessa técnica, e com base nos dados das três sentenças acima, os valores das estimativas de máxima verossimilhança de P(positiva) e P(livro|positiva) são, respectivamente: (A) 1/3 e 1/2; (B) 1/3 e 3/14; (C) 2/3 e 3/14; (D) 2/3 e 1/2; (E) 2/3 e 2/3. Naive Bayes Prof. Erick Muzart FGV/CGU/2021 https://t.me/kakashi_copiador A = “Eu gostei do livro, apesar do livro ser longo” – positiva; B = “Esse livro é muito legal” – positiva; C = “Eu não gostei do livro, não gosto muito desse autor” – negativa. Para calcular as probabilidades de uma sentença ser positiva e de uma determinada palavra aparecer na sentença, dado que a sentença é positiva, em Aprendizado de Máquinas, pode-se usar o Naive Bayes. Com a utilização dessa técnica, e com base nos dados das três sentenças acima, os valores das estimativas de máxima verossimilhança de P(positiva) e P(livro|positiva) são, respectivamente: (A) 1/3 e 1/2; (B) 1/3 e 3/14; (C) 2/3 e 3/14; (D) 2/3 e 1/2; (E) 2/3 e 2/3. Naive Bayes Prof. Erick Muzart FGV/CGU/2021 P(positiva) = Número sentenças positivas / Número total sentenças = 2 / 3 P(livro | positiva) = Número ocorrências “livro” nas sentenças positivas / Número de palavras nas sentenças positivas = 3 / 14 https://t.me/kakashi_copiador OBRIGADO Prof. Erick Muzart https://t.me/kakashi_copiador https://t.me/kakashi_copiador