Baixe o app para aproveitar ainda mais
Prévia do material em texto
Dominando Data Science e Machine Learning: Um Guia Completo com Cheatsheet de Algoritmos de <A a Z/> Com CertificadoGratuitoOnlineoriginal Sumário Por Aprendizado Por Categoria de Aplicação/Finalidade 3 3 5 7 7 8 9 10 11 Aprendizado Supervisionado Aprendizado Não Supervisionado Ensemble Learning Modelos Explicativos Agrupamento Redução de Dimensionalidade Por Similaridade Introdução Olá, seja bem-vindo(a)! O Data Science é uma área da tecnologia que usa técnicas, algoritmos, processos e sistemas para extrair conhecimento e insights de dados estruturados e não estruturados. Por conta disso, é muito importante dominar os métodos de machine learning, que se concentra no desenvolvimento de modelos que permitem que sistemas computacionais apren- dam e melhorem o desempenho em tarefas específicas com base em dados, sem serem explicitamente programados. Com a variedade de algoritmos que existem — e com muitas finalidades para as quais eles podem ser utilizados —, é importante entender o funcionamento de cada método para saber qual aplicar em cada momento. Para ajudar você, desenvolvemos um guia completo com os algoritmos mais importantes e a principal aplicação de cada um deles. Guarde esse cheatsheet para uso no futuro. Boa leitura! O Por Aprendizado Quando um modelo ou sistema computacional sente a necessidade de melhorar sua capacidade de desempenhar uma tarefa específica, ele passa pelo processo conhecido como aprendizagem. À medida que é alimentado com mais dados e informações, os algoritmos aprendem com a experiência e ajustam seu comportamento com base no que foi fornecido. Os algoritmos irão variar de acordo com o tipo de aprendizagem que será aplicado. Q 3 Neste tipo de aprendizado, o algoritmo é treinado em um conjunto de dados que inclui entradas e as respostas desejadas associadas a essas entradas. O objetivo é aprender uma função que possa mapear as entradas para as saídas corretas. Aprendizado Supervisionado Regressão Linear Regressão Logística Regressão Ridge Regressão Lasso Árvores de Decisão 4 Regressão Linear Regressão Logística Regressão Ridge O QUE É É um método estatístico que modela a relação entre uma variável de saída (ou resposta) contínua e uma ou mais variáveis de entrada (ou preditoras) em uma forma linear, ou seja, uma reta ou um plano. Algoritmo que modela a probabilidade de uma variável binária ou categórica dependente com base em uma ou mais variáveis independentes. Técnica de regressão linear que adiciona uma penalidade à função de custo para evitar coeficientes de regressão muito grandes, o que ajuda a evitar o overfitting (ajuste excessivo). É comumente usado para prever ou explicar relações entre variáveis. Por exemplo, pode ser usado para prever o preço de uma casa com base em seus recursos, como número de quartos, área, localização, etc. Seu maior uso se concentra na classificação binária, como prever se um e-mail é spam ou não, mas também é aplicado em problemas de classificação multiclasse. É usado quando há multicolinearidade (correlação alta entre variáveis independentes) nos dados ou quando se deseja regularizar o modelo de regressão linear. PARA QUE SERVEALGORITMO 5 Nesse tipo de aprendizado, o algoritmo é treinado em um conjunto de dados sem rótulos ou respostas conhecidas. O objetivo é identificar estruturas, padrões ou agrupamentos nos dados. Aprendizado Não Supervisionado K-Means Agrupamento Hierárquico Árvores de Decisão ALGORITMO Regressão Lasso O QUE É Modelos que dividem os dados em ramificações com base em regras de decisão, criando uma estrutura de árvore onde cada nó representa uma decisão ou um teste em uma característica. A a regressão Lasso (Least Absolute Shrinkage and Selection Operator) é semelhante à regressão Ridge, mas usa uma penalização diferente que tende a zerar alguns coeficientes, fazendo uma seleção de recursos automática. PARA QUE SERVE São usadas para classificação e regressão, já que são fáceis de entender e interpretar. Também podem ser usadas em problemas de machine learning onde a interpretabilidade é importante. É útil para seleção de características (eliminação de características menos importantes) e também para evitar o overfitting. N 6 O QUE É Um algoritmo que agrupa pontos de dados em clusters com base na semelhança entre eles. O objetivo do K-Means é encontrar grupos que sejam homogêneos internamente e diferentes entre si. Algoritmo que em vez de criar clusters específicos, constrói uma hierarquia entre eles, de modo que sejam aninhados em outros clusters maiores. PARA QUE SERVE Segmentar clientes com base em comportamentos de compra semelhantes, recomendação de produtos com características similares, segmentar uma imagem em regiões com cores parecidas, agrupar dados com base em atributos observados, reunião de documentos com temáticas relacionadas, entre outros. Detecção de padrões de fraudes, agrupamento de documentos com conteúdo semelhante e facilitar a recuperação de informações, criação de árvores taxonômicas de espécies com base em características genéticas e morfológicas, agrupamento de genomas, segmentação de mercado, etc. K-Means Agrupamento Hierárquico ALGORITMO E 7 Por categoria de Aplicação/ Finalidade Em alguns casos, para facilitar a compreensão e o uso desses algoritmos, eles são agrupados em categorias com base em suas finalidades e aplicações específicas. Afinal, existem alguns contextos que requerem a utilização de determinadas técnicas de construção algorítmica. São elas: XGBoost Extreme Gradient Boosting é baseado em árvores e conhecido por sua eficácia em competições de ciência de dados. LightGBM Outro algoritmo de boosting baseado em árvores, sendo otimizado para eficiência e velocidade. CatBoost Llida bem com variáveis categóricas, o que é útil em muitos cenários do mundo real. Os algoritmos encontrados para essa finalidade são: Random Forests Combina várias árvores de decisão para melhorar o desempenho de classificação ou regressão. Finalidade Melhorar o desempenho preditivo, reduzir o overfitting e aumentar a estabilidade dos modelos. Ensemble Learning é uma técnica que envolve a combinação de vários modelos individuais (geralmente do mesmo tipo) para criar uma versão mais robusta e precisa, superando as limitações de qualquer modelo único. O resultado acaba sendo mais estável e com menor probabilidade de overfitting. Ensemble Learning 8 XGBoost Extreme Gradient Boosting é baseado em árvores e conhecido por sua eficácia em competições de ciência de dados. LightGBM Outro algoritmo de boosting baseado em árvores, sendo otimizado para eficiência e velocidade. CatBoost Llida bem com variáveis categóricas, o que é útil em muitos cenários do mundo real. Os algoritmos encontrados para essa finalidade são: Random Forests Combina várias árvores de decisão para melhorar o desempenho de classificação ou regressão. Modelos Explicativos são usados quando a interpretabilidade do modelo é importante. Eles ajudam a entender como são tomadas as decisões, o que pode ser crucial em áreas como finanças, medicina e direito. Modelos Explicativos Finalidade Tornar os modelos mais interpretáveis e explicar o raciocínio por trás das previsões. Os algoritmos são: Regressão Linear Combina várias árvores de decisão para melhorar o desempenho de classificação ou regressão. M 9 Regressão Logística Para classificação binária e multiclasse, onde o objetivo é prever probabilidades de classes. SHAP SHapley Additive exPlanations explica as previsões de modelos de machine learning, tornando o modelo mais interpretável. LIME Local Interpretable Model-agnostic Explanations é usado para explicar as previsões de modelos de machine learning. Os algoritmos de agrupamento são usados para encontrar padrões e estruturas nos dados, agrupando pontossemelhantes em clusters, o que é importante para a segmentação de informações e a organização de elementos não rotulados. Agrupamento Finalidade Identificar grupos naturais e desconhecidos em um conjunto de dados, com base na similaridade entre os pontos de dados. Os principais algoritmos utilizados nessa categoria são: K-Means Divide dados em clusters com base na similaridade dos pontos. O 10 Agrupamento Hierárquico Cria uma hierarquia de clusters, onde os clusters são aninhados em outros clusters maiores. É importante para diminuir a quantidade de variáveis ou recursos (dimensões) em um conjunto de dados, preservando o máximo de informações relevantes. Isso é feito para simplificar a análise de dados, acelerar o treinamento de modelos e melhorar o desempenho de algoritmos, especialmente quando se lida com dados de alta dimensionalidade. Redução de Dimensionalidade Finalidade Reduzir a dimensionalidade de conjuntos de dados, mantendo as informações relevantes. Conheça os algoritmos usados para essa finalidade: PCA (Principal Component Analysis) Uma técnica que reduz a dimensionalidade dos dados, mantendo as principais informações.dimensionalidade enquanto maximiza a separação entre classes em problemas. LDA (Linear Discriminant Analysis) Usado para reduzir a dimensionalidade enquanto maximiza a separação entre classes. É 11 Algoritmos e métricas de similaridade são usados para medir a proximidade entre dados e objetos. Isso é importante na construção de sistemas de recomendação (usando o KNN), processamento de linguagem natural (usando medidas de similaridade de texto) e reconhecimento de padrões. Por Similaridade Finalidade Medir a semelhança ou distância entre objetos ou pontos de dados. São eles: KNN (K-Nearest Neighbors) Faz previsões com base nas classes dos vizinhos mais próximos em um espaço de características. Distância Euclidiana Métrica comum de distância usada para medir a proximidade entre pontos em espaços euclidianos. Similaridade de Cosseno Utilizada para a medição de similaridade entre vetores, com base no ângulo entre eles. Distância de Levenshtein Mede a diferença entre duas strings calculando o número mínimo de operações necessárias para convertê-las em iguais. Similaridade de Jaro-Winkler Métrica de similaridade de strings que considera os caracteres comuns no início da string e penaliza diferenças posteriores. SVD (Singular Value Decomposition) Redução de dimensionalidade e análise de fatores latentes em dados multidimensionais. A 12 São eles: KNN (K-Nearest Neighbors) Faz previsões com base nas classes dos vizinhos mais próximos em um espaço de características. Distância Euclidiana Métrica comum de distância usada para medir a proximidade entre pontos em espaços euclidianos. Similaridade de Cosseno Utilizada para a medição de similaridade entre vetores, com base no ângulo entre eles. Distância de Levenshtein Mede a diferença entre duas strings calculando o número mínimo de operações necessárias para convertê-las em iguais. Similaridade de Jaro-Winkler Métrica de similaridade de strings que considera os caracteres comuns no início da string e penaliza diferenças posteriores. SVD (Singular Value Decomposition) Redução de dimensionalidade e análise de fatores latentes em dados multidimensionais. 14 A Conheça a XP Educação e seja um especialista em Data Science A XP Educação é uma iniciativa que reúne o IGTI, premiada instituição por sua excelência no campo da tecnologia, e a Xpeed, a prestigiada escola financeira da XP Inc. Essa união representa a integração única entre o mundo acadêmico e o mercado, com o objetivo de revolucionar o modelo tradicional de ensino tanto nas áreas de tecnologia como na de finanças. Nosso diferencial é trazer experts que atuam ativamente no mercado de trabalho e conseguem trazer a prática e a perspectiva profissional para as aulas. Aqui, você aprende com quem faz! Este é o seu caminho para se tornar um programador altamente qualificado com a chancela da XP Educação! Descubra nossa Pós-Graduação em Data Science & Machine Learning e esteja pronto para embarcar em uma carreira promissora. Com CertificadoGratuitoOnlineoriginal xpeducacao.com.br https://www.xpeducacao.com.br https://blog.xpeducacao.com.br https://www.facebook.com/xpeducacaooficial https://www.linkedin.com/school/xpeducacao https://www.instagram.com/xpeducacao https://www.youtube.com/c/xpeducacaooficial
Compartilhar