Ebook-Data-Science-e-Machine-Learning

Estrutura de Dados I

•

ESTÁCIO EAD

0

Wellington Souza

09/11/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estrutura de Dados I

23.829 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Dominando Data Science
e Machine Learning:
Um Guia Completo com Cheatsheet
de Algoritmos de <A a Z/>
Com CertificadoGratuitoOnlineoriginal
Sumário
Por Aprendizado
Por Categoria de Aplicação/Finalidade
3
3
5
7
7
8
9
10
11
Aprendizado Supervisionado
Aprendizado Não Supervisionado 
Ensemble Learning
Modelos Explicativos
Agrupamento
Redução de Dimensionalidade
Por Similaridade
Introdução
Olá, seja bem-vindo(a)!
O Data Science é uma área da tecnologia que usa técnicas, 
algoritmos, processos e sistemas para extrair conhecimento 
e insights de dados estruturados e não estruturados. 
Por conta disso, é muito importante dominar os métodos de 
machine learning, que se concentra no desenvolvimento de 
modelos que permitem que sistemas computacionais apren-
dam e melhorem o desempenho em tarefas específicas com 
base em dados, sem serem explicitamente programados.
Com a variedade de algoritmos que existem — e com muitas 
finalidades para as quais eles podem ser utilizados —, é 
importante entender o funcionamento de cada método para 
saber qual aplicar em cada momento.
Para ajudar você, desenvolvemos um guia completo com os 
algoritmos mais importantes e a principal aplicação de cada 
um deles.
Guarde esse cheatsheet para uso no futuro.
Boa leitura!
O
Por Aprendizado
Quando um modelo ou sistema computacional sente a 
necessidade de melhorar sua capacidade de desempenhar 
uma tarefa específica, ele passa pelo processo conhecido 
como aprendizagem. 
À medida que é alimentado com mais dados e informações, 
os algoritmos aprendem com a experiência e ajustam seu 
comportamento com base no que foi fornecido.
Os algoritmos irão variar de acordo com o tipo de 
aprendizagem que será aplicado.
Q
3
Neste tipo de aprendizado, o algoritmo é treinado em um 
conjunto de dados que inclui entradas e as respostas desejadas 
associadas a essas entradas. O objetivo é aprender uma função 
que possa mapear as entradas para as saídas corretas. 
Aprendizado Supervisionado
Regressão Linear Regressão Logística
Regressão Ridge Regressão Lasso
Árvores de Decisão
4
Regressão 
Linear
Regressão 
Logística
Regressão 
Ridge
O QUE É
É um método estatístico 
que modela a relação 
entre uma variável de 
saída (ou resposta) 
contínua e uma ou mais 
variáveis de entrada (ou 
preditoras) em uma forma 
linear, ou seja, uma reta 
ou um plano.
Algoritmo que modela a 
probabilidade de uma 
variável binária ou 
categórica dependente 
com base em uma ou 
mais variáveis 
independentes.
Técnica de regressão 
linear que adiciona uma 
penalidade à função de 
custo para evitar 
coeficientes de regressão 
muito grandes, o que 
ajuda a evitar o 
overfitting (ajuste 
excessivo).
É comumente usado para 
prever ou explicar 
relações entre variáveis. 
Por exemplo, pode ser 
usado para prever o preço 
de uma casa com base 
em seus recursos, como 
número de quartos, área, 
localização, etc.
Seu maior uso se 
concentra na 
classificação binária, 
como prever se um e-mail 
é spam ou não, mas 
também é aplicado em 
problemas de 
classificação multiclasse.
É usado quando há 
multicolinearidade 
(correlação alta entre 
variáveis independentes) 
nos dados ou quando se 
deseja regularizar o 
modelo de regressão 
linear.
PARA QUE SERVEALGORITMO
5
Nesse tipo de aprendizado, o algoritmo é treinado em um 
conjunto de dados sem rótulos ou respostas conhecidas. O 
objetivo é identificar estruturas, padrões ou agrupamentos
nos dados. 
Aprendizado Não Supervisionado 
K-Means Agrupamento Hierárquico
Árvores de
Decisão
ALGORITMO
Regressão 
Lasso
O QUE É
Modelos que dividem os 
dados em ramificações 
com base em regras de 
decisão, criando uma 
estrutura de árvore onde 
cada nó representa uma 
decisão ou um teste em 
uma característica.
A a regressão Lasso 
(Least Absolute 
Shrinkage and Selection 
Operator) é semelhante à 
regressão Ridge, mas usa 
uma penalização 
diferente que tende a 
zerar alguns coeficientes, 
fazendo uma seleção de 
recursos automática.
PARA QUE SERVE
São usadas para 
classificação e regressão, 
já que são fáceis de 
entender e interpretar. 
Também podem ser 
usadas em problemas de 
machine learning onde a 
interpretabilidade é 
importante.
É útil para seleção de 
características 
(eliminação de 
características menos 
importantes) e também 
para evitar o overfitting.
N
6
O QUE É
Um algoritmo que agrupa 
pontos de dados em 
clusters com base na 
semelhança entre eles. O 
objetivo do K-Means é 
encontrar grupos que 
sejam homogêneos 
internamente e 
diferentes entre si.
Algoritmo que em vez de 
criar clusters específicos, 
constrói uma hierarquia 
entre eles, de modo que 
sejam aninhados em 
outros clusters maiores.
PARA QUE SERVE
Segmentar clientes com 
base em comportamentos 
de compra semelhantes, 
recomendação de 
produtos com 
características similares, 
segmentar uma imagem 
em regiões com cores 
parecidas, agrupar dados 
com base em atributos 
observados, reunião de 
documentos com 
temáticas relacionadas, 
entre outros.
Detecção de padrões de 
fraudes, agrupamento de 
documentos com 
conteúdo semelhante e 
facilitar a recuperação de 
informações, criação de 
árvores taxonômicas de 
espécies com base em 
características genéticas 
e morfológicas, 
agrupamento de 
genomas, segmentação 
de mercado, etc.
K-Means
Agrupamento
Hierárquico
ALGORITMO
E
7
Por categoria de Aplicação/
Finalidade
Em alguns casos, para facilitar a compreensão e o uso desses 
algoritmos, eles são agrupados em categorias com base em suas 
finalidades e aplicações específicas. Afinal, existem alguns 
contextos que requerem a utilização de determinadas técnicas 
de construção algorítmica.
São elas:
XGBoost
Extreme Gradient Boosting é baseado em árvores e conhecido 
por sua eficácia em competições de ciência de dados.
LightGBM
Outro algoritmo de boosting baseado em árvores, sendo 
otimizado para eficiência e velocidade.
CatBoost
Llida bem com variáveis categóricas, o que é útil em muitos 
cenários do mundo real.
Os algoritmos encontrados para essa finalidade são:
Random Forests 
Combina várias árvores de decisão para melhorar o desempenho 
de classificação ou regressão.
Finalidade
Melhorar o desempenho preditivo, reduzir o overfitting
e aumentar a estabilidade dos modelos.
Ensemble Learning é uma técnica que envolve a combinação de 
vários modelos individuais (geralmente do mesmo tipo) para 
criar uma versão mais robusta e precisa, superando as limitações 
de qualquer modelo único. O resultado acaba sendo mais estável 
e com menor probabilidade de overfitting.
Ensemble Learning
8
XGBoost
Extreme Gradient Boosting é baseado em árvores e conhecido 
por sua eficácia em competições de ciência de dados.
LightGBM
Outro algoritmo de boosting baseado em árvores, sendo 
otimizado para eficiência e velocidade.
CatBoost
Llida bem com variáveis categóricas, o que é útil em muitos 
cenários do mundo real.
Os algoritmos encontrados para essa finalidade são:
Random Forests 
Combina várias árvores de decisão para melhorar o desempenho 
de classificação ou regressão.
Modelos Explicativos são usados quando a interpretabilidade do 
modelo é importante. Eles ajudam a entender como são tomadas 
as decisões, o que pode ser crucial em áreas como finanças, 
medicina e direito. 
Modelos Explicativos
Finalidade
Tornar os modelos mais interpretáveis e explicar o raciocínio
por trás das previsões.
Os algoritmos são:
Regressão Linear 
Combina várias árvores de decisão para melhorar o desempenho 
de classificação ou regressão.
M
9
Regressão Logística 
Para classificação binária e multiclasse, onde o objetivo é 
prever probabilidades de classes.
SHAP
SHapley Additive exPlanations explica as previsões de 
modelos de machine learning, tornando o modelo mais 
interpretável.
LIME
Local Interpretable Model-agnostic Explanations é usado 
para explicar as previsões de modelos de machine learning.
Os algoritmos de agrupamento são usados para encontrar 
padrões e estruturas nos dados, agrupando pontossemelhantes 
em clusters, o que é importante para a segmentação de 
informações e a organização de elementos não rotulados. 
Agrupamento
Finalidade
Identificar grupos naturais e desconhecidos em um conjunto de 
dados, com base na similaridade entre os pontos de dados.
Os principais algoritmos utilizados nessa categoria são:
K-Means
Divide dados em clusters com base na similaridade dos 
pontos.
O
10
Agrupamento Hierárquico
Cria uma hierarquia de clusters, onde os clusters são 
aninhados em outros clusters maiores.
É importante para diminuir a quantidade de variáveis ou recursos 
(dimensões) em um conjunto de dados, preservando o máximo 
de informações relevantes. Isso é feito para simplificar a análise 
de dados, acelerar o treinamento de modelos e melhorar o 
desempenho de algoritmos, especialmente quando se lida com 
dados de alta dimensionalidade. 
Redução de Dimensionalidade
Finalidade
Reduzir a dimensionalidade de conjuntos de dados, mantendo
as informações relevantes.
Conheça os algoritmos usados para essa finalidade:
PCA (Principal Component Analysis)
Uma técnica que reduz a dimensionalidade dos dados, mantendo 
as principais informações.dimensionalidade enquanto maximiza 
a separação entre classes em problemas.
LDA (Linear Discriminant Analysis)
Usado para reduzir a dimensionalidade enquanto maximiza a 
separação entre classes.
É
11
Algoritmos e métricas de similaridade são usados para medir a 
proximidade entre dados e objetos. Isso é importante na 
construção de sistemas de recomendação (usando o KNN), 
processamento de linguagem natural (usando medidas de 
similaridade de texto) e reconhecimento de padrões.
Por Similaridade
Finalidade
Medir a semelhança ou distância entre objetos ou pontos
de dados.
São eles:
KNN (K-Nearest Neighbors)
Faz previsões com base nas classes dos vizinhos mais próximos 
em um espaço de características.
Distância Euclidiana
Métrica comum de distância usada para medir a proximidade 
entre pontos em espaços euclidianos.
Similaridade de Cosseno
Utilizada para a medição de similaridade entre vetores, com base 
no ângulo entre eles.
Distância de Levenshtein
Mede a diferença entre duas strings calculando o número 
mínimo de operações necessárias para convertê-las em
iguais.
Similaridade de Jaro-Winkler
Métrica de similaridade de strings que considera os caracteres 
comuns no início da string e penaliza diferenças posteriores.
SVD (Singular Value Decomposition)
Redução de dimensionalidade e análise de fatores latentes em 
dados multidimensionais.
A
12
São eles:
KNN (K-Nearest Neighbors)
Faz previsões com base nas classes dos vizinhos mais próximos 
em um espaço de características.
Distância Euclidiana
Métrica comum de distância usada para medir a proximidade 
entre pontos em espaços euclidianos.
Similaridade de Cosseno
Utilizada para a medição de similaridade entre vetores, com base 
no ângulo entre eles.
Distância de Levenshtein
Mede a diferença entre duas strings calculando o número 
mínimo de operações necessárias para convertê-las em
iguais.
Similaridade de Jaro-Winkler
Métrica de similaridade de strings que considera os caracteres 
comuns no início da string e penaliza diferenças posteriores.
SVD (Singular Value Decomposition)
Redução de dimensionalidade e análise de fatores latentes em 
dados multidimensionais.
14
A
Conheça a XP Educação e seja um 
especialista em Data Science
A XP Educação é uma iniciativa que reúne o IGTI, premiada 
instituição por sua excelência no campo da tecnologia, e a 
Xpeed, a prestigiada escola financeira da XP Inc. Essa união 
representa a integração única entre o mundo acadêmico e o 
mercado, com o objetivo de revolucionar o modelo 
tradicional de ensino tanto nas áreas de tecnologia como 
na de finanças.
Nosso diferencial é trazer experts que atuam ativamente no 
mercado de trabalho e conseguem trazer a prática e a 
perspectiva profissional para as aulas. Aqui, você aprende 
com quem faz!
Este é o seu caminho para se tornar um programador 
altamente qualificado com a chancela da XP Educação! 
Descubra nossa Pós-Graduação em Data Science & Machine 
Learning e esteja pronto para embarcar em uma carreira 
promissora.
Com CertificadoGratuitoOnlineoriginal
xpeducacao.com.br
https://www.xpeducacao.com.br
https://blog.xpeducacao.com.br
https://www.facebook.com/xpeducacaooficial
https://www.linkedin.com/school/xpeducacao
https://www.instagram.com/xpeducacao
https://www.youtube.com/c/xpeducacaooficial