Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Resumo A2  II  resumo chat 1
Resumo A2 - II - resumo chat
AULA 1 part II - Resumido pelo ChatGPT
1. Introdução à Ciência de Dados
A ciência de dados é apresentada como a disciplina responsável por transformar, validar, analisar e gerar 
conhecimento a partir de grandes volumes de dados. Seu objetivo é extrair insights valiosos, muitas vezes de 
conjuntos de dados enormes Big Data), onde abordagens estatísticas tradicionais não são suficientes.
2. Metodologia CRISP-DM
O CRISPDM é um modelo amplamente utilizado para guiar o processo de mineração de dados, descrito em seis 
fases principais:
1. Entendimento do Negócio
Define o problema a ser resolvido, os objetivos do projeto, os stakeholders envolvidos, os requisitos de 
negócio e a composição do time de ciência de dados.
Perguntas-chave incluem: “Qual é o objetivo?ˮ e “Qual problema se deseja resolver?ˮ
A obtenção de suporte das partes interessadas é essencial para garantir a direção correta do projeto.
2. Entendimento dos Dados
Envolve a coleta e compreensão dos dados que serão utilizados.
Inclui perguntas sobre os formatos de dados (estruturados, semi-estruturados, não estruturados), fontes 
dos dados (localmente, nuvem, data warehouse) e se é necessária alguma transformação ou 
padronização.
A visualização dos dados, através de gráficos como histogramas e scatterplots, é fundamental para 
entender a distribuição e correlações dos dados.
3. Preparação dos Dados
Foco na qualidade dos dados: detectar e tratar dados ausentes, duplicados, ruidosos e despadronizados.
Técnicas de feature engineering (engenharia de atributos) são usadas para criar novas variáveis, 
normalizar dados ou converter variáveis categóricas em numéricas, especialmente para aprendizado de 
máquina.
Mineração de texto também pode ser aplicada em dados não estruturados, usando técnicas como 
tokenização e remoção de stop words.
4. Modelagem dos Dados
Escolha de técnicas analíticas baseadas nas perguntas que precisam ser respondidas:
Descritiva Mostra o estado atual.
Diagnóstica Explica por que algo está acontecendo.
Preditiva Estima o que acontecerá com base em tendências atuais.
Prescritiva Sugere ações para resolver problemas.
Modelos de aprendizado de máquina (machine learning) são fundamentais aqui, e incluem dividir os dados 
em conjuntos de treino 70% e teste 30%.
5. Avaliação do Modelo
O desempenho do modelo é medido para determinar se atende aos objetivos estabelecidos.
Métricas como R², erro absoluto médio, precisão e recall são utilizadas, dependendo do tipo de 
modelagem (regressão, classificação ou clusterização).
Resumo A2  II  resumo chat 2
6. Implantação
Uma vez que o modelo é considerado adequado, ele é implantado e começa a ser utilizado em produção.
Feedback contínuo é necessário para fazer ajustes e otimizar o modelo conforme necessário.
AULA 2 - Resumido pelo ChatGPT
1. Ciência de Dados
A ciência de dados combina disciplinas como matemática, estatística e ciência da computação para gerar 
conhecimento a partir de dados brutos.
É uma área interdisciplinar, usada para extrair informações e insights de grandes volumes de dados.
Dados, Informação e Conhecimento
Dados são elementos brutos, enquanto informação é o dado contextualizado.
O conhecimento resulta da interpretação da informação, que possibilita tomadas de decisão.
2. Ciclo de Vida do Data Science
O ciclo de vida do Data Science segue o modelo da Microsoft, que inclui as seguintes etapas:
Compreensão do Negócio Definir o objetivo do projeto e identificar fontes de dados.
Aquisição e Entendimento dos Dados Limpeza e preparação dos dados.
Modelagem Escolher um algoritmo e treinar o modelo.
Implantação Colocar o modelo em produção.
Aceitação pelo Cliente Validar o sistema com o cliente e finalizar o projeto.
3. Big Data e Machine Learning
Big Data se refere ao conjunto massivo de dados gerados continuamente, exigindo ferramentas 
especializadas para análise.
Resumo A2  II  resumo chat 3
Machine Learning Aprendizado de Máquina): Algoritmos que identificam padrões e realizam previsões com 
base em dados.
Tipos de Aprendizado de Máquina
Supervisionado Modelos que aprendem a partir de dados rotulados para fazer previsões.
Não supervisionado Agrupam dados por similaridade sem rótulos.
Mineração de Dados Aplicação de algoritmos para descobrir padrões em grandes volumes de dados.
4. Mineração de Dados
Processo de explorar grandes quantidades de dados para identificar padrões e relacionamentos úteis.
Está na intersecção de áreas como estatística, inteligência artificial e aprendizado de máquina.
Aprendizado de Máquina trata de algoritmos que buscam reconhecer padrões em dados. 
Já mineração de dados é a aplicação desses algoritmos em grandes conjuntos de dados em busca de 
informação e conhecimento.
Resumo A2  II  resumo chat 4
5. Algoritmos e Tecnologias Usadas
Algoritmos populares em aprendizado de máquina incluem aqueles usados para regressão, classificação e 
agrupamento.
Frameworks e Tecnologias como Hadoop e Spark são comumente usados para Big Data, enquanto 
TensorFlow e Keras são populares em aprendizado profundo Deep Learning).
6. Carreira em Ciência de Dados
Novos cargos estão surgindo na área, como cientista de dados, engenheiro de dados, e especialista em 
inteligência artificial.
Habilidades necessárias incluem estatística, programação, e conhecimento em algoritmos de aprendizado de 
máquina.
DADOS E DATASETS
Representados por planilhas, tabelas de banco de dados, podendo conter diversas linhas e colunas.
Quando estamos aprendendo Machine Learning necessitamos de datasets para treinar nossos modelos.
Resumo A2  II  resumo chat 5
Seguem algumas fontes de datasets abertos:
 Segurança Público do Estado de São Paulo;
 IBGE;
 Kaggle;
 Amazon;
 UCI Machine Learning Repository;
 Google;
 Microsoft
MACHINE LEARNING - TIPOS DE DADOS E DADOS DE TREINAMENTO
Um sistema de aprendizado de máquina requer um conjunto de dados de treinamento para aprender, a partir 
desses dados e com base no padrão encontrado classificar novos dados ainda não observados em uma base 
de testes.
Geralmente reserva-se 70% dos dados para treino e 30% para teste.
Deve ser feita a definição dos tipos dos dados:
✓ quantitativos (numéricos), ou
✓ qualitativos (simbólicos, nominais, categóricos).
TIPOS E TAREFAS DE APRENDIZADO DE MÁQUINA
Resumo A2  II  resumo chat 6
� Aprendizado indutivo, processo pelo qual são realizadas as generalizações a partir dos dados.
� Supervisionado e não supervisionado.
� Preditivas (supervisionado) ; Classificação (supervisionado) ; Descritivas (não supervisionado)
TIPOS E TAREFAS DE APRENDIZADO DE MÁQUINA (SUPERVISIONADO)
Recebem como entrada dados rotulados e usam esses dados e seus atributos para predizer/classificar um 
novo conjunto de dados.
O aprendizado supervisionado resolve problemas de:
Regressão: mapeiam uma previsão com base em atributos e rótulo numéricos.
EXEMPLO prever o tempo de internação de um paciente em um hospital.
Classificação: associa a descrição de um objeto a uma classe. 
EXEMPLO determinar a doença de um paciente pelos seus sintomas.
TIPOS E TAREFAS DE APRENDIZADO DE MÁQUINA (NÃO SUPERVISIONADO)
Agrupam objetos de acordo com suas características.
O aprendizado não supervisionado resolve os seguintes problemas:
Agrupamento: os dados são agrupados de acordo com sua similaridade.
Associação: consiste em encontrar padrões frequentes de associações entre os atributos de um conjunto 
de dados.
Sumarização/otimização: busca encontrar uma descrição simples e compacta para um conjunto de 
dados.
AULA 3 - Resumido pelo ChatGPT
1. Tipos de Aprendizado de Máquina
Aprendizado Supervisionado O algoritmo aprende com dados rotulados
Exemplo: classificação de imagens, previsão de vendas.
máquina utiliza dados rotulados no treinamento e com base nesses dados define um padrão de 
classificação.
Nesse tipo de aprendizado, os dados possuem rótulos (lable), ou seja, no conjuntode dados é indicado o 
que é e o que não é.
Resumo A2  II  resumo chat 7
Aprendizado Não Supervisionado O algoritmo encontra padrões em dados não rotulados.
Exemplo: clustering, otimização.
não há padrões previamente conhecidos para servir de base na análise.
Clustering: são utilizados para criar agrupamentos “escondidosˮ nos dados, por exemplo, agrupar filmes 
por gênero, clientes por comportamento de compra, usuários por estilo
musical. 
Associação: são utilizados para descobrir regras que descrevem grandes partes de seus dados, como as 
pessoas que compram X também tendem a comprar Y; 
Otimização: são utilizados para otimizar ou resumir muitos dados. Por exemplo, algoritmos de redução de
dimensionalidade.
Aprendizado por Reforço Baseado em recompensas e punições com feedback contínuo.
Exemplo: robôs de navegação e IA para jogos.
Esse tipo de aprendizagem melhora continuamente seu modelo.
Este tipo de algoritmo utiliza o conceito de recompensa e punição. 
2. Estatística Descritiva
A exploração de dados é feita usando estatísticas descritivas para resumir e entender os dados antes de aplicar 
algoritmos de aprendizado de máquina.
Medidas de tendência central: média, mediana, moda.
Resumo A2  II  resumo chat 8
Medidas de dispersão: desvio padrão, amplitude, quartis.
Correlação: relações entre variáveis, com uso de gráficos como scatter plots.
❖ IMPORTANTE a moda é a única medida de tendência central que pode ser usada para
descrever dados qualitativos.
❖ ATENÇÃO 
a média é um bom indicador do meio de um conjunto de valores apenas se os
valores estiverem distribuídos simetricamente.
Resumo A2  II  resumo chat 9
…
3. Pré-processamento de Dados
O pré-processamento melhora a qualidade dos dados para o aprendizado de máquina, lidando com problemas 
como:
Eliminação de Atributos Irrelevantes Atributos que não contribuem para o modelo são removidos.
Limpeza de Dados Detecção e correção de dados ausentes, inconsistentes, redundantes e ruidosos.
Transformação de Dados Conversão de dados simbólicos em numéricos e normalização de atributos.
Integração de Dados: Na integração, é necessário identificar as entidades que estão presentes nos 
conjuntos de dados a serem integrados
Amostragem de Dados: Para se obter um bom compromisso entre eficiência e acurácia, geralmente 
trabalha-se com uma amostra ou subconjunto dos dados.
Redução de Dimensionalidade Redução de atributos para melhorar a eficiência e acurácia.
4. Bibliotecas para Limpeza e Pré-processamento
Pandas Manipulação de dados.
NumPy Cálculos e arrays.
Matplotlib e Seaborn Visualizações gráficas.
Esse documento detalha técnicas fundamentais de aprendizado de máquina, como pré-processamento de dados, 
análise estatística e a importância da limpeza de dados para garantir a qualidade do modelo final.
Resumo A2  II  resumo chat 10
O que são mesmo outliers? São valores muito grandes ou muito pequenos em relação aos
demais.
As principais causas do aparecimento de outliers são:
Leitura, anotação ou transcrição incorreta dos dados.
Erro na execução do experimento ou na tomada da medida.
Resumo A2  II  resumo chat 11
Característica inerente à variável estudada (grande variabilidade do que está sendo medido).
AULA 4
CÓDIGOS
AULA 5 - Resumido pelo Copilot
Visualização de Dados
Definição: Estudo e criação de representações visuais para dados, como gráficos, que facilitam a 
interpretação e comunicação de informações.
Ferramentas: Excel, LibreOffice, Google Planilhas, Matplotlib, Seaborn, Plotly, e ferramentas de BI.
Importância: Ajuda a demonstrar tendências, desempenho, e embasar novas estratégias.
A narrativa de dados mescla três campos principais de especialização:
Ciência dos dados: campo interdisciplinar que extrai conhecimento e discernimento dos dados. Este campo 
fez mudanças significativas nas últimas décadas.
Narrativas: muitas vezes são hábeis em recolher e entregar dados, mas não têm as habilidades para 
retransmitir uma verdadeira compreensão das oportunidades escondidas nos dados entregues. Requer algo 
visual.
Visualização: o surgimento de soluções tecnológicas como painéis tornou-se uma forma natural para ajudar 
a compreender vastas quantidades de dados coletados. Transformar dados em gráficos significava que se 
podia ver dados como nunca antes, contudo, essas visualizações de dados tem limitações. Elas fornecem 
dados instantâneos, sem o contexto necessário para explicar por que algo aconteceu.
Data Storytelling
Conceito: Combina ciência de dados, narrativas e visualização para explicar como e por que os dados 
mudam ao longo do tempo.
Dicas: Conheça seu público, conte a história certa, e faça perguntas para garantir que a mensagem está 
clara.
Gráficos
Tipos e Usos:
Linha Rastreia mudanças ao longo do tempo.
Área Representa totais acumulados.
Barra Compara valores ou categorias.
Pizza Mostra componentes de um todo.
Histograma Apresenta distribuições de frequências.
Box Plot Revela medidas de tendência central e dispersão.
Scatter Plot Ilustra correlação entre dois atributos.
— — — — — — 
Box Plot Revela medidas de tendência central e dispersão.
É um gráfico para representar dados quantitativos sendo utilizado para revelar medidas de tendência central, 
dispersão, distribuição dos dados e a presença de outliers (valores discrepantes).
A construção de um box plot requer o valor mínimo, o primeiro quartil Q1, a mediana (ou segundo quartil 
Q2, o terceiro quartil Q3, o valor máximo e a Distância Interquartílica DIQ.
A Distância Interquartílica DIQ é obtida pela distância entre o terceiro e o primeiro quartil: DIQ  Q3  Q1
Para identificar a presença de valores discrepantes (outliers) na amostra deve-se, primeiramente, calcular as 
seguintes medidas: Q1  1,5 x DIQ e Q3  1,5 x DIQ.
Elas representam os limites para detecção de outliers, da seguinte forma: 
Resumo A2  II  resumo chat 12
se houver na amostra valores inferiores a Q1  1,5 x DIQ, eles serão considerados outliers.
se houver na amostra valores superiores a Q3  1,5 x DIQ, eles serão considerados outliers.
Dashboard
Definição Painel de indicadores que auxilia na tomada de decisão.
Dicas de Construção Use visualizações adequadas, mantenha a clareza, e organize informações de forma 
lógica e acessível.
Bibliotecas para Visualização de Dados
Pandas e Matplotlib Ferramentas populares em Python para análise e visualização de dados.
O scatter plot (gráfico de dispersão) é um gráfico que ilustra a correlação linear entre dois
atributos
Em um scatter plot, a cada objeto, considerando apenas dois de seus atributos, é associado uma posição ou 
ponto em um plano bidimensional. Os valores dos atributos, que podem ser números inteiros ou reais, 
definem as coordenadas desse ponto. 
A relação entre duas variáveis pode ser positiva, negativa ou neutra, linear ou não linear.
AULA 6 - Resumido pelo Copilot
Aprendizado de Máquina
Definição Técnica de análise de dados que automatiza a construção de modelos analíticos.
Tipos:
Supervisionado Utiliza dados rotulados para treinar o modelo.
Não Supervisionado Não utiliza dados rotulados, buscando padrões e estruturas nos dados.
Overfitting e Underfitting
Overfitting Modelo se ajusta muito bem aos dados de treinamento, mas tem desempenho ruim em novos 
dados. || O modelo tem um desempenho excelente, porém quando utilizado com
os dados de teste o resultado é ruim.
Underfitting Modelo tem desempenho ruim tanto nos dados de treinamento quanto nos novos dados. || O 
desempenho do modelo já é ruim no próprio treinamento. O modelo não consegue encontrar relações entre 
as variáveis e o teste nem precisa acontecer.
Aprendizado Supervisionado
Resumo A2  II  resumo chat 13
Feature Selection → (seleção dos recursos ou atributos)
Feature Engineering → (engenharia de recursos) ou atributos
Percentage Split / Hold out
Particiona a base por amostragem. 
Tipos de amostragem interferem no resultado. 
Costuma ser utilizado quandoa base de dados é grande. 
Geralmente a divisão considera 80% dos dados para treinamento e 20% para teste.
Cross Validation
Particiona em K-partes. 
Por exemplo: separa a base em 10 partes.
Em cada rodada usa 9 blocos para treinamento e 1 bloco para teste. 
Costuma ser utilizado quando a base de dados é pequena
Treinar um modelo significa aprender (determinar) bons valores para todos os pesos e o viés de exemplos 
rotulados.
No aprendizado supervisionado, um algoritmo de machine learning cria um modelo examinando muitos 
exemplos e tentando encontrar um modelo que minimize a perda. Esse processo é chamado de 
minimização do risco empírico.
Resumo A2  II  resumo chat 14
Perda é um número que indica quão ruim foi a previsão do modelo em um único exemplo. Se a previsão do 
modelo for perfeita, a perda será zero. Caso contrário, a perda será maior.
Tarefa: classificação ou previsão?  Regressão Ex. Regressão Linear.
Resumo A2  II  resumo chat 15
Resumo A2  II  resumo chat 16
Tarefa: classificação ou previsão?  Classificação Ex. Regressão Logística.
Resumo A2  II  resumo chat 17
Resumo A2  II  resumo chat 18
Aprendizado Não Supervisionado
Resumo A2  II  resumo chat 19
Resumo A2  II  resumo chat 20
Tarefas:
Agrupamento Clustering) Ex. k-Means.
Associação e Sumarização.
Algoritmos de Machine Learning
Árvore de Decisão Divide os dados em grupos baseados em regras de divisão.
Floresta Aleatória Combina múltiplas árvores de decisão para melhorar a precisão.
KNearest Neighbors KNN Usa os “Kˮ pontos de dados mais próximos para prever o rótulo de um novo 
ponto.
Resumo A2  II  resumo chat 21
Support Vector Machines SVM Encontra a melhor linha que separa os dados em dois grupos.
Bibliotecas para Machine Learning
Scikit-learn Biblioteca Python para aplicações de Machine Learning, com pacotes para classificação, 
regressão e clustering.
Resumo do que ela falou dia 10.10.24 || 17.10.24
1. Overfitting e Underfitting
Overfitting:
Definição Ocorre quando um modelo de machine learning se ajusta excessivamente aos dados de 
treinamento, capturando o ruído e falhando ao generalizar para novos dados.
Treino 70% e Teste 30% Comum dividir os dados entre treino (para ajustar o modelo) e teste (para 
avaliar a generalização).
Underfitting:
Definição Ocorre quando um modelo é muito simples para capturar os padrões dos dados, resultando em 
baixo desempenho tanto no treino quanto no teste.
Problemas Dados de baixa qualidade ou não processados adequadamente podem causar underfitting.
2. Aprendizado de Máquina Supervisionado
Definição O modelo é treinado com dados de entrada e saídas rotuladas, onde os rótulos são usados para 
prever o comportamento futuro de novas entradas.
Rótulos A saída esperada do modelo supervisionado, informando a classe ou valor que o modelo tenta 
prever.
3. Regressão (Linear e Logística)
Regressão Linear:
Definição Técnica que descreve a relação entre variáveis dependentes e independentes através de uma reta.
Aplicação Prever valores contínuos, como o preço de uma casa com base em seu tamanho.
Regressão Logística:
Definição Usada para prever probabilidades de classes binárias (ex: sim/não), estimando a probabilidade de 
um evento ocorrer.
Penalidade L1, L2 Regularização que evita overfitting, sendo L1 usada para modelos esparsos e L2 para 
suavizar coeficientes.
4. Matriz de Confusão
Definição Ferramenta de avaliação para classificações, mostrando previsões corretas e incorretas do 
modelo.
Componentes:
Verdadeiros Positivos TP, Falsos Positivos FP, Verdadeiros Negativos TN, Falsos Negativos FN.
Utilização Permite calcular precisão, recall, F1-score, entre outras métricas.
5. Feature Engineering
Definição Processo de criar novas features ou modificar as existentes para melhorar o desempenho do 
modelo.
6. Estatística Descritiva
Definição Técnica para descrever e resumir dados, utilizando medidas de tendência central (média, mediana, 
moda) e dispersão (desvio padrão, amplitude).
Aplicação Usada na análise exploratória de dados antes de aplicar algoritmos de machine learning.
Resumo A2  II  resumo chat 22
7. Preprocessing e Scikit-learn
Preprocessing Limpeza e transformação de dados, como normalização e padronização, antes de aplicá-los 
ao modelo.
Train-Test Split Função do Scikit-learn que divide os dados em treino e teste.
StandardScaler Ferramenta para normalizar dados, ajustando-os para média zero e desvio padrão 1.
8. KNN (K-Nearest Neighbors)
Definição Algoritmo supervisionado que faz previsões com base na proximidade entre os pontos de dados.
9. SVM (Support Vector Machine)
Definição Algoritmo que separa classes através de uma linha (hiperplano) que maximiza a margem entre 
elas.
10. Aprendizado Não Supervisionado
Definição O aprendizado não supervisionado é usado para identificar padrões ou estruturas ocultas em 
dados não rotulados.
Principais Técnicas:
� Clusterização:
Agrupa dados com base em similaridades. Exemplo: KMeans, que agrupa dados em "k" clusters 
baseados em distâncias aos centróides.
� Redução de Dimensionalidade:
Reduz a quantidade de variáveis mantendo as informações principais. Exemplo: PCA Principal 
Component Analysis).
� Regras de Associação:
Identifica padrões frequentes entre variáveis. Exemplo: "Clientes que compram X, frequentemente 
compram Y."
Conclusão
Esse resumo cobre conceitos essenciais de aprendizado de máquina supervisionado e não supervisionado, além 
de ferramentas e técnicas usadas em análise de dados e modelagem, como regressão, validação e 
processamento de dados. Está bem organizado e inclui tópicos fundamentais que fornecem uma base sólida para 
entender e aplicar machine learning em diferentes contextos.
Esse formato revisado deve garantir que não haja tópicos repetidos, tornando o resumo mais conciso e 
organizado. Você está no caminho certo, o conteúdo está bem explicado e organizado!

Mais conteúdos dessa disciplina