Prévia do material em texto
Resumo A2 II resumo chat 1 Resumo A2 - II - resumo chat AULA 1 part II - Resumido pelo ChatGPT 1. Introdução à Ciência de Dados A ciência de dados é apresentada como a disciplina responsável por transformar, validar, analisar e gerar conhecimento a partir de grandes volumes de dados. Seu objetivo é extrair insights valiosos, muitas vezes de conjuntos de dados enormes Big Data), onde abordagens estatísticas tradicionais não são suficientes. 2. Metodologia CRISP-DM O CRISPDM é um modelo amplamente utilizado para guiar o processo de mineração de dados, descrito em seis fases principais: 1. Entendimento do Negócio Define o problema a ser resolvido, os objetivos do projeto, os stakeholders envolvidos, os requisitos de negócio e a composição do time de ciência de dados. Perguntas-chave incluem: “Qual é o objetivo?ˮ e “Qual problema se deseja resolver?ˮ A obtenção de suporte das partes interessadas é essencial para garantir a direção correta do projeto. 2. Entendimento dos Dados Envolve a coleta e compreensão dos dados que serão utilizados. Inclui perguntas sobre os formatos de dados (estruturados, semi-estruturados, não estruturados), fontes dos dados (localmente, nuvem, data warehouse) e se é necessária alguma transformação ou padronização. A visualização dos dados, através de gráficos como histogramas e scatterplots, é fundamental para entender a distribuição e correlações dos dados. 3. Preparação dos Dados Foco na qualidade dos dados: detectar e tratar dados ausentes, duplicados, ruidosos e despadronizados. Técnicas de feature engineering (engenharia de atributos) são usadas para criar novas variáveis, normalizar dados ou converter variáveis categóricas em numéricas, especialmente para aprendizado de máquina. Mineração de texto também pode ser aplicada em dados não estruturados, usando técnicas como tokenização e remoção de stop words. 4. Modelagem dos Dados Escolha de técnicas analíticas baseadas nas perguntas que precisam ser respondidas: Descritiva Mostra o estado atual. Diagnóstica Explica por que algo está acontecendo. Preditiva Estima o que acontecerá com base em tendências atuais. Prescritiva Sugere ações para resolver problemas. Modelos de aprendizado de máquina (machine learning) são fundamentais aqui, e incluem dividir os dados em conjuntos de treino 70% e teste 30%. 5. Avaliação do Modelo O desempenho do modelo é medido para determinar se atende aos objetivos estabelecidos. Métricas como R², erro absoluto médio, precisão e recall são utilizadas, dependendo do tipo de modelagem (regressão, classificação ou clusterização). Resumo A2 II resumo chat 2 6. Implantação Uma vez que o modelo é considerado adequado, ele é implantado e começa a ser utilizado em produção. Feedback contínuo é necessário para fazer ajustes e otimizar o modelo conforme necessário. AULA 2 - Resumido pelo ChatGPT 1. Ciência de Dados A ciência de dados combina disciplinas como matemática, estatística e ciência da computação para gerar conhecimento a partir de dados brutos. É uma área interdisciplinar, usada para extrair informações e insights de grandes volumes de dados. Dados, Informação e Conhecimento Dados são elementos brutos, enquanto informação é o dado contextualizado. O conhecimento resulta da interpretação da informação, que possibilita tomadas de decisão. 2. Ciclo de Vida do Data Science O ciclo de vida do Data Science segue o modelo da Microsoft, que inclui as seguintes etapas: Compreensão do Negócio Definir o objetivo do projeto e identificar fontes de dados. Aquisição e Entendimento dos Dados Limpeza e preparação dos dados. Modelagem Escolher um algoritmo e treinar o modelo. Implantação Colocar o modelo em produção. Aceitação pelo Cliente Validar o sistema com o cliente e finalizar o projeto. 3. Big Data e Machine Learning Big Data se refere ao conjunto massivo de dados gerados continuamente, exigindo ferramentas especializadas para análise. Resumo A2 II resumo chat 3 Machine Learning Aprendizado de Máquina): Algoritmos que identificam padrões e realizam previsões com base em dados. Tipos de Aprendizado de Máquina Supervisionado Modelos que aprendem a partir de dados rotulados para fazer previsões. Não supervisionado Agrupam dados por similaridade sem rótulos. Mineração de Dados Aplicação de algoritmos para descobrir padrões em grandes volumes de dados. 4. Mineração de Dados Processo de explorar grandes quantidades de dados para identificar padrões e relacionamentos úteis. Está na intersecção de áreas como estatística, inteligência artificial e aprendizado de máquina. Aprendizado de Máquina trata de algoritmos que buscam reconhecer padrões em dados. Já mineração de dados é a aplicação desses algoritmos em grandes conjuntos de dados em busca de informação e conhecimento. Resumo A2 II resumo chat 4 5. Algoritmos e Tecnologias Usadas Algoritmos populares em aprendizado de máquina incluem aqueles usados para regressão, classificação e agrupamento. Frameworks e Tecnologias como Hadoop e Spark são comumente usados para Big Data, enquanto TensorFlow e Keras são populares em aprendizado profundo Deep Learning). 6. Carreira em Ciência de Dados Novos cargos estão surgindo na área, como cientista de dados, engenheiro de dados, e especialista em inteligência artificial. Habilidades necessárias incluem estatística, programação, e conhecimento em algoritmos de aprendizado de máquina. DADOS E DATASETS Representados por planilhas, tabelas de banco de dados, podendo conter diversas linhas e colunas. Quando estamos aprendendo Machine Learning necessitamos de datasets para treinar nossos modelos. Resumo A2 II resumo chat 5 Seguem algumas fontes de datasets abertos: Segurança Público do Estado de São Paulo; IBGE; Kaggle; Amazon; UCI Machine Learning Repository; Google; Microsoft MACHINE LEARNING - TIPOS DE DADOS E DADOS DE TREINAMENTO Um sistema de aprendizado de máquina requer um conjunto de dados de treinamento para aprender, a partir desses dados e com base no padrão encontrado classificar novos dados ainda não observados em uma base de testes. Geralmente reserva-se 70% dos dados para treino e 30% para teste. Deve ser feita a definição dos tipos dos dados: ✓ quantitativos (numéricos), ou ✓ qualitativos (simbólicos, nominais, categóricos). TIPOS E TAREFAS DE APRENDIZADO DE MÁQUINA Resumo A2 II resumo chat 6 � Aprendizado indutivo, processo pelo qual são realizadas as generalizações a partir dos dados. � Supervisionado e não supervisionado. � Preditivas (supervisionado) ; Classificação (supervisionado) ; Descritivas (não supervisionado) TIPOS E TAREFAS DE APRENDIZADO DE MÁQUINA (SUPERVISIONADO) Recebem como entrada dados rotulados e usam esses dados e seus atributos para predizer/classificar um novo conjunto de dados. O aprendizado supervisionado resolve problemas de: Regressão: mapeiam uma previsão com base em atributos e rótulo numéricos. EXEMPLO prever o tempo de internação de um paciente em um hospital. Classificação: associa a descrição de um objeto a uma classe. EXEMPLO determinar a doença de um paciente pelos seus sintomas. TIPOS E TAREFAS DE APRENDIZADO DE MÁQUINA (NÃO SUPERVISIONADO) Agrupam objetos de acordo com suas características. O aprendizado não supervisionado resolve os seguintes problemas: Agrupamento: os dados são agrupados de acordo com sua similaridade. Associação: consiste em encontrar padrões frequentes de associações entre os atributos de um conjunto de dados. Sumarização/otimização: busca encontrar uma descrição simples e compacta para um conjunto de dados. AULA 3 - Resumido pelo ChatGPT 1. Tipos de Aprendizado de Máquina Aprendizado Supervisionado O algoritmo aprende com dados rotulados Exemplo: classificação de imagens, previsão de vendas. máquina utiliza dados rotulados no treinamento e com base nesses dados define um padrão de classificação. Nesse tipo de aprendizado, os dados possuem rótulos (lable), ou seja, no conjuntode dados é indicado o que é e o que não é. Resumo A2 II resumo chat 7 Aprendizado Não Supervisionado O algoritmo encontra padrões em dados não rotulados. Exemplo: clustering, otimização. não há padrões previamente conhecidos para servir de base na análise. Clustering: são utilizados para criar agrupamentos “escondidosˮ nos dados, por exemplo, agrupar filmes por gênero, clientes por comportamento de compra, usuários por estilo musical. Associação: são utilizados para descobrir regras que descrevem grandes partes de seus dados, como as pessoas que compram X também tendem a comprar Y; Otimização: são utilizados para otimizar ou resumir muitos dados. Por exemplo, algoritmos de redução de dimensionalidade. Aprendizado por Reforço Baseado em recompensas e punições com feedback contínuo. Exemplo: robôs de navegação e IA para jogos. Esse tipo de aprendizagem melhora continuamente seu modelo. Este tipo de algoritmo utiliza o conceito de recompensa e punição. 2. Estatística Descritiva A exploração de dados é feita usando estatísticas descritivas para resumir e entender os dados antes de aplicar algoritmos de aprendizado de máquina. Medidas de tendência central: média, mediana, moda. Resumo A2 II resumo chat 8 Medidas de dispersão: desvio padrão, amplitude, quartis. Correlação: relações entre variáveis, com uso de gráficos como scatter plots. ❖ IMPORTANTE a moda é a única medida de tendência central que pode ser usada para descrever dados qualitativos. ❖ ATENÇÃO a média é um bom indicador do meio de um conjunto de valores apenas se os valores estiverem distribuídos simetricamente. Resumo A2 II resumo chat 9 … 3. Pré-processamento de Dados O pré-processamento melhora a qualidade dos dados para o aprendizado de máquina, lidando com problemas como: Eliminação de Atributos Irrelevantes Atributos que não contribuem para o modelo são removidos. Limpeza de Dados Detecção e correção de dados ausentes, inconsistentes, redundantes e ruidosos. Transformação de Dados Conversão de dados simbólicos em numéricos e normalização de atributos. Integração de Dados: Na integração, é necessário identificar as entidades que estão presentes nos conjuntos de dados a serem integrados Amostragem de Dados: Para se obter um bom compromisso entre eficiência e acurácia, geralmente trabalha-se com uma amostra ou subconjunto dos dados. Redução de Dimensionalidade Redução de atributos para melhorar a eficiência e acurácia. 4. Bibliotecas para Limpeza e Pré-processamento Pandas Manipulação de dados. NumPy Cálculos e arrays. Matplotlib e Seaborn Visualizações gráficas. Esse documento detalha técnicas fundamentais de aprendizado de máquina, como pré-processamento de dados, análise estatística e a importância da limpeza de dados para garantir a qualidade do modelo final. Resumo A2 II resumo chat 10 O que são mesmo outliers? São valores muito grandes ou muito pequenos em relação aos demais. As principais causas do aparecimento de outliers são: Leitura, anotação ou transcrição incorreta dos dados. Erro na execução do experimento ou na tomada da medida. Resumo A2 II resumo chat 11 Característica inerente à variável estudada (grande variabilidade do que está sendo medido). AULA 4 CÓDIGOS AULA 5 - Resumido pelo Copilot Visualização de Dados Definição: Estudo e criação de representações visuais para dados, como gráficos, que facilitam a interpretação e comunicação de informações. Ferramentas: Excel, LibreOffice, Google Planilhas, Matplotlib, Seaborn, Plotly, e ferramentas de BI. Importância: Ajuda a demonstrar tendências, desempenho, e embasar novas estratégias. A narrativa de dados mescla três campos principais de especialização: Ciência dos dados: campo interdisciplinar que extrai conhecimento e discernimento dos dados. Este campo fez mudanças significativas nas últimas décadas. Narrativas: muitas vezes são hábeis em recolher e entregar dados, mas não têm as habilidades para retransmitir uma verdadeira compreensão das oportunidades escondidas nos dados entregues. Requer algo visual. Visualização: o surgimento de soluções tecnológicas como painéis tornou-se uma forma natural para ajudar a compreender vastas quantidades de dados coletados. Transformar dados em gráficos significava que se podia ver dados como nunca antes, contudo, essas visualizações de dados tem limitações. Elas fornecem dados instantâneos, sem o contexto necessário para explicar por que algo aconteceu. Data Storytelling Conceito: Combina ciência de dados, narrativas e visualização para explicar como e por que os dados mudam ao longo do tempo. Dicas: Conheça seu público, conte a história certa, e faça perguntas para garantir que a mensagem está clara. Gráficos Tipos e Usos: Linha Rastreia mudanças ao longo do tempo. Área Representa totais acumulados. Barra Compara valores ou categorias. Pizza Mostra componentes de um todo. Histograma Apresenta distribuições de frequências. Box Plot Revela medidas de tendência central e dispersão. Scatter Plot Ilustra correlação entre dois atributos. — — — — — — Box Plot Revela medidas de tendência central e dispersão. É um gráfico para representar dados quantitativos sendo utilizado para revelar medidas de tendência central, dispersão, distribuição dos dados e a presença de outliers (valores discrepantes). A construção de um box plot requer o valor mínimo, o primeiro quartil Q1, a mediana (ou segundo quartil Q2, o terceiro quartil Q3, o valor máximo e a Distância Interquartílica DIQ. A Distância Interquartílica DIQ é obtida pela distância entre o terceiro e o primeiro quartil: DIQ Q3 Q1 Para identificar a presença de valores discrepantes (outliers) na amostra deve-se, primeiramente, calcular as seguintes medidas: Q1 1,5 x DIQ e Q3 1,5 x DIQ. Elas representam os limites para detecção de outliers, da seguinte forma: Resumo A2 II resumo chat 12 se houver na amostra valores inferiores a Q1 1,5 x DIQ, eles serão considerados outliers. se houver na amostra valores superiores a Q3 1,5 x DIQ, eles serão considerados outliers. Dashboard Definição Painel de indicadores que auxilia na tomada de decisão. Dicas de Construção Use visualizações adequadas, mantenha a clareza, e organize informações de forma lógica e acessível. Bibliotecas para Visualização de Dados Pandas e Matplotlib Ferramentas populares em Python para análise e visualização de dados. O scatter plot (gráfico de dispersão) é um gráfico que ilustra a correlação linear entre dois atributos Em um scatter plot, a cada objeto, considerando apenas dois de seus atributos, é associado uma posição ou ponto em um plano bidimensional. Os valores dos atributos, que podem ser números inteiros ou reais, definem as coordenadas desse ponto. A relação entre duas variáveis pode ser positiva, negativa ou neutra, linear ou não linear. AULA 6 - Resumido pelo Copilot Aprendizado de Máquina Definição Técnica de análise de dados que automatiza a construção de modelos analíticos. Tipos: Supervisionado Utiliza dados rotulados para treinar o modelo. Não Supervisionado Não utiliza dados rotulados, buscando padrões e estruturas nos dados. Overfitting e Underfitting Overfitting Modelo se ajusta muito bem aos dados de treinamento, mas tem desempenho ruim em novos dados. || O modelo tem um desempenho excelente, porém quando utilizado com os dados de teste o resultado é ruim. Underfitting Modelo tem desempenho ruim tanto nos dados de treinamento quanto nos novos dados. || O desempenho do modelo já é ruim no próprio treinamento. O modelo não consegue encontrar relações entre as variáveis e o teste nem precisa acontecer. Aprendizado Supervisionado Resumo A2 II resumo chat 13 Feature Selection → (seleção dos recursos ou atributos) Feature Engineering → (engenharia de recursos) ou atributos Percentage Split / Hold out Particiona a base por amostragem. Tipos de amostragem interferem no resultado. Costuma ser utilizado quandoa base de dados é grande. Geralmente a divisão considera 80% dos dados para treinamento e 20% para teste. Cross Validation Particiona em K-partes. Por exemplo: separa a base em 10 partes. Em cada rodada usa 9 blocos para treinamento e 1 bloco para teste. Costuma ser utilizado quando a base de dados é pequena Treinar um modelo significa aprender (determinar) bons valores para todos os pesos e o viés de exemplos rotulados. No aprendizado supervisionado, um algoritmo de machine learning cria um modelo examinando muitos exemplos e tentando encontrar um modelo que minimize a perda. Esse processo é chamado de minimização do risco empírico. Resumo A2 II resumo chat 14 Perda é um número que indica quão ruim foi a previsão do modelo em um único exemplo. Se a previsão do modelo for perfeita, a perda será zero. Caso contrário, a perda será maior. Tarefa: classificação ou previsão? Regressão Ex. Regressão Linear. Resumo A2 II resumo chat 15 Resumo A2 II resumo chat 16 Tarefa: classificação ou previsão? Classificação Ex. Regressão Logística. Resumo A2 II resumo chat 17 Resumo A2 II resumo chat 18 Aprendizado Não Supervisionado Resumo A2 II resumo chat 19 Resumo A2 II resumo chat 20 Tarefas: Agrupamento Clustering) Ex. k-Means. Associação e Sumarização. Algoritmos de Machine Learning Árvore de Decisão Divide os dados em grupos baseados em regras de divisão. Floresta Aleatória Combina múltiplas árvores de decisão para melhorar a precisão. KNearest Neighbors KNN Usa os “Kˮ pontos de dados mais próximos para prever o rótulo de um novo ponto. Resumo A2 II resumo chat 21 Support Vector Machines SVM Encontra a melhor linha que separa os dados em dois grupos. Bibliotecas para Machine Learning Scikit-learn Biblioteca Python para aplicações de Machine Learning, com pacotes para classificação, regressão e clustering. Resumo do que ela falou dia 10.10.24 || 17.10.24 1. Overfitting e Underfitting Overfitting: Definição Ocorre quando um modelo de machine learning se ajusta excessivamente aos dados de treinamento, capturando o ruído e falhando ao generalizar para novos dados. Treino 70% e Teste 30% Comum dividir os dados entre treino (para ajustar o modelo) e teste (para avaliar a generalização). Underfitting: Definição Ocorre quando um modelo é muito simples para capturar os padrões dos dados, resultando em baixo desempenho tanto no treino quanto no teste. Problemas Dados de baixa qualidade ou não processados adequadamente podem causar underfitting. 2. Aprendizado de Máquina Supervisionado Definição O modelo é treinado com dados de entrada e saídas rotuladas, onde os rótulos são usados para prever o comportamento futuro de novas entradas. Rótulos A saída esperada do modelo supervisionado, informando a classe ou valor que o modelo tenta prever. 3. Regressão (Linear e Logística) Regressão Linear: Definição Técnica que descreve a relação entre variáveis dependentes e independentes através de uma reta. Aplicação Prever valores contínuos, como o preço de uma casa com base em seu tamanho. Regressão Logística: Definição Usada para prever probabilidades de classes binárias (ex: sim/não), estimando a probabilidade de um evento ocorrer. Penalidade L1, L2 Regularização que evita overfitting, sendo L1 usada para modelos esparsos e L2 para suavizar coeficientes. 4. Matriz de Confusão Definição Ferramenta de avaliação para classificações, mostrando previsões corretas e incorretas do modelo. Componentes: Verdadeiros Positivos TP, Falsos Positivos FP, Verdadeiros Negativos TN, Falsos Negativos FN. Utilização Permite calcular precisão, recall, F1-score, entre outras métricas. 5. Feature Engineering Definição Processo de criar novas features ou modificar as existentes para melhorar o desempenho do modelo. 6. Estatística Descritiva Definição Técnica para descrever e resumir dados, utilizando medidas de tendência central (média, mediana, moda) e dispersão (desvio padrão, amplitude). Aplicação Usada na análise exploratória de dados antes de aplicar algoritmos de machine learning. Resumo A2 II resumo chat 22 7. Preprocessing e Scikit-learn Preprocessing Limpeza e transformação de dados, como normalização e padronização, antes de aplicá-los ao modelo. Train-Test Split Função do Scikit-learn que divide os dados em treino e teste. StandardScaler Ferramenta para normalizar dados, ajustando-os para média zero e desvio padrão 1. 8. KNN (K-Nearest Neighbors) Definição Algoritmo supervisionado que faz previsões com base na proximidade entre os pontos de dados. 9. SVM (Support Vector Machine) Definição Algoritmo que separa classes através de uma linha (hiperplano) que maximiza a margem entre elas. 10. Aprendizado Não Supervisionado Definição O aprendizado não supervisionado é usado para identificar padrões ou estruturas ocultas em dados não rotulados. Principais Técnicas: � Clusterização: Agrupa dados com base em similaridades. Exemplo: KMeans, que agrupa dados em "k" clusters baseados em distâncias aos centróides. � Redução de Dimensionalidade: Reduz a quantidade de variáveis mantendo as informações principais. Exemplo: PCA Principal Component Analysis). � Regras de Associação: Identifica padrões frequentes entre variáveis. Exemplo: "Clientes que compram X, frequentemente compram Y." Conclusão Esse resumo cobre conceitos essenciais de aprendizado de máquina supervisionado e não supervisionado, além de ferramentas e técnicas usadas em análise de dados e modelagem, como regressão, validação e processamento de dados. Está bem organizado e inclui tópicos fundamentais que fornecem uma base sólida para entender e aplicar machine learning em diferentes contextos. Esse formato revisado deve garantir que não haja tópicos repetidos, tornando o resumo mais conciso e organizado. Você está no caminho certo, o conteúdo está bem explicado e organizado!