NOTBOOK_DADOS_AAM

Direito Administrativo

breadcrumb-separator

UNIVESP

Emerson Deoclecio

em 20/10/2025

Conteúdos escolhidos para você

Análise e Pré-Processamento de Dados

Análise e Pré-Processamento de Dados

UNIVESP

NOTBOOK-ANALISE_AAM

NOTBOOK-ANALISE_AAM

UNIVESP

DO 01 AO 80-9

Machine Learning para Análise de Dados

Machine Learning para Análise de Dados

Feature Engineering

Feature Engineering

Material

Conteúdos escolhidos para você

Análise e Pré-Processamento de Dados

Análise e Pré-Processamento de Dados

UNIVESP

NOTBOOK-ANALISE_AAM

NOTBOOK-ANALISE_AAM

UNIVESP

DO 01 AO 80-9

Machine Learning para Análise de Dados

Machine Learning para Análise de Dados

Feature Engineering

Feature Engineering

Prévia do material em texto

RESUMO: ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS (NOTEBOOK PADRÃO)
Este material (notebook) serve como um guia prático e codificado para as etapas iniciais e mais demoradas de um projeto de Machine Learning, onde o foco é transformar dados brutos em um formato que os algoritmos de ML possam efetivamente utilizar.
I. Análise Exploratória de Dados (EDA)
· Objetivo: Obter insights, entender a estrutura, distribuição e a qualidade inicial dos dados.
· Ações Típicas:
· Carregamento e Inspeção: Importação das bibliotecas necessárias (Pandas, NumPy) e carregamento do conjunto de dados (CSV, Excel, etc.). Verificação das dimensões (shape), tipos de dados (dtypes) e visualização das primeiras linhas.
· Estatísticas Descritivas: Geração de estatísticas básicas (média, mediana, desvio padrão, quartis) para identificar tendências e dispersão.
· Visualização: Uso de gráficos (histogramas, boxplots, gráficos de dispersão, mapa de calor para correlação) para identificar distribuições, outliers e a relação entre as variáveis.
II. Pré-Processamento de Dados (Limpeza e Transformação)
· Objetivo: Corrigir inconsistências e transformar os dados em um formato compatível com os modelos de ML.
· Etapas Chave:
· Tratamento de Dados Ausentes (Missing Data):
· Identificação de valores nulos (NaN).
· Decisão sobre a estratégia: Remoção (de linhas ou colunas com muitos nulos) ou Imputação (preenchimento com média, mediana, moda ou um valor constante).
· Tratamento de Dados Categóricos:
· Conversão de variáveis de texto (nominais ou ordinais) em representações numéricas.
· Técnicas comuns: Codificação Label Encoding ou Codificação One-Hot Encoding (transformação de categorias em colunas binárias).
· Tratamento de Outliers (Ruídos):
· Identificação de valores extremos que podem distorcer o treinamento do modelo.
· Estratégias: Remoção, substituição pelo limite (capping) ou transformação.
· Normalização e Padronização (Feature Scaling):
· Ajuste da escala dos atributos numéricos para que nenhum atributo domine o modelo.
· Normalização (Min-Max): Escala os dados entre 0 e 1.
· Padronização (Z-score): Transforma os dados para ter média zero e desvio padrão um.
· Engenharia de Atributos (Feature Engineering):
· Criação de novas variáveis a partir das existentes que podem melhorar o poder preditivo do modelo (ex: criar a coluna "Idade" a partir da "Data de Nascimento").
III. Preparação Final
· Divisão dos Dados: Separação do conjunto de dados em subconjuntos de Treinamento e Teste para avaliar o desempenho do modelo em dados não vistos.
Conclusão Enfatizada: A qualidade e o sucesso de qualquer modelo de Machine Learning dependem criticamente da qualidade e da preparação do conjunto de dados, sendo essa fase a mais intensiva em tempo de um projeto de Data Science.
RESUMO: ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS (NOTEBOOK PADRÃO)
Este material (notebook) serve como um guia prático e codificado para as etapas iniciais e mais demoradas de um projeto de Machine Learning, onde o foco é transformar dados brutos em um formato que os algoritmos de ML possam efetivamente utilizar.
I. Análise Exploratória de Dados (EDA)
· Objetivo: Obter insights, entender a estrutura, distribuição e a qualidade inicial dos dados.
· Ações Típicas:
· Carregamento e Inspeção: Importação das bibliotecas necessárias (Pandas, NumPy) e carregamento do conjunto de dados (CSV, Excel, etc.). Verificação das dimensões (shape), tipos de dados (dtypes) e visualização das primeiras linhas.
· Estatísticas Descritivas: Geração de estatísticas básicas (média, mediana, desvio padrão, quartis) para identificar tendências e dispersão.
· Visualização: Uso de gráficos (histogramas, boxplots, gráficos de dispersão, mapa de calor para correlação) para identificar distribuições, outliers e a relação entre as variáveis.
II. Pré-Processamento de Dados (Limpeza e Transformação)
· Objetivo: Corrigir inconsistências e transformar os dados em um formato compatível com os modelos de ML.
· Etapas Chave:
· Tratamento de Dados Ausentes (Missing Data):
· Identificação de valores nulos (NaN).
· Decisão sobre a estratégia: Remoção (de linhas ou colunas com muitos nulos) ou Imputação (preenchimento com média, mediana, moda ou um valor constante).
· Tratamento de Dados Categóricos:
· Conversão de variáveis de texto (nominais ou ordinais) em representações numéricas.
· Técnicas comuns: Codificação Label Encoding ou Codificação One-Hot Encoding (transformação de categorias em colunas binárias).
· Tratamento de Outliers (Ruídos):
· Identificação de valores extremos que podem distorcer o treinamento do modelo.
· Estratégias: Remoção, substituição pelo limite (capping) ou transformação.
· Normalização e Padronização (Feature Scaling):
· Ajuste da escala dos atributos numéricos para que nenhum atributo domine o modelo.
· Normalização (Min-Max): Escala os dados entre 0 e 1.
· Padronização (Z-score): Transforma os dados para ter média zero e desvio padrão um.
· Engenharia de Atributos (Feature Engineering):
· Criação de novas variáveis a partir das existentes que podem melhorar o poder preditivo do modelo (ex: criar a coluna "Idade" a partir da "Data de Nascimento").
III. Preparação Final
· Divisão dos Dados: Separação do conjunto de dados em subconjuntos de Treinamento e Teste para avaliar o desempenho do modelo em dados não vistos.
Conclusão Enfatizada: A qualidade e o sucesso de qualquer modelo de Machine Learning dependem criticamente da qualidade e da preparação do conjunto de dados, sendo essa fase a mais intensiva em tempo de um projeto de Data Science.