Prévia do material em texto
Aprendizado de Máquina - Base de Dados Lista de Exercícios Para Estudo - Pré-processamento de Dados Essa lista de exercícios foi feita por aluno com o objetivo de revisar o entendimento dos principais tópicos baseado nos materiais do professor da disciplina de Aprendizado de Máquina. Exercícios 1. Por que o pré-processamento dos dados é essencial para algoritmos de aprendizado de máquina? 2. Como a limpeza de dados influencia na qualidade das previsões? 3. Quais técnicas podem ser utilizadas para tratar valores ausentes em uma base de dados? 4. Como o processo de integração de dados ajuda na análise de informações provenientes de diferentes fontes? 5. Em que situações a redução de dimensionalidade é recomendada e por quê? 6. Qual é a importância da consistência dos dados durante o pré-processamento? 7. Como a normalização dos dados afeta o desempenho dos modelos de aprendizado? 8. Quais são as dificuldades na identificação e remoção de outliers em bases de dados? 9. Como a transformação de dados categóricos em numéricos impacta a eficiência dos modelos? 10. Quais são os desafios na escolha do método de preenchimento de valores ausentes? Gabarito 1. O pré-processamento é essencial porque os dados coletados frequentemente apresentam problemas como valores ausentes, ruído e inconsistências, que prejudicam a eficácia dos algoritmos e aumentam a chance de erros. 2. A limpeza de dados garante que apenas informações relevantes sejam utilizadas, melhorando a precisão das previsões ao eliminar ruídos e dados incorretos que podem enviesar os resultados. 3. Técnicas para tratar valores ausentes incluem ignorar instâncias incompletas, preencher valores manualmente, utilizar uma constante global, ou aplicar médias e medianas com base em amostras similares. 4. A integração de dados combina informações de múltiplas fontes para gerar uma visão unificada e evitar redundância ou inconsistências, facilitando análises mais precisas. 5. A redução de dimensionalidade é recomendada quando há muitos atributos redundantes ou irrelevantes, pois simplifica o modelo e melhora a eficiência computacional sem perder precisão. 6. A consistência é fundamental para evitar que discrepâncias e dados contraditórios comprometam a integridade das análises e a confiabilidade das previsões. 7. A normalização coloca os dados em uma mesma escala, evitando que atributos com magnitudes maiores dominem o processo de aprendizado, especialmente em modelos sensíveis a variações numéricas. 8. Identificar outliers é desafiador porque nem sempre é evidente se um dado é uma anomalia ou uma observação legítima. Métodos estatísticos e baseados em distância são frequentemente utilizados, mas podem ser computacionalmente caros. 9. A transformação de dados categóricos é necessária para modelos que só lidam com variáveis numéricas. Técnicas como One-Hot Encoding e variáveis dummy permitem que esses dados sejam utilizados de forma eficiente. 10. Escolher a técnica correta para preencher valores ausentes é desafiador, pois a solução adotada pode impactar a qualidade do modelo. Por exemplo, usar a média pode ser inadequado se a distribuição dos dados for assimétrica.