Prévia do material em texto
Aprendizado de Máquina - Base de Dados Lista de Exercícios Para Estudo - Tipos de Dados Essa lista de exercícios foi feita por aluno com o objetivo de revisar o entendimento dos principais tópicos baseado nos materiais do professor da disciplina de Aprendizado de Máquina. Exercícios 1. Quais são as características dos dados categóricos e como são tratados em aprendizado de máquina? 2. Como os dados numéricos diferem dos categóricos em termos de processamento? 3. Em que cenários dados booleanos são mais utilizados? 4. Como os dados ordinais representam relações entre categorias? 5. Quais são os desafios na conversão de dados categóricos em variáveis numéricas? 6. Como dados mistos (numéricos e categóricos) são tratados em um mesmo modelo? 7. Por que é importante identificar e remover atributos com variância zero? 8. Como atributos com variância próxima de zero afetam a performance dos modelos? 9. Em que situações a escolha entre codificação ordinal e One-Hot Encoding é crítica? 10. Quais cuidados devem ser tomados ao tratar dados categóricos em modelos de regressão? Gabarito 1. Dados categóricos representam categorias ou classes, como "masculino" ou "feminino". Em aprendizado de máquina, são transformados em variáveis numéricas para que possam ser processados por algoritmos. 2. Dados numéricos são quantitativos e podem ser processados diretamente por algoritmos, enquanto os categóricos precisam ser transformados, pois representam informações qualitativas. 3. Dados booleanos, como "verdadeiro" ou "falso", são comuns em problemas binários e sistemas de controle, como sensores que detectam a presença ou ausência de um evento. 4. Dados ordinais têm uma ordem definida entre as categorias, como níveis de satisfação, e são tratados de forma diferente de dados nominais, pois preservam a hierarquia. 5. A conversão de dados categóricos pode gerar muitas variáveis, especialmente com One-Hot Encoding, aumentando a complexidade do modelo e o tempo de processamento. 6. Dados mistos exigem pré-processamento específico para garantir que todas as variáveis estejam na mesma escala e sejam compatíveis com o modelo de aprendizado escolhido. 7. Atributos com variância zero não contribuem para o aprendizado do modelo e devem ser removidos para evitar que introduzam ruído e atrasem o treinamento. 8. Atributos com variância próxima de zero são pouco informativos e podem dificultar a identificação de padrões relevantes, prejudicando a eficácia do modelo. 9. A escolha entre codificação ordinal e One-Hot Encoding depende do modelo e do problema. A codificação ordinal é usada quando a ordem entre as categorias é importante, enquanto o One-Hot Encoding é mais seguro para dados sem hierarquia. 10. Em modelos de regressão, dados categóricos devem ser tratados com cuidado para evitar multicolinearidade. A codificação incorreta pode introduzir vieses e prejudicar as previsões.