Você está desenvolvendo um modelo para classificar produtos dentro de uma loja de acordo. Durante o recebimento da base de dados, uma das pessoas do negócio te passa uma regra interessante: De acordo com a faixa de preço do produto, ele irá ser classificado de forma diferente, isto é, se o produto estiver numa faixa de preço de 1 a 250, possui classificação E. Se o produto estiver numa faixa de preço de 251 a 350, possui classificação D.... Logo, você decide:
Resposta obrigatória
Não utilizar a variável pois isso iria contra as leis de LGPD
Não utilizar a variável pois isso seria um vazamento de dados, ou seja, os dados de treinamento contêm a própria informação que estamos tentando prever
Utilizar o preço do produto como variável pura para classificar o produto pois ela tem alta correlação com a variável resposta
Utilizar o preço, mas fazendo as devidas transformações, se necessárias, para o modelo, como normalização, por exemplo
Utilizar a variável após verificar a alta correlação dela com os dados resposta.
A resposta correta seria: Utilizar a variável após verificar a alta correlação dela com os dados resposta. Isso porque a faixa de preço do produto é uma variável importante para a classificação dos produtos e possui alta correlação com a variável resposta. No entanto, é importante verificar se essa variável é realmente relevante para o modelo e se não há outras variáveis que possam ser mais importantes para a classificação dos produtos. Além disso, é importante fazer as devidas transformações na variável, se necessário, como normalização, para que ela possa ser utilizada de forma adequada no modelo.
Para escrever sua resposta aqui, entre ou crie uma conta
Compartilhar