É correto retirar outliers da amostra? Se sim, por quê? E qual o embasamento científico.
1 resposta(s)
Rafael Jeronimo
Há mais de um mês
- excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
- realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
- utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.