Baixe o app para aproveitar ainda mais
Prévia do material em texto
Pré-processamento de dados 1. O pré-processamento de dados pode ser compreendido como o processo de preparação, manipulação e transformação de um conjunto de dados brutos visando a que o conhecimento possa ser corretamente obtido por algoritmos e técnicas de mineração de dados. São tipos de tarefas no pré-processamento de dados: Você acertou! A. limpeza, integração, redução, transformação e discretização. Os tipos mais comuns de tarefas de pré-processamento de dados são limpeza, integração, redução, transformação e discretização. Coleta é uma etapa da mineração posterior ao pré-processamento e mineração, a etapa posterior. 2. Ruídos em dados consistem em valores que destoam consideravelmente do conjunto de dados ou até mesmo de erros em medições. Há duas abordagens mais comuns para diminuição dos ruídos: a remoção de dados ruidosos (como outliers) ou a redução dos dados. São metodologias de redução dimensional: Você acertou! B. SVD e PCA. São metodologias de redução a SVD (decomposição por valores singulares) e a PCA (análise de componentes principais). Deleção de objetos pode impactar nos resultados finais e PCR não é uma metodologia de redução dimensional. 3. O método de normalização permite transformar dados numéricos de forma que se tornem mais apropriados para uso nas etapas de mineração de dados. Dada a lista de elementos X = [2, 2, 4, 6, 9, 3, 9, 12], determine a quantidade de elementos maiores que 0,5 se a lista fosse normalizada para um intervalo entre [0, 1]: Resposta correta. B. 3. Nessa lista, 2 representa o menor valor. Logo, será normalizado para o valor 0; 12 é o maior valor. Logo, seria normalizado para o valor 1. A metade da diferença dos números é 5. Logo, o ponto de corte é 7 (menor valor + diferença do maior e do menor). Logo, há 3 números maiores que 7. A resposta, então, é 3. 4. Em certos casos, algoritmos não conseguem lidar com múltiplos tipos de dados ou, às vezes, é necessário visualizar determinado conjunto de informações. Assim, torna-se necessário converter dados numéricos em dados categóricos. Esse processo é conhecido como discretização. É um tipo de visualização de dados numéricos em categóricos: Você acertou! C. histograma. Histogramas são simples exemplos do uso de discretização. Histogramas condensam um intervalo de números em determinada categoria. Assim, é possível determinar a quantidade de indivíduos agrupados, o que os difere de gráficos de linhas e de barras. Gráficos de discretização e de categorização não existem. 5. Observe o código a seguir: Você acertou! B. assassinatos = assassinatos %>% mutate(UF = toupper(UF)) A linha de código que poderia ser usada para converter caracteres minúsculos em maiúsculos é: assassinatos = assassinatos %>% mutate(UF = toupper(UF)) As outras não salvam as alterações realizadas ou, então, invertem a ordem de execução das funções toupper( ) e mutate( ). Desafio Formulários de cadastro preenchidos pelos próprios clientes podem ser fontes de problemas caso não se tome cuidado na coleta dos dados. Ao permitir que clientes insiram seus dados em campos abertos, uma série de erros pode ocorrer, comprometendo futuras análises. Entretanto, técnicas de pré-processamento de dados podem ser utilizadas para reduzir os danos. a) Com base em seus conhecimentos em pré-processamento de dados, qual regra poderia ser implementada para padronizar esses dados (considerando que podem ser usados Python ou R)? b) Em relação ao formulário de entrada e à base de dados, o que poderia ser feito para impedir novos problemas decorrentes de novas inserções? Sua resposta a) analise = analise %>% mutate(ARR_DATE_TIME_text = str_c(day,month,year,sep=”/”)) ou analise = analise %>% mutate(ARR_DATE_TIME_text = ymd_hm(str_c( day, month,year, sep=”/”))) b) Implantação de filtros e mascaras no input direcionados a entrada de data. Enviado em: 29/11/2021 23:30 Padrão de resposta esperado a) Para padronizar os dados desse atributo, é recomendado escolher o padrão de maior ocorrência, ou seja, DD/MM/AAAA. Assim, a implementação em Python é simples: b) Quanto ao formulário, podem-se usar regras que formatem a entrada de dados, por exemplo, usando JavaScript. Por exemplo: pode-se adicionar uma regra de preenchimento automático do separador. Assim, o usuário ficaria responsável por digitar apenas os números. Quanto ao banco de dados, poderia ser alterado o campo do tipo varchar para o tipo datetime. Entretanto, seria necessário processar a formatação dos dados para esse tipo na linguagem back-end.
Compartilhar