Buscar

datamining Pré-processamento de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Pré-processamento de dados 
1. 
O pré-processamento de dados pode ser compreendido como o processo de 
preparação, manipulação e transformação de um conjunto de dados brutos 
visando a que o conhecimento possa ser corretamente obtido por algoritmos e 
técnicas de mineração de dados. 
São tipos de tarefas no pré-processamento de dados: 
Você acertou! 
A. 
limpeza, integração, redução, transformação e discretização. 
Os tipos mais comuns de tarefas de pré-processamento de dados são limpeza, 
integração, redução, transformação e discretização. Coleta é uma etapa da mineração 
posterior ao pré-processamento e mineração, a etapa posterior. 
2. 
Ruídos em dados consistem em valores que destoam consideravelmente do 
conjunto de dados ou até mesmo de erros em medições. Há duas abordagens mais 
comuns para diminuição dos ruídos: a remoção de dados ruidosos (como outliers) 
ou a redução dos dados. 
São metodologias de redução dimensional: 
 
Você acertou! 
B. 
SVD e PCA. 
São metodologias de redução a SVD (decomposição por valores singulares) e a PCA 
(análise de componentes principais). Deleção de objetos pode impactar nos resultados 
finais e PCR não é uma metodologia de redução dimensional. 
 
3. 
O método de normalização permite transformar dados numéricos de forma que se 
tornem mais apropriados para uso nas etapas de mineração de dados. 
Dada a lista de elementos X = [2, 2, 4, 6, 9, 3, 9, 12], determine a quantidade de 
elementos maiores que 0,5 se a lista fosse normalizada para um intervalo entre [0, 
1]: 
 
Resposta correta. 
B. 
3. 
Nessa lista, 2 representa o menor valor. Logo, será normalizado para o valor 0; 12 é o 
maior valor. Logo, seria normalizado para o valor 1. A metade da diferença dos 
números é 5. Logo, o ponto de corte é 7 (menor valor + diferença do maior e do menor). 
Logo, há 3 números maiores que 7. A resposta, então, é 3. 
4. 
Em certos casos, algoritmos não conseguem lidar com múltiplos tipos de dados ou, 
às vezes, é necessário visualizar determinado conjunto de informações. Assim, 
torna-se necessário converter dados numéricos em dados categóricos. Esse 
processo é conhecido como discretização. 
É um tipo de visualização de dados numéricos em categóricos: 
Você acertou! 
C. 
histograma. 
Histogramas são simples exemplos do uso de discretização. Histogramas condensam um 
intervalo de números em determinada categoria. Assim, é possível determinar a 
quantidade de indivíduos agrupados, o que os difere de gráficos de linhas e de barras. 
Gráficos de discretização e de categorização não existem. 
5. 
Observe o código a seguir: 
 
Você acertou! 
B. 
assassinatos = assassinatos %>% mutate(UF = toupper(UF)) 
A linha de código que poderia ser usada para converter caracteres minúsculos em 
maiúsculos é: 
assassinatos = assassinatos %>% mutate(UF = toupper(UF)) 
As outras não salvam as alterações realizadas ou, então, invertem a ordem de execução 
das funções toupper( ) e mutate( ). 
Desafio 
Formulários de cadastro preenchidos pelos próprios clientes podem ser fontes de 
problemas caso não se tome cuidado na coleta dos dados. Ao permitir que clientes 
insiram seus dados em campos abertos, uma série de erros pode ocorrer, 
comprometendo futuras análises. Entretanto, técnicas de pré-processamento de dados 
podem ser utilizadas para reduzir os danos. 
 
 
a) Com base em seus conhecimentos em pré-processamento de dados, qual regra 
poderia ser implementada para padronizar esses dados (considerando que podem 
ser usados Python ou R)? 
b) Em relação ao formulário de entrada e à base de dados, o que poderia ser feito para 
impedir novos problemas decorrentes de novas inserções? 
Sua resposta 
a) analise = analise %>% mutate(ARR_DATE_TIME_text = 
str_c(day,month,year,sep=”/”)) ou analise = analise %>% 
mutate(ARR_DATE_TIME_text = ymd_hm(str_c( day, month,year, sep=”/”))) 
b) Implantação de filtros e mascaras no input direcionados a entrada de data. 
Enviado em: 29/11/2021 23:30 
Padrão de resposta esperado 
a) Para padronizar os dados desse atributo, é recomendado escolher o padrão de maior 
ocorrência, ou seja, DD/MM/AAAA. Assim, a implementação em Python é simples: 
 
b) Quanto ao formulário, podem-se usar regras que formatem a entrada de dados, por 
exemplo, usando JavaScript. Por exemplo: pode-se adicionar uma regra de preenchimento 
automático do separador. Assim, o usuário ficaria responsável por digitar apenas os 
números. Quanto ao banco de dados, poderia ser alterado o campo do tipo varchar para o tipo 
datetime. Entretanto, seria necessário processar a formatação dos dados para esse tipo na 
linguagem back-end.

Outros materiais