datamining Pré-processamento de dados

•

FASUL

4

0

4

0

Leonardo Maragno Graber

30/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Mining

175 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pré-processamento de dados
1.
O pré-processamento de dados pode ser compreendido como o processo de
preparação, manipulação e transformação de um conjunto de dados brutos
visando a que o conhecimento possa ser corretamente obtido por algoritmos e
técnicas de mineração de dados.
São tipos de tarefas no pré-processamento de dados:
Você acertou!
A.
limpeza, integração, redução, transformação e discretização.
Os tipos mais comuns de tarefas de pré-processamento de dados são limpeza,
integração, redução, transformação e discretização. Coleta é uma etapa da mineração
posterior ao pré-processamento e mineração, a etapa posterior.
2.
Ruídos em dados consistem em valores que destoam consideravelmente do
conjunto de dados ou até mesmo de erros em medições. Há duas abordagens mais
comuns para diminuição dos ruídos: a remoção de dados ruidosos (como outliers)
ou a redução dos dados.
São metodologias de redução dimensional:

Você acertou!
B.
SVD e PCA.
São metodologias de redução a SVD (decomposição por valores singulares) e a PCA
(análise de componentes principais). Deleção de objetos pode impactar nos resultados
finais e PCR não é uma metodologia de redução dimensional.

3.
O método de normalização permite transformar dados numéricos de forma que se
tornem mais apropriados para uso nas etapas de mineração de dados.
Dada a lista de elementos X = [2, 2, 4, 6, 9, 3, 9, 12], determine a quantidade de
elementos maiores que 0,5 se a lista fosse normalizada para um intervalo entre [0,
1]:

Resposta correta.
B.
3.
Nessa lista, 2 representa o menor valor. Logo, será normalizado para o valor 0; 12 é o
maior valor. Logo, seria normalizado para o valor 1. A metade da diferença dos
números é 5. Logo, o ponto de corte é 7 (menor valor + diferença do maior e do menor).
Logo, há 3 números maiores que 7. A resposta, então, é 3.
4.
Em certos casos, algoritmos não conseguem lidar com múltiplos tipos de dados ou,
às vezes, é necessário visualizar determinado conjunto de informações. Assim,
torna-se necessário converter dados numéricos em dados categóricos. Esse
processo é conhecido como discretização.
É um tipo de visualização de dados numéricos em categóricos:
Você acertou!
C.
histograma.
Histogramas são simples exemplos do uso de discretização. Histogramas condensam um
intervalo de números em determinada categoria. Assim, é possível determinar a
quantidade de indivíduos agrupados, o que os difere de gráficos de linhas e de barras.
Gráficos de discretização e de categorização não existem.
5.
Observe o código a seguir:

Você acertou!
B.
assassinatos = assassinatos %>% mutate(UF = toupper(UF))
A linha de código que poderia ser usada para converter caracteres minúsculos em
maiúsculos é:
assassinatos = assassinatos %>% mutate(UF = toupper(UF))
As outras não salvam as alterações realizadas ou, então, invertem a ordem de execução
das funções toupper( ) e mutate( ).
Desafio
Formulários de cadastro preenchidos pelos próprios clientes podem ser fontes de
problemas caso não se tome cuidado na coleta dos dados. Ao permitir que clientes
insiram seus dados em campos abertos, uma série de erros pode ocorrer,
comprometendo futuras análises. Entretanto, técnicas de pré-processamento de dados
podem ser utilizadas para reduzir os danos.

a) Com base em seus conhecimentos em pré-processamento de dados, qual regra
poderia ser implementada para padronizar esses dados (considerando que podem
ser usados Python ou R)?
b) Em relação ao formulário de entrada e à base de dados, o que poderia ser feito para
impedir novos problemas decorrentes de novas inserções?
Sua resposta
a) analise = analise %>% mutate(ARR_DATE_TIME_text =
str_c(day,month,year,sep=”/”)) ou analise = analise %>%
mutate(ARR_DATE_TIME_text = ymd_hm(str_c( day, month,year, sep=”/”)))
b) Implantação de filtros e mascaras no input direcionados a entrada de data.
Enviado em: 29/11/2021 23:30
Padrão de resposta esperado
a) Para padronizar os dados desse atributo, é recomendado escolher o padrão de maior
ocorrência, ou seja, DD/MM/AAAA. Assim, a implementação em Python é simples:

b) Quanto ao formulário, podem-se usar regras que formatem a entrada de dados, por
exemplo, usando JavaScript. Por exemplo: pode-se adicionar uma regra de preenchimento
automático do separador. Assim, o usuário ficaria responsável por digitar apenas os
números. Quanto ao banco de dados, poderia ser alterado o campo do tipo varchar para o tipo
datetime. Entretanto, seria necessário processar a formatação dos dados para esse tipo na
linguagem back-end.