Buscar

UNIDADE 2 - PRATIQUE E COMPARTILHE - MINERAÇÃO DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNP - UNIVERSIDADE POTIGUAR 
BACHARELADO EM ESTATÍSTICA 
DISCIPLINA: MINERAÇÃO DE DADOS 
DISCRETIZAÇÃO, PCA E REGRESSÃO LINEAR MÚLTIPLA 
AUTOR: ESP. WESLEY SOARES DE SOUZA 
REVISOR: BRUNO ROBERTO NEPOMUCENO MATHEUS 
 
 
 
 
 
 
 
Atividade 2 (PRATIQUE E COMPARTILHE) 
apresentada ao curso bacharelado em 
Estatística, ofertado pela Universidade 
Potiguar, como requisito complementar para a 
segunda avaliação da disciplina Mineração de 
Dados – Discretização, PCA e Regressão 
Linear Múltipla. 
Autor: Esp. Wesley Soares de Souza 
Revisor: Bruno Roberto Nepomuceno Matheus 
 
 
 
 
 
 
 
 
 
ALUNO: EBERSON COSTA – MATRÍCULA 2020201380 
BENEVIDES – PARÁ 
2021 
MINERAÇÃO DE DADOS 
DISCRETIZAÇÃO, PCA E REGRESSÃO LINEAR MÚLTIPLA 
UNIDADE 2 
PRATIQUE E COMPARTILHE 
 
DISCRETIZAÇÃO, PCA E REGRESSÃO LIINEAR MÚLTIIPLA 
 
Na Unidade 2, explicamos como chegar aos modelos de conhecimento a partir de 
algoritmos utilizados na mineração de dados. Para tanto, existem algoritmos 
específicos para serem aplicados em determinadas situações. Tais algoritmos 
definem um padrão que, segundo Souza et al. (2011), pode ser definido como um 
evento ou combinação de eventos que ocorre frequentemente em um banco de 
dados, em que cada evento é representado por um conjunto de dados. Podemos 
perceber que em cada modelo de conhecimento que formamos ao final de 
determinado processo, abre a possibilidade de ganho de tempo na elaboração de 
modelos semelhantes com resultados distintos entre si. 
Segundo Cister (2005), a previsão de que provavelmente os clientes irão mudar de 
fornecedor ou de tecnologia de serviços e a utilização de incentivos eficazes – do 
ponto de vista do custo – para persuadi-los a continuar são iniciativas muito difíceis 
para a maioria das empresas de telecomunicação. A terminologia churn consiste no 
ato de um cliente abandonar uma empresa por uma concorrente, iniciando uma nova 
relação (MATTISON, 2001). Porém, um atributo inicial que precisamos analisar é a 
quantidade de clientes que estão envolvidos nessa realidade. 
Para compreendermos melhor o processo utilizado, foi preciso separar duas classes: 
C (churner - cliente com possibilidade de evasão) e NC (não churner - cliente 
fidelizado). Segundo Petermann (2006), autor da pesquisa, o total de registros na 
base de treinamento foi de 5.045, sendo 2.074 (41%) pertencentes à classe (churner 
ou C) e 2.971 (59%) pertencentes à classe comum (_delizada/não churner NC). Os 
clientes levantados no pré-processamento devem ser discretizados para utilização 
de algoritmos classificadores, sendo adequados em termos de custo e tempo de 
processamento, principalmente pelo fato de esses números serem uma suposição 
em cima de fatos apresentados pela empresa. 
Para análise, foi utilizado o pacote de classes WEKA, que é um conhecido ambiente 
para mineração de dados. Um dos algoritmos aplicados no processo de 
classificação foi a rede neural RBF Network, que faz parte da base de funções 
WEKA. Foi utilizada a árvore de decisão que, a partir do conhecimento coberto e da 
validação de especialistas e analistas, possibilitou a criação de novos padrões. 
Foram aplicados também classificadores Bayesianos com o algoritmo Naive Bayes. 
Os resultados alcançados seguem na figura a seguir: 
Nesse comparativo entre os 3 (três) algoritmos utilizados, nota-se que houve uma 
discrepância irrisória, que demonstra que tais resultados são aceitáveis e coerentes. 
O modelo demonstrado tinha como principal objetivo observar o índice de clientes 
não fidelizados para a ocorrência de um trabalho mais eficiente nesse grupo. Isso 
mostra que podemos utilizar tal modelo adaptado para outros problemas que 
envolvam predição e classificação de clientes, principalmente envolvendo abandono 
ou migração para outro fornecedor. 
 
Vamos Praticar 
Por meio do estudo proposto, percebe-se que, para evitar que determinado produto 
da empresa perca mercado, a mineração de dados é uma grande aliada na 
estruturação da tomada de decisão. Como podemos utilizar a discretização e a 
classificação da mesma forma em uma empresa ou indústria? Monte um exemplo 
utilizando o conhecimento abordado no estudo de caso proposto, lembrando que o 
objetivo é reutilizar o modelo de conhecimento adquirido. Ao final, disponibilize seu 
trabalho no fórum da seção. 
Em palavras simples, a mineração de dados é definida como um processo usado 
para extrair dados utilizáveis de um conjunto maior de dados brutos. Isso implica na 
análise de padrões de dados em grandes lotes usando um ou mais softwares. 
A discretização de dados é uma tarefa importante na mineração de dados quando é 
necessária a facilitação da busca de determinadas informações. Essa discretização 
consiste na divisão do todo em partes com menor complexidade, a fim de facilitar a 
formação do modelo de conhecimento. 
A classificação é o processo de encontrar um conjunto de modelos que descrevem e 
distinguem classes de dados ou conceitos. Esses modelos são usados para 
predição de objetos cujas classes são desconhecidas, baseada na análise de um 
conjunto de dados de treinamento (objetos cujas classes são conhecidas). 
Para se utilizar a discretização e a classificação da mesma forma em uma empresa 
ou indústria basta realizar-se uma mineração com base no conhecimento gerado 
numa Curva ABC, onde os produtos podem ser classificados por participação de 
mercado, podendo-se descobrir que por exemplo, 10% dos produtos do portfólio são 
responsáveis por 60% de toda a participação da empresa no mercado, levando-se 
em consideração, vendas, faturamento ou lucro. 
Neste caso a discretização facilita quando há um grande volume de transações e 
itens a serem analisados. 
 
Referências 
CISTER, A. M. Mineração de dados para a análise de atrito em telefonia móvel. 
2005. 158 f. Tese (Doutorado em Engenharia Civil) – Faculdade de Engenharia 
Civil, UFRJ, Rio de Janeiro, 2005. 
 
MATTISON, R. The Telco Churn Management Handbook. McHenry County, EUA: 
Lulu Press Inc., 2001. 
 
PETERMANN, R.J. Modelo de Mineração de dados para classificação de 
clientes em telecomunicações. Dissertação (Mestrado em Engenharia 
Elétrica) – Faculdade de Engenharia, Pontifícia Universidade Católica do Rio 
GrandeodooSul,oPortooAlegre,o2006.oDisponíveloem:http://tede2.pucrs.br/te
de2/bitstream/tede/3044/1/388093.pdf. Acesso em: 14 dez. 2019. 
 
SOUZA, D. G.; GONÇALVES, J. L.; FERRUGEM, A. P. Mineração de Dados 
para Descoberta de Padrões: um estudo de caso aplicado à base de dados da 
Delegacia Regional do Trabalho. Pelotas: Centro de Desenvolvimento 
Tecnológico,2011.oDisponíveloem:ohttp://www.facol.com/si/downloads/Revist
a_SI_2011/Artigo02.pdf. Acesso em:o13 dez. 2019.

Continue navegando