Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNP - UNIVERSIDADE POTIGUAR BACHARELADO EM ESTATÍSTICA DISCIPLINA: MINERAÇÃO DE DADOS DISCRETIZAÇÃO, PCA E REGRESSÃO LINEAR MÚLTIPLA AUTOR: ESP. WESLEY SOARES DE SOUZA REVISOR: BRUNO ROBERTO NEPOMUCENO MATHEUS Atividade 2 (PRATIQUE E COMPARTILHE) apresentada ao curso bacharelado em Estatística, ofertado pela Universidade Potiguar, como requisito complementar para a segunda avaliação da disciplina Mineração de Dados – Discretização, PCA e Regressão Linear Múltipla. Autor: Esp. Wesley Soares de Souza Revisor: Bruno Roberto Nepomuceno Matheus ALUNO: EBERSON COSTA – MATRÍCULA 2020201380 BENEVIDES – PARÁ 2021 MINERAÇÃO DE DADOS DISCRETIZAÇÃO, PCA E REGRESSÃO LINEAR MÚLTIPLA UNIDADE 2 PRATIQUE E COMPARTILHE DISCRETIZAÇÃO, PCA E REGRESSÃO LIINEAR MÚLTIIPLA Na Unidade 2, explicamos como chegar aos modelos de conhecimento a partir de algoritmos utilizados na mineração de dados. Para tanto, existem algoritmos específicos para serem aplicados em determinadas situações. Tais algoritmos definem um padrão que, segundo Souza et al. (2011), pode ser definido como um evento ou combinação de eventos que ocorre frequentemente em um banco de dados, em que cada evento é representado por um conjunto de dados. Podemos perceber que em cada modelo de conhecimento que formamos ao final de determinado processo, abre a possibilidade de ganho de tempo na elaboração de modelos semelhantes com resultados distintos entre si. Segundo Cister (2005), a previsão de que provavelmente os clientes irão mudar de fornecedor ou de tecnologia de serviços e a utilização de incentivos eficazes – do ponto de vista do custo – para persuadi-los a continuar são iniciativas muito difíceis para a maioria das empresas de telecomunicação. A terminologia churn consiste no ato de um cliente abandonar uma empresa por uma concorrente, iniciando uma nova relação (MATTISON, 2001). Porém, um atributo inicial que precisamos analisar é a quantidade de clientes que estão envolvidos nessa realidade. Para compreendermos melhor o processo utilizado, foi preciso separar duas classes: C (churner - cliente com possibilidade de evasão) e NC (não churner - cliente fidelizado). Segundo Petermann (2006), autor da pesquisa, o total de registros na base de treinamento foi de 5.045, sendo 2.074 (41%) pertencentes à classe (churner ou C) e 2.971 (59%) pertencentes à classe comum (_delizada/não churner NC). Os clientes levantados no pré-processamento devem ser discretizados para utilização de algoritmos classificadores, sendo adequados em termos de custo e tempo de processamento, principalmente pelo fato de esses números serem uma suposição em cima de fatos apresentados pela empresa. Para análise, foi utilizado o pacote de classes WEKA, que é um conhecido ambiente para mineração de dados. Um dos algoritmos aplicados no processo de classificação foi a rede neural RBF Network, que faz parte da base de funções WEKA. Foi utilizada a árvore de decisão que, a partir do conhecimento coberto e da validação de especialistas e analistas, possibilitou a criação de novos padrões. Foram aplicados também classificadores Bayesianos com o algoritmo Naive Bayes. Os resultados alcançados seguem na figura a seguir: Nesse comparativo entre os 3 (três) algoritmos utilizados, nota-se que houve uma discrepância irrisória, que demonstra que tais resultados são aceitáveis e coerentes. O modelo demonstrado tinha como principal objetivo observar o índice de clientes não fidelizados para a ocorrência de um trabalho mais eficiente nesse grupo. Isso mostra que podemos utilizar tal modelo adaptado para outros problemas que envolvam predição e classificação de clientes, principalmente envolvendo abandono ou migração para outro fornecedor. Vamos Praticar Por meio do estudo proposto, percebe-se que, para evitar que determinado produto da empresa perca mercado, a mineração de dados é uma grande aliada na estruturação da tomada de decisão. Como podemos utilizar a discretização e a classificação da mesma forma em uma empresa ou indústria? Monte um exemplo utilizando o conhecimento abordado no estudo de caso proposto, lembrando que o objetivo é reutilizar o modelo de conhecimento adquirido. Ao final, disponibilize seu trabalho no fórum da seção. Em palavras simples, a mineração de dados é definida como um processo usado para extrair dados utilizáveis de um conjunto maior de dados brutos. Isso implica na análise de padrões de dados em grandes lotes usando um ou mais softwares. A discretização de dados é uma tarefa importante na mineração de dados quando é necessária a facilitação da busca de determinadas informações. Essa discretização consiste na divisão do todo em partes com menor complexidade, a fim de facilitar a formação do modelo de conhecimento. A classificação é o processo de encontrar um conjunto de modelos que descrevem e distinguem classes de dados ou conceitos. Esses modelos são usados para predição de objetos cujas classes são desconhecidas, baseada na análise de um conjunto de dados de treinamento (objetos cujas classes são conhecidas). Para se utilizar a discretização e a classificação da mesma forma em uma empresa ou indústria basta realizar-se uma mineração com base no conhecimento gerado numa Curva ABC, onde os produtos podem ser classificados por participação de mercado, podendo-se descobrir que por exemplo, 10% dos produtos do portfólio são responsáveis por 60% de toda a participação da empresa no mercado, levando-se em consideração, vendas, faturamento ou lucro. Neste caso a discretização facilita quando há um grande volume de transações e itens a serem analisados. Referências CISTER, A. M. Mineração de dados para a análise de atrito em telefonia móvel. 2005. 158 f. Tese (Doutorado em Engenharia Civil) – Faculdade de Engenharia Civil, UFRJ, Rio de Janeiro, 2005. MATTISON, R. The Telco Churn Management Handbook. McHenry County, EUA: Lulu Press Inc., 2001. PETERMANN, R.J. Modelo de Mineração de dados para classificação de clientes em telecomunicações. Dissertação (Mestrado em Engenharia Elétrica) – Faculdade de Engenharia, Pontifícia Universidade Católica do Rio GrandeodooSul,oPortooAlegre,o2006.oDisponíveloem:http://tede2.pucrs.br/te de2/bitstream/tede/3044/1/388093.pdf. Acesso em: 14 dez. 2019. SOUZA, D. G.; GONÇALVES, J. L.; FERRUGEM, A. P. Mineração de Dados para Descoberta de Padrões: um estudo de caso aplicado à base de dados da Delegacia Regional do Trabalho. Pelotas: Centro de Desenvolvimento Tecnológico,2011.oDisponíveloem:ohttp://www.facol.com/si/downloads/Revist a_SI_2011/Artigo02.pdf. Acesso em:o13 dez. 2019.
Compartilhar