Vista previa del material en texto
De Fecha 1 Desarro Oscar C U FACU sarrollo QU Licencia Aseso a: Julio de 2 ollo de árbo Camarillo Le UNIVE AUTO ULTAD de árbol UE PAR ado en m or: Marí 012 oles de decis al ERSID ONOM D DE ES AC les de de M RA OBTE matemáti PRE Oscar C a del Ca siones usand DAD NA MA DE STUDIO CATÁN ecisiones iner 6.1 Tesis ENER E icas apli ESENTA Camarillo armen G do SAS Ente ACION MÉXI OS SUP N s usando EL TITU icadas y A o Leal onzález erprise Min NAL ICO PERIOR o SAS En ULO DE computa Videgar ner 6.1 | RES nterprise ación ray e UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 2 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal 3 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Dedicatoria y agradecimientos A mis papás Julio Camarillo y Silvia Leal que siempre me apoyaron durante toda mi educación y sin su apoyo esta tesis no se hubiese materializado; a Gaby Rojas y a mi hija Paola que siempre han apoyado cada proyecto que tengo a su lado y a la UNAM por todo el conocimiento compartido y las enseñanzas otorgadas a través de los profesores. 4 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal OBJETIVO .............................................................................................................................................. 5 HIPÓTESIS ............................................................................................................................................. 5 INTRODUCCIÓN ..................................................................................................................................... 6 CAPÍTULO I. ¿QUÉ ES MINERÍA DE DATOS Y PARA QUÉ SIRVE? ............................................................... 7 CAPÍTULO II. ÁRBOLES DE DECISIÓN Y REDES NEURONALES COMO MODELOS PREDICTIVOS ................ 16 MODELOS MATEMÁTICOS Y MODELOS PREDICTIVOS .......................................................................................... 16 ÁRBOLES DE DECISIÓN.................................................................................................................................. 18 CAPÍTULO III. ALGORITMOS DE ÁRBOLES DE DECISIÓN ......................................................................... 23 INTRODUCCIÓN ........................................................................................................................................... 23 PREPARACIÓN DE DATOS .............................................................................................................................. 25 DEFINICIÓN DE OBJETIVO ............................................................................................................................. 29 SELECCIÓN DE CRITERIOS DE CRECIMIENTO DE ÁRBOL Y ALGORITMOS DE SEGMENTACIÓN Y CLASIFICACIÓN DE CASOS ................................................................................................................................................................. 30 DEFAULT .................................................................................................................................................... 32 PROBABILIDAD JI-CUADRADA ....................................................................................................................... 33 GINI (O DIVERSIDAD DE POBLACIÓN) ............................................................................................................. 40 ENTROPÍA (GANANCIA DE LA INFORMACIÓN) .................................................................................................. 43 CAPÍTULO IV. DESARROLLO DE CASO PRÁCTICO ................................................................................... 52 INTRODUCCIÓN AL PROBLEMA DE NEGOCIO ................................................................................................... 52 RESULTADOS............................................................................................................................................... 53 EXPLORACIÓN ESTADÍSTICA .......................................................................................................................... 55 CÓDIGO SAS .............................................................................................................................................. 55 PARTICIÓN DE DATOS ................................................................................................................................... 57 IMPUTACIÓN ............................................................................................................................................... 58 TRANSFORMACIÓN DE VARIABLES .................................................................................................................. 59 SEGMENTACIÓN DE VARIABLES (CLUSTERING DE VARIABLES) ............................................................................ 60 ÁRBOL DE DECISIÓN ..................................................................................................................................... 62 Árbol de decisión con regla de partición probabilidad ji cuadrada ................................. 62 Árbol de decisión con regla de partición entropía ................................................................ 65 ANÁLISIS DE RESULTADOS ............................................................................................................................. 65 EVALUACIÓN DE LOS MODELOS ...................................................................................................................... 67 REGLAS DE NEGOCIO ................................................................................................................................... 70 HERRAMIENTAS ALTERNAS PARA EL DESARROLLO DE MODELADO PREDICTIVO ..................................................... 73 CONCLUSIONES ................................................................................................................................... 75 CASO DE NEGOCIO ...................................................................................................................................... 75 CONCLUSIONES DE NEGOCIO ........................................................................................................................ 78 ANEXO 1 ............................................................................................................................................. 80 ANEXO 2 ............................................................................................................................................. 81 ANEXO 3 ............................................................................................................................................. 82 BIBLIOGRAFÍA ..................................................................................................................................... 83 5 Desarrollo de árboles de decisionesusando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Objetivo Describir y entender las capacidades analíticas de los árboles de decisiones dentro del marco de desarrollo de modelos predictivo utilizando SAS Enterprise Miner 6.1. Asimismo mostrar las bondades de utilizar esta herramienta analítica y observar beneficios tangibles empleando técnicas de modelado predictivo para un caso de negocio en específico. Hipótesis El desarrollo de modelos predictivos, en específico los modelos de árboles de decisión son altamente competitivos y efectivos en su capacidad predictiva ante los métodos tradicionales de estimación y predicción que mayormente están basados en la experiencia de industria que puedan tener los analistas y expertos. El desarrollo de modelos predictivos (árboles de decisión) en diversas industrias, refuerzan y mejoran los criterios de toma de decisiones, explican mejor lo que está pasando y podrían finalmente entregar a los tomadores de decisión un fundamento analítico que puede alinearse a las expectativas de negocio. En resumen la hipótesis está sustentada en la comprobación del supuesto de que los modelos de árboles de decisiones son lo suficientemente efectivos ante cualquier método empírico (o incluso estadístico sí es que se utilizan técnicas y herramientas tradicionales como Excel) ejecutado por los expertos en el negocio o la industria, además de proporcionar nuevas reglas de negocio que se adaptan a los constantes cambios que existen en la industria de seguros. Con toda certeza, esta hipótesis no puede generalizarse sobre iniciativas con fines predictivos dado que las condiciones cambian de industria a industria, e incluso los proceso son distintos entre organizaciones. 6 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Introducción La minería de datos tiene como esencia primordial la manipulación de grandes volúmenes de datos que junto con técnicas analíticas o de minería de datos y herramientas computacionales pueden detectar patrones de comportamiento en una población, así como predecir algún evento en particular con un alto nivel de precisión que incrementan la rentabilidad de algún negocio en específico o problemática planteada. En este sentido, es indispensable la buena predicción de los modelos de minería de datos, ya que mientras más precisión exista en su predicción, más confiables serán en su aplicación. De aquí que a lo largo de las últimas décadas ha habido una explotación considerable de los modelos predictivos como árboles de decisión, redes neuronales y regresiones lineales, entre otros modelos analíticos. Hablando específicamente de los modelos analíticos nos referiremos a los árboles de decisión, dado que sus propiedades son menos complejas que las expuestas por otros modelos predictivos. El desarrollo de modelos predictivos ha cobrado auge entre los tomadores de decisiones de las industrias más representativas del mundo sin embargo existen algunos huecos que cubrir todavía, dado que en muchas organizaciones siguen utilizando técnicas rudimentarias para incrementar las ganancias de las organizaciones, fundamentando la toma de decisiones en criterios subjetivos y en viejas prácticas que los expertos de negocio han establecido. Es aquí donde la inteligencia analítica y en específico los modelos predictivos pueden ser aprovechados de una forma proactiva. Particularmente, hablando de los modelos de árboles de decisión, estos ayudarían a sustentar de una forma analítica las decisiones tomadas, basando sus criterios en reglas de fácil interpretación y en métodos estadísticos tradicionales que conjuntamente con los conocimientos de negocio de un experto en la industria generarían una mayor ganancia e indudablemente darían a las organizaciones un valor agregado. Conocer a los clientes, lanzar campañas de mercado, optimizar precios, medir riesgo, prevenir fraude, entre otras problemáticas de negocio son los principales retos de las organizaciones y los árboles de decisión son un arma indispensable en esta generación en donde la información ha cobrado un valor fundamental. Veremos que los árboles de decisión son de fácil interpretación, seguimiento y construcción, ya que estadísticamente, son estructuras sencillas que nos ayudan a entender que es lo que está pasando en nuestro problema de negocio. Siendo así, el presente proyecto de tesis no pretende persuadir al lector en la utilización de modelos basados exclusivamente en árboles de decisión, sino establecer y demostrar que estos modelos pueden ser altamente efectivos en su capacidad de predicción sí son combinados con reglas y conocimiento de negocio de la industria. La herramienta analítica de SAS (Enterprise Miner 6.1) está diseñada para tomadores de decisión que desean agregar valor y obtener beneficio de su negocio instrumentando modelos analíticos sobre objetivos de negocio en particular. 7 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo I. ¿Qué es minería de datos y para qué sirve? “El grado sumo del saber es contemplar el por qué”. Sócrates. (470 AC -399 AC) Filósofo griego En la actualidad los grandes volúmenes de datos crecen exponencialmente, dado que la cantidad de transacciones realizadas en la vida cotidiana son incontables, como lo dice la ley de Moore:” La cantidad de datos en el mundo se duplica a los 18 o 24 meses en las bases de datos”. Hoy en día, el ver esas cantidades de información, ya no asusta a nadie. Estas transacciones u operaciones se ven reflejadas en bancos, tiendas departamentales, telecomunicaciones, áreas de investigación, gobierno, manufactura y un sinfín de campos más. Todas estas áreas acumulan grandes cantidades de datos, que necesitan ser almacenadas con el propósito de transformar estos datos en información y posteriormente la información en conocimiento para finalmente pasar a formar parte de decisiones inteligentes. Es necesario describir esta secuencia de hechos, que bien podría adjudicársele el nombre de causa efecto y que ha venido ocurriendo en su primera etapa cuando los datos se convierten en algo ya no tan intangible y en su segunda etapa cuando se obtiene inteligencia de los datos. Los datos como entes individuales son convertidos en información, esta información ya tiene un valor que puede ser explotado y cuando la información es bien explotada se obtiene conocimiento y una vez que se es generado a partir de este conocimiento adquirido un aprendizaje razonado, se alcanza la cúspide al producir inteligencia. Estas cinco palabras clave son las que dan sentido a lo que es minería de datos: Minería de datos es el conjunto de métodos y técnicas analíticas que permiten por medio de alguna metodología explorar, conocer, interpretar y modelar grandes cantidades de datos que son convertidos previamente información; cumpliendo el objetivo de transformar esta información en conocimiento y posteriormente éste en inteligencia. Otra definición de minería de datos es la expresada por SAS, la cual es una de las principales empresas de inteligencia de negocios y que tiene una de las mejores propuestas de plataforma de inteligencia de negocios sustentada en los componentes analíticos que ofrece la estadística y en específico la minería de datos: Métod volúm Se tie De ac nuevo datos matem “Mine para para q “Mine máqu carac datos De he están en m Una soluc comp inteli i Jim G ii The iii Dav Cambr iv Pete Data M NJ, 19 v The 8 Desarro Oscar C dos analíticos menes de info enen alguna cuerdo al G os patrones d s, usando té máticasii”. ería de datos encontrar nu que estos sea ería de datos uina, reconoc terísticas pri s”iv. echo, la rev n surgiendo inería de da forma de ciones que posición de igencia de n Goodnight, CE Gartner Groupvid Hand, Heikk ridge, MA, 200 er Cabena, Pabl Mining: From C 998. Technology R ollo de árbo Camarillo Le s avanzados d ormacióni. s definicione Grupo de Ga de comporta écnicas de re s es el análisi uevas relacio an entendidos s en un cam cimiento de incipales de vista MIT eli con gran de atos será el m mostrar est ofrece SAS la cadena negocios. F O de SAS Inst p, www.gartner ki Mannila, an 01. lo Hadjinian, R Concept to Imp Review Ten, MI oles de decis al de exploració es más, com artner: “Min amiento, corr econocimient is de observa nes o asociac s y usados po mpo interdisc patrones, e los datos, to ge a la min emanda y ca más sobreva ta secuenci S. A contin de valor qu Figura 1.1. Ca titute. r.com. nd Padhraic Sm Rolf Stadler, Ja plementation, P IT Technology siones usand ón y modelado mo las siguie nería de dato relaciones, t to de patron ar conjuntos d ciones, y pre r la gente de ciplinario que estadística, b odo lo anter ería de dato ambiarán el aluado…”v a de cause uación en ue ofrece S adena de Valo myth, Principles aapVerhees, an Prentice Hall, U Review, Janua do SAS Ente o de asociaci entes: os es el proc endencias, e nes, así com de datos o gr esentar los d e negocio”iii. e contempla base de dat rior extraído os como un rumbo de l e y efecto la figura 1 SAS en sus s or de SAS. s of Data Minin nd Alessandro Z Upper Saddle R ary/February 20 erprise Min ón de patron ceso de descu en grandes re mo técnicas randes volúm datos de dife a en sí mism tos y visualiz de grandes a de las tec os negocios o está refle 1.1 una mu soluciones i ng, MIT Press, Zanasi, Discov River, 001. ner 6.1 | nes en grande ubrimiento d epositorios d estadísticas menes de dato erentes forma mo aprendizaj zación de lo volúmenes d cnologías qu . “El expert ejada en la uestra de l integrales d , vering es de de y os as je os de ue to as la de Autor llama de lo tema acota El co multi patro datos oport dado Como funda Siend mine que i pregu asimi Parta conve ejem espec valor nomb 9 Desarro Oscar C res y expert an KDD (Kno os Datos) o s a es amplio, ar o definirla oncepto de idisciplinaria ones en los s científicas tunistas, ya en el tiemp o lo muest amental de Bases de Estadístic Reconocim Aprendiza Inteligenc Redes neu do matemáti ría de datos involucra KD unta radica ismo SAS ofr amos del he ertirlos en mplo muy clá cífico; en es r, ya que seg bres de call ollo de árbo Camarillo Le tos en mine owldedge Dis si minería de y para efe a como lo m Figura 1.2. M e KDD fue a dentro de grandes vo s y/o exper que para ef po. tra la figur la minería d datos ca miento de p aje de máqu cia artificial uronales icamente es s es entonce DD. Pero, ¿C en la secu rece en su ca echo de qu información ásico es cu se momento guimos perd es, direccio oles de decis al ría de datos scovery Data e datos es u ectos de con muestra el di Minería de da definido a e la investig olúmenes de rimentales. fectos de ne ra 1.2, las de datos son patrones uina strictos de a es un conjun Cuál es la ot uencia causa adena de va ue los datos n para dar v ando estam o el tener la didos, hasta ones, ciudad siones usand s no termina a, en españo un sinónimo nocer lo que agrama con atos como un á finales de gación, ten e datos, los Hoy en día egocio pued s herramien : acuerdo a la nto inclusivo tra parte qu a efecto qu alor. s son objet valor agrega mos perdidos a dirección e que nos hac des y aparta do SAS Ente an por defin ol Descubrim de KDD. Lo e es minería tenido en la área interdisci e los años ía como ta s cuales era los datos u den agregar ntas analíti a lógica de V o de KDD, es ue forma a K ue se menci tos puros si ado a un de s y querem en mano es cemos de un ado postal. erprise Min nir si perten miento del C o que es cie a de datos a figura 1.2: iplinaria. 80´s, sien area primord an tomados utilizados se valor en alg icas que fo Venn y a la s un segmen KDD? La resp ionó previam in valor y eterminado os llegar a un dato, pe n mapa, el c Está ya es ner 6.1 | nece a lo qu Conocimient erto es que e es preferibl ndo un áre dial detecta de bases d e denomina gún moment orman part figura 1.2, l to de todo l puesta a est mente y qu es necesari negocio. U un lugar e ero carece d cual contien información ue to el le ea ar de an to te la lo ta ue io Un en de ne n, 10 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal dado que es de utilidad para buscar la dirección que tratamos de localizar. De manera semejante funciona el KDD; es indispensable tener una preparación previa de los datos para poderla convertir en información. El término KDD se refiere entonces a un proceso integral de descubrimiento del conocimiento en las bases de datos y como tal considera varias tareas previas a la de minería de datos. Estos pasos previos a la extracción de conocimiento y reconocimiento de patrones que proporciona la minería de datos son: 1. Preparación de datos. Actividad que consiste en la creación de un Data Mart o Data Warehose que permita extraer la información de las bases de datos donde se encuentran los millones de registros que serán de interés para analizar. El formar un repositorio en el cual se concentre toda la información necesaria y suficiente para el análisis de minería de datos es la tarea principal en todo análisis previo de minería de datos. Los terminos data mart y data warehouse se refieren a este repositorio o tabla única que contenga las variables y los millones de registros necesarios para extraerles conocimiento. De acuerdo a la definición de SAS, un datawarehouse es un repositorio que contiene toda la información generada dentro de un negocio, este repositorio es el nivel óptimo que se ha alcanzado en términos de inteligencia de negocio ya que no sólo permite describir el comportamiento del negocio en el pasado, sino también entender porque en el presente se comportan de algún modo los datos y muy posiblemente estimar lo que ocurra en el futuro. El data mart cumple la misma función, sólo que éste no representa o no contiene los datos de toda una empresa o negocio, sino sólo la información de un área o departamento en particular, por ejemplo pensemos en una empresa que vende servicios de logística: esta empresa tiene varias bases de datos, entre ellas la de líneas transportistas, proveedores, ventas, clientes, productos que se manejan, catálogo de productos y transacciones, inventarios, entre otros. Si deseamos crear un data warehouse entonces se debe de considerar toda esta información en un único repositorio; por otro lado un Data Mart sería la concentración de la información de todos los ejecutivos de tráfico que producen y almacena información al día en sus repositorios personales y que para algún análisis de minería de datos en particular será necesario reunir toda la información necesaria en un solo lugar. 2. Selección de datos. Se refiere a la tarea de tomar todas las variables correctas, discriminado aquellas que no son relevantes para el negocio o que no tienen relevancia dentro del data warehouse. Puede ser que el data warehouse generado contenga información que no es indispensable, un ejemplo es cuando el data warehouse de alguna tienda departamental se encuentra la variable edad y fecha de cumpleaños, ambas proporcionan la misma información, sin embargo alguna de ellas será irrelevante. Para tener la información correcta en el data mart es importante formarlo con información consistente y suficiente. Más adelante se mencionarán técnicas de minería de datos que permiten hacer una selección de variables. En este momento del tiempo sólo nos ocupamos de entregar un data warehouse con toda la información necesaria.11 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal 3. Limpieza de datos. La limpieza se refiere a la tarea de estandarización de valores de alguna variable, formatos, eliminación en algunos casos de variables con alto número de valores perdidos y optimización de los datos. Ocurre frecuentemente que la gente de algún centro de atención a clientes captura los nombre de los clientes y muchas veces o se escriben mal, o se antepone el Sr. o Sra.; se usan comas entre apellidos y nombre; se escriben con mayúsculas, se escribe primero el nombre y después el apellido, etc. Es aquí donde se deben realizar tareas de limpieza y estandarización de datos. 4. Incorporación de conocimiento a priori. Una vez que la preparación de los datos ha concluido se puede agregar conocimiento de negocio. El experto de negocio ya sea en un banco, en una tienda departamental, en una investigación de enfermedades patológicas, determinará algunas reglas que deberán ser consideradas dentro del análisis de minería de datos. En el caso de un banco, si se desea realizar la calificación de un cliente para saber si es buen candidato para otorgar un crédito, es buena práctica que el experto de negocio explique cómo es que se ha seleccionado esa gente, qué criterio se utiliza, si es que se usa algún criterio de morosidad, o si el cliente se encuentra al día en sus pagos, así como el comportamiento de los clientes en ese país, entre otras reglas de negocio. 5. Minería de Datos. Hasta este momento los datos han sido convertidos en información lista para ser explotada y generar conocimiento. Como lo mencionamos anteriormente, hacer minería de datos implica considerar una metodología, y en este caso infinidad de autores y expertos han propuesto ciertas metodologías, sin embargo nos inclinaremos por la que proporciona SAS. La metodología de SAS es conocida como SEMMA y se encuentra definida dentro de la misma aplicación de Enterprise Miner 6.1 de SAS9.1.3. Por su siglas en inglés, SEMMA significa Sample (Muestreo), Explore (Exploración de los datos), Modify (Modificación de los datos), Model (Modelado de los datos), Assess (Comparación de modelos). Cada uno de ellos se explica a continuación, aunque es importante recalcar que no se profundizará en la explicación del ambiente SAS, esto será retomado en el caso práctico. Sample (muestreo): Se utilizan técnicas estadísticas y mejores prácticas de muestreo, el cual considera varios nodos dentro de la aplicación: Input Data, Data Partition, Simple y Time Siries. Explore (exploración de datos): Se explora la calidad de los datos y se analizan algunos aspectos con estadística descriptiva y técnicas de asociación. Los nodos para la exploración de estos datos son Association, Cluster, Multiplot, Path Analysis, SOM, StatExplorer, Text Miner, Variables Selection. Modify (modificación de los datos). Algunos datos requieren ser ajustados, parametrizados o incluso eliminados. Para estas tareas SAS proporciona los nodos de Drop, Filter, Impute, Principal Components, Replacement, Transform Variables. Model (modelado de los datos). Los modelos predictivos, de asociación, segmentación, entre otros, propuestos por SAS son: AutoNeurona, 12 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Decision Tree, Dmine Regression, DMNeural, Ensamble, Memory Based Reasoning, Neural Network, Regression, Rul Induction, Two Statesvi. Assess (comparación de modelos). Este paso dentro de la metodología permite cotejar y comparar los modelos de manera tal que se pueda elegir el que mejor se ajuste a los datos, o menor cantidad de falsos positivos arroje. Los nodos aquí son Decision, Model Comparition, Segment Profile, Score. Definitivamente el nodo que estaremos utilizando es Model Comparition. 6. La interpretación de resultados. Es prácticamente el paso final dentro de un estudio de Minería de datos, no olvidemos que es parte de KDD. Esta parte es la que cierra la secuencia de causa efecto de la que hemos hablando, ya que aquí es donde el aprendizaje de un modelo (ya sea redes neuronales, árbol de decisión, regresión, etc.), se verá reflejado en la inteligencia que tendrá para darnos reglas de negocio que darán valor a los objetivos perseguidos y finalmente estaremos asegurando que el conocimiento extraído refleja lo existente en los datos. Se resumiría esta última parte como la de aprendizaje basado en entrenamiento y obtención de decisiones de negocio que se traducen en inteligencia. SAS por su parte ofrece estos 6 puntos es sus soluciones de negocios, por ello el uso de la herramienta dentro de esta tesis, ya que es una de las más completas para ir de la mano en la competitiva carrera de inteligencia de negocios. Hoy en día las grandes empresas no sólo pretenden conocer el pasado y entender el presente de sus datos, sino predecir el futuro utilizando minería de datos y SAS es una alternativa que ofrece de manera integral estos siete puntos antes señalados. Minería de datos es un amplio campo en el que se pretende resolver las siguientes seis tareas: Clasificación. Consisten en examinar las características de un nuevo objeto u elemento y asignarlo a algún grupo o clase ya definida. Cuando un objeto es clasificado se asigna a esa clase y de algún modo es etiquetado. El objetivo de ser clasificado es construir un modelo que pueda describir y determinar más objetos con esta característica y aplicar alguna acción en particular. Algunos ejemplos de clasificación son: calificación de solicitantes a una tarjeta de crédito, como bueno, malo y regular; determinar el número telefónico corresponde a un número de fax, etc. Estimación. Dado un ingreso de datos como entrada, la estimación está dada por el valor de alguna variable continua desconocida como también por variables de entrada, pesos, o algún balance en el caso de una calificación de crédito. Algunos ejemplos son, estimación del número de niños en una comunidad, estimación de los ingresos anuales de la empresa que es competencia, estimación de la probabilidad de que algún cliente se fugue a la competencia telefónica. vi Para propósitos de esta tésis de licenciatura sólo se considerarán los modelos de árboles de decisión y modelos de minería de datos. 13 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Predicción. Prácticamente es lo mismo que la clasificación y la estimación, excepto que una observación es clasificada de acuerdo a algunas características de futuros comportamientos o futuras estimaciones. Aquí la única manera de saber si se está realizando una buena predicción es esperando a que los datos maduren y se realice la correspondiente predicción para saber si fue asertiva o no lo fue. Algunos ejemplos son: predecir que cliente comprara el producto que sale a la venta; predecir la cantidad de inventario para los siguientes seis meses. Afinidad o reglas de asociación. Consiste en asociar eventos en un mismo contexto. El ejemplo clásico es el de un supermercado en el que dado que se compró un producto A existe una probabilidad de que se adquiera el producto B; el contexto aquí es el supermercado. Segmentación. es la tarea de dividir una población heterogénea, en varios grupos de poblaciones homogéneas o conglomerados. Lo que hará que cada segmento esté clasificado de acuerdo a un conjunto de variables que describen a cada integrante de la población de la misma manera. Descripción de perfiles. Muchas veces el propósito de minería de datos es simplemente describir qué es lo que pasa en una base de datos y así comprender más el comportamiento de los clientes o productos. El objetivo de esta tarea es sólo descriptivo y explicativo para conocer lo que pasa en el presente y posiblementetomar alguna decisión a futuro. De acuerdo con lo antes señalado, uno de los principales objetivos de la minería de datos es encontrar modelos predictivos (estadísticos y/o matemáticos) que sean representativos de los datos basados en el entrenamiento de estos, tomando un algoritmo de aprendizaje y así adquirir inteligencia. Estos modelos de minería de datos requieren de una variable objetivo, también llamada variable de respuesta o variable dependiente (target) y variables independientes o variables de entrada (inputs). Estos modelos se pueden generar a partir de algoritmos diseñados por expertos que con el tiempo han ido perfeccionando y optimizando dado que los grandes volúmenes de información requieren de técnicas más sofisticadas. Los modelos predictivos que se pueden generar con minería de datos dependerán del objetivo que se persiga. Se tiene así un análisis supervisado y no supervisado, de acuerdo a la clasificación de SAS: Análisis supervisado. Es aquel en el que se conoce el objetivo o variable de respuesta. Análisis no supervisado. Se desconoce la variable de respuesta y sólo se tienen variables de entrada o variables independientes. Entonces los diferentes tipos de modelos predictivos estadísticos o matemáticos dependerán del tipo de variable de respuesta que se tenga. También existen ciertos modelos que se pueden aplicar a un análisis supervisado o no supervisado. En la figura 1.4 se muestra este cuadro de clasificación de los modelos. 14 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Clasificación de Modelos Predictivos Tipo de Análisis Supervisado No supervisado Variables de resupesta Continua Redes Neuronales, Árboles de Decisión, Regresión No se conoce la variable Discreta Redes Neuronales, Árboles de Decisión, Regresión No se conoce la variable No conocida Ninguno Modelos de Asociación, Modelos de Segmentación, Modelos de Clasificación Figura 1.4. Clasificación de modelos predictivos. Ahora bien, ¿Para qué o por qué minería de datos? La respuesta a esta pregunta está enfocada, como ya lo mencionamos en un inicio, al considerable volumen de datos que se tiene actualmente en las grandes empresas. Éstas generalmente pertenecen a alguno segmento de negocio que se han clasificado de la siguiente manera: Aeronáutica Bioinformática Medicina Salud Finanzas e inversiones Manufactura, cadenas de producción y cadenas de subministro Negocios y mercado Redes de telecomunicaciones Dominio científico Y las aplicaciones dentro de cada uno de estos segmentos son incontables: Detección de fraude Calificación de riesgo Calificación de crédito Predicción de fuga, segmentación de clientes, entre otros. 15 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Entonces la respuesta a por qué se debe utilizar minería de datos, es porqué el crecimiento de los volúmenes de información en las bases de datos de las organizaciones ya no sólo se dedican a almacenar de manera histórica los datos, sino que ahora la tarea es encontrar y detectar nuevas oportunidades que permitan incrementar la utilidad y rentabilidad de la empresa, conociendo a los clientes y explotando los datos, y ¿Cómo explotarlos? Utilizando técnicas analíticas fundamentadas en una metodología y algoritmos computacionales que permitan optimizar en tiempo y forma estas tareas. Para efectos de esta tesis emplearemos sólo modelos predictivos supervisados de minería de datos, sin embargo no está por demás mencionar los modelos predictivos con los que se cuenta en la actualidad: Modelos de árboles de decisión Modelos de redes neuronales Modelos de regresión Modelos de segmentación Modelos de afinidad Básicamente estos son los modelos más comunes y utilizados dentro de la metodología SAS. En los siguientes capítulos describiremos en qué consisten y cómo trabajan los modelos de minería de datos, específicamente los árboles de decisión. 16 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo II. Árboles de decisión y redes neuronales como modelos predictivos “La matemática es la ciencia del orden y la medida; de bellas asociaciones de razonamiento, todas sencillas y fáciles”. René Descartes. (1596 -1650) Filósofo y matemático francés Modelos matemáticos y modelos predictivos Los modelos matemáticos son fuertes herramientas que en pleno siglo XXI junto con la explotación de datos ha revolucionado las estrategias de negocio y ha fortalecido la toma de decisiones basando sus estrategias en argumentos más sofisticados que son proporcionados por algoritmos y modelos matemáticos que conjuntamente con los datos forman parte de lo que ahora llamamos minería de datos. Los modelos matemáticos han innovado la forma de tomar decisiones y como ejemplo se tienen ciencias como la investigación de operaciones y teoría de juegos en la cual se arma un conjunto de reglas, de manera tal que se obtenga el mejor y mayor beneficio o el menor costo y menos riesgo para un cierto objetivo en particular. Existen muchas maneras de modelar problemas matemáticos y muchas áreas de aplicación. Pueden tener varias formas de clasificación, entre ellas por su objetivo, por el tipo de análisis, por su aleatoriedad o por el tipo de aplicación al que están orientados. Siendo así, analizaremos los modelos matemáticos que están encaminados a conseguir un objetivo. Como vimos en el capítulo anterior los modelos predictivos están enfocados a resolver problemas de “análisis supervisado” y/o “análisis no supervisado”. En este caso un modelo predictivo en el que se conoce la función objetivo o la variable dependiente, se conoce como modelo predictivo de análisis supervisado. La clasificación de los modelos matemáticos de acuerdo con su objetivo son los siguientes: 17 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Los modelos descriptivos son aquellos que simplemente describen el comportamiento del caso de estudio o que expresan el comportamiento de algún fenómeno. Los modelos explicativos tienen como objetivo encontrar relaciones de causa y efecto, tal es el caso de un análisis de afinidad. Los modelos de pronósticos o predictivos son modelos matemáticos enfocados a predecir eventos en el futuro considerando un conjunto de variables de entrada o variables independientes. Las variables independientes deben tratar de modelar y ajustarse a la variable independiente o función objetivo con la finalidad de detectar el patrón a seguir y predecir así su comportamiento en un futuro. Como ya lo hemos mencionado algunos de los modelos predictivos utilizados en la industria y más conocidos son los modelos de árboles de decisión y los modelos de redes neuronales en los que se conoce cuál es la función objetivo o la variable independiente (en inglés también conocido como el target). Es por ello que el alcance de esta tesis se centra en estos dos tipos de modelos predictivos. Otro tipo de modelos son los de pronósticos de series de tiempo en los que se utiliza el histórico de valores de la variable dependiente para pronosticar próximos valores. Los modelos de control se utilizan cuando se desea mantener el funcionamiento o el desempeño de algún fenómeno en un mismo estatus o alguna condición conveniente. Son útiles en control de calidad y procesos. Como lo revisamos en el primer capítulo, los árboles de decisión y las redes neuronales forman parte de modelos matemáticos que nos ayudan a predecir eventos o fenómenos de interés. Es entonces indispensable describir el significado del modelado predictivo de manera más formal: SAS definea un modelo predictivo dentro de minería de datos como aquella técnica o forma de clasificación matemática y estadística de análisis supervisado que por medio Modelos Matemáticos por objetivo Modelos descriptivos Modelos explicativos Modelos de pronósticos Modelos de optimización Modelos de control 18 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal de algoritmos matemáticos complejos tiene la capacidad de encontrar relaciones razonables entre variables de entrada (o variables dependientes) y la función objetivo (o la variable independiente) tomado información de bases de datos con grandes volúmenes de información. Uno de los objetivos de este capítulo es el dar un vistazo general sobre los modelos predictivos de árboles de decisiones, basándonos en la clasificación de los modelos matemáticos y definiendo ciertas características básicas de estos modelos predictivos de minería de datos. Las especificaciones y características más a fondo de cómo funcionan dichos modelos y sus algoritmos serán mostradas en los siguientes dos capítulos; hasta este capítulo señalaremos algunas características básicas que nos encaminaran al estudio y diferenciación detallada de estos modelos predictivos. Árboles de decisión Los árboles de decisión son una técnica de predicción supervisada muy particular ya que es la más común y más sencilla en cuanto a su interpretación. Este modelo de predicción es el más utilizado a nivel internacional, por su simplicidad en la interpretación y construcción. Algunos expertos disciernen en nombrar a este tipo de modelos predictivos como árboles de decisiones, ya que los árboles de decisiones están más ligados a lo que es el análisis de decisiones. Una definición de estos árboles de decisión orientados al análisis de decisión es la siguiente: “El árbol de decisiones es una representación cronológica del proceso de decisión, mediante una red que utiliza dos tipos de nodos: los nodos de decisión, representados por medio de una forma cuadrada (el nodo de elección), y los nodos de estados de la naturaleza, representados por círculos (el nodo de probabilidad). Se dibuja la lógica del problema construyendo un árbol de decisiones; para los nodos de probabilidad se debe asegurar de que las probabilidades en todas las ramas salientes sumen uno; finalmente se calculan los beneficios esperados retrocediendo en el árbol, comenzando por la derecha y trabajando hacia la izquierda”vii. En realidad los árboles de decisiones son representaciones que por medio de decisiones y estados de naturaleza, permiten determinar la mejor elección de acuerdo a los beneficios deseados asignando a cada una de las ramas o decisiones probabilidades que permitirán maximizar o minimizar un objetivo según el análisis deseado. Un ejemplo de ello está en la figura 2.1 donde el árbol de decisiones en el que se tiene nodos que son estado de la naturaleza y nodos de elección, así como probabilidades en los diversos estados de la naturaleza por nodo. vii Profesor Hossein Arsham, http://home.ubalt.edu/ntsbarsh/opre640S/SpanishP.htm#rtreeinflunce, 2006, consulta realizada Mayo de 2007. 1 Como más ocurr De lo datos una forma Donde Xmn= m= ni n=ram El árb 19 Desarro Oscar C o podemos o bien, de a rencias se el o contrario u s), es aquel disyunción adas de la si (X0 V (X0 V… V V… V(X e Variable de e ivel o profund ma del árbol bol de decis ollo de árbo Camarillo Le Figura 2.1. observar est acuerdo a lige la que m un algoritmo que toma de conjunc iguiente ma 00 Λ X11 Λ X21 X00 Λ X12 Λ X21 (X00 Λ X1n Λ X X00 Λ X1n Λ X2 entrada en el didad del árb ión que repr oles de decis al Árbol de dec e árbol de d la informac mejor conve o de modela en cuentas ciones, esto anera: Λ…) V (X00 Λ X 1 Λ…) V (X00 Λ X21 Λ…) V (X00 2n Λ… ΛXm-1n- l nivel o profu bol resenta la e siones usand isión aplicable decisiones n ción obteni nga al caso ado predicti reglas simp o es reglas X11 Λ X22 Λ…) X21 Λ X22 Λ…) 0 Λ 1n Λ X22 Λ… - 1 Λ Xm1) V… undidad m, r structura an do SAS Ente e en teoría de o es un árbo ida en cad de estudio. vo (árbol de ples de deci s o estruct V… V (X00 Λ X ) V… V (X00 Λ X …) V… V (X00 Λ V(X00 Λ X1n Λ rama n nterior está erprise Min juegos ol de “si-en da una de e decisión e sión y está turas lógica X11 Λ X2n Λ…) X12 Λ X2n Λ…) Λ X1n Λ X2n Λ… Λ X2n Λ… Λ Xmn en la figura ner 6.1 | tonces”, sin sus posible en minería d formado po as que está …) n) a 2.2: no es de or án 2 Como gene de m empl llama mode Los á 1963. gene que c datos simbó en fo con a de un comp Los á corre un á jerár las co Como decis para datos una comp 20 Desarro Oscar C o vimos, el radas en el minería de d eada por la aremos tamb elos de mine árboles de de . Son una rados a part construyen s. “Compren ólica y fácil orma verbal algunos otro n modelo in portamiento árboles de d ectamente e árbol de de quica, de ta ondiciones q o ya lo vim siones son la clasificació s; mientras función ob portamiento ollo de árbo Camarillo Le Figu nombre de análisis de datos, sin em a gran mayo bién arbole ería de datos ecisión fuero técnica de tir de grand una hipótes nsible” porq de interpre (esto hace os modelos c nteligente c de los dato decisiones tr el objetivo d ecisiones es al manera qu que se cump mos y lo me a clasificaci n sirve para que un mod bjetivo o v de los dato oles de decis al ura 2.3. Estruc árboles de decisiones mbargo para oría de los a es de decisi s, ya sean p on desarroll e aprendiza des volúmen sis o repres que estos m etar, en form diferentes como el de apaz de det os. rabajan bajo de esta técn un conjun ue la decisió plen desde la encionamos ión y la pre a describir, delo predict variable ind os en función siones usand ctura de árbol e decisiones y técnicame a generaliza autores y ex iones a las redictivos o lados por pri je de mod es de inform sentación de modelos pue ma de conju los modelos redes neuro tectar los p o el lema d nica de aná nto de regl ón final a to a raíz del ár anteriorme edicción. Un entender y tivo basado dependiente n de esta va do SAS Ente l de decisiones s se atribuye ente no son ar y estar a xpertos, a l representac de clasifica imera vez p delos comp mación. El t el comporta eden ser re unto de cond s predictivos onales). El re patrones y la de “divide y álisis predict las organiza omar se pue bol hasta un ente, las ta n modelo d explicar el en árboles e para inte riable. erprise Min s e a las repr n propias de acorde a la o largo de ciones gene ación. por Morgan y prensibles d término “mo amiento o p epresentados diciones o re s de árboles esultado es as reglas qu y vencerás”, tivo. Podem adas en un ede determin na de sus ho areas de lo de árboles d l comportam de decision erpretar y ner 6.1 | resentacione e los modelo terminologí esta tesis d rados por lo y Sonquist e de decisión odelo” indic patrón de lo s de maner eglas escrita s de decisió la obtenció ue definen e , que resum mos decir qu na estructur nar siguiend ojas. s árboles d de decisione miento de lo nes consider predecir e es os ía de os en n, ca os ra as ón ón el me ue ra do de es os ra el 2 Una d parti analiz así só acció categ señal Existe más son u decis ACLS Algun decis 21 Desarro Oscar C de las grand r de una c zar sólo una ólo llegar a ón. Otra ve goría indepe ladas en los en varios al populares y utilizados en sión (figura (1982) , ASS Figu nos concept sión como m Función o o predeci Variables variable o ollo de árbo Camarillo Le des ventajas condición d a situación, una rama entaja más endiente de siguientes c goritmos pa conocidos n Enterpris 2.3). Existe SISTANT(198 ra2.4. Vista d tos antes d odelos pred objetivo o t r (también c s predictiva objetivo. oles de decis al de los árbo eterminada pudiendo se que represe es que pue ntro de cad capítulos. ara realizar están el mé e Miner de en algunos o 87) y Exhaus el nodo de árb e entrar de dictivos de m target. Indi conocida co as o indepe siones usand oles de decis son mutua eguir el árbo entaría sólo ede trabaja da variable. esta clasific étodo CHAID SAS dentro otros algorit stive CHAID, bol de decisión e lleno a e minería de da ca la variab mo variable endientes. V do SAS Ente siones es qu amente exc ol de decisió o una decisió ar con valo Éstas y otr cación y par D, C&RT, C4 o de sus alg tmos como entre otros n en SAS Ent explicar lo atos son los ble cuyos val e dependient Variables ut erprise Min e las opcion cluyentes. E ón apropiad ón a tomar ores perdido ras caracter rticionamien 4.5 y C.5. Es goritmos par CLS (1966) s. terprise Miner que son lo siguientes: lores querem te). tilizadas par ner 6.1 | nes posibles Esto permit damente par o una únic os como un rísticas será nto. Entre lo stos método ra árboles d , ID3 (1979 r s árboles d mos clasifica ra estimar l a te ra ca na án os os de ), de ar la 22 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Partición de datos. Se requiere particionar los datos para su entrenamiento y validación. Es indispensable una muestra significativa de datos que permita encontrar patrones o buena capacidad predictiva en entrenamiento así como en otra muestra de validación o prueba. El método de particionamiento lo veremos más a detalle en el capítulo de prueba, sin embargo es indispensable considerar este término que entra en la metodología de minería de datos incluida en la metodología SEMMA de SAS. Nodo raíz. Es el nodo que contiene todos los casos con su clasificación. Nodo inicial de donde se parte para el desarrollo de los algoritmos de particionamiento. Criterio de partición. Es un estadístico para el cual se define un p-value dado que cuando se encuentre una relación con un valor mayor o menor que el valor especificado se forme la regla a partir de la cual se partirán los datos. El criterio puede ser Gini, entropía o algún otro. Rama. Es un subconjunto de condiciones lógicas que definen una regla y que agrupan a los casos que la cumplen. Nodo hoja. Contiene los casos obtenidos una vez que se aplicaron reglas sucesivas y para los cuales no existen reglas que lo dividan porque se ha cumplido alguno de los criterios de parada. Profundidad del árbol. Es el número de reglas necesarias hasta llegar al nodo hoja que más condiciones necesita. Umbral de soporte. Cuando nos encontramos un nodo con menos de “n” ejemplos podemos detener el proceso de construcción del árbol de decisión, ya que no consideramos que es confiable la clasificación avalada por menos de “n” casos de entrenamiento. Criterios de parada. Es una condición que se utiliza para no seguir dividiendo un árbol. Los tipos de condición pueden ser el valor de un estadístico, un número de casos mínimo en un nodo o la profundidad del árbol o reglas definidas hasta llegar al nodo hoja. Estos criterios de parada también reciben el nombre de prepurning. Matriz de costos. Este tipo de matriz permite incluir información referente a los casos costos o beneficios. Los costos están asociados a una mala clasificación o predicción por parte del árbol y los beneficios a una correcta clasificación o predicción. Matriz de confusión. Es una medida de bondad de ajuste del árbol de decisión. Se representa por medio de una tabla en la que se estima la probabilidad esperada de que se esté realizando una buena predicción o clasificación; se hace un contraste con los eventos reales y así determinar el nivel de certeza o capacidad predictiva del modelo. Esta matriz permite conocer qué tan bueno es el modelo en su capacidad predictiva. 23 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo III. Algoritmos de árboles de decisión “Somos tan fuertes como cuando nos unimos y tan débiles como cuando nos separamos”. Albus Dumbledore, personaje creado por J. K. Rowling en la novela de Harry Poter Introducción En el capítulo anterior se estudiaron los árboles de decisión con una breve introducción a su estructura y su utilización dentro de las aplicaciones minería de datos, específicamente en modelos predictivos de análisis supervisado y su uso en diversas áreas. Vimos que los árboles de decisiones están también orientados al análisis de decisiones, pero así mismo son llamados árboles de clasificación por la forma en que trabajan y de igual manera son estructuras que se emplean durante el modelado predictivo. Un árbol de clasificación es denominado así por la siguiente razón: Clasifica eventos o variables en los distintos nodos de un árbol de acuerdo a su semejanza o parentesco entre elementos del mismo nodo que responden de forma similar a un evento y se agrupan de forma homogénea caracterizando a dicho nodo por algún patrón en específico y que al mismo tiempo esta clasificación responde a un objetivo en particular. En este capítulo analizaremos a los árboles de decisión (o también conocidos como clasificación, que no deben ser confundidos con los árboles orientados a la toma de decisiones o análisis de decisiones mencionados en el capítulo II), su construcción, los algoritmos que utilizan para clasificar, la forma en que se mide su grado de precisión, y finalmente se analizará la interpretación de estos árboles por medio de la extracción de reglas. Dicha extracción de reglas tiene como objetivo entender y dar valor de negocio a través de resultados tangibles que faciliten la interpretación de estos modelos predictivos de acuerdo a un objetivo en específico. Todo lo anterior estará apoyado en la herramienta más completa de Minería de Datos de SAS según los cuadrantes de Gartnerviii y el nodo de modelado predictivo que ofrece SAS 9.2 en su versión de Enterprise Miner 6.1. El estudio de los árboles de decisión tratados en esta tesis así como todos los modelos mencionados estarán enfocados al modelado predictivo, aun cuando estos modelos viii Los cuadrantes de Gartner clasifican a SAS como el software de inteligencia analítica líder en capacidades de minería de datos y análisis predictivo según la última publicación de dicho cuadrante en el 2010. 2 tenga decis Duran consi predi Los p mode En e capac tema práct ix La r irrelev indepe razona 24 Desarro Oscar C an otra util siones, etc. nte el desa dera una se icción de ca pasos genera elos de árbo F l transcurso cidades qu as/tópicos tico. educción de di vantes. Los árb endiente es irre ablemente débi ollo de árbo Camarillo Le lidad como arrollo de u erie de paso so de negoc ales dentro les de decis Figura 3.1. Me o de este ue la soluc específicos imensionalidad oles de decisió elevante con re il. oles de decis al segmentaci un modelo os que descr cio a resolve de la metod iones son lo etodología par trabajo se ción de SA que serán d es la práctica ón son utilizado especto a la var siones usand ión, reducc de minería riben la técn r. dología emp os mostrados ra construcció explicará e AS Enterpr desglosado realizada en la os en la reducc riable de respue do SAS Ente ción de dim a usando ár nica para c pleada por S s en la siguie ón de árboles d el estado d rise Miner os en este a eliminación d ción de variable esta si su aport erprise Min mensionalida rboles de d conseguir la SAS para el d ente figura 3 de decisión del arte ali brinda. Se y el siguiede variables red es irrelevantes tación predictiv ner 6.1 | dix, toma d decisiones s solución y/ desarrollo d 3.1: ineado a la e abordará ente capítul dundantes e . Una variable va es de se /o de as án lo 2 Algun mues Prep En es predi consi gene prepa o var modo un ca Ejem Supon de bu La ta mode 25 Desarro Oscar C nas de las ca stran en la F Op paración d sta etapa se ictivo, se r derar tarea ral la evalu aración de d riables por o aseguraría aso en partic plo hipotéti ngamos que uró de crédi abla extraída elo se vería ollo de árbo Camarillo Le apacidades Figura 3.2. pción Pr R Mé Figura de datos e concentra realizan cá as de explo uación inicia dicho model cada observ amos que el cular. ico. e se desea ge ito. Una de a del data de la siguien oles de decis al generales q ropiedad Máximo núme Criterio de Reglas de parad Método de étodo de tratam Perdi a 3.2. Capacid an las variab álculos de ración de d al para el o se debe c vación con análisis pre enerar un m esas variab warehouse nte forma e siones usand que se revisa ero de ramas partición a o crecimiento e podado miento de valores idos dades en árbol bles conside variables. E datos, selec desarrollo d considerar la su correspo edictivo es r modelo de m les es la lla para el aná n la figura 3 do SAS Ente arán en este Opciones predeterm Logw o Logworth Ajuste de p Máxima p Tamaño mín Averag s Best les de decision eradas para En esta m cción de mu del modelo a creación d ondiente va realizado ún minería de da mada Saldo álisis de esta 3.3. erprise Min e capítulo so minadas 2 worth Threshold profundidad profundidad nimo de hojas ge Profit t Leaf nes la creación isma etapa uestras de o predictivo de una tabla riable objet nicamente u atos basado o en los últim a variable d ner 6.1 | on las que s n del model a se puede análisis y e . Durante l a de atributo tivo, de est una vez sobr o en variable mos 2 meses de entrada a se lo en en la os te ré es s. al 26 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal No. Cuenta Mes Meses con Saldo Creditos Revolventes Tipo de cliente ……………. Saldo 1234 1 1 1 Oro ……………. 2,700.00 1234 2 1 1 Oro ……………. 1,000.00 1234 3 3 1 Premium ……………. 4,230.00 ……………. …… ……………. ……………. ……………. ……………. ……………. 1235 1 1 3 Premium ……………. 300.00 1235 2 1 3 Premium ……………. 700.00 1235 3 1 3 Premium ……………. 1,200.00 Figura 3.3. Ejemplo de arreglo de datos Lo primero que habría que notar es que el número de cuenta se repite más de una vez, esto quiere decir que pueden existir atributos que dificulten el desarrollo de minería de datos si se toma tal cual la extracción de esta tabla, ya que se debe tener un registro único por caso, en el ejemplo se debe tener un solo registro por número de cuenta. El segundo punto es que la variable Saldo en los últimos dos meses no existe, sin embargo puede ser calculada usando el campo saldo y el campo mes. Es decir se debe emplear una técnica para generar dicha variable; lo que muchos llaman un proceso de ETL (Extracción, Transformación y Carga de datos). Una vez considerados estos puntos se puede obtener la tabla que se muestra en la figura 3.4. No. Cuenta Meses con Saldo Actual Creditos Revolventes Actual Tipo de cliente Actual ……………. Saldo en dos meses 1234 1 1 Oro ……………. 3,700.00 1235 1 3 Premium ……………. 1,000.00 Figura 3.4. Ejemplo de arreglo de datos aplicando técnicas de integración de datos Nótese que las demás variables también cambiaron de nombre, ya que reflejan el estado actual de cada cuenta, es decir sólo aparecerían los últimos valores de sus características. En cuanto a la variable Saldo en los dos últimos meses vemos que se encuentra calculada y de este modo ya se cuenta con registros únicos. El análisis exploratorio también se realiza en esta etapa para conocer las variables que se estarán utilizando. Dicho análisis es realizado a través de técnicas de estadística descriptiva: 1. Histogramas de Frecuencia 2. Graficas de línea 3. Medidas de tendencia central 4. Cálculo de percentiles 5. Análisis univariado 6. Análisis de valores perdidos 7. Análisis de valores repetidos Cuando se concluye la tarea de exploración de variables se pueden descartar variables por falta de valores o aportación al modelo desde el punto de vista de negocio. Todo 27 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal esto deberá estar fundamentado y justificado con el análisis estadístico y la visión de negocio. En la selección de muestra es muy importante seleccionar la ventana de información más adecuada. Esto debido a que el negocio debe indicar la ventana de tiempo de información que es más confiable. Y a partir de ahí seleccionar muestras de análisis, así como alguna técnica en específico (aleatorio, estratificado, conglomerado). Se debe asumir que el análisis de minería de datos requiere muestreos estratificados, esto debido a que debe ser la muestra representativa con respecto a la variable objetivo. Técnicamente el muestreo estratificado es un muestreo proporcional. El muestreo estratificado es aquel que divide a la población en N individuos en k sub poblaciones o estratos, atendiendo una variable objetivo, de tamaño respectivo N ,…, N . N=N N N ⋯ N Y realizando en cada una de la estratos muestreos aleatorios simples de tamaño n =1,…., k. Para efectos de los ejemplos de minería de datos expuestos en esta tesis sólo analizaremos casos con variable objetivo que cuente con dos clases, valores o estratos y se empleará muestreo estratificado para efectos de entrenamiento del modelo. Esto es variables binarias. Ejemplo hipotético. Existe un caso de negocio para la detección de fallas en dispositivos de telecomunicaciones en el que se encuentran un total de 1,000,000 de casos de los cuales 385,503 son casos de fallas en dispositivos y 614,497 son de casos sin fallas en los dispositivos. La distribución real de estos casos se ve de la siguiente manera en la figura 3.5. 28 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Figura 3.5. Histograma de distribución de casos Ahora bien, al aplicar un muestreo estratificado del 50% de los datos usando como referencia esta variable llamada “casos de estudio” se obtiene la siguiente gráfica que se muestra en la figura 3.6. Figura 3.5. Histograma de distribución de casos aplicando muestreo estratificado De donde se puede deducir que se realizó un muestreo estratificado por la variable caso de estudio del 50%; resultando en la distribución original de la muestra con 29 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal respecto a la población: 39% de concentración en casos de fallas y 61% en casos de no fallas. Definición de objetivo Como lo vimos en los capítulos I y II, el desarrollo de un modelo predictivo supervisado requiere de casos comprobados, variable objetivo o estrictamente hablando, se necesita saber “¿Qué es lo que se desea predecir?” y se debe saber ¿Qué se tiene para realizar esta predicción? basado en hallazgos e historia ya preconcebida. Para que un modelo pueda predecir algún evento se requiere de una base de conocimiento de hechos a través de los cuales ya se haya aprendido y se tenga experiencia para poder tomar la decisión más acertada. Pongamos un ejemplo tradicional. Un ama de casa ayuda a la economía de su hogar vendiendo oro a diversos clientes entre ellos amigos, vecinos, compañeros, amigos de los amigos, etcétera. Al iniciar su negocio no tiene conocimientoalguno sobre a quienes vender o no oro y lo comienza a hacer sin reservarse el derecho a la no venta sobre alguno de ellos. Conforme pasa el tiempo se da cuenta de que existe gente que cumple con sus pagos y otra que no lo hace, de este modo la vendedora de oro va generando una base de conocimiento más sólida y menos subjetiva que en un inicio; esto debido a que ha aprendido a analizar las características de sus clientes y sabe que aquellos clientes que no cuentan con un trabajo estable no serán buenos pagadores, o que aquellos que compran oro por más de tres veces la recomendarán con alguien más, entre otra infinidad de reglas de conocimiento deductivo que puede extraer a través de esa base de conocimiento que ya formó y la experiencia misma. Del mismo modo trabaja un modelo de minería; es indispensable generar una buena base de conocimiento y definir una correcta variable objetivo para alcanzar la predicción deseada y conocer a los clientes para este caso. La diferencia entre la ama de casa que vende oro y el banco que realiza créditos es que la primera puede vender a tal vez no más de 100 personas, ya que podría perder el control de sus clientes ella misma; y la institución bancaria realiza préstamos a miles de clientes, esto incrementa la demanda sobre la base de conocimiento para el caso del banco. De este modo la variable objetivo (que describe el caso a resolver) está definida de acuerdo a las necesidades del negocio, ejemplos de esto, se encuentran a continuación: Pregunta de Negocio Base de conocimiento supervisado ¿Qué nuevos clientes representan riesgo para el banco? El banco ya cuenta con historia de clientes buenos y malos, ahí radica su base de conocimiento. ¿Qué nuevos clientes de una tienda departamental son más propensos a comprar productos de belleza? La tienda departamental seguramente ya cuenta con una base de clientes que han comprado estos productos. 30 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal ¿Qué clientes de un servicio telefónico se irán con la competencia? La compañía telefónica cuenta con una base de conocimiento en la que se tienen registrados a los clientes que se han ido con la competencia. Entonces, es básico definir la variable objetivo, target o variable dependiente, para la generación de un modelo predictivo supervisado. Asimismo contar con una base de conocimiento sobre estos casos. Selección de criterios de crecimiento de árbol y algoritmos de segmentación y clasificación de casos Como vimos en el capítulo anterior los árboles de decisión son estructuras topológicas que describen como se clasifican de mejor manera los casos de estudio de acuerdo a una serie de atributos, pero la forma en la que crece esta estructura topológica es controlada, obedeciendo a los siguientes criterios o preguntas: ¿Cómo deben combinarse las variables nominales de entrada? ¿Cómo serán ordenadas y combinados los nodos del árbol?, ¿Los nodos están acorde a su nivel de medición (continuos, ordinales o nominales)? ¿Cuántos nodos o ramas se considerarán en el árbol? ¿Cuántos nodos serán ordenados para cada nivel del árbol de decisión? ¿Con qué criterio se determinará la diferencia de concentración de casos en un nodo (poder predictivo de las ramas)? ¿Cuántos nodos serán evaluados, seleccionados y desplegados? ¿Cuántos casos serán el límite a considerar en un nodo? ¿Qué pasará cuando en un nodo del árbol exista concentración de valores perdidos? ¿Qué prueba de hipótesis se utilizará para evaluar el crecimiento del árbol? ¿Qué ramas del árbol deben ser podadas o que ramas deben crecer más dada la serie de criterios seleccionados? ¿Cuándo el proceso de decisión se detiene para identificar ramas potencialmente predictivas? ¿Cuándo detener el árbol para identificar los nodos potencialmente predictivos? Toda esta gama de preguntas se pueden resolver durante el desarrollo del modelo, a lo que le llamamos la etapa de configuración del modelo. En una primera etapa de configuración, se encuentra la definición de parámetros que deberán ser considerados previos al momento de construir el modelo de árbol de decisión. Este menú de configuración es general para cualquier modelo que se desarrollará dentro de la herramienta de SAS. 3 En e predi En el parám defin conti x El m trabajo 31 Desarro Oscar C ste menú s ictivo: Máximo n predeterm es ajustab Rechazo d supuesto Número d predefini cuenta co Detectar permite h nominale Rechazar de clases nominale Rechazar la opción l siguiente m metros prop nido básicam nuación y d menú de configu o de tesis sólo ollo de árbo Camarillo Le se identifica número de v minados que ble. de variables u opción an de clases p da es clasif on menos de los niveles habilitar la s. las variabl s. El núme s es de 20. variables co anterior, co menú de con pios del mod mente por ependiendo uración de árbo se mostrarán y oles de decis al an seis opci valores perd e se permite s con exceso nterior se ap permitidas e ficar una v e 20 clases. s de las v regla ante es ordinales ro predeter on exceso en on 20 clases nfiguraciónx delo de árbo una serie de la etapa oles de decisión y explicarán la siones usand iones para didos permit en es de 50 o de valores plica. en una varia variable ord variables or erior para d s o nominal rminado pa n valores de s en variable que se obs oles de deci de rubros a en la que n n es aún más c as propiedades do SAS Ente el desarrol tidos. El má 0, esta canti s perdidos. able ordina dinal o nom rdinales o detectar las les con un n ara rechaza e clase prede es ordinales serva en la isión, es un que serán nos encontre completo, sin e que agreguen v erprise Min lo de cualq áximo númer idad de valo Esto quiere al o nomina minal como nominales. variables o número pre ar variables eterminados y/o nomina figura 3.6 s panel que analizados emos. mbargo para lo valor a dicho t ner 6.1 | quier model ro de valore ores perdido decir que e al. La opció aquella qu Esta opció ordinales y/ edeterminad ordinales s. Se habilit ales. e definen lo se encuentr a detalle os fines de este trabajo lo es os el ón ue ón /o do o ta os ra a e 3 Defa 32 Desarro Oscar C Figura 3.6 Propiedad propiedad decisione Criterio d empleará a la varia ault Este crite casos en para aque variable i más ade enfatizare cuadrada ollo de árbo Camarillo Le 6. Menú de con des de Reg des o criteri es. de intervalo á para realiz ble dependi erio está bas donde la va ellos casos ndependien lante). Par emos sobre . oles de decis al nfiguración de la de partic io de partic o y nominal zar la partici iente. Los cr sado en el us ariable depe en que la v nte es ordina ra efectos el primer siones usand e árboles de d ción. En est ionamiento . En el crite ión de los n riterios son so y cálculo endiente es variable dep al usa un mé del model caso en el do SAS Ente decisión en SA te menú de de los nodo erio que def odos y sepa los siguiente de la proba nominal o pendiente e étodo llama lo que est l que se us erprise Min AS Enterprise M opciones se os dentro de fine el algo arar los caso es: abilidad Ji-c binaria. El es continua; ado entropía taremos rev sa el estad ner 6.1 | Miner e definen la e un árbol d oritmo que s os de acuerd uadrada par estadístico y cuando l a (se revisar visando sól dístico de J as de se do ra F la rá lo i- 3 Prob 33 Desarro Oscar C babilidad J El cálcul formada analizand lo define Funcionam Utilizarem Sobre la encuentra trataremo el espacio amarillo) horizonta Recordem un nodo y primera r comenzar haya más La primerEste inici entrada d intervalo considera promedio entrada. Para sele generan d ollo de árbo Camarillo Le Ji-Cuadrad o de este entre las do y las cate el p-value d miento. mos el siguie siguiente gr an distribuid os de prede o definido. con respe l y al eje ve mos que los y otro son l regla que r r a partir lo reglas por a ra parte de ia con la se disponibles cada valo ado en el pro o del target eccionar una dos grupos. oles de decis al da estadístico categorías egóricas de del estadístic ente ejemplo ráfica en la dos una seri cir el color Se asume q cto a dos ertical. nodos del á las que orde realizará el s datos en d aplicar ento l algoritmo elección de a partir en or es utiliza oceso de par es tomado a variable Casos con v siones usand está asoci de la va la variable co. o para obse que se obse ie de punto de algún pu que la distr variables árbol repres enan qué re algoritmo dos reglas. A nces estaría se llama bú una variab n segmentos ado como rtición. Si el dentro de c de entrada valores meno do SAS Ente iado a una riable inde dependient rvar cómo t erva un map s verdes y a unto basánd ribución del y qu sentan regla egla se debe será la est Al llegar a u amos llegand úsqueda de ble de entra s. En caso único y p l valor es no cada nivel d a y fijar un ores que el erprise Min tabla de pendiente te, el punto rabaja este peo de dos amarillos. D donos en su target bina ue correspo as y que las e ejecutar. tablecer un un nodo en do a la hoja partición (s ada de las de ser una potencial qu ominal, ento e la variable n punto de punto de pa ner 6.1 | contingenci que se est de partició algoritmo: variables, s De este mod ubicación e ario (verde onden al ej s líneas entr Entonces, l nodo raíz el que ya n de un árbol split search variables d a variable d ue debe se onces el valo e nominal d partición s artición de l ia tá ón se do en y je re la y no l. ). de de er or de se la 34 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal variable, es decir una rama derecha y casos con valores de la variable mayores al punto de partición, es decir, la rama izquierda. Pongamos un ejemplo donde se tenga la variable ingresos y sobre esta se realiza una partición en el valor de $10,000. Los grupos, combinados con los valores de la variable target u objetivo son utilizados para realizar una tabla de contingencias de 2X2 en donde las columnas de la tabla de contingencia son especificadas por las ramas (personas con ingresos menores a $10,000 y personas con ingresos mayores a $10,000); y los renglones estarían descritos por los valores de respuesta. En la siguiente tabla se puede observar lo mencionado arriba. Ingreso < $10,000 Ingreso >= $10,000 Total Responden ∙ No Responden ∙ Total ∙ ∙ N De esta forma es aplicado el estadístico ji-cuadrada para cuantificar la independencia entre las columnas de la tabla, es decir, se trata de probar que la variable de entrada separa correctamente los casos definidos en el target. En otras palabras se pretende mostrar que las muestras no son iguales. Un valor grande de dicho estadístico indica que la proporción de valores en cero y en uno del target que están en la rama izquierda es distinta a la proporción de casos de ceros y unos de la rama derecha. Una diferencia en la proporción de ambas ramas indica un buen particionamiento. Estadísticamente se realizará la siguiente prueba de hipótesis: : Donde = ∙ , = ∙ , y P= ∙ La traducción de la hipótesis nula es el argumento en el que las proporciones de casos de respuesta con menos de $10,000 de ingresos no son diferentes de los caso de respuesta donde el ingreso es mayor a $10,000. Así entonces, tendremos la siguiente tabla de contingencias con las reglas de proporciones definidas de la siguiente forma: Ingreso < $10,000 Ingreso >= $10,000 Responden ∙ ∙ No Responden 1 ∙ 1 ∙ Entonces el estadístico Ji-cuadrada es calculado de la siguiente manera: 35 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Debido a que el estadístico de ji-cuadrada puede aplicarse a múltiples valores de la variable de respuesta, este estadístico es convertido en una probabilidad “p-value”. El p-value indica la verosimilitud de obtener el valor observado del estadístico asumiendo que la proporción del target en ambas ramas es la misma. Para la evaluación donde el número de casos es muy grande el p-value es muy cercano a cero. Por esta razón, el estadístico es mostrado a través de la función logarítmica y con la métrica llamada logworth. De este modo cada valor de una variable de entrada puede calcular su propio logworth, sin embargo el umbral para identificar cuál es el punto en el que el árbol separa correctamente los datos es donde el p-value del estadístico ji- cuadrada toma el valor de 0.20, que corresponde al valor 0.70 en el logworth. Entonces, el objetivo es maximizar el logworth dentro del proceso de particionamiento. La regla de sustitución es la siguiente: ( > Calculada | es verdadera)= . Y el es simplemente calculado como . Veamos en el siguiente ejemplo como es que trabaja este algoritmo. Se pretende clasificar con un árbol de decisiones un caso nuevo dentro del siguiente plano que contempla dos variables , y un target binario (1=Verde, 0=Amarillo). Si se identifica la posición de este caso dentro del plano denotado por las dos variables se observa lo siguiente: 3 36 Desarro Oscar C Primer p calcula e distribuci de logwor Enseguida decir se c acuerdo óptima. ollo de árbo Camarillo Le articionamie l logworth ón de los pu rth y se iden a se proced calculará el a los valore oles de decis al ento. Se ap para la var untos de izq ntifica que e de a hacer logworth p es de dicha siones usand plica la pri riable ; e quierda a de en el valor 0 lo mismo p para identifi a variable. do SAS Ente mera tabla es decir se erecha para 0.52 se encu pero ahora s icar la clasi Se identific erprise Min a de contin recorre la s a buscar el p uentra el má sobre la va ficación de có la siguie ner 6.1 | gencias y s superficie d punto óptim áximo valor. riable , e los casos d ente solució se de mo es de ón 3 37 Desarro Oscar C Comparan La variab realizadas sentido la ollo de árbo Camarillo Le ndo ambas s le que sepa s es la vari a primera pa oles de decis al soluciones, o ra mejor los able ; qu artición esta siones usand obtenemos l s casos de a ue correspon aría represen do SAS Ente o siguiente: acuerdo a la nde a un lo ntada de la erprise Min as tablas de ogworth de siguiente fo ner 6.1 | contingenci 4.92. En es orma. ia se 3 38 Desarro Oscar C Observem de decisi forma en Los sigui depender un par de A continu acuerdo a de logwor Aquí se ob ollo de árbo Camarillo Le mos que del ones y del que se part entes pasos rá de la prec e iteraciones uación se to al proceso d rth de mane bserva el cá oles de decis al lado izquie lado derech irán los dato s se repite cisión que s s más. ma aquella e clasificaci era vertical y lculo de log siones usand erdo se tiene ho es el pla os de acuerd en sobre ca e pretenda rama donde ión anterior y horizontal gworth sobre do SAS Ente e la estruct ano con los do a este cri ada rama y que tenga e e el valor es y se observ respectivam e la variable erprise Min tura topológ s casos dist iterio. y el criterio el modelo. s menor a 0 van los siguie mente e . ner 6.1 | gica del árbo tribuidos y l o de parad Realizaremo 0.63 en d entes valore ol la da os de es 39 Desarrollo de árboles de decisiones usando SAS EnterpriseMiner 6.1 | Oscar Camarillo Leal Comparando ambos resultados observamos que el valor de es mayor que el de , entonces la partición queda de la siguiente forma. Si sé continua iterando podríamos llegar a un árbol de clasificación con la siguiente estructura posiblemente. 4 Gini 40 Desarro Oscar C (o diversi La métric proporcio calcular e agrupació A continu Entonces Que tamb Donde c forma má (Gini) se p ollo de árbo Camarillo Le idad de po ca de Gini ones de las c es la pureza ón y/o clasif ación verem la pureza de p= propor bién se pued corresponde ás sencilla y puede expre oles de decis al oblación) simplemen clases o grup o variabilid ficación de l mos la explic I(no P= e los nodos Donde N=c ción o frecu n= clase e de explicar c e a la frecue y utilizando esar así, siones usand nte se basa pos existent dad de los no os casos de cación mate odo) = Coefic =proporción es calculada ∙ 1 clases existe uencia relati especifica de con la siguie 1 encia relativ o lenguaje c do SAS Ente en la sum tes. De este odos de un acuerdo a l mática. ciente de Gi de las clase a de la sigui entes en la p iva de algun el universo d ente expresió | va de la clas coloquial e erprise Min ma cuadráti modo lo qu árbol; o bie a variable re ini. es ente forma población. a clase en e de clases ón matemát se en el no el coeficient ner 6.1 | ca entre la ue se trata d en la correct espuesta. específico tica: odo . De un te de purez as de ta na za 4 41 Desarro Oscar C Tomemos índice de Veamos u Supongam siguiente: En este ca N C az C ne Se desarro Sustituyen ollo de árbo Camarillo Le s como prem Gini sea mu un ejemplo. mos que te : aso el cálcu ODO asos zules asos egros olló de la sig ndo oles de decis al ∙ 1 misa entonce uy cercano a enemos el s lo del índice Número de casos guiente man , y siones usand # es que un no al valor 0. siguiente n N = Casos az Casos neg e de Gini sob Aplica GINI 5 10 nera , 1 5/15 y do SAS Ente odo puro ser odo con la 15 zules = 5 gros = 10 bre este nod ación del índ 0.44444444 10/ erprise Min rá identifica a distribuci do es el sigu ice de 44 /15 ner 6.1 | ado cuando e ón de caso uiente: el os 4 42 Desarro Oscar C Entonces, Hasta el pero el si la finalida se mide c Donde, Siguiendo de la sigu El cálculo ollo de árbo Camarillo Le , sustituyend momento h guiente pas ad de obten con el siguie o con el mis iente forma o y resultado oles de decis al do en la ecu hemos obser so es realiza er nodos hij nte índice: ú ú mo ejemplo a: os de Gini de siones usand uación de Gi 1 1 1 0.1 rvado cómo ar particiona jos puros. La o, asumamos e los nodos h do SAS Ente ni se obtien 5 15 10 15 1111 0.444 . o se calcula amiento sob a calidad de s que el par hijos son los 1 2 5 erprise Min ne lo siguien 44 la pureza re dicho nod e dicho part rticionamien s siguientes: 3 5 ner 6.1 | te. de un nodo do padre co ticionamient nto se realiz o, on to za 43 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal 1 0.16 0.36 . 1 2 10 8 10 1 0.04 0.64 . Entonces el particionamiento del nodo padre se puede calcular de la siguiente forma de acuerdo a la fórmula que vimos arriba. Así, 10 15 0.44 5 15 0.32 0.4533 Esto quiere decir que para el nodo padre que es segmentado en otros dos nodos y , se basa en un valor de particionamiento de alguna variable independiente , el algoritmo a través de este criterio examina todos los candidatos de particionamiento dados por y , donde es un número real que se encuentra entre el valor máximo y el valor mínimo de la variable . Aquellos casos en donde se clasifican a la izquierda y donde se clasifican a la derecha. Ahora supongamos que hay 100 valores de la variable , entonces la cantidad de candidatos a particionar son donde 1,2,3, … , 100. El algoritmo compara el coeficiente de impureza de GINI sobre los 100 valores y selecciona aquel que realice la mejor reducción así como el mejor particionamiento. Entropía (ganancia de la información) El criterio de entropía, la ganancia de la información, juega un papel clave en la definición de pureza de un nodo. Si una hoja del árbol es enteramente pura, entonces las clases de esa hoja pueden ser fácilmente descritas. Y por otra parte si la hoja es altamente impura entonces su descripción es aún más compleja. Esto basado en la definición teórica de entropía que dice lo siguiente: “entropía es una medida de lo complejo o desorganizado que puede ser un sistema”. En este sentido, lo que se estaría buscando sobre un árbol de decisión es que el índice de entropía sea lo menos complejo y para ello habría que clasificar nodos puros. 4 44 Desarro Oscar C Entropía preguntas Si sobre e estados, o La entrop las clases de clases misma pro El índice debido a Veamos e negro y ca El cálculo Sustituyen Entonces ollo de árbo Camarillo Le podría ser s sí/no que d este sistema o cuatro bits pía de un nod representa s localizadas oporción en de entrop la naturalez el siguiente asos color az o quedaría d í ∙ ndo í ∙ oles de decis al considerado deberían tom a hay 16 po s, para enum do de árbol das o localiz s en ese no base dos, e í ∙ ía se multi za de la func ejemplo do zul). e la siguient 1 ∗ í ∙ 1 ∗ í ∙ 1 ∗ í ∙ 1 ∗ 1 ∗ 0 siones usand o o pensado marse para d sibles estad merarlos o id de decisión zadas en ese odo son mu es decir: 1 ∗ iplica por u ción logaritm onde el nodo te manera ∗ ∗ ∗ 0.33 ∗ ∗ 0.33 ∗ .33 ∗ 1.58 do SAS Ente o como una determinar dos, entonce dentificar un en particul e nodo. Don ltiplicadas p uno para ob mo. o contiene 0.33 0.33 84 0.66 erprise Min métrica de el estado de es se consum no en partic ar, es la sum nde para cad por el logar btener valo e dos clases ∗ 0.66 ∗ 0.66 ∗ 6 ∗ 0.584 ner 6.1 | el número d e un sistema men 16 cular. ma de todas da proporció ritmo de es ores positivo s (casos colo 0.66 0.66 4 de a. 6 s ón sa os or 45 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal í ∙ 1 ∗ 0.528 0.389 í ∙ 1 ∗ 0.918 í ∙ . Hasta aquí hemos visto cómo se calcula la entropía sobre un nodo, ahora bien necesitamos verificar el algoritmo de particionamiento que nos dé la mayor ganancia sobre un árbol de decisiones basado en este mismo criterio. Entonces la fórmula que calcula la ganancia de la información es la siguiente: í ∗ í Donde es el nodo padre, y éste tiene particiones, es el número de registros en la partición . Veamos un ejemplo de cómo funciona el algoritmo con una iteración sobre el mismo particionamiento utilizado en el algoritmo de GINI. La fórmula de entropía para cada nodo (hijos, padre) quedaría de la siguiente manera. í 0.918 Entropía nodo padre í -1∗ ∗ ∗ Entonces í -1∗ 0.8 ∗ 0.321 0.2 ∗ 2.321 í -1∗ 0.257 0.464 í 0.721 Ahora haciendo lo mismo para el nodo derecho í -1∗ ∗ ∗ Entonces í -1∗ 0.4 ∗ 1.321 0.6 ∗ 0.736 í -1∗ 0.528 0.442 46 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal í 0.970 Reemplazando ambos resultados en la fórmula de ganancia de la información se obtiene lo siguiente: 0.918 10 15 ∗ 0.721 5 10 ∗ 0.9700.918 0.481 0.323 Así 0.918 0.804 . De este modo, la regla para obtener un nodo puro es maximizar el valor del índice de entropía (mientras mayor sea su valor, mejor explica dicho particionamiento al modelo). El algoritmo realiza estos cálculos sobre las variables y cada uno de sus valores hasta obtener la ganancia máxima sobre un nodo en específico. Nivel de significancia. El nivel de significancia p-value especifica el umbral bajo el cual se cumple la condicional de la prueba estadística que ese esté realizando internamente en la aplicación de Enterprise Miner. Para un método de criterio basado en p-values, el umbral es el p-value máximo aceptable, para otros criterios, el umbral es el aumento mínimo aceptable en la medida de valor. En términos generales el p-value es la métrica que calcula qué tanta evidencia existe contra la hipótesis nula de una prueba estadística. Valores perdidos o ausentes. Una de las propiedades de los árboles de decisiones es que pueden manejar los valores ausentes de tres formas diferentes. o Utilizar los valores ausentes durante la partición Es decir los valores ausentes son tomados en cuenta mientras se realiza el particionamiento del árbol de decisiones. Los valores ausentes no se discriminan y son usados como dato. La forma como trabaja es asignando el o los valores ausentes a la rama que maximiza la capacidad predictiva del particionamiento. Es muy sugerido utilizarlo cuando el target está fuertemente relacionado con los valores ausentes de la variable analizada. o Asignación del valor ausente en la rama más grande. Se asignan los valores ausentes a la rama que posean concentración mayor en el árbol. 47 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal o Asignar el valor ausente a la rama que esté fuertemente correlacionada con el target. Se asigna la observación a la rama que tiene la suma cuadrática de residuales más pequeña del árbol. Utilizar las variables de entrada una sola vez. En esta propiedad se especifica si se desea que dentro del árbol de decisiones sólo aparezca en un evento o más una variable en específico. Es decir, si se habilita esta opción la variable que aparezca en el árbol no volverá a aparecer a lo largo de las ramas del árbol nuevamente. Máximo número de ramas. Con esta opción se determina el número máximo de subconjuntos o nodos hijos que tiene algún padre en específico. Hasta este momento hemos trabajado con árboles que contienen dos ramas pero no es la única forma de particionar los datos dentro de un árbol de decisiones, sino también pueden existir más de dos nodos hijos. Ahora bien, si se desarrollan árboles con dos ramas o más no hay alguna regla que indique que el primero es mejor que el segundo o viceversa. Ésta es una práctica de ensayo y error hasta identificar el número de ramas que ajusten a los resultados deseados. A este efecto también le llamamos crecimiento horizontal. Máxima profundidad. La profundidad de un árbol es el número de niveles que pueda tener dicho árbol; ésta es una opción o propiedad que puede personalizarse a través de SAS Enterprise Miner. De la misma manera el hecho de tener un árbol con máxima expansión o no, no es un indicador para encontrar un mejor modelo, todo dependerá del caso de negocio que se esté atacando. Tamaño categórico mínimo. En esta opción se indica el número mínimo de observaciones para un valor categórico. Una categoría debe aparecer en al menos el número de observaciones especificado para utilizarlo en el particionamiento. Es decir, si se desea realizar algún particionamiento sobre alguna variable categórica, el nodo donde se contengan los valores de ella deben ser al menos los que se indican en esta opción, de lo contrario el algoritmo se detendría. Tamaño de hoja. Se especifica el número más pequeño de observaciones que puede tener una hoja. Esta restricción permitirá al mismo tiempo detener el árbol limitando el número de observaciones sobre el nodo. Número de reglas. En esta opción se especifica el número de reglas de particionamiento que son evaluadas de acuerdo al algoritmo deseado, esto con la finalidad de compararlos y determinar cuál es particionamiento óptimo de acuerdo al LOGWORTH y al WORTH (criterio de particionamiento) de entropía o Gini según sea el caso. Número de reglas de sustitución (surrogates). Especifica el número máximo de reglas buscadas en cada nodo que no es hoja. Una regla sustituta es un respaldo de la regla de partición principal. Cuando la regla de particionamiento principal se basa en una entrada cuyo valor es ausente, se invoca la primera 48 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal regla de partición sustituta. Si la primera sustituta también se basa en una entrada cuyo valor es ausente, se invoca la siguiente sustituta. Si los valores ausentes no dejan que la regla principal y el resto de sustitutas se apliquen a una observación, la regla principal asigna la observación a una rama que ha designado como receptora de valores ausentes. Entonces esta opción permite indicar el número de reglas de sustitución evaluadas en un árbol de decisiones. Tamaño del particionamiento. Esta opción indica el tamaño mínimo del conjunto de observaciones de entrenamiento con el cual se deba continuar con la construcción del árbol de decisiones. En caso de exceder ese mínimo el algoritmo se detendría. Búsqueda de particionamiento exhaustiva. Este modo de búsqueda genera por default 5000 posibles particionamientos sobre aquellas variables de entrada en donde la variable objetivo tiene más de dos valores. Entonces, es personalizable esta opción para hacer más eficiente la búsqueda. Criterio para detener y podar un árbol Dentro de la construcción de un modelo de minería basado en árboles de decisión se localiza la última fase que consta de podar el árbol y definir un criterio con el cual se seleccione el modelo que mejor se ajuste a los datos basado en criterios de error o captura de patrón. Existen varios criterios con los cuales se determina si la complejidad del modelo puede ser ajustada o no. Estos criterios dependen del objetivo que se busque. La idea generalizada de podado de árboles es usar un conjunto de validación independiente que ayude a optimizar los estadísticos que resumen el desempeño del modelo. En SAS Enterprise Miner existen varios estadísticos que pueden ayudar en la tarea de interpretación de resultados y ajustes del modelo, sin embargo para efectos de esta tesis sólo se hará mención de los más usados y comunes. Tipo de Modelo Métrica de desempeño Regla Ejemplo Modelo de Decisión Precisión/No Clasificación min (No clasificación) ¿Qué cliente está propenso a irse con la competencia? Modelo de Estimación Error Cuadrático min(error cuadrático) ¿Cuál es la probabilidad de fraude de determinado cliente? Enfocados en sólo estos criterios, veremos entonces que para ello se verifican los siguientes dos estadísticos en las opciones siguientes: Método del subárbol. Esta opción especifica cómo se va a construir el subárbol en términos de métodos de selección. Son posibles los siguiente métodos: EVALUACIÓN (se elige el subárbol más pequeño con el mejor valor de evaluación), MAYOR (selecciona el árbol completo) y N (selecciona el subárbol mayor con n hojas como máximo). 4 49 Desarro Oscar C Medida d que dese validación entrenam cuadrátic predeterm promedio beneficio establece la medida la media error de c más bajo superior d las proba objetivo. de la va categóric propiedad fracción p Haciendo el siguien indicador El desemp como se v ollo de árbo Camarillo Le de evaluació a utilizar pa n. Si no hay miento. Las co de la m minada de o y con la o pérdida. e en error cu a se estable selecciona e clasificación . Elmétodo de las observ abilidades p Para una va riable obje as, es la pro d medida se para especif referencia nte desempe res. peño del mo ve en la figu Figura 3.7 oles de decis al ón. Esta pr ara seleccio y datos de va medidas d edia, error decisión se menor pérd Si la variab uadrado de ece en Error el árbol con n selecciona o mejora eva vaciones cla posteriores ariable obje tivo de las oporción de e establece ficar el porc al error de c eño de mod odelo según ura 3.7. . Visualización siones usand ropiedad se onar el mejo alidación dis de evaluació de clasific elecciona el dida de pro ble objetivo la media. S r de clasifica el menor va a el árbol co alúa el árbo asificadas: L o en los etivo tipo in s n% observ e eventos en en Mejora centaje de lo clasificación delo para ex la métrica q n de desempeñ do SAS Ente utiliza para or árbol, ba sponibles, s ón disponib cación y m l árbol con omedio si se o es de tipo Si la variable ación. El mé alor en dich on el índice ol basándose Las observac valores pr ntervalo, es vaciones. En n los n% dato a, se debe u os n% casos s n y al error c xplicar cóm que se selec ño de los árbo erprise Min a especifica asándose en se utilizarán bles son de ejora. La c el mayor e define un intervalo, e objetivo e étodo error ho estadístic de error de e en la pred ciones se cla redichos de el valor me n las variab os superiore utilizar la p superiores. cuadrático p mo se decide cciones se p oles de decisió ner 6.1 | ar el métod los datos d los datos d ecisión, erro configuració beneficio d na matriz d la medida s es categórica cuadrado d co. El métod clasificació icción del n asifican segú la variabl edio predich bles objetiv es. Cuando l propiedad d plantearemo e sobre esto uede mapea ón do de de or ón de de se a, de do ón n% ún le ho vo la de os os ar 5 50 Desarro Oscar C Donde el árbol) y p o error cu complejid mejora e validación validación ajustados La forma Se maxim ejemplo e a evaluar figura 3.8 Figu En el di entrenam Por últim la curva d ollo de árbo Camarillo Le eje horizo por el eje ve uadrático se dad se encu el desempeñ n. La razón n es porque s. en la que tr miza el árbol el error cua r. Es decir s 8. ura 3.8. Maxim iagrama los miento y el a o se selecci definida por oles de decis al ntal represe ertical el est egún sea el uentra el e ño realizand n por la cua e en este rabaja Enter l de decisión drático) cal se encuentr mización de ár s datos co zul fuerte so iona el árbo los datos de siones usand enta la com tadístico cal caso. Así, p estadístico q do una me al se debe conjunto es rprise Miner n y se verifi culada en c ra el árbol m rboles de deci n un color on los datos ol donde el e e validación do SAS Ente mplejidad (n lculado, ya s podremos ve que minimiz ejor predicc basar la d s donde los de SAS es la ica la métri ada escala d maximizado isión en entren r azul clar s de validaci error cuadrá n como lo me erprise Min número de sea error de erificar en q za dicha co ción sobre l ecisión en s datos no a siguiente: ica (para el de crecimie como se m namiento y va ro son el ión. ático medio encionamos ner 6.1 | ramas de u e clasificació que punto d omplejidad los datos d los datos d están sobr caso de est ento del árbo muestra en l alidación conjunto d es menor e arriba. un ón de y de de re te ol la de en 5 51 Desarro Oscar C Figura 3.9 De este m maximiza seleccion interés. R resultado desempeñ Entonces son los sig Tipo d Predicció Decisión Estimado Criterios ollo de árbo Camarillo Le 9. Selección de modo se cum a la probab ado utilizan Recordemos o, ya que c ño seleccion los dos crit guientes: de ón Estadísti Missclasi or Error Cu que en el sig oles de decis al el modelo com mple con se bilidad de ndo la infor que no nec como obser nada puede d terios que se ico ification o Err adrático Med guiente cap siones usand mparando el d eleccionar e predicción rmación nec cesariament rvamos en deteriorarse e utilizarán ror de clasific io ítulo serán u do SAS Ente desempeño en el modelo d y a la v cesaria para te el árbol m la gráfica e conforme v para verific Crit cación Se que clas Se que cuad utilizados. erprise Min entrenamient de árbol de vez simplifi a explicar e maximizado anterior la va creciendo car el ajuste terio selecciona tiene el me sificación selecciona tiene el drático medio ner 6.1 | to y validación decisión qu ica el árbo el evento d o da el mejo métrica d o el árbol. e del model el sub-árbo enor error de el sub-árbo menor erro o n ue ol de or de lo ol e ol or 52 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Capítulo IV. Desarrollo de caso práctico “En este mundo competitivo una factor clave del éxito es mostrar lo que somos capaces de hacer y así venderemos nuestro talento como organización”. Jim Goodnight, CEO de SAS Introducción al Problema de Negocio Como bien se ha comentado en capítulos anteriores el uso de la herramienta de minería de datos que tiene SAS resuelve una gran variedad de problemáticas de negocio en diversas industrias; para efectos de esta tesis y una vez revisados los puntos críticos de la herramienta de minería de datos y teóricos se resolverá el siguiente problema de negocio tomado del conocimiento adquirido durante el trabajo en diversos proyecto enfocado a detección y prevención de fraude: Una empresa aseguradora de autos tiene una problemática en términos de fraude. Se han registrado pérdidas millonarias por estos hechos, ya que se han realizado numerosos pagos por el reclamo de pólizas de autos que se han detectado como fraude. En un periodo histórico de seis meses han atendido 6,866 casos de reclamos relacionados con robos, de los cuales sólo se han identificado 311 casos de fraude comprobado a través de la unidad de investigación con la que cuentan, estos fraudes son reclamos improcedentes ya que se detectaron antes de realizarse el pago correspondiente, los restantes 6,555 son reclamos por robo de auto que fueron pagados y aparentemente legítimamente reclamados. Las necesidades básicas de la organización son las siguientes: Identificar asertivamente los fraudes de acuerdo a un patrón de comportamiento. Automatizar el proceso de investigación dándole a los investigadores elementos sólidos (con fundamento estadístico) para llevar a cabo acciones precisas. Reducir los tiempos de investigación y con ello reducir los costos por investigación (considerar la tarifa que se debe cubrir por investigador). Reducir la cantidad de falsos positivos, es decir, si actualmente se investigan 100 casos en una semana se desea que esos casos enviados a investigación sean los que tengan una mayor probabilidad de ser 53 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal fraudes y no hacer investigaciones con altos costos y tiempos que resulten en un caso no fraudulento. Contar con una herramienta analítica que ayude a conocer la cartera de clientes, su modus operandi y así ayude a predecir con un error mínimo cuáles son sospechosos de fraude. Incrementar el retorno de inversión de la organización con una mejor detección de fraude por robo. Supuestos del caso de negocio: Sólo se desean detectar fraudes por robo de autos. La organización ya tiene una tabla analítica para comenzar con el desarrollo del modelo, en ella se han integrado los 6,866 reclamos de los últimos seis meses. La tabla analítica cuenta con variable objetivo que se llama target1, esta variable es binaria. El valor 1 corresponde a casos comprobados de fraude y el valor 0 corresponde reclamos en los cuales serealizó un pago y no fue identificado como fraude. La tabla analítica cuenta con un identificador único y éste se encuentra en la variable Numero_reporte. Las variables que se utilizaron en el desarrollo del modelo y que se encuentran en la tabla analítica son 336. Entre ellas se encuentra información de la póliza, información de siniestro reportado, información de coberturas, información de terceros (grúa, ambulancia, ajustador, taller mecánico) e información de pagos. Se asume que no todas las variables localizadas en la tabla analítica contiene información ya que se suponen errores de captura en algunos campos. La tabla analítica considera un registro como único y con todos sus atributos de manera horizontal, así entonces, está lista para ser explotada a través de minería de datos. Desarrollo del modelo de minería usando SAS Enterprise Miner 6.1 Resultados Inicialmente se crea un proyecto de minería. En este caso el proyecto desarrollado es nombrado Tesis. Dentro de este proyecto se crea un diagrama llamado Tesis OCL y asumimos que la tabla analítica ya fue cargada a la herramienta como se observa en la siguiente figura 4.1. 5 El pri de tr decir este La vi 4.2. 54 Desarro Oscar C imer paso d rabajo y en r, revisaremo modo se rec Las variab texto, o s Variables Variables sta del proc F ollo de árbo Camarillo Le Figura 4.1. C entro del de seguida hac os si las vari chazarán var bles no hace son ajenas a que tiene u con inconsi ceso de sele Figura 4.2. Con oles de decis al Creación de p esarrollo de cer un análi iables son b riables por l en sentido d al proceso de un excedente stencias de ección de ni nfiguración d siones usand royectos en SA l modelo pr isis de las v inario, inter as siguiente de negocio, e detección e de valores captura. iveles y role e variables en do SAS Ente AS Enterprise redictivo es variables de rvalo, nomin es razones: por ejemplo de fraude. s faltantes. es se muest n SAS Enterpr erprise Min e Miner. integrar la e acuerdo a nal, ordinal o variables ra en la sig rise Miner. ner 6.1 | tabla al fluj a su nivel, e o única. Y d que contien uiente figur jo es de ne ra 5 Expl La ej del n cada figura explo Figur En el Códi El sig emba obser fraud Para de m mayo se m fraud que p Miner 55 Desarro Oscar C loración E jecución de nodo de exp una de las a muestra e orador de e a 4.3. Resultad anexo 1 se igo SAS guiente paso argo al ana rvamos que de. ello se desa uestreo) con or evidencia uestra y exp de. Cabe me permite edi r 6.1. ollo de árbo Camarillo Le Estadística esta tarea loración. As s variables q el resumen d stadísticas s dos de la expl puede obse o en el desa lizar la pro hay muy p arrolló un pr n la finalida de fraude e plica el proc encionar que tar código d oles de decis al a se apoya de sí se realiza que servirán de estadístic sobre alguna oración estadí rvar el resu arrollo del m oporción de oca evidenc rograma en ad de increm en el proceso ceso que se e este proce dentro de u siones usand e un análisis rá o se desi n como vari ca descriptiv as variables ística. ltado a deta modelo de m casos de f cia para ent SAS, el cual mentar el nú o de entren e siguió para eso se realiz un flujo de do SAS Ente s de estadís ignarán los iables indep va que arro . alle del anál minería es r fraude con trenar un m l realiza un úmero de cas amiento del a replicar la zó con el us minería de erprise Min stica descrip roles corres pendientes. oja la ejecuc lisis de explo ealizar un m los casos d modelo con sobre mues sos de fraud l modelo. A a proporción so del nodo datos en SA ner 6.1 | ptiva a travé spondientes La siguient ción del nod oración. muestreo, si de no fraud 311 casos d streo (técnic de y así tene continuació n de casos d Código SAS AS Enterpris és a te do in de de ca er ón de S, se 56 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal El primer paso es crear dos tablas donde se separan los caso de fraude (1) y los de no fraude (0). data mac.robo_unos; set &EM_IMPORT_DATA; where target1=1; run; data mac.robo_ceros; set &EM_IMPORT_DATA; where target1=0; run; A través de un procedimiento de muestreo de SAS se obtienen aleatoriamente sólo 4000 observaciones de los casos que no son fraude para reducir la proporción de casos de no fraude. proc surveyselect data=mac.robo_ceros out=mac.overs_robos_ceros method=srs n=4000; run; En seguida se genera un proceso para replicar los casos comprobados de fraude encontrados en la tabla mac.robos_unos. Con el procedimiento append se pretende crear una tabla llamada mac.robos_unos_append, donde se acumularán los casos replicados y los originales, es decir esta tabla contendrá 622 = (311*2) casos de fraude proc append base=mac.robo_unos_append data=mac.robo_unos; run; proc append base=mac.robo_unos_append data=mac.robo_unos; run; Finalmente se hace uso de este mismo procedimiento para unir todas las tablas generadas y se juntan los casos comprobados con los casos no comprobados originales. En el primer append se cargan los 622 casos de fraude replicados. En el segundo append son cargados los 4000 casos que no son fraude y en el tercer append se cargan nuevamente los casos comprobados que se tenían originalmente (311). En suma se tiene una tabla con 4000 casos de no fraude y 933 casos de fraude. proc append base=&EM_EXPORT_TRAIN data=mac.robo_unos_append; run; proc append base=&EM_EXPORT_TRAIN data=mac.overs_robos_ceros; run; proc append base=&EM_EXPORT_TRAIN data=mac.robo_unos; run; El siguiente fragmento del archivo log de este nodo muestra el número de registros finales que tiene la tabla &EM_EXPORT_TRAIN. proc append base=&EM_EXPORT_TRAIN data=mac.robo_unos; run; NOTE: Appending MAC.ROBO_UNOS to EMWS.EMCODE_TRAIN. NOTE: There were 311 observations read from the data set MAC.ROBO_UNOS. 5 La v ident resul mues Part Una comp realiz valida entre prueb partic que l aprov En la Es de resta 57 Desarro Oscar C NOTE: 311 o NOTE: The NOTE: PROC real tim cpu tim variable &E tifica dentro tado de pro stra el flujo tición de d vez que s probados, se zar particio ación y pru enamiento ba, sin emb ciones de e la cantidad vecha los ca siguiente fi ecir el 70% ante para va ollo de árbo Camarillo Le observations a data set EMWS CEDURE APPEN me 0.85 me 0.01 EM_EXPORT_ o del flujo ocesar algo seguido has Figura 4.4 datos se cuenta e procede a onamientos ueba. Es re (al menos bargo para ntrenamient de datos n sos sólo en e igura 4.5 se F de los dato lidación. Es oles de decis al added. S.EMCODE_TRA ND used (Total seconds seconds _TRAIN es del desarro o en el nod ta este punt 4. Etapa I del d con las pr a realizar e en tres co egla genera 50% de los efectos de to y validac o permite r entrenamien muestra la Figura 4. 5. Pa os de la tab importante siones usand AIN has 4933 ob process time): una variab ollo del mod do de Códig to. desarrollo de roporciones el particiona onjuntos, es al acumular datos) y e e este ejem ción dejando realizar los nto y validac configuració rticionamient bla serán us e mencionar do SAS Ente bservations an : ble macro delo que es go de SAS. modelo de mi sobre mue amiento de stos conjun r la mayor el resto dist mplo haremo o de lado e tres partici ción. ón realizada to de datos. sados para que la prop erprise Min nd 338 variable que auto s una tabla La siguient inería. estreadas e los datos. tos son en cantidad tribuirlo en os uso excl l conjunto d ionamientos a. entrenamie porción se c ner 6.1 | es. máticament que será ete figura 4. en los caso SAS permit trenamiento de casos e validación lusivo de la de prueba y s y se decid nto y el 30 arga del lad te el .4 os te o, en y as ya de 0% do 5 de e conoc que s Impu Deriv valor en e varia La co impu conti 58 Desarro Oscar C ntrenamien cimiento pa se observa e utación vado del pas res ausentes l que se m bles de clas onfiguración tación para nuas se utili Figu ollo de árbo Camarillo Le to debido a ra el desarr enseguida en Figura 4.6 so de explor s sobre algu muestra la c e. n del nodo a variables iza la media ura 4.7. Config oles de decis al a que éste rollo del mo n la figura 4. . Etapa II del ración estad nas variable cantidad de de imputac de clase es a. La siguien guración del n siones usand es el conj delo. El fluj .6. desarrollo de ística nos p es. El detall valores au ción es la p s el valor c nte figura mu nodo de Impu do SAS Ente junto que f jo que se ob modelo de m udimos perc e se puede sentes sobr preestablecid con la mayo uestra la co tación de valo erprise Min funciona co btiene en es inería. catar de la e observar en re variables da por SAS or moda; pa nfiguración ores faltantes. ner 6.1 | omo base d ste paso es e existencia d n el anexo 1 s continuas en donde l ara variable realizada. de el de 1, y la es 5 Tran El pr gene trans mine En e varia estas trans valor resul La ca este varia pode (SUM senti frecu Se p logar gráfic distri trans 59 Desarro Oscar C nsformació oceso de tr ración de v sformar vari ría de datos l desarrollo bles continu s variables sformación r al desarrol tarían predi apacidad de tipo de tra bles a ser to mos observ A_ASEG y SU do, la info uencias como Figura 4.8 procede a rítmica en b cas anterio ibución y n sformadas, o ollo de árbo Camarillo Le ón de Varia ransformació ariables cru iables con s. o de un mo uas como so en ocasion matemática lo de un mo ctivas. transformac ansformacio omadas en c var que las UMA_ASEG_T rmación es o se muestra . Distribución realizar un base 2 con res. Con es normalizar u observar la f oles de decis al ables ón de variab uzadas, fact distribucion odelo de m on montos e nes son va a (logarítmic odelo. Es de ción de vari nes matemá cuenta. Para s variables TOTAL respe acumulada a en la sigui n de las variab na transform el objetivo sto lo que un poco la figura 4.9. siones usand bles en SAS tores polino nes complic minería frec conómicos, ariables pre ca, exponen ecir, sin la t iables que ti áticas que a el caso en Suma Aseg ectivamente a en el cos ente figura bles Suma Aseg mación de o de elimin se consegu distribució do SAS Ente es una her miales y lo cadas de u cuentemente saldos, ingr edictivas qu ncial, norm ransformaci iene SAS, pe ayudan a l específico d gurada y e) se encue stado izquie 4.8. gurada y Sum variables ar el sesgo uirá será e ón de dicha erprise Min rramienta m más impor utilizar para e se puede resos, deuda ue de no mal, etc.) n ión de estas ermite justa as distribuc de este caso Suma Aseg entran sesga erdo del hi ma Asegurada utilizando o que se ob eliminar el as variables ner 6.1 | muy útil en l tante que e a efectos d en identifica a, etc. Toda ser por un o agregaría s variables n amente hace ciones de la o de negocio gurada Tota adas y en es istograma d Total. una funció bservó en la sesgo de l s que fuero la es de ar as na an no er as o, al se de ón as la on 6 Figu Como norm inform trans es qu El flu figura Segm Esta dentr varia elimi irrele reduc recor expli Explic 60 Desarro Oscar C ura 4.9. Distri o se observ malizó al ci mación al sformaciones ue el proceso ujo del desar a 4.10: mentación capacidad d ro del proc bles predict na o reduce evante de la cción en el rdemos que car el fenóm cando breve Comenzar mismo no ollo de árbo Camarillo Le ibución de las va, la trans ien por cie modelo pr s y ajustes q o de afinació rrollo del mo Figura 4.10 de variab de SAS dent ceso de sel tivas. El clu en la redund as variables nodo de cl tenemos 3 meno de frau emente el al remos con odo como pu oles de decis al variables Sum transfor sformación ento, pero redictivo. E que se le pu ón del mode odelo en est 0. Etapa 3 del les (Cluste ro del proce ección de ustering de dancia de va s. Para efec ustering de 36 variables ude en auto lgoritmo de mencionar unto inicial d siones usand ma Asegurada rmación aplica ocasionó q es una nu Es indispen ueden hacer elo debe ser te punto es desarrollo de ering de va eso de mine variables y variables e ariables y ay ctos de este e variables a s de entrad móviles por este nodo: que todas l del algoritmo do SAS Ente a y Suma Aseg ada. ue el sesgo ueva variab sable nota r a un mode r detallado. el que se m e modelo de m ariables) ería de dato asimismo elimina pro yuda a la elim e modelo po ayuda en la da que pued causas de r las variable o. erprise Min gurada Total d o se modif ble que pu r que la elo son dive uestra en la minería. os es común en la segm blemas de minación de odemos obs a selección d den ser pre robo. es son locali ner 6.1 | después de la ficara, no s uede aporta cantidad d rsas, por ell a siguiente nmente usad mentación d colinealidad e informació servar que l de variables dictivas par izadas en u se ar de lo da de d, ón la s, ra un 6 Así un Dond clust 61 Desarro Oscar C Se elige u se hayan pequeño variación asociado eigenvalu El cluster primeros asigna a correlació Las varia de maxim posible q estructur mantener na vista de l Figura 4.1 e se observa ers se puede ollo de árbo Camarillo Le un cluster p especificad de variació proporcion con el segun ue). r selecciona component cada varia ón. bles son ite mizar la vari que sea n a jerárquica r jerarquías. los resultado 11. Gráfica de a la creación e observar e oles de decis al para ser par do, el clust n explicada nal de ese c ndo compon ado es segm es principal able al co erativamente ianza de los ecesario re a de los clus . os obtenidos e resultado del n de tres clu el anexo 2. siones usand rticionado. D tering selec a por el com cluster) o e nente princip mentado en les, desarro mponente e reasignada s componen easignar los ster, para el s es la mostr l análisis de cl usters. Para do SAS Ente Dependiendo ccionado t mponente de el eigenvalo pal (usando dos clusters ollando una con el cua as a los clu ntes principa s algoritmo llo se hace u rada en la fi lustering de va revisar con erprise Min o de los par iene el por e ese cluste or más gran la propieda s para enco rotación or al tiene el ustering con ales de cad os para m uso de la pr igura 4.11: ariables de ent mayor deta ner 6.1 | rámetros qu rcentaje má er (usando l nde que est ad de máxim ontrar los do rto-oblicua, l una mayo el propósit a cluster. E antener un ropiedad par trada. alle los ue ás la tá mo os y or to Es na ra 6 Árbo Para algor las ca de ca detec Los t confi una mode predi 62 Desarro Oscar C ol de decis el desarro ritmos de pa aracterística ada uno de cción de fra tres método guración, a comparació elos durante icción. Árbol de La config técnica d muestra a ollo de árbo Camarillo Le sión ollo de los articionamie as con las c ellos y la ude. Figura 4.12 os de partici excepción n más tran e la evaluaci e decisión c guración de de ji cuadra a continuaci oles de decis al árboles de ento vistos e uales se gen imagen que 2. Etapa IV de ionamiento del criterio sparente al ión de los m con regla d e árbol de ada que rev ón en la figu siones usand decisión s en el capítu neraron tres e muestra e l desarrollode analizados de partició l momento mismos y ele de partició decisión co visamos en ura 4.13: do SAS Ente se generaro lo anterior. s árboles de el desarrollo e modelo de m a continuac ón, esto con de verifica egir aquél q n probabil on particion el capítulo erprise Min on tres árb Enseguida e decisión, l o de estos m minería. ción conserv el propósit ar la efecti que es más c idad ji cua namiento b anterior fu ner 6.1 | oles con lo se mostrará os resultado modelos par van la mism to de realiza vidad de lo certero en s adrada basado en l ue la que s os án os ra ma ar os su la se 6 63 Desarro Oscar C Figur Algunos siguientes Cr de in En co ap po Ni co Va co au div Ra se cu Pr ár ollo de árbo Camarillo Le a 4.13. Config de los pun s: riterio nomi efinir el frau icialmente. nterprise Min orrespondien partado regl onga en los o ivel de signi omo umbral alores ausen onfigurado c usentes se u visión. amas máxim erá de dos, ualquier nod rofundidad M rbol construi oles de decis al guración del m ntos import inal. El crite ude o no fr Debido a ner detecta nte es la s la de divisió otros dos cri ificancia. El de aceptaci ntes. El mé como utiliza tilizan para mas. Se indic es decir só o padre. Máxima. Se ido. siones usand modelo de árbo cuadrada tantes dent erio de part raude en re que la v a el nivel de señalada e ón y toma e iterios (crite l nivel de si ión de la reg étodo de tra ado en búsq buscar la p ca que el n ólo se const e tendrá un do SAS Ente ol de decisión . tro de esta ticionamien eclamo de s variable ob el objetivo, n la opció esta anuland erio de Inter ignificancia gla de partic atamiento d ueda. Esto ureza más a número máx truirán dos a profundid erprise Min con particion a configurac nto que se u eguros que jetivo es identifica q ón criterio do cualquier rvalo y crite se establec cionamiento de valores significa qu alta en el mo ximo de ram ramas hijo dad de 20 n ner 6.1 | namiento ji ción son lo utilizará par se configur binaria, SA que la opció nominal de r cosa que s erio Ordinal) ció es de 0. o. ausentes fu ue los valore omento de l mas utilizada o a partir d niveles en e os ra ró AS ón el se . .2 ue es la as de el 6 64 Desarro Oscar C Ta alg un pa Ta en pr Mé qu mo Me el eq Árbol de La config de Gini, n el tipo de en la opc figura 4.1 Figura 4.14. ollo de árbo Camarillo Le amaño categ goritmo de n mínimo d articionamie amaño de la n entrenami roceso de pa étodo. El m ue da un ma odo se indic edida de ev error de c quivoca el m e decisión uración en e no tiene cam e regla de p ción de crit 4. Configuració oles de decis al górico mínim particionam de cinco c ento. a hoja. Cinco ento que de artición se d método de se ayor valor a ca evaluació valuación. La clasificación modelo al mo con regla el caso del á mbios releva particionami erio nomina ón del modelo siones usand mo. Para ut miento se uti clases dura o observacio ebe tener ca etiene. elección de l logworth, n). a medida de , esto quie omento de e de partició árbol de dec antes con re ento utiliza al al algorit de árbol de de do SAS Ente tilizar una v ilizarán sólo ante cada ones son el m ada hoja. A particionam que es la m e evaluación ere decir qu evaluar los d ón Gini cisión con p especto a la da. En este tmo de GINI ecisión con pa erprise Min variable cate o aquellas qu etapa del mínimo núm partir de e miento del á medida de v n dentro del ue medirá q datos en vali articionamie anterior, só caso se hac I como se o articionamient ner 6.1 | egórica en e ue contenga proceso d mero de caso se número e árbol es aque valor (de est l modelo ser qué tanto s idación. ento a travé ólo se cambi ce referenci observa en l to GINI. el an de os el el te rá se és ia ia la 6 F Anál El an Algoritm Particio Ji Cuadr 65 Desarro Oscar C Árbol de Como en configura particiona entropía, Figura 4.15. C lisis de res álisis de los mo de onamiento Var rada 1 2 3 4 5 6 de 7 8 ten 9 10 ha ollo de árbo Camarillo Le e decisión c las dos ante ción básica amiento ut ver la imag Configuración sultados resultados l riables más impor ENTIDAD (Entida IMP_OFICINA1_ Clus4 (Cluster nú IMP_MODELO1_ IMP_MARCA_CO IMP_DESTIPO1_ uso del auto) Clus3 (Cluster d EVENTOS_MAYO nido más de 3 accid Clus2 (Cluster d IMP_MODELO_ estado en reparac oles de decis al con regla d eriores regla s y sólo se tilizada. En gen 4.15. del modelo de lo podemos rtantes ad Federativa) (Número de oficin úmero 4) _ (Modelo de auto ORTA1 (Marca del _ ( Descripción del de Variables núme OR_A_TRES (Si ha dentes) de variables # 2) _EN_REP (Si el mo ción) siones usand de partició as de partici modifica la este caso e árbol de dec observar en Profanid máxima na) o) auto) l tipo ero 3) delo 10 do SAS Ente n entropía ón, se conse a propiedad o se espec cisión con part n el siguiente dad Error de clasificació entrenami 0.119 erprise Min a ervan las pro d que indica cifica el cr ticionamiento e cuadro co ón ento Error de clasificac validació 9 0.154 ner 6.1 | opiedades d a la regla d riterio com Entropía. mparativo. ción ón Número d hojas generadas 4 53 de de mo de s 66 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal GINI 1 ENTIDAD (Entidad Federativa) 2 IMP_OFICINA1_ (Número de Oficina) 3 Clus4 (Cluster de variables # 4) 4 IMP_MARCA_CORTA1 (Marca del auto) 5 IMP_MODELO1_ (Modelo del auto) 6 Clus3 (Cluster de variables # 3) 7 IMP_CVE_COBER1_ (Clave del tipo de cobertura) 8 Clus1 (Cluster de variables # 1) 9 IMP_DESTIPO1_ (Descripción del tipo de uso del auto) 10 Clus2 (Cluster de variables #2) 15 0.064 0.1031 111 Entropía 1 ENTIDAD (Entidad Federativa) 2 IMP_OFICINA1_ (Número de oficina) 3 IMP_MARCA_CORTA1 (Marca del auto) 4 Clus4 (Cluster de Variables # 4) 5 Clus2 (Cluster de Variables # 2) 6 Clus3 (Cluster de Variables # 3) 7 IMP_CVE_COBER1_ (Clave del tipo de cobertura) 8 IMP_MODELO1_ (Modelo del auto) 9 OFIC__AJU_ (Oficina del ajustador) 10 Clus1 (Cluster de Variables # 1) 17 0.048 0.087 125 En la tabla anterior se observa lo siguiente: Variables importantes. Se observa que existen variables que aparecen de manera constante en los tres algoritmos de particionamiento. Estas variables son entidad federativa, número de oficina, marca del auto y modelo del auto. Es importante resaltar que el orden de las variables obedece a la importancia que tiene cada una de ellas, de esta forma alguna de estas cinco variables normalmente se encuentran entre las primeras cinco o seis variables más importantes en cada uno de los algoritmos. Profundidad máxima. Recordemos que una de las características de los algoritmos de árbol de decisión es buscar el principio de parsimonia, que señala el simplificar los modelos desarrollados, es decir mientras más sencillos sean los modelos, se podrían explicar de mejor forma, aunque no necesariamente siempre se cumple esta regla. En los resultados obtenidos se observa que si se escogiera el modelo de acuerdo al principio de parsimonia (el modelo más sencillo), el árbol desarrollado con el particionamiento de Ji Cuadrada. Error de clasificación. Este error es una métrica que ayuda a seleccionar el mejor modelo y mide la cantidad de errores observados al momento de clasificar los casos calificados, en este caso mientras más pequeño sea el error mejor es el modelo. Como recordaremos al inicio en el desarrollo de unmodelo de minería se separan los datos en entrenamiento y validación, entonces el error se mide en ambos conjuntos de datos; sin embargo es recomendable elegir el error de clasificación más pequeño de acuerdo a los modelos que se estén desarrollando sobre el conjunto de validación y no así el de entrenamiento. Recordemos que si nos guiamos por el conjunto de entrenamiento estaríamos sobre estimando el modelo, ya que no se le ha dado la oportunidad de ser ajustado. En este sentido, el modelo a seleccionar es el desarrollado con el algoritmo de particionamiento de GINI que presenta un 6 Eval La e comp evalu inter conti del a Aquí mues Curva efect casos perce acuer los t verde senci que acuer propo menc La fig 67 Desarro Oscar C error de entropía. Número d indica cu se observ algoritmo número d uación de evaluación plementa co uación no se pretación d ene los res partado de se muestra stra la comp a ROC. La tividad de lo s verdader entiles) y e rdo al porce res modelo e, Algoritmo lla y se pue tiene mayo rdo a un orcionalmen cionado en gura siguient ollo de árbo Camarillo Le clasificació de hojas gen antos nodos va que son o de partic de hojas con los model de resulta on el apartad e analizan de e la Curva ultados del resultados a una image paración de l Figura 4.16 curva ROC os modelos ramente ac n el eje ve entaje de ca s desarrolla o de Ji Cuad ede observar or cantidad percentil s nte. El mod el apartado te muestra l oles de decis al ón en valid neradas. És s finales tie muchos los ionamiento 53. los dos utiliza do de result e manera ind ROC. No ob nodo de co antes analiza n del final los modelos. 6. Etapa V del es adicion en la que s certados ( ertical la ca asos seleccio ados (algori drada en caf r que el mod de casos c seleccionado elo seleccio o de resultad los resultado siones usand ación de 0 te también enen los árb s nodos u de ji cua ndo el no tado antes s dividual; sin bstante, es omparación, ado. del desarro . l desarrollo de nalmente ot se muestra correctame apacidad pre onados. En e itmo GINI e fé) y en es delo definid correctamen o y entonc onado es el dos. os del anális do SAS Ente 0.087, meno es un indic boles genera hojas finale drada el q odo Compa señalado, só n embargo, a importante , que es prá llo de mode e modelo de m tra métrica en el eje h nte especi edictiva (se este caso se en rojo, Alg ste sentido l o con curva nte especifi ces la sens l de entrop sis de la cur erprise Min or al de ji cador de pa ados. Para e es generada que present ración de ólo que en e aquí enfatiz e revisar el ácticamente elo de mine minería. que perm orizontal la ificados a ensibilidad) e observa qu goritmo de la interpreta a en color ve cados o cla sibilidad se ía, lo cual rva ROC. ner 6.1 | Cuadrada rsimonia qu este ejercici as, siendo e ta un meno Modelos s esta etapa d zaremos en l anexo 3 qu e el resume ería donde s ite medir l a cantidad d través d adquirida d ue se grafica Entropía e ación es mu erde es aque asificados d e increment corrobora l y ue io el or se de la ue en se la de de de an en uy el de ta lo 6 Matri que s vertic fraud Los c repre obser 68 Desarro Oscar C iz de confus se puede o cal los resul de y no fraud casos de fra esentan con rvar cuatro r Rechazad verdadero modelo ti rechazado haber sido Autorizad falsos po especifica autorizó e No detect los falsos no detect casos de de no de modelo e ollo de árbo Camarillo Le Figura 4.17 ión. La mat bservar una tados obten de. aude son rep el número regiones que dos. Son los os positivos iene una pre os, dado qu o rechazado dos. Son los ositivos. En a que son fr el reclamo d tados. Son l negativos. ta argument fraude; aqu etectados es n detectar e oles de decis al 7. Gráfica de R riz de confu a tabla de c nidos del mo presentados 0, formando e concentra localizados . En este cu edicción ace ue los reclam os. localizados este cuadr raude y en de la póliza. los casos loc En este cua tos para de í es donde e s evidentem el fraude. siones usand ROC de los mo usión es una contingencia odelo y por e s con el núm o así la tabl n las frecue en el cuadr uadrante se ertada sobre mos corresp en el cuadr rante se loc realidad est calizados en adrante se l efinirlo como es más evide mente asign do SAS Ente odelos desarro representa a en la que el lado horiz mero 1 y lo la de contin encias entre rante (1,1) d encontrará e los fraudes ondientes a rante (1,0) d calizan los tos casos no n el cuadran localizan los o fraude pe ente el erro ado por la erprise Min ollados. ción gráfica e se cruzan zontal los ca os casos de ngencia dond ambos esce donde se en án los casos s. Se le da e a estos clien donde se en casos dond o fueron det te (0,1) y c s casos dond ero en la re or del model falta de ca ner 6.1 | a simple en l n por el lad asos reales d no fraude s de se puede enarios: ncuentran lo en donde e el nombre d ntes debiero ncuentran lo de el model tectados y s orresponde de el model ealidad sí so lo. El nombr apacidad de la do de se en os el de on os lo se a lo on re el 6 En re valida siguie En la corre la co enton detec La m de va podrí anexo 69 Desarro Oscar C No invest los verda donde no que no tie esumen, la c ación debe ente figura 4 gráfica obs ecta detecci orrecta det nces, que e ctados. atriz de con alidación se ía medir la o 3. ollo de árbo Camarillo Le tigado. Son l aderos nega o debe habe enen sospec concentració ría de esta 4.18. Figu servamos un ón de casos ección de el modelo r nfusión del muestran e efectividad oles de decis al los casos loc ativos. En e er proceso d cha de fraud ón de los cas ar distribuid ura 4.18. Ejem a distribució s del modelo casos que reduzca el modelo gan n la siguient del modelo siones usand calizados en este cuadra e investigac e y que el m sos en la ma da de la fo mplo de matriz ón del 20% d o y 80% de son legalm error en lo ador (mode te matriz de o. Estos res do SAS Ente n el cuadran ante se enc ción ya que modelo los d atriz de con orma en la z de confusión. de casos rec casos no inv mente recla os cuadrant elo de entro e confusión sultados tam erprise Min nte (0,0) y c cuentran aq son reclam detecta corre nfusión en el que se m . chazados de vestigados, amables. El tes de auto pía) basado de la figura mbién se ob ner 6.1 | orresponde quellos caso mos legítimos ectamente. l conjunto d uestra en l erivados de l derivados d objetivo e rizados y n en los dato 4.19 y así s bservan en e a os s, de la la de es no os se el 7 F Se ev distri efect de pr Como los ot Regl Las r obten inter Básic partic deter En la y el á 70 Desarro Oscar C Figura 4.19. Ej valuaron 1, ibución bue tividad del m redicción eq o se observa tros dos mod las de nego reglas de ne nidos a part pretan los re camente la cionamiento rminando las siguiente g árbol de dec ollo de árbo Camarillo Le jemplo de Ma 667 casos e ena sobre la modelo es de quivalente a a en el anexo delos desarr ocio egocio son ir de los mo esultados es idea radica o aplicado, s reglas que ráfica de la cisión trazad oles de decis al triz de Confus en el segm a matriz de e 91.24% (su 8.76% (sum o 3 la distrib rollados es m la forma m odelos de ár s muy sencil en seguir l , formando e clasifican l figura 4.20 do en una vis siones usand sión del árbol ento de va e confusión uma de rech a de autoriz bución de ca menos efecti más transpar boles de de la. la ruta traza o así regl os casos pro se observa sta. do SAS Ente l de decisiones alidación, de en donde hazados y no zados y no d asos sobre lo iva. rente de in ecisión, ya q ada dada a las del esopensos a fra un segment erprise Min s desarrollado e estos se se podría o investigado etectados). os datos de v nterpretar lo ue la forma partir del stilo if-the aude o no. to del mode ner 6.1 | con GINI. observa un decir que l os) y un erro validación d os resultado a en la que s algoritmo d en que va elo construid na la or de os se de an do 7 El gro los no del á Otra travé cómo los co árbol 71 Desarro Oscar C Figura 4 osor de la lí odos indican rbol, quiere forma de ve és de un ma o los nodos p olores indic l del modelo ollo de árbo Camarillo Le 4.20.Calsificac ínea indica n una pureza e decir que d er el árbol, y apa del árbo padre partic an la purez o ganador de Figura 4.21. oles de decis al ción del árbol una mayor c a mayor. Mie dicho nodo e y que muest ol. No mue cionan a los za del nodo. e GINI. Mapa del Árb siones usand de decisión de concentraci entras más f es más puro tra una de la stra las líne nodos hijo. . La siguient bol de decisión do SAS Ente e acuerdo al a ón de casos fuerte sea e (clasifica de as capacida eas tal cual Al igual qu te figura 4. n del modelo d erprise Min algoritmo de G s de fraude el color azul e mejor form des gráficas l como en e ue la otra o 21 muestra de GINI ner 6.1 | GINI y el color d de los nodo ma). s de SAS, es el árbol per opción gráfic el mapa de de os a ro ca el 72 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Como se puede observar se forman una gran cantidad de reglas de negocio. De acuerdo a las capacidades gráficas observadas se tienen 110 reglas que son las mismas que la cantidad de nodos finales de árbol de decisión. Observemos un par de reglas generadas: Caso1. Clasificación de casos donde no hay fraude IF Imputed MODELO1_ EQUALS 2005 AND Imputed MARCA_CORTA1 IS ONE OF: FD CR FR YH MZ BW ST AND ENTIDAD IS ONE OF: 22000 09006 01001 15004 13000 15005 05006 11005 09018 19051 15077 15095 28003 15012 06001 31004 32000 15050 AND Imputed OFICINA1_ IS ONE OF: 9 7 276 55 90 25 98 266 21 18 78 273 264 27 96 83 97 11 269 64 270 23 19 288 95 THEN NODE : 55 N : 19 1 : 15.8% 0 : 84.2% La regla anterior muestra que cuando el modelos del auto es 2005 y la marca corta de acuerdo a un catálogo se encuentra entre FD CR FR YH MZ BW ST y si la entidad federativa de acuerdo a un catálogo definido está entre 22000, 09006, 01001, 15004, 13000, 15005, 05006, 11005, 09018, 19051, 15077, 15095, 28003, 15012, 06001, 31004, 32000, 15050 y si la oficina donde se tramitó la póliza está entre 9, 7, 276, 55, 90, 25, 98, 266, 21, 18, 78, 273, 264, 27, 96, 83, 97, 11, 269, 64, 270, 23, 19, 288, 95, entonces existe una probabilidad de 0.158 de ser fraude y 0.842 de no ser fraude. El número de casos durante el entrenamiento que son clasificados en este nodo es de N=19. La sentencia Imput hace referencia a que se utilizó un método de reemplazo o imputación de datos en caso de datos faltantes. Caso2. Clasificación de casos donde no es identificable el fraude IF Clus4 < -1.327754387 AND -1.19900168 <= Clus3 AND Imputed OFICINA1_ IS ONE OF: 126 8 267 83 64 19 405 100 66 81 265 20 12 63 272 114 290 286 AND ENTIDAD IS ONE OF: 09010 09002 14020 08002 09008 09001 17002 19005 19007 28021 15008 15011 30102 15000 25011 22001 12001 09007 19003 15009 09000 14061 09013 15057 15042 18007 THEN NODE : 84 N : 10 1 : 50.0% 0 : 50.0% La interpretación de esta regla es la siguiente, si el cluster número 4 tiene un valor menor a -1.32277 y así mismo el cluster número 3 es tiene un valor de cluster mayor igual a -1.1990 y la oficina donde se tramito la póliza está entre 126, 8, 267, 83, 64, 19, 405, 100, 66, 81, 265, 20, 12, 63, 272, 114, 290, 286 y la entidad federativa esta entre 09010, 09002, 14020, 08002, 09008, 09001, 17002, 19005, 19007, 28021, 15008, 73 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal 15011, 30102, 15000, 25011, 22001, 12001, 09007, 19003, 15009, 09000, 14061, 09013, 15057, 15042, 18007, entonces la probabilidad de que el caso a clasificar sea fraude es de 0.5 y de que no lo sea es de 0.5. El número de casos clasificados en este nodo es de N=10. Recordemos que las variables Cluster, fueron variables generadas durante el proceso de generación del modelo. Caso3. Clasificación de casos donde es muy probable el fraude IF Imputed MARCA_CORTA1 IS NOT MISSING AND C_PERSONAS_FISICAS IS ONE OF: 3 1 AND Imputed OFICINA1_ IS ONE OF: 9 262 266 264 AND ENTIDAD IS ONE OF: 12006 09014 19005 05008 09003 25005 15008 09007 09016 AND status_siniestro_ EQUALS 3 AND Imputed MODELO_EN_REP IS NOT MISSING AND Clus4 < 0.1327080863 THEN NODE : 296 N : 17 1 : 88.2% 0 : 11.8% La traducción de esta última regla es la siguiente, si la marca del auto no es un valor nulo y las personas físicas tienen el valor de 3 o 1 de acuerdo a un catálogo definido y la oficina está entre 9, 262, 266, 264 y la entidad está entre 12006, 09014, 19005, 05008, 09003, 25005, 15008, 09007, 09016, el estatus del siniestro es igual a 3 de acuerdo a un catálogo definido y el valor de la variable cluster es 0.1327, entonces la probabilidad de fraude es 0.882 y la probabilidad de no fraude es 0.118. El conjunto total de reglas generadas se encuentran en el Anexo 4. Herramientas alternas para el desarrollo de modelado predictivo SAS no es la única tecnología que nos permite desarrollar análisis de minería de datos y para efectos de responder a preguntas de negocio es importante mencionar herramientas alternas que al igual que SAS ayudan en el hallazgo de nuevos patrones de comportamiento explotando y analizando grandes volúmenes de información utilizando árboles de decisión y otros algoritmos similares o iguales a los incluidos en SAS. Algunas de las herramientas alternas que podrían ser consideradas para dichos efectos son SPSS, R, Rapid Miner y algunas aplicaciones menos conocidas pero no por ello menos capaces de hacer lo mismo que SAS Enterprise Miner. Alguna de las razones que motiven la búsqueda de soluciones alternas en SAS es la difícil accesibilidad a tal tecnología por el elevado costo que tiene y/o los esquemas de licenciamiento que dificultan su adquisición. 74 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal SPSS. Se considera como una herramienta igualmente sofisticada que SAS, con algunas capacidades menores, sin embargo es pensada para grandes empresas que deseen complementar diversas necesidades tanto de análisis predictivo como reportes y tableros dinámicos para tener acceso oportuno a la información y a la toma de decisiones. Gráficamente es una herramienta similar a SAS Enterprise Miner. La construcción de los modelos se realiza a través de flujos de trabajo donde se invocan objetos que a su vez contienen procesos que desarrollan los análisis especificados en cada nodo del flujo. R. Es una herramienta económicamente accesible ya que es gratuita, por ello su mención en diversos documentos de investigación y universidades donde es requerido para efectos experimentales y conocer cómo es que funcionan los algoritmos predictivos. R no es una herramienta gráficamente atractiva para los usuarios pero cumple con lo elemental para responder las preguntas de negocio pertinentes a través de rutinas preestablecidas llamadas librerías. Rapid Miner. Al igual que R es una herramienta de acceso gratuito que permite desarrollar modelos de minería de datos además de tener capacidades de integración de datos lo que la hace una herramienta aún más robusta y competente. Gráficamente es más atractiva que R, dada la interaccióncon gráficos dinámicos y uso de flujos de trabajo para desarrollo de modelos predictivos competitivos y similares a los que SAS tiene. 75 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Conclusiones Como parte de las conclusiones se han separado dos tipos de conclusiones vistas desde distintas perspectivas: Las conclusiones referentes al caso de investigación en particular. Aquí se mostrarán los beneficios tangibles o económicos que tendrá la aseguradora de autos una vez implementada una solución de inteligencia analítica que le permita detectar y prevenir fraude de aquellos reclamos sospechosos y no sospechosos a través de minería de datos y no sólo basados en la experiencia de negocio. Se observarán los beneficios económicos a través del caso de negocio Por otro lado se determinarán las conclusiones a nivel técnico, en donde se explicará cómo los árboles de decisiones, vistos como una técnica de minería de datos que forma a su vez parte de alguna de las soluciones de inteligencia analítica que brinda SAS, aportan un gran valor al describir las reglas de negocio o patrones desconocidos que hacen referencia al fraude en el reclamo de seguros en autos y otros beneficios intangibles. Caso de Negocioxi De acuerdo a un levantamiento de información sobre fraudes por robo ocurridos en 2010 y para efectos de realizar un análisis comparativo que muestre el retorno de inversión de SAS se obtuvo la siguiente matriz de confusión que tendría alguna aseguradora estándar en México utilizando sus métodos tradicionales de detección de fraude. xi Las cifras observadas en el siguiente caso de negocio son estimadas con base al conocimiento y experiencia adquirida durante las labores de Preventa y Consultoría de Negocio en SAS dando servicio a las principales aseguradoras en México como Qualitas, AXA y GNP a lo largo de 5 años de labor en SAS México. 7 Aquí casos En co detec inves que fraud Ahora siguie 76 Desarro Oscar C se puede ob s como lo me Dentro de negativos que no s atendidos atención atención, casos par aplicable De los ve detección prácticam permitan anormale Respecto total de e de los si fraudulen incapaz d no detect onclusión, p ctar fraude stigadores in permitan d dulentos. a bien, ana entes conclu ollo de árbo Camarillo Le bservar que encionamos e la matriz s, de aquí qu son investig s y el esfue de estos c esto es, el ra determin . erdaderos po n 0.45%, lo c mente nulo analizar g es. a los falsos error de 23. stemas actu ntos que son de detectar. tados a travé odemos obs por parte nstalada es desarrollar i alizando la usiones que oles de decis al el número anteriorme de confusió ue podemos gados son b erzo de inv casos es en l número de nar si ocurre ositivos pode cual habla d de técnica grandes volú s positivos y 16% en don uales de la n autorizado . El 14.55% d és de las téc servar que e de las aseg muy limitad investigacio matriz de c nos determ siones usand de casos an ente. ón es domina s observar q bien conocid vestigación su mayoría e investigad e fraude o emos observ e una baja c as más sofis úmenes de y falsos neg de nos mue s asegurado s (pagados) de los casos cnicas tradic es muy poca guradoras m da y no está nes eficace confusión o minarán un do SAS Ente nalizados en ante la part ue en el 76 dos a ese no es hech a efecto de dores no pod no, simplem var que es m capacidad d sticadas de informació gativos obse estra las deb oras. 8.61% y la unidad s que son fa cionales de a la efectivid mexicanas, y á enfocada es sobre ca btenida por impacto ec erprise Min 18 meses f ticipación d .4% de caso criterio ya ho, sin emb e la poca c drían atende mente el re muy poca la de investigac e minería d ón y detec ervamos una bilidades de son casos de investig alsos negativ detección d dad de los m ya que la c en objetivo asos que re r SAS, obse conómico ma ner 6.1 | fue de 75,00 e verdadero os reclamado que no so bargo la nul capacidad d er los 57,29 eclamo no e a cantidad d ción y del us e datos qu tar patrone a distribució clasificació de reclamo ación ha sid vos son caso de fraude. métodos par capacidad d os específico ealmente so ervaremos la ayúsculo qu 00 os os on la de 90 es de so ue es ón ón os do os ra de os on as ue 7 justif fraud resul Dond consi Enton siguie 77 Desarro Oscar C fica la inve de en robo tados señala e comparar derando los Número d Porcentaj Número d nces el reto ente: Verdade % de Aume Aumento e Costo por Posible Ah Falsos p % de Aume Aumento e Costo de in Ahorro en ollo de árbo Camarillo Le rsión en te de autos. ados a lo lar remos paso s siguientes s de robos pro je de siniest de fraudes r orno de inve eros positiv ento en ident en Identificac siniestro con horro en Frau positivos (a ento en ident en identificac nvestigación n costos de in oles de decis al ecnologías q La matriz rgo de esta t a paso los supuestos de omedio en 18 tros referen elativos a fr ersión por c vos (rechaz tificación de f ción de Sinies fraude por ro ude autorizados tificación de a ción de sinies sobre siniestr nvestigación siones usand ue muestre de confusi tesis son los elementos e negocio: 8 meses: 750 tes a fraude raude: 1,125 ada cuadran zados): fraude stros obo s): autorizados tros ros que son ro autorizados do SAS Ente en capacida ión obtenid siguientes: s de ambas 00 e: 15% 5 nte de la m 25.22% 284 $ 45,000 $ 12,767, obos erprise Min des en la d a con SAS matrices d matriz de co 625 2.19 246 $ 1,0 $ 24 ner 6.1 | detección d y dados lo de confusión onfusión es e 9% 000 4,637.50 de os n, el 78 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Falsos negativos (no detectados): % de Aumento en identificación de fraude no detectado 12.21% Aumento en identificación de fraude no detectado 1,373 Costo por siniestro con fraude por robo $ 45,000 Ahorro en casos de fraude no detectado $ 6,181,312.50 Entonces el beneficio total en 18 meses es de $18,973,575 utilizando las técnicas analíticas de minería de datos de SAS; anualmente el beneficio económico es de $12,649,050. Conclusiones de Negocio El uso de técnicas de minería de datos en la detección de patrones dentro de cualquier industria, son técnicas analíticas que indudablemente dan valor a cada una de las necesidades para las cuales sean utilizadas y más aún cuando los resultados se ven reflejados con claridad en impactos económicos. Esto lo vimos en el ejercicio del caso de negocio para seguros, donde todos los sustentos técnicos de minería de datos se materializan en un retorno de inversión significativo que en muchas de las organizaciones justifica la inversión sobre herramientas de minería de datos como lo es SAS. Seguramente las técnicas de minería de datos no permiten generalizar los conceptos y las conclusiones aquí mencionadas, sin embargo son una buena técnica que permite dar mejores resultados a las iniciativas de negocio que se tengan en la organización dando sustento analítico. La transformación de los datos en información y esto en conocimiento para capitalizarse en inteligencia es sin duda parte de la cadena de valor que otorga SAS en la toma de decisiones el entendimiento de negocio. En el ámbito técnico queda demostrado que pese a diversas técnicas de modelado analítico (no incluidas en esta tesis), una de las más transparentes, entendibles y simples es la basada en algoritmos de árboles de decisión, ya que el fundamento técnico está justificado en cualquiera de sus tres técnicas departicionamiento (Gini, entropía, ji cuadrada). La concepción estadística es fácil de seguir y esto facilita el uso de una herramienta de este tipo en organizaciones que no necesariamente estén orientadas a la investigación, organizaciones donde la toma de decisiones es fundamental en el día a día. Un beneficio no menos importante, si no es que el más destacable es el de tener a través de los árboles de decisión reglas de negocio que permitan identificar cuáles son los factores que influyen en un patrón de fraude para robo en autos. Como se observó, los árboles a diferencia de cualquier otra técnica son fáciles de interpretar y generar reglas que determinarán e identificarán de manera sencilla los comportamientos buscados. Todo este trabajo de detección de fraude en autos será adquirido una vez que las organizaciones terminen de entender la importancia de los datos, su almacenamiento. Asimilar lo que ocurre en nuestra organización y tener a las personas adecuadas, con perfiles analíticos son pilares esenciales en el éxito de la implementación de soluciones de este tipo. El hacer uso en mayor medida de los paradigmas tecnológicos 79 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal nos permitirán abrir horizontes donde la inteligencia analíticas tiene mucho que agregar. En México el uso de tecnologías que permitan agregar valor en distintas áreas de las organizaciones detectando fraude dentro de aseguradoras (por mencionar alguna industria); permitirá tener resultados tangibles e intangibles que se verán impactados en mejores servicios para los clientes, cumplimiento ante la a AMIS (Asociación Mexicana de Instituciones de Seguros), conocimiento de clientes, reducción de fraudes, sanidad en las finanzas de la organización, reducción en el índice de criminalidad y credibilidad ante autoridades y clientes. Así, esta tesis por un lado cumplió con el objetivo de probar lo accesible que es traducir conceptos analíticos a problemas reales de negocio, mostrando que el lenguaje estadístico no es exclusivo de investigadores y matemáticos; éste podría ser interpretado con herramientas analíticas como las proporcionadas por SAS, a través de la herramienta de Minería de Datos SAS Enterprise Miner. Y por otro lado mostrar los beneficios del uso de SAS Enterprise Miner sobre casos de negocio reales en los que se observa cuáles son los beneficios económicos y otros tantos intangibles como la reducción de tiempo en investigación, la mejor en operación, entre otras, esperando así que no sólo las instituciones en la industria de seguros en nuestro país enfoquen su capital humano e inversiones económicas en tecnologías como las ofertadas por SAS para la mejora de sus proceso dentro de cada una de las áreas de negocio de las organizaciones tanto privadas como públicas. Las áreas de oportunidad en las organizaciones son muchas y las soluciones que ofrece la inteligencia analítica a través del desarrollo de propuestas de minería son igualmente mayúsculas. 80 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Anexo 1 El resultado del análisis exploratorio se muestra a continuación. Descripción: Las siguientes tablas muestran los estadísticos descriptivos básicos de las variables de entrada con el objetivo de conocer su naturaleza y entender que transformaciones o técnicas de preparación de datos deberán ser aplicadas. Estadísticos descriptivos de variables de clase: Rol de Número los de Porcentaje Porcentaje datos Variable Name Rol niveles Ausente Moda moda Moda Moda2 TRAIN CCVE_COBER INPUT 7 0 6 81.63 5 7.47 TRAIN COBERTURA1 INPUT 13 1 ROBO TOTAL 93.78 RESP.CIVIL 3.29 TRAIN CTIPO_PERSONA INPUT 4 0 1 42.56 3 25.91 TRAIN CVE_COBER1_ INPUT 22 18 21 42.94 12 13.02 TRAIN C_PERSONAS_FISICAS INPUT 4 0 0 47.39 1 25.68 TRAIN C_PERSONAS_MORALES INPUT 4 0 0 65.95 1 16.89 TRAIN DESC_USO1 INPUT 27 407 NORMAL 50.73 CARGA 26.20 TRAIN DESTIPO1_ INPUT 34 19 105 23.87 100 23.78 TRAIN ENTIDAD INPUT 510 0 15005 4.73 08002 3.58 TRAIN EVENTOS_MAYOR_A_TRES INPUT 2 0 0 76.96 1 23.04 TRAIN MARCA_CORTA1 INPUT 54 20 NN 24.69 VW 9.41 TRAIN MODELO1_ INPUT 44 24 2008 20.80 2007 15.54 TRAIN MODELO_EN_REP INPUT 44 1 2008 20.80 2007 15.63 TRAIN OFICINA1_ INPUT 163 19 7 13.21 78 4.59 TRAIN OFIC__AJU_ INPUT 72 1 7 39.78 64 5.97 TRAIN Politica2 INPUT 3 0 0 91.63 1 8.11 TRAIN Politica3 INPUT 2 0 0 99.74 2 0.26 TRAIN TIPO_COBERTURA1_ INPUT 19 774 1 63.57 . 11.27 TRAIN TIPO_PERSONA1_ INPUT 3 917 1 52.61 2 34.04 TRAIN USO1_ INPUT 31 20 1 50.77 6 26.38 TRAIN servicio1_ INPUT 10 28 1 75.50 3 13.60 TRAIN status_siniestro_ INPUT 3 0 3 88.58 2 10.94 81 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal TRAIN target1 TARGET 2 0 0 95.47 1 4.53 Estadísticos descriptivos de variables de clase:Desviación No Variable ROLE Media tÃ‐pica ausente Ausente MÃ‐nimo Mediana Máximo AsimetrÃ‐a Curtosis DIFERENTES_FEC_EMISION INPUT 1.984853 1.239224 6866 0 0 2 5 1.077061 0.054015 DIFERENTES_FEC_FIN INPUT 1.530731 0.721132 6866 0 0 1 5 1.193385 1.088043 DIFERENTES_FEC_INI INPUT 1.530585 0.720734 6866 0 0 1 5 1.191344 1.080475 DIF_FINVIG_OCURRIDO INPUT 284.1564 289.0224 6848 18 ‐3086 236 1824 1.759353 10.94374 DIF_FINVIG_REPORTE INPUT 280.2093 290.2584 6848 18 ‐3086 233 1823 1.711683 10.79826 DIF_OCURRIDO_INIVIG INPUT 185.1308 186.6127 6848 18 ‐806 144 3451 3.25547 31.66965 DIF_REPORTE_EMISION INPUT 182.1944 186.9786 6848 18 ‐449 138 3451 3.336685 31.52179 Politica1 INPUT 0.188902 0.398101 6866 0 0 0 2 1.713941 1.332019 SUMA_ASEG1_ INPUT 208352.3 482569.5 6762 104 ‐6322000 8560 10935000 4.425657 79.0372 SUMA_ASEG_TOTAL INPUT 2026237 1319056 6866 0 0 1848217 28639880 3.683388 47.3318 TIPO_PERSONA2_ INPUT 1.389164 0.487641 3027 3839 1 1 2 0.45488 ‐1.79427 tipo_suma1_ INPUT 1.411747 1.124556 6793 73 0 1 7 3.426023 11.14272 Anexo 2 Enseguida se muestran los resultados de la ejecución de la creación de variables a través de clustering, donde se muestran los tres cluster generados (y las variables que las contienen), que al mismo tiempo son tomados como variables de entrada para el modelo de árboles de decisión. Cluster Summary for 3 Clusters Cluster Variation Proportion Second Cluster Members Variation Explained Explained Eigenvalue ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 1 4 4 2.627041 0.6568 0.9921 2 3 3 2.302402 0.7675 0.6914 3 4 4 2.28247 0.5706 0.9993 Total variation explained = 7.211913 Proportion = 0.6556 R‐squared with 3 Clusters ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ Own Next 1‐R**2 Variable Cluster Variable Cluster Closest Ratio Label 82 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ‐‐‐‐‐‐‐ Cluster 1 DIFERENTES_FEC_EMISION 0.7236 0.0300 0.2849 DIFERENTES_FEC_FIN 0.9453 0.0286 0.0563 DIFERENTES_FEC_INI 0.9454 0.0285 0.0562 LOG_IMP_SUMA_ASEG1_ 0.0127 0.0024 0.9896 Transformed: Imputed SUMA_ASEG1_ ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ‐‐‐‐‐‐‐ Cluster 2 IMP_DIF_FINVIG_OCURRIDO 0.9313 0.0037 0.0689 Imputed DIF_FINVIG_OCURRIDO IMP_DIF_FINVIG_REPORTE 0.9300 0.0037 0.0703 Imputed DIF_FINVIG_REPORTE IMP_tipo_suma1_ 0.4411 0.0548 0.5913 Imputed tipo_suma1_ ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ‐‐‐‐‐‐‐ Cluster 3 IMP_DIF_OCURRIDO_INIVIG 0.9106 0.0275 0.0919 Imputed DIF_OCURRIDO_INIVIG IMP_DIF_REPORTE_EMISION 0.8936 0.0394 0.1108 Imputed DIF_REPORTE_EMISION LOG_SUMA_ASEG_TOTAL 0.0317 0.0096 0.9777 Transformed SUMA_ASEG_TOTAL Politica1 0.4466 0.0068 0.5572 Anexo 3 La comparación de modelos se muestra a continuación haciendo referencia los resultados de los modelos de árbol de decisión que se desarrollaron. Selección del modelo con base en la tasa de mal clasificados. EstadÃ‐sticos de ajuste Selección de modelo basada en Validación: à ndice de clasificación errónea (_VMISC_) Validación: à ndice de Modelo Nodo del clasificación seleccionado modelo Descripción del modelo errónea Y Tree2 Algoritmo de EntropÃ‐a 0.08758 Tree Algoritmo de GINI 0.10318Tree3 Algoritmo de Prob. Ji Sqrt. 0.15477 Entrenamiento: Validación: Entrenamiento: à ndice de Error Error cuadrado clasificación cuadrado del del promedio errónea promedio 0.037046 0.04861 0.07610 0.050108 0.06404 0.08975 0.086306 0.11934 0.11776 La siguiente tabla muestra la tasa de mal clasificados (_VMISC_) utilizando los tres algoritmos mencionados; con esta tabla se forman las matrices de confusión antes mencionadas. Observar que el modelo es seleccionado en validación y no en entrenamiento. 83 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal Tabla de evento de clasificación Selección de modelo basada en Validación: à ndice de clasificación errónea (_VMISC_) Rol de Nodo del los Falso Verdadero Falso Verdadero modelo Descripción del modelo datos Objetivo negativo negativo positivo positivo Tree Algoritmo de GINI TRAIN target1 83 2634 166 1005 Tree Algoritmo de GINI VALIDATE target1 67 1095 105 400 Tree2 Algoritmo de EntropÃ‐a TRAIN target1 51 2662 138 1037 Tree2 Algoritmo de EntropÃ‐a VALIDATE target1 39 1093 107 428 Tree3 Algoritmo de Prob. Ji Sqrt. TRAIN target1 97 2433 367 991 Tree3 Algoritmo de Prob. Ji Sqrt. VALIDATE target1 78 1020 180 389 Bibliografía Jim Geroges. Applied Analytics Using SAS Enterprise Miner 6.1 Course Notes. SAS Notes, North Carolina US, 2009. Patricia B. Cerrito. Introduction to Data Mining Using SAS Enterprise Miner. SAS Press Series, North Carolina US, 2006. Randall S. Collica. CRM Segmentation and Clustering Using SAS Enterprise Miner. SAS Press Series, North Carolina US, 2007 Douglas C. Montgomery. Probabilidad y estadística aplicada a la Ingeniería. Prentice Hall Hispanoamericana, México, 1998 Katamury S. Sarma. Predictive Modeling with SAS Enterprise Miner, Practical solution for Business Applications. SAS Press Series, North Carolina US, 2007. Barry de Ville. Decision Tree for Business Intelligence and Data Mining. SAS Press Series, North Carolina US, 2006. Gordon S. Linoff. Data Mining Techniques for Marketing, Sales and Customer Relationship Management. Ed. Wiley, Indianapolis US, 2004. Daniel T. Larose, Discovering Knowledge in Data. Ed. Wiley, New Jersy US, 2005. Ed. Thomas A. Stewart. Revista Harvard Bussines Review. Decision Making: Better, Faster, Smarter. Volumen 84, Número 1, USA, 2006. Cesar Perez. Data Mining, Soluciones con Enterprise Miner. Ed. RA- MA, México, 2006. 84 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | Oscar Camarillo Leal http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-train- decision-tree.htm http://journal.r-project.org/archive/2010-1/RJournal_2010- 1_Guenther+Fritsch.pdf Portada Índice Objetivo Hipótesis Introducción Capítulo I. ¿Qué es Minería de Datos y Para qué Sirve? Capítulo II. Árboles de Decisión y Redes Neuronales Como Modelos Predictivos Capítulo III. Algoritmos de Árboles de Decisión Capítulo IV. Desarrollo de caso Práctico Conclusiones Anexos Bibliografía