Logo Passei Direto

Desarrollo-de-arboles-de-decisiones-usando-sas-enterprise-miner-6 1-no-aplica

Material
¡Estudia con miles de materiales!

Vista previa del material en texto

De
Fecha
1 Desarro
Oscar C
U
FACU
sarrollo 
QU
Licencia
Aseso
a: Julio de 2
ollo de árbo
Camarillo Le
UNIVE
AUTO
ULTAD
de árbol
UE PAR
ado en m
or: Marí
012 
oles de decis
al 
ERSID
ONOM
D DE ES
AC
les de de
M
RA OBTE
matemáti
PRE
Oscar C
a del Ca
siones usand
 
DAD NA
MA DE 
STUDIO
CATÁN
 
ecisiones
iner 6.1
 
Tesis 
 
ENER E
 
icas apli
 
ESENTA
 
Camarillo
 
armen G
 
 
 
do SAS Ente
 
ACION
MÉXI
OS SUP
N 
s usando
EL TITU
icadas y 
A 
o Leal 
onzález 
erprise Min
NAL 
ICO 
PERIOR
o SAS En
ULO DE 
computa
Videgar
ner 6.1 | 
 
RES 
nterprise
ación 
ray 
e 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
2 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Dedicatoria	y	agradecimientos	
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A mis papás Julio Camarillo y Silvia Leal 
que siempre me apoyaron durante toda mi educación 
y sin su apoyo esta tesis no se hubiese materializado; 
a Gaby Rojas y a mi hija Paola que siempre han apoyado 
cada proyecto que tengo a su lado y a la UNAM 
 por todo el conocimiento compartido y las enseñanzas 
 otorgadas a través de los profesores. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
OBJETIVO .............................................................................................................................................. 5 
HIPÓTESIS ............................................................................................................................................. 5 
INTRODUCCIÓN ..................................................................................................................................... 6 
CAPÍTULO I. ¿QUÉ ES MINERÍA DE DATOS Y PARA QUÉ SIRVE? ............................................................... 7 
CAPÍTULO II. ÁRBOLES DE DECISIÓN Y REDES NEURONALES COMO MODELOS PREDICTIVOS ................ 16 
MODELOS MATEMÁTICOS Y MODELOS PREDICTIVOS .......................................................................................... 16 
ÁRBOLES DE DECISIÓN.................................................................................................................................. 18 
CAPÍTULO III. ALGORITMOS DE ÁRBOLES DE DECISIÓN ......................................................................... 23 
INTRODUCCIÓN ........................................................................................................................................... 23 
PREPARACIÓN DE DATOS .............................................................................................................................. 25 
DEFINICIÓN DE OBJETIVO ............................................................................................................................. 29 
SELECCIÓN DE CRITERIOS DE CRECIMIENTO DE ÁRBOL Y ALGORITMOS DE SEGMENTACIÓN Y CLASIFICACIÓN DE CASOS
 ................................................................................................................................................................. 30 
DEFAULT .................................................................................................................................................... 32 
PROBABILIDAD JI-CUADRADA ....................................................................................................................... 33 
GINI (O DIVERSIDAD DE POBLACIÓN) ............................................................................................................. 40 
ENTROPÍA (GANANCIA DE LA INFORMACIÓN) .................................................................................................. 43 
CAPÍTULO IV. DESARROLLO DE CASO PRÁCTICO ................................................................................... 52 
INTRODUCCIÓN AL PROBLEMA DE NEGOCIO ................................................................................................... 52 
RESULTADOS............................................................................................................................................... 53 
EXPLORACIÓN ESTADÍSTICA .......................................................................................................................... 55 
CÓDIGO SAS .............................................................................................................................................. 55 
PARTICIÓN DE DATOS ................................................................................................................................... 57 
IMPUTACIÓN ............................................................................................................................................... 58 
TRANSFORMACIÓN DE VARIABLES .................................................................................................................. 59 
SEGMENTACIÓN DE VARIABLES (CLUSTERING DE VARIABLES) ............................................................................ 60 
ÁRBOL DE DECISIÓN ..................................................................................................................................... 62 
Árbol de decisión con regla de partición probabilidad ji cuadrada ................................. 62 
Árbol de decisión con regla de partición entropía ................................................................ 65 
ANÁLISIS DE RESULTADOS ............................................................................................................................. 65 
EVALUACIÓN DE LOS MODELOS ...................................................................................................................... 67 
REGLAS DE NEGOCIO ................................................................................................................................... 70 
HERRAMIENTAS ALTERNAS PARA EL DESARROLLO DE MODELADO PREDICTIVO ..................................................... 73 
CONCLUSIONES ................................................................................................................................... 75 
CASO DE NEGOCIO ...................................................................................................................................... 75 
CONCLUSIONES DE NEGOCIO ........................................................................................................................ 78 
ANEXO 1 ............................................................................................................................................. 80 
ANEXO 2 ............................................................................................................................................. 81 
ANEXO 3 ............................................................................................................................................. 82 
BIBLIOGRAFÍA ..................................................................................................................................... 83 
 
5 Desarrollo de árboles de decisionesusando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Objetivo	
 
Describir y entender las capacidades analíticas de los árboles de decisiones dentro del 
marco de desarrollo de modelos predictivo utilizando SAS Enterprise Miner 6.1. 
Asimismo mostrar las bondades de utilizar esta herramienta analítica y observar 
beneficios tangibles empleando técnicas de modelado predictivo para un caso de 
negocio en específico. 
 
Hipótesis 
 
El desarrollo de modelos predictivos, en específico los modelos de árboles de decisión 
son altamente competitivos y efectivos en su capacidad predictiva ante los métodos 
tradicionales de estimación y predicción que mayormente están basados en la 
experiencia de industria que puedan tener los analistas y expertos. El desarrollo de 
modelos predictivos (árboles de decisión) en diversas industrias, refuerzan y mejoran 
los criterios de toma de decisiones, explican mejor lo que está pasando y podrían 
finalmente entregar a los tomadores de decisión un fundamento analítico que puede 
alinearse a las expectativas de negocio. 
 
En resumen la hipótesis está sustentada en la comprobación del supuesto de que los 
modelos de árboles de decisiones son lo suficientemente efectivos ante cualquier 
método empírico (o incluso estadístico sí es que se utilizan técnicas y herramientas 
tradicionales como Excel) ejecutado por los expertos en el negocio o la industria, 
además de proporcionar nuevas reglas de negocio que se adaptan a los constantes 
cambios que existen en la industria de seguros. Con toda certeza, esta hipótesis no 
puede generalizarse sobre iniciativas con fines predictivos dado que las condiciones 
cambian de industria a industria, e incluso los proceso son distintos entre 
organizaciones. 
 
 
 
 
 
 
 
 
 
 
 
 
 
6 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Introducción	
 
La minería de datos tiene como esencia primordial la manipulación de grandes 
volúmenes de datos que junto con técnicas analíticas o de minería de datos y 
herramientas computacionales pueden detectar patrones de comportamiento en una 
población, así como predecir algún evento en particular con un alto nivel de precisión 
que incrementan la rentabilidad de algún negocio en específico o problemática 
planteada. En este sentido, es indispensable la buena predicción de los modelos de 
minería de datos, ya que mientras más precisión exista en su predicción, más 
confiables serán en su aplicación. De aquí que a lo largo de las últimas décadas ha 
habido una explotación considerable de los modelos predictivos como árboles de 
decisión, redes neuronales y regresiones lineales, entre otros modelos analíticos. 
 
Hablando específicamente de los modelos analíticos nos referiremos a los árboles de 
decisión, dado que sus propiedades son menos complejas que las expuestas por otros 
modelos predictivos. El desarrollo de modelos predictivos ha cobrado auge entre los 
tomadores de decisiones de las industrias más representativas del mundo sin embargo 
existen algunos huecos que cubrir todavía, dado que en muchas organizaciones siguen 
utilizando técnicas rudimentarias para incrementar las ganancias de las 
organizaciones, fundamentando la toma de decisiones en criterios subjetivos y en 
viejas prácticas que los expertos de negocio han establecido. Es aquí donde la 
inteligencia analítica y en específico los modelos predictivos pueden ser aprovechados 
de una forma proactiva. Particularmente, hablando de los modelos de árboles de 
decisión, estos ayudarían a sustentar de una forma analítica las decisiones tomadas, 
basando sus criterios en reglas de fácil interpretación y en métodos estadísticos 
tradicionales que conjuntamente con los conocimientos de negocio de un experto en la 
industria generarían una mayor ganancia e indudablemente darían a las organizaciones 
un valor agregado. Conocer a los clientes, lanzar campañas de mercado, optimizar 
precios, medir riesgo, prevenir fraude, entre otras problemáticas de negocio son los 
principales retos de las organizaciones y los árboles de decisión son un arma 
indispensable en esta generación en donde la información ha cobrado un valor 
fundamental. Veremos que los árboles de decisión son de fácil interpretación, 
seguimiento y construcción, ya que estadísticamente, son estructuras sencillas que nos 
ayudan a entender que es lo que está pasando en nuestro problema de negocio. 
 
Siendo así, el presente proyecto de tesis no pretende persuadir al lector en la 
utilización de modelos basados exclusivamente en árboles de decisión, sino establecer 
y demostrar que estos modelos pueden ser altamente efectivos en su capacidad de 
predicción sí son combinados con reglas y conocimiento de negocio de la industria. La 
herramienta analítica de SAS (Enterprise Miner 6.1) está diseñada para tomadores de 
decisión que desean agregar valor y obtener beneficio de su negocio instrumentando 
modelos analíticos sobre objetivos de negocio en particular. 
 
7 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	I.	¿Qué	es	minería	de	
datos	y	para	qué	sirve?	
 
 “El grado sumo del saber es contemplar el por 
qué”. 
Sócrates. (470 AC -399 AC) Filósofo griego 
 
 
 
En la actualidad los grandes volúmenes de datos crecen exponencialmente, dado que 
la cantidad de transacciones realizadas en la vida cotidiana son incontables, como lo 
dice la ley de Moore:” La cantidad de datos en el mundo se duplica a los 18 o 24 meses en 
las bases de datos”. Hoy en día, el ver esas cantidades de información, ya no asusta a 
nadie. Estas transacciones u operaciones se ven reflejadas en bancos, tiendas 
departamentales, telecomunicaciones, áreas de investigación, gobierno, manufactura 
y un sinfín de campos más. Todas estas áreas acumulan grandes cantidades de datos, 
que necesitan ser almacenadas con el propósito de transformar estos datos en 
información y posteriormente la información en conocimiento para finalmente pasar a 
formar parte de decisiones inteligentes. 
 
Es necesario describir esta secuencia de hechos, que bien podría adjudicársele el 
nombre de causa efecto y que ha venido ocurriendo en su primera etapa cuando los 
datos se convierten en algo ya no tan intangible y en su segunda etapa cuando se 
obtiene inteligencia de los datos. 
 
Los datos como entes individuales son convertidos en información, esta información 
ya tiene un valor que puede ser explotado y cuando la información es bien explotada 
se obtiene conocimiento y una vez que se es generado a partir de este conocimiento 
adquirido un aprendizaje razonado, se alcanza la cúspide al producir inteligencia. 
 
Estas cinco palabras clave son las que dan sentido a lo que es minería de datos: 
 
Minería de datos es el conjunto de métodos y técnicas analíticas que permiten por 
medio de alguna metodología explorar, conocer, interpretar y modelar grandes 
cantidades de datos que son convertidos previamente información; cumpliendo el 
objetivo de transformar esta información en conocimiento y posteriormente éste 
en inteligencia. 
 
Otra definición de minería de datos es la expresada por SAS, la cual es una de las 
principales empresas de inteligencia de negocios y que tiene una de las mejores 
propuestas de plataforma de inteligencia de negocios sustentada en los componentes 
analíticos que ofrece la estadística y en específico la minería de datos: 
 
 
Métod
volúm
 
Se tie
 
De ac
nuevo
datos
matem
 
“Mine
para 
para q
 
“Mine
máqu
carac
datos
 
De he
están
en m
 
Una 
soluc
comp
inteli
 
 
i Jim G
ii The 
iii Dav
Cambr
iv Pete
Data M
NJ, 19
v The 
 
8 Desarro
Oscar C
dos analíticos
menes de info
enen alguna
cuerdo al G
os patrones d
s, usando té
máticasii”. 
ería de datos
encontrar nu
que estos sea
ería de datos
uina, reconoc
terísticas pri
s”iv. 
echo, la rev
n surgiendo 
inería de da
forma de 
ciones que 
posición de 
igencia de n
 
Goodnight, CE
Gartner Groupvid Hand, Heikk
ridge, MA, 200
er Cabena, Pabl
Mining: From C
998. 
Technology R
ollo de árbo
Camarillo Le
s avanzados d
ormacióni. 
s definicione
Grupo de Ga
de comporta
écnicas de re
s es el análisi
uevas relacio
an entendidos
s en un cam
cimiento de 
incipales de 
vista MIT eli
con gran de
atos será el m
mostrar est
ofrece SAS
la cadena 
negocios. 
F
 
O de SAS Inst
p, www.gartner
ki Mannila, an
01. 
lo Hadjinian, R
Concept to Imp
Review Ten, MI
oles de decis
al 
de exploració
es más, com
artner: “Min
amiento, corr
econocimient
is de observa
nes o asociac
s y usados po
mpo interdisc
 patrones, e
los datos, to
ge a la min
emanda y ca
más sobreva
ta secuenci
S. A contin
de valor qu
Figura 1.1. Ca
 
titute. 
r.com. 
nd Padhraic Sm
Rolf Stadler, Ja
plementation, P
IT Technology 
siones usand
ón y modelado
mo las siguie
nería de dato
relaciones, t
to de patron
ar conjuntos d
ciones, y pre
r la gente de
ciplinario que
estadística, b
odo lo anter
ería de dato
ambiarán el 
aluado…”v 
a de cause
uación en 
ue ofrece S
adena de Valo
myth, Principles
aapVerhees, an
Prentice Hall, U
Review, Janua
do SAS Ente
o de asociaci
entes: 
os es el proc
endencias, e
nes, así com
de datos o gr
esentar los d
e negocio”iii. 
e contempla 
base de dat
rior extraído 
os como un
 rumbo de l
e y efecto
la figura 1
SAS en sus s
or de SAS. 
s of Data Minin
nd Alessandro Z
Upper Saddle R
ary/February 20
erprise Min
ón de patron
ceso de descu
en grandes re
mo técnicas 
randes volúm
datos de dife
a en sí mism
tos y visualiz
 de grandes 
a de las tec
os negocios
o está refle
1.1 una mu
soluciones i
 
ng, MIT Press,
Zanasi, Discov
River, 
001. 
ner 6.1 | 
nes en grande
ubrimiento d
epositorios d
estadísticas 
menes de dato
erentes forma
mo aprendizaj
zación de lo
volúmenes d
cnologías qu
. “El expert
ejada en la
uestra de l
integrales d
, 
vering 
es 
de 
de 
y 
os 
as 
je 
os 
de 
ue 
to 
as 
la 
de 
 
Autor
llama
de lo
tema
acota
 
 
El co
multi
patro
datos
oport
dado 
 
Como
funda
 
 
 
 
 
 
 
 
Siend
mine
que i
pregu
asimi
 
Parta
conve
ejem
espec
valor
nomb
9 Desarro
Oscar C
res y expert
an KDD (Kno
os Datos) o s
a es amplio,
ar o definirla
oncepto de
idisciplinaria
ones en los 
s científicas
tunistas, ya 
 en el tiemp
o lo muest
amental de 
Bases de 
Estadístic
Reconocim
Aprendiza
Inteligenc
Redes neu
do matemáti
ría de datos
involucra KD
unta radica 
ismo SAS ofr
amos del he
ertirlos en 
mplo muy clá
cífico; en es
r, ya que seg
bres de call
ollo de árbo
Camarillo Le
tos en mine
owldedge Dis
si minería de
 y para efe
a como lo m
Figura 1.2. M
e KDD fue 
a dentro de
 grandes vo
s y/o exper
 que para ef
po. 
tra la figur
la minería d
datos 
ca 
miento de p
aje de máqu
cia artificial
uronales 
icamente es
s es entonce
DD. Pero, ¿C
 en la secu
rece en su ca
echo de qu
información
ásico es cu
se momento
guimos perd
es, direccio
oles de decis
al 
ría de datos
scovery Data
e datos es u
ectos de con
muestra el di
Minería de da
definido a
e la investig
olúmenes de
rimentales. 
fectos de ne
ra 1.2, las
de datos son
patrones 
uina 
 
strictos de a
es un conjun
Cuál es la ot
uencia causa
adena de va
ue los datos
n para dar v
ando estam
o el tener la
didos, hasta 
ones, ciudad
siones usand
s no termina
a, en españo
un sinónimo 
nocer lo que
agrama con
atos como un á
 finales de
gación, ten
e datos, los
Hoy en día 
egocio pued
s herramien
: 
acuerdo a la
nto inclusivo
tra parte qu
a efecto qu
alor. 
s son objet
valor agrega
mos perdidos
a dirección e
 que nos hac
des y aparta
do SAS Ente
an por defin
ol Descubrim
 de KDD. Lo
e es minería
tenido en la
área interdisci
e los años 
ía como ta
s cuales era
 los datos u
den agregar 
ntas analíti
a lógica de V
o de KDD, es
ue forma a K
ue se menci
tos puros si
ado a un de
s y querem
en mano es 
cemos de un
ado postal. 
erprise Min
nir si perten
miento del C
o que es cie
a de datos 
a figura 1.2:
 
iplinaria. 
 80´s, sien
area primord
an tomados 
utilizados se
 valor en alg
icas que fo
Venn y a la 
s un segmen
KDD? La resp
ionó previam
in valor y 
eterminado 
os llegar a 
un dato, pe
n mapa, el c
 Está ya es 
ner 6.1 | 
nece a lo qu
Conocimient
erto es que e
es preferibl
 
ndo un áre
dial detecta
 de bases d
e denomina
gún moment
orman part
figura 1.2, l
to de todo l
puesta a est
mente y qu
es necesari
 negocio. U
 un lugar e
ero carece d
cual contien
 información
ue 
to 
el 
le 
ea 
ar 
de 
an 
to 
te 
la 
lo 
ta 
ue 
io 
Un 
en 
de 
ne 
n, 
10 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
dado que es de utilidad para buscar la dirección que tratamos de localizar. De manera 
semejante funciona el KDD; es indispensable tener una preparación previa de los datos 
para poderla convertir en información. 
 
El término KDD se refiere entonces a un proceso integral de descubrimiento del 
conocimiento en las bases de datos y como tal considera varias tareas previas a la de 
minería de datos. Estos pasos previos a la extracción de conocimiento y 
reconocimiento de patrones que proporciona la minería de datos son: 
 
1. Preparación de datos. Actividad que consiste en la creación de un Data Mart o 
Data Warehose que permita extraer la información de las bases de datos donde 
se encuentran los millones de registros que serán de interés para analizar. El 
formar un repositorio en el cual se concentre toda la información necesaria y 
suficiente para el análisis de minería de datos es la tarea principal en todo 
análisis previo de minería de datos. Los terminos data mart y data warehouse 
se refieren a este repositorio o tabla única que contenga las variables y los 
millones de registros necesarios para extraerles conocimiento. De acuerdo a la 
definición de SAS, un datawarehouse es un repositorio que contiene toda la 
información generada dentro de un negocio, este repositorio es el nivel óptimo 
que se ha alcanzado en términos de inteligencia de negocio ya que no sólo 
permite describir el comportamiento del negocio en el pasado, sino también 
entender porque en el presente se comportan de algún modo los datos y muy 
posiblemente estimar lo que ocurra en el futuro. El data mart cumple la misma 
función, sólo que éste no representa o no contiene los datos de toda una 
empresa o negocio, sino sólo la información de un área o departamento en 
particular, por ejemplo pensemos en una empresa que vende servicios de 
logística: esta empresa tiene varias bases de datos, entre ellas la de líneas 
transportistas, proveedores, ventas, clientes, productos que se manejan, 
catálogo de productos y transacciones, inventarios, entre otros. Si deseamos 
crear un data warehouse entonces se debe de considerar toda esta información 
en un único repositorio; por otro lado un Data Mart sería la concentración de la 
información de todos los ejecutivos de tráfico que producen y almacena 
información al día en sus repositorios personales y que para algún análisis de 
minería de datos en particular será necesario reunir toda la información 
necesaria en un solo lugar. 
 
2. Selección de datos. Se refiere a la tarea de tomar todas las variables 
correctas, discriminado aquellas que no son relevantes para el negocio o que 
no tienen relevancia dentro del data warehouse. Puede ser que el data 
warehouse generado contenga información que no es indispensable, un ejemplo 
es cuando el data warehouse de alguna tienda departamental se encuentra la 
variable edad y fecha de cumpleaños, ambas proporcionan la misma 
información, sin embargo alguna de ellas será irrelevante. Para tener la 
información correcta en el data mart es importante formarlo con información 
consistente y suficiente. Más adelante se mencionarán técnicas de minería de 
datos que permiten hacer una selección de variables. En este momento del 
tiempo sólo nos ocupamos de entregar un data warehouse con toda la 
información necesaria.11 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
3. Limpieza de datos. La limpieza se refiere a la tarea de estandarización de 
valores de alguna variable, formatos, eliminación en algunos casos de variables 
con alto número de valores perdidos y optimización de los datos. Ocurre 
frecuentemente que la gente de algún centro de atención a clientes captura los 
nombre de los clientes y muchas veces o se escriben mal, o se antepone el Sr. o 
Sra.; se usan comas entre apellidos y nombre; se escriben con mayúsculas, se 
escribe primero el nombre y después el apellido, etc. Es aquí donde se deben 
realizar tareas de limpieza y estandarización de datos. 
 
4. Incorporación de conocimiento a priori. Una vez que la preparación de los 
datos ha concluido se puede agregar conocimiento de negocio. El experto de 
negocio ya sea en un banco, en una tienda departamental, en una investigación 
de enfermedades patológicas, determinará algunas reglas que deberán ser 
consideradas dentro del análisis de minería de datos. En el caso de un banco, si 
se desea realizar la calificación de un cliente para saber si es buen candidato 
para otorgar un crédito, es buena práctica que el experto de negocio explique 
cómo es que se ha seleccionado esa gente, qué criterio se utiliza, si es que se 
usa algún criterio de morosidad, o si el cliente se encuentra al día en sus 
pagos, así como el comportamiento de los clientes en ese país, entre otras 
reglas de negocio. 
 
5. Minería de Datos. Hasta este momento los datos han sido convertidos en 
información lista para ser explotada y generar conocimiento. Como lo 
mencionamos anteriormente, hacer minería de datos implica considerar una 
metodología, y en este caso infinidad de autores y expertos han propuesto 
ciertas metodologías, sin embargo nos inclinaremos por la que proporciona SAS. 
La metodología de SAS es conocida como SEMMA y se encuentra definida dentro 
de la misma aplicación de Enterprise Miner 6.1 de SAS9.1.3. Por su siglas en 
inglés, SEMMA significa Sample (Muestreo), Explore (Exploración de los datos), 
Modify (Modificación de los datos), Model (Modelado de los datos), Assess 
(Comparación de modelos). Cada uno de ellos se explica a continuación, 
aunque es importante recalcar que no se profundizará en la explicación del 
ambiente SAS, esto será retomado en el caso práctico. 
 
 Sample (muestreo): Se utilizan técnicas estadísticas y mejores prácticas 
de muestreo, el cual considera varios nodos dentro de la aplicación: 
Input Data, Data Partition, Simple y Time Siries. 
 Explore (exploración de datos): Se explora la calidad de los datos y se 
analizan algunos aspectos con estadística descriptiva y técnicas de 
asociación. Los nodos para la exploración de estos datos son 
Association, Cluster, Multiplot, Path Analysis, SOM, StatExplorer, Text 
Miner, Variables Selection. 
 Modify (modificación de los datos). Algunos datos requieren ser 
ajustados, parametrizados o incluso eliminados. Para estas tareas SAS 
proporciona los nodos de Drop, Filter, Impute, Principal Components, 
Replacement, Transform Variables. 
 Model (modelado de los datos). Los modelos predictivos, de asociación, 
segmentación, entre otros, propuestos por SAS son: AutoNeurona, 
12 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Decision Tree, Dmine Regression, DMNeural, Ensamble, Memory Based 
Reasoning, Neural Network, Regression, Rul Induction, Two Statesvi. 
 Assess (comparación de modelos). Este paso dentro de la metodología 
permite cotejar y comparar los modelos de manera tal que se pueda 
elegir el que mejor se ajuste a los datos, o menor cantidad de falsos 
positivos arroje. Los nodos aquí son Decision, Model Comparition, 
Segment Profile, Score. Definitivamente el nodo que estaremos 
utilizando es Model Comparition. 
 
6. La interpretación de resultados. Es prácticamente el paso final dentro de un 
estudio de Minería de datos, no olvidemos que es parte de KDD. Esta parte es la 
que cierra la secuencia de causa efecto de la que hemos hablando, ya que aquí 
es donde el aprendizaje de un modelo (ya sea redes neuronales, árbol de 
decisión, regresión, etc.), se verá reflejado en la inteligencia que tendrá para 
darnos reglas de negocio que darán valor a los objetivos perseguidos y 
finalmente estaremos asegurando que el conocimiento extraído refleja lo 
existente en los datos. Se resumiría esta última parte como la de aprendizaje 
basado en entrenamiento y obtención de decisiones de negocio que se traducen 
en inteligencia. 
 
SAS por su parte ofrece estos 6 puntos es sus soluciones de negocios, por ello el uso 
de la herramienta dentro de esta tesis, ya que es una de las más completas para ir 
de la mano en la competitiva carrera de inteligencia de negocios. Hoy en día las 
grandes empresas no sólo pretenden conocer el pasado y entender el presente de 
sus datos, sino predecir el futuro utilizando minería de datos y SAS es una 
alternativa que ofrece de manera integral estos siete puntos antes señalados. 
 
Minería de datos es un amplio campo en el que se pretende resolver las siguientes 
seis tareas: 
 
 Clasificación. Consisten en examinar las características de un nuevo objeto 
u elemento y asignarlo a algún grupo o clase ya definida. Cuando un objeto 
es clasificado se asigna a esa clase y de algún modo es etiquetado. El 
objetivo de ser clasificado es construir un modelo que pueda describir y 
determinar más objetos con esta característica y aplicar alguna acción en 
particular. Algunos ejemplos de clasificación son: calificación de 
solicitantes a una tarjeta de crédito, como bueno, malo y regular; 
determinar el número telefónico corresponde a un número de fax, etc. 
 
 Estimación. Dado un ingreso de datos como entrada, la estimación está 
dada por el valor de alguna variable continua desconocida como también 
por variables de entrada, pesos, o algún balance en el caso de una 
calificación de crédito. Algunos ejemplos son, estimación del número de 
niños en una comunidad, estimación de los ingresos anuales de la empresa 
que es competencia, estimación de la probabilidad de que algún cliente se 
fugue a la competencia telefónica. 
 
vi Para propósitos de esta tésis de licenciatura sólo se considerarán los modelos de árboles de decisión y 
modelos de minería de datos. 
13 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 Predicción. Prácticamente es lo mismo que la clasificación y la estimación, 
excepto que una observación es clasificada de acuerdo a algunas 
características de futuros comportamientos o futuras estimaciones. Aquí la 
única manera de saber si se está realizando una buena predicción es 
esperando a que los datos maduren y se realice la correspondiente 
predicción para saber si fue asertiva o no lo fue. Algunos ejemplos son: 
predecir que cliente comprara el producto que sale a la venta; predecir la 
cantidad de inventario para los siguientes seis meses. 
 
 Afinidad o reglas de asociación. Consiste en asociar eventos en un mismo 
contexto. El ejemplo clásico es el de un supermercado en el que dado que 
se compró un producto A existe una probabilidad de que se adquiera el 
producto B; el contexto aquí es el supermercado. 
 
 Segmentación. es la tarea de dividir una población heterogénea, en varios 
grupos de poblaciones homogéneas o conglomerados. Lo que hará que cada 
segmento esté clasificado de acuerdo a un conjunto de variables que 
describen a cada integrante de la población de la misma manera. 
 
 Descripción de perfiles. Muchas veces el propósito de minería de datos es 
simplemente describir qué es lo que pasa en una base de datos y así 
comprender más el comportamiento de los clientes o productos. El objetivo 
de esta tarea es sólo descriptivo y explicativo para conocer lo que pasa en 
el presente y posiblementetomar alguna decisión a futuro. 
 
De acuerdo con lo antes señalado, uno de los principales objetivos de la minería de 
datos es encontrar modelos predictivos (estadísticos y/o matemáticos) que sean 
representativos de los datos basados en el entrenamiento de estos, tomando un 
algoritmo de aprendizaje y así adquirir inteligencia. Estos modelos de minería de 
datos requieren de una variable objetivo, también llamada variable de respuesta o 
variable dependiente (target) y variables independientes o variables de entrada 
(inputs). Estos modelos se pueden generar a partir de algoritmos diseñados por 
expertos que con el tiempo han ido perfeccionando y optimizando dado que los 
grandes volúmenes de información requieren de técnicas más sofisticadas. Los 
modelos predictivos que se pueden generar con minería de datos dependerán del 
objetivo que se persiga. Se tiene así un análisis supervisado y no supervisado, 
de acuerdo a la clasificación de SAS: 
 
 Análisis supervisado. Es aquel en el que se conoce el objetivo o variable de 
respuesta. 
 
 Análisis no supervisado. Se desconoce la variable de respuesta y sólo se 
tienen variables de entrada o variables independientes. 
 
Entonces los diferentes tipos de modelos predictivos estadísticos o matemáticos 
dependerán del tipo de variable de respuesta que se tenga. También existen 
ciertos modelos que se pueden aplicar a un análisis supervisado o no supervisado. 
En la figura 1.4 se muestra este cuadro de clasificación de los modelos. 
14 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 
Clasificación de 
Modelos Predictivos 
Tipo de Análisis 
Supervisado No supervisado 
Variables 
de 
resupesta 
Continua 
Redes 
Neuronales, 
Árboles de 
Decisión, 
Regresión 
No se conoce la 
variable 
Discreta 
Redes 
Neuronales, 
Árboles de 
Decisión, 
Regresión 
No se conoce la 
variable 
No 
conocida 
Ninguno 
Modelos de 
Asociación, 
Modelos de 
Segmentación, 
Modelos de 
Clasificación 
Figura 1.4. Clasificación de modelos predictivos. 
 
Ahora bien, ¿Para qué o por qué minería de datos? La respuesta a esta pregunta 
está enfocada, como ya lo mencionamos en un inicio, al considerable volumen de 
datos que se tiene actualmente en las grandes empresas. Éstas generalmente 
pertenecen a alguno segmento de negocio que se han clasificado de la siguiente 
manera: 
 
 Aeronáutica 
 Bioinformática 
 Medicina 
 Salud 
 Finanzas e inversiones 
 Manufactura, cadenas de producción y cadenas de subministro 
 Negocios y mercado 
 Redes de telecomunicaciones 
 Dominio científico 
 
Y las aplicaciones dentro de cada uno de estos segmentos son incontables: 
 
 Detección de fraude 
 Calificación de riesgo 
 Calificación de crédito 
 Predicción de fuga, segmentación de clientes, entre otros. 
 
15 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Entonces la respuesta a por qué se debe utilizar minería de datos, es porqué el 
crecimiento de los volúmenes de información en las bases de datos de las 
organizaciones ya no sólo se dedican a almacenar de manera histórica los datos, 
sino que ahora la tarea es encontrar y detectar nuevas oportunidades que permitan 
incrementar la utilidad y rentabilidad de la empresa, conociendo a los clientes y 
explotando los datos, y ¿Cómo explotarlos? Utilizando técnicas analíticas 
fundamentadas en una metodología y algoritmos computacionales que permitan 
optimizar en tiempo y forma estas tareas. Para efectos de esta tesis emplearemos 
sólo modelos predictivos supervisados de minería de datos, sin embargo no está 
por demás mencionar los modelos predictivos con los que se cuenta en la 
actualidad: 
 
 Modelos de árboles de decisión 
 Modelos de redes neuronales 
 Modelos de regresión 
 Modelos de segmentación 
 Modelos de afinidad 
 
Básicamente estos son los modelos más comunes y utilizados dentro de la metodología 
SAS. En los siguientes capítulos describiremos en qué consisten y cómo trabajan los 
modelos de minería de datos, específicamente los árboles de decisión. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	II.	Árboles	de	decisión	y	
redes	neuronales	como	modelos	
predictivos	
 
 “La matemática es la ciencia del orden y la 
medida; de bellas asociaciones de razonamiento, todas sencillas y fáciles”. 
René Descartes. (1596 -1650) Filósofo y matemático francés 
 
 
Modelos matemáticos y modelos predictivos 
 
Los modelos matemáticos son fuertes herramientas que en pleno siglo XXI junto con la 
explotación de datos ha revolucionado las estrategias de negocio y ha fortalecido la 
toma de decisiones basando sus estrategias en argumentos más sofisticados que son 
proporcionados por algoritmos y modelos matemáticos que conjuntamente con los 
datos forman parte de lo que ahora llamamos minería de datos. 
 
Los modelos matemáticos han innovado la forma de tomar decisiones y como ejemplo 
se tienen ciencias como la investigación de operaciones y teoría de juegos en la cual 
se arma un conjunto de reglas, de manera tal que se obtenga el mejor y mayor 
beneficio o el menor costo y menos riesgo para un cierto objetivo en particular. 
Existen muchas maneras de modelar problemas matemáticos y muchas áreas de 
aplicación. Pueden tener varias formas de clasificación, entre ellas por su objetivo, 
por el tipo de análisis, por su aleatoriedad o por el tipo de aplicación al que están 
orientados. Siendo así, analizaremos los modelos matemáticos que están encaminados 
a conseguir un objetivo. Como vimos en el capítulo anterior los modelos predictivos 
están enfocados a resolver problemas de “análisis supervisado” y/o “análisis no 
supervisado”. En este caso un modelo predictivo en el que se conoce la función 
objetivo o la variable dependiente, se conoce como modelo predictivo de análisis 
supervisado. 
 
 La clasificación de los modelos matemáticos de acuerdo con su objetivo son los 
siguientes: 
 
 
 
 
 
 
 
 
 
 
17 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Los modelos descriptivos son aquellos que simplemente describen el 
comportamiento del caso de estudio o que expresan el comportamiento de 
algún fenómeno. 
 
 Los modelos explicativos tienen como objetivo encontrar relaciones de causa y 
efecto, tal es el caso de un análisis de afinidad. 
 
 Los modelos de pronósticos o predictivos son modelos matemáticos enfocados a 
predecir eventos en el futuro considerando un conjunto de variables de entrada 
o variables independientes. Las variables independientes deben tratar de 
modelar y ajustarse a la variable independiente o función objetivo con la 
finalidad de detectar el patrón a seguir y predecir así su comportamiento en un 
futuro. Como ya lo hemos mencionado algunos de los modelos predictivos 
utilizados en la industria y más conocidos son los modelos de árboles de 
decisión y los modelos de redes neuronales en los que se conoce cuál es la 
función objetivo o la variable independiente (en inglés también conocido como 
el target). Es por ello que el alcance de esta tesis se centra en estos dos tipos 
de modelos predictivos. Otro tipo de modelos son los de pronósticos de series 
de tiempo en los que se utiliza el histórico de valores de la variable 
dependiente para pronosticar próximos valores. 
 
 Los modelos de control se utilizan cuando se desea mantener el funcionamiento 
o el desempeño de algún fenómeno en un mismo estatus o alguna condición 
conveniente. Son útiles en control de calidad y procesos. 
 
Como lo revisamos en el primer capítulo, los árboles de decisión y las redes neuronales 
forman parte de modelos matemáticos que nos ayudan a predecir eventos o 
fenómenos de interés. Es entonces indispensable describir el significado del modelado 
predictivo de manera más formal: 
 
SAS definea un modelo predictivo dentro de minería de datos como aquella técnica o 
forma de clasificación matemática y estadística de análisis supervisado que por medio 
Modelos Matemáticos 
por objetivo 
 
Modelos descriptivos 
Modelos explicativos 
Modelos de pronósticos 
Modelos de optimización 
Modelos de control 
18 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
de algoritmos matemáticos complejos tiene la capacidad de encontrar relaciones 
razonables entre variables de entrada (o variables dependientes) y la función objetivo 
(o la variable independiente) tomado información de bases de datos con grandes 
volúmenes de información. 
 
Uno de los objetivos de este capítulo es el dar un vistazo general sobre los modelos 
predictivos de árboles de decisiones, basándonos en la clasificación de los modelos 
matemáticos y definiendo ciertas características básicas de estos modelos predictivos 
de minería de datos. Las especificaciones y características más a fondo de cómo 
funcionan dichos modelos y sus algoritmos serán mostradas en los siguientes dos 
capítulos; hasta este capítulo señalaremos algunas características básicas que nos 
encaminaran al estudio y diferenciación detallada de estos modelos predictivos. 
 
Árboles de decisión 
 
Los árboles de decisión son una técnica de predicción supervisada muy particular ya 
que es la más común y más sencilla en cuanto a su interpretación. Este modelo de 
predicción es el más utilizado a nivel internacional, por su simplicidad en la 
interpretación y construcción. 
 
Algunos expertos disciernen en nombrar a este tipo de modelos predictivos como 
árboles de decisiones, ya que los árboles de decisiones están más ligados a lo que es el 
análisis de decisiones. Una definición de estos árboles de decisión orientados al 
análisis de decisión es la siguiente: 
 
“El árbol de decisiones es una representación cronológica del proceso de decisión, 
mediante una red que utiliza dos tipos de nodos: los nodos de decisión, representados 
por medio de una forma cuadrada (el nodo de elección), y los nodos de estados de la 
naturaleza, representados por círculos (el nodo de probabilidad). Se dibuja la lógica 
del problema construyendo un árbol de decisiones; para los nodos de probabilidad se 
debe asegurar de que las probabilidades en todas las ramas salientes sumen uno; 
finalmente se calculan los beneficios esperados retrocediendo en el árbol, 
comenzando por la derecha y trabajando hacia la izquierda”vii. 
 
En realidad los árboles de decisiones son representaciones que por medio de 
decisiones y estados de naturaleza, permiten determinar la mejor elección de acuerdo 
a los beneficios deseados asignando a cada una de las ramas o decisiones 
probabilidades que permitirán maximizar o minimizar un objetivo según el análisis 
deseado. 
 
Un ejemplo de ello está en la figura 2.1 donde el árbol de decisiones en el que se 
tiene nodos que son estado de la naturaleza y nodos de elección, así como 
probabilidades en los diversos estados de la naturaleza por nodo. 
 
 
vii Profesor Hossein Arsham, http://home.ubalt.edu/ntsbarsh/opre640S/SpanishP.htm#rtreeinflunce, 2006, 
consulta realizada Mayo de 2007. 
1
 
 
Como
más 
ocurr
 
De lo
datos
una 
forma
 
 
Donde
Xmn=
m= ni
n=ram
 
El árb
 
19 Desarro
Oscar C
o podemos o
bien, de a
rencias se el
o contrario u
s), es aquel 
disyunción 
adas de la si
(X0
V (X0
V… V 
V… V(X
e 
Variable de e
ivel o profund
ma del árbol 
bol de decis
ollo de árbo
Camarillo Le
Figura 2.1.
observar est
acuerdo a 
lige la que m
un algoritmo
 que toma 
de conjunc
iguiente ma
00 Λ X11 Λ X21 
X00 Λ X12 Λ X21
 (X00 Λ X1n Λ X
X00 Λ X1n Λ X2
entrada en el
didad del árb
ión que repr
oles de decis
al 
 Árbol de dec
e árbol de d
la informac
mejor conve
o de modela
en cuentas 
ciones, esto
anera: 
 Λ…) V (X00 Λ X
1 Λ…) V (X00 Λ 
X21 Λ…) V (X00
2n Λ… ΛXm-1n-
l nivel o profu
bol 
resenta la e
siones usand
isión aplicable
decisiones n
ción obteni
nga al caso 
ado predicti
 reglas simp
o es reglas
X11 Λ X22 Λ…) 
 X21 Λ X22 Λ…)
0 Λ 1n Λ X22 Λ…
- 1 Λ Xm1) V… 
undidad m, r
structura an
do SAS Ente
e en teoría de 
o es un árbo
ida en cad
 de estudio. 
vo (árbol de
ples de deci
s o estruct
 V… V (X00 Λ X
) V… V (X00 Λ X
…) V… V (X00 Λ
 V(X00 Λ X1n Λ
rama n 
nterior está 
erprise Min
 
juegos 
ol de “si-en
da una de 
 
e decisión e
sión y está 
turas lógica
X11 Λ X2n Λ…) 
X12 Λ X2n Λ…)
Λ X1n Λ X2n Λ…
Λ X2n Λ… Λ Xmn
 en la figura
ner 6.1 | 
tonces”, sin
sus posible
en minería d
 formado po
as que está
 
…) 
n) 
a 2.2: 
no 
es 
de 
or 
án 
2
 
 
Como
gene
de m
empl
llama
mode
 
Los á
1963.
gene
que c
datos
simbó
en fo
con a
de un
comp
 
Los á
corre
un á
jerár
las co
 
Como
decis
para 
datos
una 
comp
 
20 Desarro
Oscar C
o vimos, el 
radas en el 
minería de d
eada por la
aremos tamb
elos de mine
árboles de de
. Son una 
rados a part
construyen 
s. “Compren
ólica y fácil 
orma verbal 
algunos otro
n modelo in
portamiento 
árboles de d
ectamente e
árbol de de
quica, de ta
ondiciones q
o ya lo vim
siones son la
 clasificació
s; mientras 
función ob
portamiento 
ollo de árbo
Camarillo Le
Figu
nombre de 
 análisis de 
datos, sin em
a gran mayo
bién arbole
ería de datos
ecisión fuero
técnica de
tir de grand
una hipótes
nsible” porq
 de interpre
 (esto hace 
os modelos c
nteligente c
 de los dato
decisiones tr
el objetivo d
ecisiones es
al manera qu
que se cump
mos y lo me
a clasificaci
n sirve para
que un mod
bjetivo o v
 de los dato
oles de decis
al 
ura 2.3. Estruc
 árboles de
 decisiones 
mbargo para
oría de los a
es de decisi
s, ya sean p
on desarroll
e aprendiza
des volúmen
sis o repres
que estos m
etar, en form
 diferentes 
como el de 
apaz de det
os. 
rabajan bajo
de esta técn
 un conjun
ue la decisió
plen desde la
encionamos 
ión y la pre
a describir, 
delo predict
variable ind
os en función
siones usand
ctura de árbol
e decisiones
y técnicame
a generaliza
autores y ex
iones a las 
redictivos o 
lados por pri
je de mod
es de inform
sentación de
modelos pue
ma de conju
los modelos
redes neuro
tectar los p
o el lema d
nica de aná
nto de regl
ón final a to
a raíz del ár
 anteriorme
edicción. Un
 entender y 
tivo basado 
dependiente
n de esta va
do SAS Ente
l de decisiones
s se atribuye
ente no son
ar y estar a
xpertos, a l
representac
 de clasifica
imera vez p
delos comp
mación. El t
el comporta
eden ser re
unto de cond
s predictivos
onales). El re
patrones y la
de “divide y
álisis predict
las organiza
omar se pue
bol hasta un
ente, las ta
n modelo d
 explicar el
 en árboles 
e para inte
riable. 
erprise Min
s 
e a las repr
n propias de
acorde a la 
o largo de 
ciones gene
ación. 
por Morgan y
prensibles d
término “mo
amiento o p
epresentados
diciones o re
s de árboles
esultado es 
as reglas qu
y vencerás”,
tivo. Podem
adas en un
ede determin
na de sus ho
areas de lo
de árboles d
l comportam
 de decision
erpretar y 
ner 6.1 | 
 
resentacione
e los modelo
 terminologí
esta tesis d
rados por lo
y Sonquist e
de decisión
odelo” indic
patrón de lo
s de maner
eglas escrita
s de decisió
 la obtenció
ue definen e
, que resum
mos decir qu
na estructur
nar siguiend
ojas. 
s árboles d
de decisione
miento de lo
nes consider
predecir e
es 
os 
ía 
de 
os 
en 
n, 
ca 
os 
ra 
as 
ón 
ón 
el 
me 
ue 
ra 
do 
de 
es 
os 
ra 
el 
2
 
Una d
parti
analiz
así só
acció
categ
señal
 
Existe
más 
son u
decis
ACLS
 
 
 
Algun
decis
 
 
 
 
 
21 Desarro
Oscar C
de las grand
r de una c
zar sólo una
ólo llegar a
ón. Otra ve
goría indepe
ladas en los 
en varios al
populares y 
utilizados en
sión (figura 
(1982) , ASS
Figu
nos concept
sión como m
Función o
o predeci
Variables
variable o
ollo de árbo
Camarillo Le
des ventajas 
condición d
a situación, 
 una rama 
entaja más 
endiente de
 siguientes c
goritmos pa
 conocidos 
n Enterpris
2.3). Existe
SISTANT(198
ra2.4. Vista d
tos antes d
odelos pred
objetivo o t
r (también c
s predictiva
objetivo. 
oles de decis
al 
 de los árbo
eterminada 
 pudiendo se
que represe
es que pue
ntro de cad
capítulos. 
ara realizar 
están el mé
e Miner de 
en algunos o
87) y Exhaus
el nodo de árb
e entrar de
dictivos de m
target. Indi
conocida co
as o indepe
siones usand
oles de decis
 son mutua
eguir el árbo
entaría sólo
ede trabaja
da variable.
esta clasific
étodo CHAID
 SAS dentro
otros algorit
stive CHAID,
bol de decisión
e lleno a e
minería de da
ca la variab
mo variable
endientes. V
do SAS Ente
siones es qu
amente exc
ol de decisió
o una decisió
ar con valo
 Éstas y otr
cación y par
D, C&RT, C4
o de sus alg
tmos como 
 entre otros
n en SAS Ent
explicar lo 
atos son los 
ble cuyos val
e dependient
Variables ut
erprise Min
e las opcion
cluyentes. E
ón apropiad
ón a tomar 
ores perdido
ras caracter
rticionamien
4.5 y C.5. Es
goritmos par
 CLS (1966)
s. 
 
terprise Miner
que son lo
 siguientes: 
lores querem
te). 
tilizadas par
ner 6.1 | 
nes posibles 
Esto permit
damente par
 o una únic
os como un
rísticas será
nto. Entre lo
stos método
ra árboles d
, ID3 (1979
r 
s árboles d
 
mos clasifica
ra estimar l
 a 
te 
ra 
ca 
na 
án 
os 
os 
de 
), 
de 
ar 
la 
22 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 Partición de datos. Se requiere particionar los datos para su entrenamiento y 
validación. Es indispensable una muestra significativa de datos que permita 
encontrar patrones o buena capacidad predictiva en entrenamiento así como 
en otra muestra de validación o prueba. El método de particionamiento lo 
veremos más a detalle en el capítulo de prueba, sin embargo es indispensable 
considerar este término que entra en la metodología de minería de datos 
incluida en la metodología SEMMA de SAS. 
 
 Nodo raíz. Es el nodo que contiene todos los casos con su clasificación. Nodo 
inicial de donde se parte para el desarrollo de los algoritmos de 
particionamiento. 
 
 Criterio de partición. Es un estadístico para el cual se define un p-value dado 
que cuando se encuentre una relación con un valor mayor o menor que el valor 
especificado se forme la regla a partir de la cual se partirán los datos. El 
criterio puede ser Gini, entropía o algún otro. 
 
 Rama. Es un subconjunto de condiciones lógicas que definen una regla y que 
agrupan a los casos que la cumplen. 
 
 Nodo hoja. Contiene los casos obtenidos una vez que se aplicaron reglas 
sucesivas y para los cuales no existen reglas que lo dividan porque se ha 
cumplido alguno de los criterios de parada. 
 
 Profundidad del árbol. Es el número de reglas necesarias hasta llegar al nodo 
hoja que más condiciones necesita. 
 
 Umbral de soporte. Cuando nos encontramos un nodo con menos de “n” 
ejemplos podemos detener el proceso de construcción del árbol de decisión, ya 
que no consideramos que es confiable la clasificación avalada por menos de 
“n” casos de entrenamiento. 
 
 Criterios de parada. Es una condición que se utiliza para no seguir dividiendo 
un árbol. Los tipos de condición pueden ser el valor de un estadístico, un 
número de casos mínimo en un nodo o la profundidad del árbol o reglas 
definidas hasta llegar al nodo hoja. Estos criterios de parada también reciben 
el nombre de prepurning. 
 
 Matriz de costos. Este tipo de matriz permite incluir información referente a 
los casos costos o beneficios. Los costos están asociados a una mala 
clasificación o predicción por parte del árbol y los beneficios a una correcta 
clasificación o predicción. 
 
 Matriz de confusión. Es una medida de bondad de ajuste del árbol de 
decisión. Se representa por medio de una tabla en la que se estima la 
probabilidad esperada de que se esté realizando una buena predicción o 
clasificación; se hace un contraste con los eventos reales y así determinar el 
nivel de certeza o capacidad predictiva del modelo. Esta matriz permite 
conocer qué tan bueno es el modelo en su capacidad predictiva. 
23 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	III.	Algoritmos	de	
árboles	de	decisión		
 
 “Somos tan fuertes como cuando nos unimos y 
tan débiles como cuando nos separamos”. 
Albus Dumbledore, personaje creado por J. K. 
Rowling en la novela de Harry Poter 
 
 
Introducción 
 
En el capítulo anterior se estudiaron los árboles de decisión con una breve 
introducción a su estructura y su utilización dentro de las aplicaciones minería de 
datos, específicamente en modelos predictivos de análisis supervisado y su uso en 
diversas áreas. Vimos que los árboles de decisiones están también orientados al 
análisis de decisiones, pero así mismo son llamados árboles de clasificación por la 
forma en que trabajan y de igual manera son estructuras que se emplean durante el 
modelado predictivo. 
 
Un árbol de clasificación es denominado así por la siguiente razón: Clasifica eventos o 
variables en los distintos nodos de un árbol de acuerdo a su semejanza o parentesco 
entre elementos del mismo nodo que responden de forma similar a un evento y se 
agrupan de forma homogénea caracterizando a dicho nodo por algún patrón en 
específico y que al mismo tiempo esta clasificación responde a un objetivo en 
particular. 
 
En este capítulo analizaremos a los árboles de decisión (o también conocidos como 
clasificación, que no deben ser confundidos con los árboles orientados a la toma de 
decisiones o análisis de decisiones mencionados en el capítulo II), su construcción, los 
algoritmos que utilizan para clasificar, la forma en que se mide su grado de precisión, 
y finalmente se analizará la interpretación de estos árboles por medio de la extracción 
de reglas. Dicha extracción de reglas tiene como objetivo entender y dar valor de 
negocio a través de resultados tangibles que faciliten la interpretación de estos 
modelos predictivos de acuerdo a un objetivo en específico. Todo lo anterior estará 
apoyado en la herramienta más completa de Minería de Datos de SAS según los 
cuadrantes de Gartnerviii y el nodo de modelado predictivo que ofrece SAS 9.2 en su 
versión de Enterprise Miner 6.1. 
 
El estudio de los árboles de decisión tratados en esta tesis así como todos los modelos 
mencionados estarán enfocados al modelado predictivo, aun cuando estos modelos 
 
viii Los cuadrantes de Gartner clasifican a SAS como el software de inteligencia analítica líder en 
capacidades de minería de datos y análisis predictivo según la última publicación de dicho cuadrante en el 
2010. 
2
 
tenga
decis
 
Duran
consi
predi
 
Los p
mode
 
 
En e
capac
tema
práct
 
 
 
ix La r
irrelev
indepe
razona
24 Desarro
Oscar C
an otra util
siones, etc. 
nte el desa
dera una se
icción de ca
pasos genera
elos de árbo
F
l transcurso
cidades qu
as/tópicos 
tico. 
 
educción de di
vantes. Los árb
endiente es irre
ablemente débi
ollo de árbo
Camarillo Le
lidad como 
 
arrollo de u
erie de paso
so de negoc
ales dentro 
les de decis
Figura 3.1. Me
o de este 
ue la soluc
específicos 
 
imensionalidad
oles de decisió
elevante con re
il. 
oles de decis
al 
 segmentaci
un modelo 
os que descr
cio a resolve
de la metod
iones son lo
etodología par
trabajo se 
ción de SA
 que serán 
 
d es la práctica 
ón son utilizado
especto a la var
siones usand
ión, reducc
de minería
riben la técn
r. 
dología emp
os mostrados
ra construcció
explicará e
AS Enterpr
 desglosado
realizada en la
os en la reducc
riable de respue
do SAS Ente
ción de dim
a usando ár
nica para c
pleada por S
s en la siguie
ón de árboles d
el estado d
rise Miner 
os en este 
a eliminación d
ción de variable
esta si su aport
erprise Min
mensionalida
rboles de d
conseguir la 
SAS para el d
ente figura 3
de decisión 
del arte ali
brinda. Se
y el siguiede variables red
es irrelevantes
tación predictiv
ner 6.1 | 
dix, toma d
decisiones s
 solución y/
desarrollo d
3.1: 
 
ineado a la
e abordará
ente capítul
dundantes e 
. Una variable 
va es 
de 
se 
/o 
de 
as 
án 
lo 
2
 
Algun
mues
 
 
 
 
Prep
 
En es
predi
consi
gene
prepa
o var
modo
un ca
 
Ejem
Supon
de bu
La ta
mode
 
 
 
 
 
25 Desarro
Oscar C
nas de las ca
stran en la F
Op
paración d
sta etapa se
ictivo, se r
derar tarea
ral la evalu
aración de d
riables por 
o aseguraría
aso en partic
plo hipotéti
ngamos que
uró de crédi
abla extraída
elo se vería 
ollo de árbo
Camarillo Le
apacidades 
Figura 3.2. 
pción Pr
 
 
 
R
 
 
Mé
Figura
de datos 
e concentra
realizan cá
as de explo
uación inicia
dicho model
cada observ
amos que el 
cular. 
ico. 
e se desea ge
ito. Una de 
a del data 
de la siguien
oles de decis
al 
generales q
ropiedad 
Máximo núme
Criterio de 
Reglas de parad
Método de
étodo de tratam
Perdi
a 3.2. Capacid
an las variab
álculos de 
ración de d
al para el 
o se debe c
vación con 
 análisis pre
enerar un m
 esas variab
warehouse 
nte forma e
siones usand
que se revisa
ero de ramas 
partición 
a o crecimiento
e podado 
miento de valores
idos 
dades en árbol
bles conside
variables. E
datos, selec
desarrollo d
considerar la
su correspo
edictivo es r
modelo de m
les es la lla
para el aná
n la figura 3
do SAS Ente
arán en este
Opciones 
predeterm
Logw
o Logworth 
Ajuste de p
Máxima p
Tamaño mín
Averag
s Best
les de decision
eradas para 
En esta m
cción de mu
del modelo
a creación d
ondiente va
realizado ún
minería de da
mada Saldo
álisis de esta
3.3. 
erprise Min
e capítulo so
minadas 
2 
worth 
Threshold 
profundidad 
profundidad 
nimo de hojas 
ge Profit 
t Leaf 
nes 
 la creación
isma etapa
uestras de 
o predictivo
de una tabla
riable objet
nicamente u
atos basado
o en los últim
a variable d
ner 6.1 | 
on las que s
n del model
a se puede
análisis y e
. Durante l
a de atributo
tivo, de est
una vez sobr
o en variable
mos 2 meses
de entrada a
se 
lo 
en 
en 
la 
os 
te 
ré 
es 
s. 
al 
26 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
No. 
Cuenta Mes 
Meses con 
Saldo 
Creditos 
Revolventes 
Tipo de 
cliente ……………. Saldo 
1234 1 1 1 Oro ……………. 2,700.00 
1234 2 1 1 Oro ……………. 1,000.00 
1234 3 3 1 Premium ……………. 4,230.00 
……………. …… ……………. ……………. ……………. ……………. ……………. 
1235 1 1 3 Premium ……………. 300.00 
1235 2 1 3 Premium ……………. 700.00 
1235 3 1 3 Premium ……………. 1,200.00 
Figura 3.3. Ejemplo de arreglo de datos 
 
Lo primero que habría que notar es que el número de cuenta se repite más de una vez, 
esto quiere decir que pueden existir atributos que dificulten el desarrollo de minería 
de datos si se toma tal cual la extracción de esta tabla, ya que se debe tener un 
registro único por caso, en el ejemplo se debe tener un solo registro por número de 
cuenta. El segundo punto es que la variable Saldo en los últimos dos meses no existe, 
sin embargo puede ser calculada usando el campo saldo y el campo mes. Es decir se 
debe emplear una técnica para generar dicha variable; lo que muchos llaman un 
proceso de ETL (Extracción, Transformación y Carga de datos). Una vez considerados 
estos puntos se puede obtener la tabla que se muestra en la figura 3.4. 
 
No. 
Cuenta 
Meses con 
Saldo Actual 
Creditos 
Revolventes Actual 
Tipo de 
cliente 
Actual ……………. 
Saldo en dos 
meses 
1234 1 1 Oro ……………. 
 
3,700.00 
1235 1 3 Premium ……………. 
 
1,000.00 
Figura 3.4. Ejemplo de arreglo de datos aplicando técnicas de integración de datos 
 
Nótese que las demás variables también cambiaron de nombre, ya que reflejan el 
estado actual de cada cuenta, es decir sólo aparecerían los últimos valores de sus 
características. En cuanto a la variable Saldo en los dos últimos meses vemos que se 
encuentra calculada y de este modo ya se cuenta con registros únicos. 
 
El análisis exploratorio también se realiza en esta etapa para conocer las variables que 
se estarán utilizando. Dicho análisis es realizado a través de técnicas de estadística 
descriptiva: 
 
1. Histogramas de Frecuencia 
2. Graficas de línea 
3. Medidas de tendencia central 
4. Cálculo de percentiles 
5. Análisis univariado 
6. Análisis de valores perdidos 
7. Análisis de valores repetidos 
 
Cuando se concluye la tarea de exploración de variables se pueden descartar variables 
por falta de valores o aportación al modelo desde el punto de vista de negocio. Todo 
27 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
esto deberá estar fundamentado y justificado con el análisis estadístico y la visión de 
negocio. 
 
En la selección de muestra es muy importante seleccionar la ventana de información 
más adecuada. Esto debido a que el negocio debe indicar la ventana de tiempo de 
información que es más confiable. Y a partir de ahí seleccionar muestras de análisis, 
así como alguna técnica en específico (aleatorio, estratificado, conglomerado). Se 
debe asumir que el análisis de minería de datos requiere muestreos estratificados, 
esto debido a que debe ser la muestra representativa con respecto a la variable 
objetivo. Técnicamente el muestreo estratificado es un muestreo proporcional. 
 
El muestreo estratificado es aquel que divide a la población en N individuos en k sub 
poblaciones o estratos, atendiendo una variable objetivo, de tamaño respectivo N ,…, 
N . 
 
N=N N N ⋯ N 
 
Y realizando en cada una de la estratos muestreos aleatorios simples de tamaño 
n =1,…., k. 
 
Para efectos de los ejemplos de minería de datos expuestos en esta tesis sólo 
analizaremos casos con variable objetivo que cuente con dos clases, valores o estratos 
y se empleará muestreo estratificado para efectos de entrenamiento del modelo. Esto 
es variables binarias. 
 
Ejemplo hipotético. 
 
Existe un caso de negocio para la detección de fallas en dispositivos de 
telecomunicaciones en el que se encuentran un total de 1,000,000 de casos de los 
cuales 385,503 son casos de fallas en dispositivos y 614,497 son de casos sin fallas en 
los dispositivos. 
 
La distribución real de estos casos se ve de la siguiente manera en la figura 3.5. 
 
28 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
Figura 3.5. Histograma de distribución de casos 
 
 
Ahora bien, al aplicar un muestreo estratificado del 50% de los datos usando como 
referencia esta variable llamada “casos de estudio” se obtiene la siguiente gráfica que 
se muestra en la figura 3.6. 
 
 
Figura 3.5. Histograma de distribución de casos aplicando muestreo estratificado 
 
 
De donde se puede deducir que se realizó un muestreo estratificado por la variable 
caso de estudio del 50%; resultando en la distribución original de la muestra con 
29 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
respecto a la población: 39% de concentración en casos de fallas y 61% en casos de no 
fallas. 
 
Definición de objetivo 
 
Como lo vimos en los capítulos I y II, el desarrollo de un modelo predictivo supervisado 
requiere de casos comprobados, variable objetivo o estrictamente hablando, se 
necesita saber “¿Qué es lo que se desea predecir?” y se debe saber ¿Qué se tiene para 
realizar esta predicción? basado en hallazgos e historia ya preconcebida. Para que un 
modelo pueda predecir algún evento se requiere de una base de conocimiento de 
hechos a través de los cuales ya se haya aprendido y se tenga experiencia para poder 
tomar la decisión más acertada. Pongamos un ejemplo tradicional. 
 
Un ama de casa ayuda a la economía de su hogar vendiendo oro a diversos clientes 
entre ellos amigos, vecinos, compañeros, amigos de los amigos, etcétera. Al iniciar su 
negocio no tiene conocimientoalguno sobre a quienes vender o no oro y lo comienza a 
hacer sin reservarse el derecho a la no venta sobre alguno de ellos. Conforme pasa el 
tiempo se da cuenta de que existe gente que cumple con sus pagos y otra que no lo 
hace, de este modo la vendedora de oro va generando una base de conocimiento más 
sólida y menos subjetiva que en un inicio; esto debido a que ha aprendido a analizar 
las características de sus clientes y sabe que aquellos clientes que no cuentan con un 
trabajo estable no serán buenos pagadores, o que aquellos que compran oro por más 
de tres veces la recomendarán con alguien más, entre otra infinidad de reglas de 
conocimiento deductivo que puede extraer a través de esa base de conocimiento que 
ya formó y la experiencia misma. Del mismo modo trabaja un modelo de minería; es 
indispensable generar una buena base de conocimiento y definir una correcta variable 
objetivo para alcanzar la predicción deseada y conocer a los clientes para este caso. 
La diferencia entre la ama de casa que vende oro y el banco que realiza créditos es 
que la primera puede vender a tal vez no más de 100 personas, ya que podría perder 
el control de sus clientes ella misma; y la institución bancaria realiza préstamos a 
miles de clientes, esto incrementa la demanda sobre la base de conocimiento para el 
caso del banco. 
 
De este modo la variable objetivo (que describe el caso a resolver) está definida de 
acuerdo a las necesidades del negocio, ejemplos de esto, se encuentran a 
continuación: 
 
Pregunta de Negocio Base de conocimiento supervisado 
¿Qué nuevos clientes representan riesgo para el 
banco? 
El banco ya cuenta con historia de 
clientes buenos y malos, ahí radica su 
base de conocimiento. 
¿Qué nuevos clientes de una tienda 
departamental son más propensos a comprar 
productos de belleza? 
La tienda departamental seguramente ya 
cuenta con una base de clientes que han 
comprado estos productos. 
30 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
¿Qué clientes de un servicio telefónico se irán 
con la competencia? 
La compañía telefónica cuenta con una 
base de conocimiento en la que se tienen 
registrados a los clientes que se han ido 
con la competencia. 
 
Entonces, es básico definir la variable objetivo, target o variable dependiente, para la 
generación de un modelo predictivo supervisado. Asimismo contar con una base de 
conocimiento sobre estos casos. 
 
Selección de criterios de crecimiento de árbol y algoritmos de 
segmentación y clasificación de casos 
 
Como vimos en el capítulo anterior los árboles de decisión son estructuras topológicas 
que describen como se clasifican de mejor manera los casos de estudio de acuerdo a 
una serie de atributos, pero la forma en la que crece esta estructura topológica es 
controlada, obedeciendo a los siguientes criterios o preguntas: 
 
 ¿Cómo deben combinarse las variables nominales de entrada? 
 ¿Cómo serán ordenadas y combinados los nodos del árbol?, ¿Los nodos 
están acorde a su nivel de medición (continuos, ordinales o nominales)? 
 ¿Cuántos nodos o ramas se considerarán en el árbol? 
 ¿Cuántos nodos serán ordenados para cada nivel del árbol de decisión? 
 ¿Con qué criterio se determinará la diferencia de concentración de 
casos en un nodo (poder predictivo de las ramas)? 
 ¿Cuántos nodos serán evaluados, seleccionados y desplegados? 
 ¿Cuántos casos serán el límite a considerar en un nodo? 
 ¿Qué pasará cuando en un nodo del árbol exista concentración de 
valores perdidos? 
 ¿Qué prueba de hipótesis se utilizará para evaluar el crecimiento del 
árbol? 
 ¿Qué ramas del árbol deben ser podadas o que ramas deben crecer más 
dada la serie de criterios seleccionados? 
 ¿Cuándo el proceso de decisión se detiene para identificar ramas 
potencialmente predictivas? 
 ¿Cuándo detener el árbol para identificar los nodos potencialmente 
predictivos? 
 
Toda esta gama de preguntas se pueden resolver durante el desarrollo del modelo, a lo 
que le llamamos la etapa de configuración del modelo. 
 
En una primera etapa de configuración, se encuentra la definición de parámetros que 
deberán ser considerados previos al momento de construir el modelo de árbol de 
decisión. Este menú de configuración es general para cualquier modelo que se 
desarrollará dentro de la herramienta de SAS. 
 
3
 
 
En e
predi
 
 
 
 
 
 
 
 
En el
parám
defin
conti
 
x El m
trabajo
31 Desarro
Oscar C
ste menú s
ictivo: 
Máximo n
predeterm
es ajustab
Rechazo d
supuesto 
Número d
predefini
cuenta co
Detectar 
permite h
nominale
Rechazar 
de clases
nominale
Rechazar 
la opción 
l siguiente m
metros prop
nido básicam
nuación y d
 
menú de configu
o de tesis sólo 
ollo de árbo
Camarillo Le
se identifica
número de v
minados que
ble. 
de variables
 u opción an
de clases p
da es clasif
on menos de
 los niveles
habilitar la 
s. 
 las variabl
s. El núme
s es de 20. 
 variables co
 anterior, co
menú de con
pios del mod
mente por 
ependiendo 
 
uración de árbo
se mostrarán y
oles de decis
al 
an seis opci
valores perd
e se permite
s con exceso
nterior se ap
permitidas e
ficar una v
e 20 clases. 
s de las v
 regla ante
es ordinales
ro predeter
on exceso en
on 20 clases
nfiguraciónx 
delo de árbo
una serie 
 de la etapa
 
oles de decisión
y explicarán la
siones usand
iones para 
didos permit
en es de 50
o de valores
plica. 
en una varia
variable ord
variables or
erior para d
s o nominal
rminado pa
n valores de
s en variable
 que se obs
oles de deci
de rubros 
a en la que n
n es aún más c
as propiedades 
do SAS Ente
el desarrol
tidos. El má
0, esta canti
s perdidos. 
able ordina
dinal o nom
rdinales o 
detectar las 
les con un n
ara rechaza
e clase prede
es ordinales 
serva en la 
isión, es un 
que serán 
nos encontre
completo, sin e
que agreguen v
erprise Min
lo de cualq
áximo númer
idad de valo
Esto quiere 
al o nomina
minal como 
nominales. 
 variables o
número pre
ar variables 
eterminados
 y/o nomina
figura 3.6 s
 panel que 
analizados 
emos. 
mbargo para lo
valor a dicho t
ner 6.1 | 
 
quier model
ro de valore
ores perdido
 decir que e
al. La opció
 aquella qu
 Esta opció
ordinales y/
edeterminad
 ordinales 
s. Se habilit
ales. 
e definen lo
se encuentr
 a detalle 
os fines de este
trabajo 
lo 
es 
os 
el 
ón 
ue 
ón 
/o 
do 
o 
ta 
os 
ra 
a 
e 
3
 
 
 
Defa
 
32 Desarro
Oscar C
Figura 3.6
Propiedad
propiedad
decisione
 
Criterio d
empleará
a la varia
 
ault 
 Este crite
casos en 
para aque
variable i
más ade
enfatizare
cuadrada
ollo de árbo
Camarillo Le
6. Menú de con
des de Reg
des o criteri
es. 
de intervalo
á para realiz
ble dependi
erio está bas
donde la va
ellos casos 
ndependien
lante). Par
emos sobre 
. 
oles de decis
al 
nfiguración de
la de partic
io de partic
o y nominal
zar la partici
iente. Los cr
sado en el us
ariable depe
en que la v
nte es ordina
ra efectos 
 el primer 
siones usand
e árboles de d
ción. En est
ionamiento 
. En el crite
ión de los n
riterios son 
so y cálculo 
endiente es 
variable dep
al usa un mé
del model
 caso en el
do SAS Ente
decisión en SA
te menú de 
 de los nodo
erio que def
odos y sepa
los siguiente
 de la proba
 nominal o 
pendiente e
étodo llama
lo que est
l que se us
erprise Min
 
AS Enterprise M
 opciones se
os dentro de
fine el algo
arar los caso
es: 
abilidad Ji-c
binaria. El 
es continua;
ado entropía
taremos rev
sa el estad
ner 6.1 | 
Miner 
e definen la
e un árbol d
oritmo que s
os de acuerd
uadrada par
estadístico 
 y cuando l
a (se revisar
visando sól
dístico de J
as 
de 
se 
do 
ra 
 F 
la 
rá 
lo 
i-
3
 
Prob
 
 
 
33 Desarro
Oscar C
babilidad J
 El cálcul
formada 
analizand
lo define 
 
Funcionam
 
Utilizarem
 
 Sobre la 
encuentra
trataremo
el espacio
amarillo) 
horizonta
 
 
 Recordem
un nodo y
primera r
comenzar
haya más 
 
 La primerEste inici
entrada d
intervalo 
considera
promedio
entrada. 
 
 Para sele
generan d
ollo de árbo
Camarillo Le
Ji-Cuadrad
o de este 
entre las 
do y las cate
 el p-value d
miento. 
mos el siguie
siguiente gr
an distribuid
os de prede
o definido. 
 con respe
l y al eje ve
mos que los 
y otro son l
regla que r
r a partir lo
 reglas por a
ra parte de
ia con la se
disponibles 
 cada valo
ado en el pro
o del target 
 
eccionar una
dos grupos. 
oles de decis
al 
da 
estadístico 
categorías 
egóricas de 
del estadístic
ente ejemplo
ráfica en la 
dos una seri
cir el color 
 Se asume q
cto a dos 
ertical. 
 nodos del á
las que orde
realizará el 
s datos en d
aplicar ento
l algoritmo 
elección de 
a partir en
or es utiliza
oceso de par
 es tomado 
a variable 
Casos con v
siones usand
 está asoci
 de la va
la variable 
co. 
o para obse
 que se obse
ie de punto
 de algún pu
que la distr
variables 
árbol repres
enan qué re
 algoritmo 
dos reglas. A
nces estaría
 se llama bú
 una variab
n segmentos
ado como 
rtición. Si el
dentro de c
de entrada
valores meno
do SAS Ente
iado a una
riable inde
 dependient
rvar cómo t
erva un map
s verdes y a
unto basánd
ribución del 
 y qu
sentan regla
egla se debe
será la est
Al llegar a u
amos llegand
úsqueda de 
ble de entra
s. En caso 
único y p
l valor es no
cada nivel d
a y fijar un
ores que el 
erprise Min
 tabla de 
pendiente 
te, el punto 
rabaja este 
peo de dos 
amarillos. D
donos en su 
 target bina
ue correspo
as y que las
e ejecutar. 
tablecer un 
un nodo en 
do a la hoja 
 partición (s
ada de las 
de ser una
potencial qu
ominal, ento
e la variable
n punto de 
 punto de pa
ner 6.1 | 
contingenci
que se est
 de partició
 algoritmo: 
 variables, s
De este mod
 ubicación e
ario (verde 
onden al ej
 
s líneas entr
 Entonces, l
 nodo raíz 
 el que ya n
 de un árbol
split search
variables d
a variable d
ue debe se
onces el valo
e nominal d
 partición s
artición de l
ia 
tá 
ón 
se 
do 
en 
 y 
je 
 
re 
la 
y 
no 
l. 
). 
de 
de 
er 
or 
de 
se 
la 
34 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
variable, es decir una rama derecha y casos con valores de la variable mayores 
al punto de partición, es decir, la rama izquierda. Pongamos un ejemplo donde 
se tenga la variable ingresos y sobre esta se realiza una partición en el valor de 
$10,000. Los grupos, combinados con los valores de la variable target u 
objetivo son utilizados para realizar una tabla de contingencias de 2X2 en 
donde las columnas de la tabla de contingencia son especificadas por las ramas 
(personas con ingresos menores a $10,000 y personas con ingresos mayores a 
$10,000); y los renglones estarían descritos por los valores de respuesta. En la 
siguiente tabla se puede observar lo mencionado arriba. 
 
 Ingreso < $10,000 Ingreso >= $10,000 Total 
Responden ∙ 
No Responden ∙ 
Total ∙ ∙ N 
 
 De esta forma es aplicado el estadístico ji-cuadrada para cuantificar la 
independencia entre las columnas de la tabla, es decir, se trata de probar que 
la variable de entrada separa correctamente los casos definidos en el target. 
En otras palabras se pretende mostrar que las muestras no son iguales. Un valor 
grande de dicho estadístico indica que la proporción de valores en cero y en 
uno del target que están en la rama izquierda es distinta a la proporción de 
casos de ceros y unos de la rama derecha. Una diferencia en la proporción de 
ambas ramas indica un buen particionamiento. 
 
Estadísticamente se realizará la siguiente prueba de hipótesis: 
 
 : 
 
Donde 
 
=
∙
, =
∙
,		y P= ∙ 
 
 La traducción de la hipótesis nula es el argumento en el que las proporciones 
de casos de respuesta con menos de $10,000 de ingresos no son diferentes de 
los caso de respuesta donde el ingreso es mayor a $10,000. 
 
 Así entonces, tendremos la siguiente tabla de contingencias con las reglas de 
proporciones definidas de la siguiente forma: 
 
 Ingreso < $10,000 Ingreso >= $10,000 
Responden ∙ ∙ 
No 
Responden 1 ∙ 
 
1 ∙ 
 
 Entonces el estadístico Ji-cuadrada es calculado de la siguiente manera: 
 
35 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 Debido a que el estadístico de ji-cuadrada puede aplicarse a múltiples valores 
de la variable de respuesta, este estadístico es convertido en una probabilidad 
“p-value”. El p-value indica la verosimilitud de obtener el valor observado del 
estadístico asumiendo que la proporción del target en ambas ramas es la 
misma. Para la evaluación donde el número de casos es muy grande el p-value 
es muy cercano a cero. Por esta razón, el estadístico es mostrado a través de la 
función logarítmica y con la métrica llamada logworth. 
 
		 	 
 
 De este modo cada valor de una variable de entrada puede calcular su propio 
logworth, sin embargo el umbral para identificar cuál es el punto en el que el 
árbol separa correctamente los datos es donde el p-value del estadístico ji-
cuadrada toma el valor de 0.20, que corresponde al valor 0.70 en el logworth. 
Entonces, el objetivo es maximizar el logworth dentro del proceso de 
particionamiento. 
 
 La regla de sustitución es la siguiente: 
 
( > Calculada | es verdadera)= . Y el es 
simplemente calculado como . 
 
 Veamos en el siguiente ejemplo como es que trabaja este algoritmo. 
 
 Se pretende clasificar con un árbol de decisiones un caso nuevo dentro del 
siguiente plano que contempla dos variables , y un target binario 
(1=Verde, 0=Amarillo). Si se identifica la posición de este caso dentro del plano 
denotado por las dos variables se observa lo siguiente: 
3
 
 
36 Desarro
Oscar C
 Primer p
calcula e
distribuci
de logwor
 
 Enseguida
decir se c
acuerdo 
óptima. 
 
ollo de árbo
Camarillo Le
articionamie
l logworth 
ón de los pu
rth y se iden
a se proced
calculará el
a los valore
oles de decis
al 
ento. Se ap
para la var
untos de izq
ntifica que e
de a hacer 
 logworth p
es de dicha
siones usand
plica la pri
riable ; e
quierda a de
en el valor 0
lo mismo p
para identifi
a variable. 
do SAS Ente
mera tabla
es decir se 
erecha para
0.52 se encu
pero ahora s
icar la clasi
Se identific
erprise Min
 
a de contin
recorre la s
a buscar el p
uentra el má
sobre la va
ficación de 
có la siguie
ner 6.1 | 
gencias y s
superficie d
punto óptim
áximo valor. 
riable , e
 los casos d
ente solució
se 
de 
mo 
 
 
es 
de 
ón 
3
 
 
37 Desarro
Oscar C
Comparan
 
 
 
 La variab
realizadas
sentido la
 
ollo de árbo
Camarillo Le
ndo ambas s
le que sepa
s es la vari
a primera pa
oles de decis
al 
soluciones, o
ra mejor los
able ; qu
artición esta
siones usand
obtenemos l
s casos de a
ue correspon
aría represen
do SAS Ente
o siguiente:
acuerdo a la
nde a un lo
ntada de la 
erprise Min
 
 
as tablas de 
ogworth de 
siguiente fo
ner 6.1 | 
 contingenci
4.92. En es
orma. 
 
ia 
se 
3
 
 
38 Desarro
Oscar C
 Observem
de decisi
forma en 
 
 Los sigui
depender
un par de
 
 A continu
acuerdo a
de logwor
Aquí se ob
 
ollo de árbo
Camarillo Le
mos que del 
ones y del 
 que se part
entes pasos
rá de la prec
e iteraciones
uación se to
al proceso d
rth de mane
bserva el cá
oles de decis
al 
 lado izquie
lado derech
irán los dato
s se repite
cisión que s
s más. 
ma aquella 
e clasificaci
era vertical y
lculo de log
siones usand
erdo se tiene
ho es el pla
os de acuerd
en sobre ca
e pretenda 
 rama donde
ión anterior 
y horizontal 
gworth sobre
do SAS Ente
e la estruct
ano con los
do a este cri
ada rama y
 que tenga e
e el valor es
 y se observ
 respectivam
e la variable
erprise Min
tura topológ
s casos dist
iterio. 
y el criterio
el modelo. 
s menor a 0
van los siguie
mente 
e . 
ner 6.1 | 
 
gica del árbo
tribuidos y l
o de parad
Realizaremo
0.63 en d
entes valore
 
ol 
la 
da 
os 
de 
es 
39 Desarrollo de árboles de decisiones usando SAS EnterpriseMiner 6.1 | 
Oscar Camarillo Leal 
 
 
 
 Comparando ambos resultados observamos que el valor de es mayor que el 
de , entonces la partición queda de la siguiente forma. 
 
 
 
 
 Si sé continua iterando podríamos llegar a un árbol de clasificación con la 
siguiente estructura posiblemente. 
 
4
 
Gini 
 
 
 
40 Desarro
Oscar C
 (o diversi
 
 La métric
proporcio
calcular e
agrupació
 
A continu
 
 
Entonces 
 
 
 
Que tamb
 
 Donde c
forma má
(Gini) se p
 
ollo de árbo
Camarillo Le
idad de po
ca de Gini 
ones de las c
es la pureza 
ón y/o clasif
ación verem
 la pureza de
p= propor
bién se pued
corresponde
ás sencilla y
puede expre
oles de decis
al 
oblación) 
 simplemen
clases o grup
 o variabilid
ficación de l
mos la explic
I(no
P=
e los nodos 
Donde N=c
ción o frecu
n= clase e
de explicar c
e a la frecue
y utilizando
esar así, 
siones usand
 
nte se basa
pos existent
dad de los no
os casos de 
cación mate
odo) = Coefic
=proporción 
es calculada
∙ 1
clases existe
uencia relati
especifica de
con la siguie
1
 
encia relativ
o lenguaje c
do SAS Ente
 en la sum
tes. De este 
odos de un 
 acuerdo a l
mática. 
ciente de Gi
 de las clase
a de la sigui
 
entes en la p
iva de algun
el universo d
ente expresió
|
 
va de la clas
coloquial e
erprise Min
ma cuadráti
 modo lo qu
árbol; o bie
a variable re
ini. 
es 
ente forma 
población. 
a clase en e
de clases 
ón matemát
 
se en el no
el coeficient
ner 6.1 | 
ca entre la
ue se trata d
en la correct
espuesta. 
 
específico 
tica: 
odo . De un
te de purez
 
as 
de 
ta 
na 
za 
4
 
 
 
 
 
41 Desarro
Oscar C
 
 
 Tomemos
índice de 
 
Veamos u
 
 Supongam
siguiente:
 
 
En este ca
 
N
C
az
C
ne
 
 
Se desarro
 
 
Sustituyen
 
ollo de árbo
Camarillo Le
s como prem
 Gini sea mu
un ejemplo. 
mos que te
: 
aso el cálcu
ODO 
asos 
zules 
asos 
egros 
olló de la sig
ndo 
oles de decis
al 
∙ 1
misa entonce
uy cercano a
 
enemos el s
lo del índice
Número de 
casos 
guiente man
	 	
, y 
siones usand
#	 	
	
es que un no
al valor 0. 
siguiente n
 
N = 
Casos az
Casos neg
e de Gini sob
Aplica
GINI 
5 
10 
nera 
	 	 	
 ,
1
5/15 y 
do SAS Ente
	 	 	
	 	 	
odo puro ser
odo con la
 
 15 
zules = 5 
gros = 10 
bre este nod
ación del índ
0.44444444
 
 10/
erprise Min
	
	
 
rá identifica
a distribuci
 
do es el sigu
ice de 
44 
	
	 	 	 	
 
/15 
ner 6.1 | 
ado cuando e
ón de caso
uiente: 
	
 
el 
os 
4
 
 
 
 
42 Desarro
Oscar C
Entonces,
 
 
 
 
 Hasta el 
pero el si
la finalida
se mide c
 
 
Donde, 
 
 
 Siguiendo
de la sigu
 
El cálculo
ollo de árbo
Camarillo Le
, sustituyend
momento h
guiente pas
ad de obten
con el siguie
 
o con el mis
iente forma
o y resultado
oles de decis
al 
do en la ecu
hemos obser
so es realiza
er nodos hij
nte índice: 
ú
ú
mo ejemplo
a: 
os de Gini de
siones usand
 
uación de Gi
1
1
1 0.1
rvado cómo
ar particiona
jos puros. La
	 	
	 	
 
o, asumamos
e los nodos h
	
 
do SAS Ente
 
ni se obtien
5
15
10
15
1111 0.444
. 
o se calcula
amiento sob
a calidad de
 
	 	 	
	 	
 
s que el par
hijos son los
1
2
5
 
erprise Min
ne lo siguien
 
44 
 la pureza 
re dicho nod
e dicho part
 
	 	 	 
	 	
rticionamien
s siguientes:
3
5
 
ner 6.1 | 
te. 
de un nodo
do padre co
ticionamient
 
nto se realiz
 
 
o, 
on 
to 
za 
43 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
1 0.16 0.36 
 
. 
	 1
2
10
8
10
 
 
1 0.04 0.64 
 
. 
 
 
 Entonces el particionamiento del nodo padre se puede calcular de la siguiente 
forma de acuerdo a la fórmula que vimos arriba. 
 
 
 
 Así, 
 
10
15
0.44
5
15
0.32 
 
0.4533 
 
 Esto quiere decir que para el nodo padre que es segmentado en otros dos 
nodos y , se basa en un valor de particionamiento de alguna variable 
independiente , el algoritmo a través de este criterio examina todos los 
candidatos de particionamiento dados por y , donde es un 
número real que se encuentra entre el valor máximo y el valor mínimo de la 
variable . Aquellos casos en donde se clasifican a la izquierda y donde 
 se clasifican a la derecha. Ahora supongamos que hay 100 valores de la 
variable , entonces la cantidad de candidatos a particionar son donde 
1,2,3, … , 100. El algoritmo compara el coeficiente de impureza de GINI sobre 
los 100 valores y selecciona aquel que realice la mejor reducción así como el 
mejor particionamiento. 
 
Entropía (ganancia de la información) 
 
 El criterio de entropía, la ganancia de la información, juega un papel clave en 
la definición de pureza de un nodo. Si una hoja del árbol es enteramente pura, 
entonces las clases de esa hoja pueden ser fácilmente descritas. Y por otra 
parte si la hoja es altamente impura entonces su descripción es aún más 
compleja. Esto basado en la definición teórica de entropía que dice lo 
siguiente: “entropía es una medida de lo complejo o desorganizado que 
puede ser un sistema”. En este sentido, lo que se estaría buscando sobre un 
árbol de decisión es que el índice de entropía sea lo menos complejo y para 
ello habría que clasificar nodos puros. 
4
 
 
 
44 Desarro
Oscar C
 
 Entropía 
preguntas
Si sobre e
estados, o
 
 La entrop
las clases
de clases
misma pro
 
 
 El índice 
debido a 
 
 Veamos e
negro y ca
 
 
El cálculo
 
 
Sustituyen
 
 
 
 
 
Entonces 
 
 
 
ollo de árbo
Camarillo Le
podría ser 
s sí/no que d
este sistema
o cuatro bits
pía de un nod
 representa
s localizadas
oporción en 
 de entrop
la naturalez
el siguiente 
asos color az
o quedaría d
í ∙
ndo 
 
í ∙
oles de decis
al 
considerado
deberían tom
a hay 16 po
s, para enum
do de árbol 
das o localiz
s en ese no
 base dos, e
í ∙
ía se multi
za de la func
ejemplo do
zul). 
e la siguient
1 ∗
í ∙ 1 ∗
í ∙ 1 ∗
í ∙ 1 ∗
1 ∗ 0
siones usand
o o pensado
marse para d
sibles estad
merarlos o id
 de decisión 
zadas en ese
odo son mu
es decir: 
1 ∗
iplica por u
ción logaritm
onde el nodo
te manera 
∗ ∗
∗ 0.33 ∗
∗ 0.33 ∗
.33 ∗ 1.58
do SAS Ente
o como una 
determinar 
dos, entonce
dentificar un
 en particul
e nodo. Don
ltiplicadas p
	
uno para ob
mo. 
o contiene
	
	
0.33
0.33
84 	 0.66
erprise Min
 métrica de
 el estado de
es se consum
no en partic
ar, es la sum
nde para cad
por el logar
btener valo
e dos clases
 
∗
0.66 ∗
0.66 ∗
6 ∗ 0.584
ner 6.1 | 
el número d
e un sistema
men 16
cular. 
ma de todas
da proporció
ritmo de es
 
ores positivo
s (casos colo
 
0.66 
0.66 
4 
de 
a. 
6 
s 
ón 
sa 
os 
or 
 
45 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
í ∙ 1 ∗ 0.528 0.389 
 
í ∙ 1 ∗ 0.918 
 
í ∙ . 
 
Hasta aquí hemos visto cómo se calcula la entropía sobre un nodo, ahora bien 
necesitamos verificar el algoritmo de particionamiento que nos dé la mayor 
ganancia sobre un árbol de decisiones basado en este mismo criterio. Entonces 
la fórmula que calcula la ganancia de la información es la siguiente: 
 
í ∗ í 
 
 Donde es el nodo padre, y éste tiene particiones, es el número de 
registros en la partición . 
 
Veamos un ejemplo de cómo funciona el algoritmo con una iteración sobre el 
mismo particionamiento utilizado en el algoritmo de GINI. La fórmula de 
entropía para cada nodo (hijos, padre) quedaría de la siguiente manera. 
 
í 	 0.918 Entropía nodo padre 
 
 
í 	 -1∗ ∗ 	 ∗ 
 
 Entonces 
 
í 	 -1∗ 0.8 ∗ 0.321 0.2 ∗ 2.321 
 
í 	 -1∗ 0.257 0.464 
 
í 	 0.721 
 
 
 
Ahora haciendo lo mismo para el nodo derecho 
 
í 	 -1∗ ∗ 	 ∗ 
 
 Entonces 
 
í 	 -1∗ 0.4 ∗ 1.321 0.6 ∗ 0.736 
 
í 	 -1∗ 0.528 0.442 
46 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
í 	 0.970 
 
Reemplazando ambos resultados en la fórmula de ganancia de la información se 
obtiene lo siguiente: 
0.918
10
15
∗ 0.721
5
10
∗ 0.9700.918 0.481 0.323 
Así 
0.918 0.804 
 
. 
 
De este modo, la regla para obtener un nodo puro es maximizar el valor del 
índice de entropía (mientras mayor sea su valor, mejor explica dicho 
particionamiento al modelo). El algoritmo realiza estos cálculos sobre las 
variables y cada uno de sus valores hasta obtener la ganancia máxima sobre un 
nodo en específico. 
 
 
 Nivel de significancia. El nivel de significancia p-value especifica el umbral 
bajo el cual se cumple la condicional de la prueba estadística que ese esté 
realizando internamente en la aplicación de Enterprise Miner. Para un método 
de criterio basado en p-values, el umbral es el p-value máximo aceptable, para 
otros criterios, el umbral es el aumento mínimo aceptable en la medida de 
valor. 
 
En términos generales el p-value es la métrica que calcula qué tanta evidencia 
existe contra la hipótesis nula de una prueba estadística. 
 
 
 Valores perdidos o ausentes. Una de las propiedades de los árboles de 
decisiones es que pueden manejar los valores ausentes de tres formas 
diferentes. 
 
o Utilizar los valores ausentes durante la partición 
 
Es decir los valores ausentes son tomados en cuenta mientras se realiza 
el particionamiento del árbol de decisiones. Los valores ausentes no se 
discriminan y son usados como dato. La forma como trabaja es 
asignando el o los valores ausentes a la rama que maximiza la capacidad 
predictiva del particionamiento. Es muy sugerido utilizarlo cuando el 
target está fuertemente relacionado con los valores ausentes de la 
variable analizada. 
 
o Asignación del valor ausente en la rama más grande. Se asignan los 
valores ausentes a la rama que posean concentración mayor en el árbol. 
 
47 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
o Asignar el valor ausente a la rama que esté fuertemente correlacionada 
con el target. Se asigna la observación a la rama que tiene la suma 
cuadrática de residuales más pequeña del árbol. 
 
 Utilizar las variables de entrada una sola vez. En esta propiedad se especifica 
si se desea que dentro del árbol de decisiones sólo aparezca en un evento o 
más una variable en específico. Es decir, si se habilita esta opción la variable 
que aparezca en el árbol no volverá a aparecer a lo largo de las ramas del árbol 
nuevamente. 
 
 Máximo número de ramas. Con esta opción se determina el número máximo de 
subconjuntos o nodos hijos que tiene algún padre en específico. Hasta este 
momento hemos trabajado con árboles que contienen dos ramas pero no es la 
única forma de particionar los datos dentro de un árbol de decisiones, sino 
también pueden existir más de dos nodos hijos. Ahora bien, si se desarrollan 
árboles con dos ramas o más no hay alguna regla que indique que el primero es 
mejor que el segundo o viceversa. Ésta es una práctica de ensayo y error hasta 
identificar el número de ramas que ajusten a los resultados deseados. A este 
efecto también le llamamos crecimiento horizontal. 
 
 Máxima profundidad. La profundidad de un árbol es el número de niveles que 
pueda tener dicho árbol; ésta es una opción o propiedad que puede 
personalizarse a través de SAS Enterprise Miner. De la misma manera el hecho 
de tener un árbol con máxima expansión o no, no es un indicador para 
encontrar un mejor modelo, todo dependerá del caso de negocio que se esté 
atacando. 
 
 Tamaño categórico mínimo. En esta opción se indica el número mínimo de 
observaciones para un valor categórico. Una categoría debe aparecer en al 
menos el número de observaciones especificado para utilizarlo en el 
particionamiento. Es decir, si se desea realizar algún particionamiento sobre 
alguna variable categórica, el nodo donde se contengan los valores de ella 
deben ser al menos los que se indican en esta opción, de lo contrario el 
algoritmo se detendría. 
 
 Tamaño de hoja. Se especifica el número más pequeño de observaciones que 
puede tener una hoja. Esta restricción permitirá al mismo tiempo detener el 
árbol limitando el número de observaciones sobre el nodo. 
 
 Número de reglas. En esta opción se especifica el número de reglas de 
particionamiento que son evaluadas de acuerdo al algoritmo deseado, esto con 
la finalidad de compararlos y determinar cuál es particionamiento óptimo de 
acuerdo al LOGWORTH y al WORTH (criterio de particionamiento) de entropía o 
Gini según sea el caso. 
 
 Número de reglas de sustitución (surrogates). Especifica el número máximo 
de reglas buscadas en cada nodo que no es hoja. Una regla sustituta es un 
respaldo de la regla de partición principal. Cuando la regla de particionamiento 
principal se basa en una entrada cuyo valor es ausente, se invoca la primera 
48 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
regla de partición sustituta. Si la primera sustituta también se basa en una 
entrada cuyo valor es ausente, se invoca la siguiente sustituta. Si los valores 
ausentes no dejan que la regla principal y el resto de sustitutas se apliquen a 
una observación, la regla principal asigna la observación a una rama que ha 
designado como receptora de valores ausentes. Entonces esta opción permite 
indicar el número de reglas de sustitución evaluadas en un árbol de decisiones. 
 
 Tamaño del particionamiento. Esta opción indica el tamaño mínimo del 
conjunto de observaciones de entrenamiento con el cual se deba continuar con 
la construcción del árbol de decisiones. En caso de exceder ese mínimo el 
algoritmo se detendría. 
 
 Búsqueda de particionamiento exhaustiva. Este modo de búsqueda genera por 
default 5000 posibles particionamientos sobre aquellas variables de entrada en 
donde la variable objetivo tiene más de dos valores. Entonces, es 
personalizable esta opción para hacer más eficiente la búsqueda. 
 
 
Criterio para detener y podar un árbol 
 
Dentro de la construcción de un modelo de minería basado en árboles de decisión se 
localiza la última fase que consta de podar el árbol y definir un criterio con el cual se 
seleccione el modelo que mejor se ajuste a los datos basado en criterios de error o 
captura de patrón. 
 
Existen varios criterios con los cuales se determina si la complejidad del modelo puede 
ser ajustada o no. Estos criterios dependen del objetivo que se busque. La idea 
generalizada de podado de árboles es usar un conjunto de validación independiente 
que ayude a optimizar los estadísticos que resumen el desempeño del modelo. En SAS 
Enterprise Miner existen varios estadísticos que pueden ayudar en la tarea de 
interpretación de resultados y ajustes del modelo, sin embargo para efectos de esta 
tesis sólo se hará mención de los más usados y comunes. 
 
Tipo de 
Modelo Métrica de desempeño Regla Ejemplo 
Modelo de 
Decisión Precisión/No Clasificación 
min (No 
clasificación) 
¿Qué cliente está propenso 
a irse con la competencia? 
Modelo de 
Estimación Error Cuadrático 
min(error 
cuadrático) 
¿Cuál es la probabilidad de 
fraude de determinado 
cliente? 
Enfocados en sólo estos criterios, veremos entonces que para ello se verifican los 
siguientes dos estadísticos en las opciones siguientes: 
 Método del subárbol. Esta opción especifica cómo se va a construir el 
subárbol en términos de métodos de selección. Son posibles los siguiente 
métodos: EVALUACIÓN (se elige el subárbol más pequeño con el mejor valor de 
evaluación), MAYOR (selecciona el árbol completo) y N (selecciona el subárbol 
mayor con n hojas como máximo). 
4
 
 
49 Desarro
Oscar C
 
Medida d
que dese
validación
entrenam
cuadrátic
predeterm
promedio
beneficio
establece
la medida
la media 
error de c
más bajo
superior d
las proba
objetivo. 
de la va
categóric
propiedad
fracción p
Haciendo 
el siguien
indicador
El desemp
como se v
ollo de árbo
Camarillo Le
de evaluació
a utilizar pa
n. Si no hay
miento. Las 
co de la m
minada de 
o y con la 
 o pérdida. 
e en error cu
a se estable
selecciona e
clasificación
. Elmétodo
de las observ
abilidades p
 Para una va
riable obje
as, es la pro
d medida se
para especif
 referencia 
nte desempe
res. 
peño del mo
ve en la figu
Figura 3.7
oles de decis
al 
ón. Esta pr
ara seleccio
y datos de va
medidas d
edia, error 
decisión se
menor pérd
 Si la variab
uadrado de 
ece en Error
el árbol con
n selecciona
o mejora eva
vaciones cla
posteriores 
ariable obje
tivo de las
oporción de
e establece
ficar el porc
al error de c
eño de mod
odelo según 
ura 3.7. 
. Visualización
siones usand
ropiedad se 
onar el mejo
alidación dis
de evaluació
 de clasific
elecciona el
dida de pro
ble objetivo
 la media. S
r de clasifica
 el menor va
a el árbol co
alúa el árbo
asificadas: L
 o en los 
etivo tipo in
s n% observ
e eventos en
 en Mejora
centaje de lo
clasificación
delo para ex
 la métrica q
n de desempeñ
do SAS Ente
 utiliza para
or árbol, ba
sponibles, s
ón disponib
cación y m
l árbol con 
omedio si se
o es de tipo 
Si la variable
ación. El mé
alor en dich
on el índice 
ol basándose
Las observac
valores pr
ntervalo, es 
vaciones. En
n los n% dato
a, se debe u
os n% casos s
n y al error c
xplicar cóm
que se selec
ño de los árbo
erprise Min
a especifica
asándose en 
se utilizarán
bles son de
ejora. La c
 el mayor 
e define un
 intervalo, 
e objetivo e
étodo error 
ho estadístic
de error de
e en la pred
ciones se cla
redichos de 
 el valor me
n las variab
os superiore
utilizar la p
superiores. 
cuadrático p
mo se decide
cciones se p
 
oles de decisió
ner 6.1 | 
ar el métod
 los datos d
 los datos d
ecisión, erro
configuració
beneficio d
na matriz d
la medida s
es categórica
 cuadrado d
co. El métod
 clasificació
icción del n
asifican segú
 la variabl
edio predich
bles objetiv
es. Cuando l
propiedad d
 
plantearemo
e sobre esto
uede mapea
ón 
do 
de 
de 
or 
ón 
de 
de 
se 
a, 
de 
do 
ón 
n% 
ún 
le 
ho 
vo 
la 
de 
os 
os 
ar 
5
 
50 Desarro
Oscar C
Donde el 
árbol) y p
o error cu
complejid
mejora e
validación
validación
ajustados
La forma 
Se maxim
ejemplo e
a evaluar
figura 3.8
Figu
En el di
entrenam
Por últim
la curva d
ollo de árbo
Camarillo Le
 eje horizo
por el eje ve
uadrático se
dad se encu
el desempeñ
n. La razón
n es porque
s. 
 en la que tr
miza el árbol
el error cua
r. Es decir s
8. 
ura 3.8. Maxim
iagrama los
miento y el a
o se selecci
definida por 
oles de decis
al 
ntal represe
ertical el est
egún sea el 
uentra el e
ño realizand
n por la cua
e en este 
rabaja Enter
l de decisión
drático) cal
se encuentr
mización de ár
s datos co
zul fuerte so
iona el árbo
 los datos de
siones usand
enta la com
tadístico cal
 caso. Así, p
estadístico q
do una me
al se debe 
conjunto es
rprise Miner 
n y se verifi
culada en c
ra el árbol m
rboles de deci
n un color
on los datos
ol donde el e
e validación
do SAS Ente
mplejidad (n
lculado, ya s
podremos ve
que minimiz
ejor predicc
 basar la d
s donde los
 de SAS es la
ica la métri
ada escala d
maximizado 
isión en entren
r azul clar
s de validaci
error cuadrá
n como lo me
erprise Min
número de 
sea error de
erificar en q
za dicha co
ción sobre l
ecisión en 
s datos no 
a siguiente: 
ica (para el 
de crecimie
 como se m
 
namiento y va
ro son el 
ión. 
ático medio 
encionamos 
ner 6.1 | 
ramas de u
e clasificació
que punto d
omplejidad 
los datos d
los datos d
 están sobr
 
 caso de est
ento del árbo
muestra en l
alidación 
conjunto d
 es menor e
 arriba. 
un 
ón 
de 
y 
de 
de 
re 
te 
ol 
la 
de 
en 
5
 
 
 
 
 
 
51 Desarro
Oscar C
Figura 3.9
De este m
maximiza
seleccion
interés. R
resultado
desempeñ
Entonces 
son los sig
Tipo d
Predicció
Decisión 
Estimado
Criterios 
ollo de árbo
Camarillo Le
9. Selección de
modo se cum
a la probab
ado utilizan
Recordemos 
o, ya que c
ño seleccion
 los dos crit
guientes: 
de 
ón Estadísti
Missclasi
or Error Cu
que en el sig
oles de decis
al 
el modelo com
mple con se
bilidad de 
ndo la infor
 que no nec
como obser
nada puede d
terios que se
ico 
ification o Err
adrático Med
guiente cap
siones usand
mparando el d
eleccionar e
predicción 
rmación nec
cesariament
rvamos en 
deteriorarse
e utilizarán 
ror de clasific
io 
ítulo serán u
do SAS Ente
desempeño en 
el modelo d
 y a la v
cesaria para
te el árbol m
la gráfica 
e conforme v
 para verific
Crit
cación 
Se 
que
clas
Se 
que
cuad
utilizados. 
erprise Min
 
entrenamient
de árbol de 
vez simplifi
a explicar e
maximizado
anterior la
va creciendo
car el ajuste
terio 
selecciona 
 tiene el me
sificación 
selecciona 
 tiene el 
drático medio
ner 6.1 | 
to y validación
decisión qu
ica el árbo
el evento d
o da el mejo
 métrica d
o el árbol. 
e del model
el sub-árbo
enor error de
el sub-árbo
menor erro
o 
n 
ue 
ol 
de 
or 
de 
lo 
ol 
e 
ol 
or 
52 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Capítulo	IV.	Desarrollo	de	caso	
práctico		
 
 “En este mundo competitivo una factor clave 
del éxito es mostrar lo que somos capaces de hacer 
y así venderemos nuestro talento como organización”. 
Jim Goodnight, CEO de SAS 
 
 
Introducción al Problema de Negocio 
 
Como bien se ha comentado en capítulos anteriores el uso de la herramienta de 
minería de datos que tiene SAS resuelve una gran variedad de problemáticas de 
negocio en diversas industrias; para efectos de esta tesis y una vez revisados los 
puntos críticos de la herramienta de minería de datos y teóricos se resolverá el 
siguiente problema de negocio tomado del conocimiento adquirido durante el trabajo 
en diversos proyecto enfocado a detección y prevención de fraude: 
 
Una empresa aseguradora de autos tiene una problemática en términos de 
fraude. Se han registrado pérdidas millonarias por estos hechos, ya que se han 
realizado numerosos pagos por el reclamo de pólizas de autos que se han 
detectado como fraude. 
 
En un periodo histórico de seis meses han atendido 6,866 casos de reclamos 
relacionados con robos, de los cuales sólo se han identificado 311 casos de 
fraude comprobado a través de la unidad de investigación con la que cuentan, 
estos fraudes son reclamos improcedentes ya que se detectaron antes de 
realizarse el pago correspondiente, los restantes 6,555 son reclamos por robo 
de auto que fueron pagados y aparentemente legítimamente reclamados. 
 
Las necesidades básicas de la organización son las siguientes: 
 
 Identificar asertivamente los fraudes de acuerdo a un patrón de 
comportamiento. 
 
 Automatizar el proceso de investigación dándole a los investigadores 
elementos sólidos (con fundamento estadístico) para llevar a cabo 
acciones precisas. 
 
 Reducir los tiempos de investigación y con ello reducir los costos por 
investigación (considerar la tarifa que se debe cubrir por investigador). 
 
 Reducir la cantidad de falsos positivos, es decir, si actualmente se 
investigan 100 casos en una semana se desea que esos casos enviados a 
investigación sean los que tengan una mayor probabilidad de ser 
53 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
fraudes y no hacer investigaciones con altos costos y tiempos que 
resulten en un caso no fraudulento. 
 
 Contar con una herramienta analítica que ayude a conocer la cartera de 
clientes, su modus operandi y así ayude a predecir con un error mínimo 
cuáles son sospechosos de fraude. 
 
 Incrementar el retorno de inversión de la organización con una mejor 
detección de fraude por robo. 
 
Supuestos del caso de negocio: 
 
 Sólo se desean detectar fraudes por robo de autos. 
 
 La organización ya tiene una tabla analítica para comenzar con el desarrollo 
del modelo, en ella se han integrado los 6,866 reclamos de los últimos seis 
meses. 
 
 La tabla analítica cuenta con variable objetivo que se llama target1, esta 
variable es binaria. El valor 1 corresponde a casos comprobados de fraude y el 
valor 0 corresponde reclamos en los cuales serealizó un pago y no fue 
identificado como fraude. 
 
 La tabla analítica cuenta con un identificador único y éste se encuentra en la 
variable Numero_reporte. 
 
 Las variables que se utilizaron en el desarrollo del modelo y que se encuentran 
en la tabla analítica son 336. Entre ellas se encuentra información de la póliza, 
información de siniestro reportado, información de coberturas, información de 
terceros (grúa, ambulancia, ajustador, taller mecánico) e información de 
pagos. 
 
 Se asume que no todas las variables localizadas en la tabla analítica contiene 
información ya que se suponen errores de captura en algunos campos. 
 
 La tabla analítica considera un registro como único y con todos sus atributos de 
manera horizontal, así entonces, está lista para ser explotada a través de 
minería de datos. 
 
 Desarrollo del modelo de minería usando SAS Enterprise Miner 6.1 
Resultados 
 
Inicialmente se crea un proyecto de minería. En este caso el proyecto desarrollado es 
nombrado Tesis. Dentro de este proyecto se crea un diagrama llamado Tesis OCL y 
asumimos que la tabla analítica ya fue cargada a la herramienta como se observa en la 
siguiente figura 4.1. 
 
5
 
 
El pri
de tr
decir
este 
 
 
 
 
 
La vi
4.2. 
 
 
54 Desarro
Oscar C
imer paso d
rabajo y en
r, revisaremo
modo se rec
Las variab
texto, o s
Variables 
Variables 
sta del proc
F
ollo de árbo
Camarillo Le
Figura 4.1. C
entro del de
seguida hac
os si las vari
chazarán var
bles no hace
son ajenas a
 que tiene u
 con inconsi
ceso de sele
Figura 4.2. Con
oles de decis
al 
Creación de p
esarrollo de
cer un análi
iables son b
riables por l
en sentido d
al proceso de
un excedente
stencias de 
ección de ni
nfiguración d
siones usand
royectos en SA
l modelo pr
isis de las v
inario, inter
as siguiente
de negocio, 
e detección 
e de valores
 captura. 
iveles y role
e variables en
do SAS Ente
AS Enterprise
redictivo es 
variables de
rvalo, nomin
es razones: 
 por ejemplo
 de fraude. 
s faltantes. 
es se muest
n SAS Enterpr
erprise Min
 
e Miner. 
 integrar la 
e acuerdo a
nal, ordinal 
o variables 
ra en la sig
 
rise Miner. 
ner 6.1 | 
tabla al fluj
a su nivel, e
o única. Y d
que contien
uiente figur
 
jo 
es 
de 
ne 
ra 
5
 
Expl
 
La ej
del n
cada 
figura
explo
 
Figur
En el
 
Códi
 
El sig
emba
obser
fraud
 
Para 
de m
mayo
se m
fraud
que p
Miner
 
55 Desarro
Oscar C
loración E
jecución de 
nodo de exp
 una de las
a muestra e
orador de e
a 4.3. Resultad
 anexo 1 se 
igo SAS 
guiente paso
argo al ana
rvamos que 
de. 
 ello se desa
uestreo) con
or evidencia 
uestra y exp
de. Cabe me
permite edi
r 6.1. 
ollo de árbo
Camarillo Le
Estadística
 esta tarea 
loración. As
s variables q
el resumen d
stadísticas s
dos de la expl
 puede obse
o en el desa
lizar la pro
 hay muy p
arrolló un pr
n la finalida
 de fraude e
plica el proc
encionar que
tar código d
oles de decis
al 
a 
se apoya de
sí se realiza
que servirán
de estadístic
sobre alguna
oración estadí
rvar el resu
arrollo del m
oporción de 
oca evidenc
rograma en 
ad de increm
en el proceso
ceso que se
e este proce
dentro de u
siones usand
e un análisis
rá o se desi
n como vari
ca descriptiv
as variables
ística. 
 
ltado a deta
modelo de m
 casos de f
cia para ent
SAS, el cual
mentar el nú
o de entren
e siguió para
eso se realiz
un flujo de 
do SAS Ente
s de estadís
ignarán los 
iables indep
va que arro
. 
alle del anál
minería es r
fraude con 
trenar un m
l realiza un 
úmero de cas
amiento del
a replicar la
zó con el us
minería de 
erprise Min
stica descrip
roles corres
pendientes. 
oja la ejecuc
lisis de explo
ealizar un m
los casos d
modelo con 
 sobre mues
sos de fraud
l modelo. A 
a proporción
so del nodo 
 datos en SA
ner 6.1 | 
ptiva a travé
spondientes 
 La siguient
ción del nod
oración. 
muestreo, si
de no fraud
311 casos d
streo (técnic
de y así tene
 continuació
n de casos d
 Código SAS
AS Enterpris
és 
 a 
te 
do 
 
in 
de 
de 
ca 
er 
ón 
de 
S, 
se 
56 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
El primer paso es crear dos tablas donde se separan los caso de fraude (1) y los de no 
fraude (0). 
 
data mac.robo_unos; 
set &EM_IMPORT_DATA; 
where target1=1; 
run; 
 
data mac.robo_ceros; 
set &EM_IMPORT_DATA; 
where target1=0; 
run; 
 
A través de un procedimiento de muestreo de SAS se obtienen aleatoriamente sólo 
4000 observaciones de los casos que no son fraude para reducir la proporción de casos 
de no fraude. 
 
proc surveyselect data=mac.robo_ceros out=mac.overs_robos_ceros 
 method=srs n=4000; 
run; 
 
En seguida se genera un proceso para replicar los casos comprobados de fraude 
encontrados en la tabla mac.robos_unos. Con el procedimiento append se pretende 
crear una tabla llamada mac.robos_unos_append, donde se acumularán los casos 
replicados y los originales, es decir esta tabla contendrá 622 = (311*2) casos de fraude 
 
proc append base=mac.robo_unos_append data=mac.robo_unos; 
run; 
proc append base=mac.robo_unos_append data=mac.robo_unos; 
run; 
 
Finalmente se hace uso de este mismo procedimiento para unir todas las tablas 
generadas y se juntan los casos comprobados con los casos no comprobados originales. 
En el primer append se cargan los 622 casos de fraude replicados. En el segundo 
append son cargados los 4000 casos que no son fraude y en el tercer append se cargan 
nuevamente los casos comprobados que se tenían originalmente (311). En suma se 
tiene una tabla con 4000 casos de no fraude y 933 casos de fraude. 
 
proc append base=&EM_EXPORT_TRAIN data=mac.robo_unos_append; 
run; 
proc append base=&EM_EXPORT_TRAIN data=mac.overs_robos_ceros; 
run; 
proc append base=&EM_EXPORT_TRAIN data=mac.robo_unos; 
run; 
 
El siguiente fragmento del archivo log de este nodo muestra el número de registros 
finales que tiene la tabla &EM_EXPORT_TRAIN. 
 
proc append base=&EM_EXPORT_TRAIN data=mac.robo_unos; 
run; 
 
NOTE: Appending MAC.ROBO_UNOS to EMWS.EMCODE_TRAIN. 
NOTE: There were 311 observations read from the data set MAC.ROBO_UNOS. 
5
 
 
 
La v
ident
resul
mues
 
 
Part
 
Una 
comp
realiz
valida
entre
prueb
partic
que l
aprov
 
En la 
 
 
Es de
resta
57 Desarro
Oscar C
NOTE: 311 o
NOTE: The 
NOTE: PROC
 real tim
 cpu tim
variable &E
tifica dentro
tado de pro
stra el flujo 
tición de d
vez que s
probados, se
zar particio
ación y pru
enamiento 
ba, sin emb
ciones de e
la cantidad 
vecha los ca
 siguiente fi
ecir el 70% 
ante para va
ollo de árbo
Camarillo Le
observations a
 data set EMWS
CEDURE APPEN
me 0.85 
me 0.01 
EM_EXPORT_
o del flujo 
ocesar algo
 seguido has
Figura 4.4
datos 
se cuenta 
e procede a
onamientos 
ueba. Es re
(al menos 
bargo para 
ntrenamient
 de datos n
sos sólo en e
igura 4.5 se 
F
de los dato
lidación. Es 
oles de decis
al 
added. 
S.EMCODE_TRA
ND used (Total 
 seconds 
 seconds 
_TRAIN es 
del desarro
o en el nod
ta este punt
4. Etapa I del d
con las pr
a realizar e
en tres co
egla genera
50% de los 
efectos de
to y validac
o permite r
entrenamien
 muestra la 
Figura 4. 5. Pa
os de la tab
 importante
siones usand
AIN has 4933 ob
 process time):
una variab
ollo del mod
do de Códig
to. 
desarrollo de 
roporciones 
el particiona
onjuntos, es
al acumular
 datos) y e
e este ejem
ción dejando
realizar los 
nto y validac
configuració
rticionamient
bla serán us
e mencionar 
do SAS Ente
bservations an
: 
ble macro 
delo que es
go de SAS. 
modelo de mi
sobre mue
amiento de 
stos conjun
r la mayor 
el resto dist
mplo haremo
o de lado e
 tres partici
ción. 
ón realizada
to de datos. 
sados para 
 que la prop
erprise Min
nd 338 variable
 que auto
s una tabla
La siguient
 
inería. 
estreadas e
 los datos. 
tos son en
 cantidad 
tribuirlo en 
os uso excl
l conjunto d
ionamientos
a. 
 
entrenamie
porción se c
ner 6.1 | 
es. 
máticament
 que será ete figura 4.
en los caso
 SAS permit
trenamiento
de casos e
 validación 
lusivo de la
de prueba y
s y se decid
 
nto y el 30
arga del lad
te 
el 
.4 
os 
te 
o, 
en 
y 
as 
ya 
de 
0% 
do 
5
 
de e
conoc
que s
 
 
Impu
 
Deriv
valor
en e
varia
 
La co
impu
conti
 
58 Desarro
Oscar C
ntrenamien
cimiento pa
se observa e
utación 
vado del pas
res ausentes
l que se m
bles de clas
onfiguración
tación para
nuas se utili
Figu
ollo de árbo
Camarillo Le
to debido a
ra el desarr
enseguida en
Figura 4.6
so de explor
s sobre algu
muestra la c
e. 
n del nodo 
a variables 
iza la media
ura 4.7. Config
oles de decis
al 
a que éste 
rollo del mo
n la figura 4.
. Etapa II del 
ración estad
nas variable
cantidad de 
de imputac
de clase es
a. La siguien
guración del n
siones usand
 es el conj
delo. El fluj
.6. 
desarrollo de 
ística nos p
es. El detall
 valores au
ción es la p
s el valor c
nte figura mu
nodo de Impu
do SAS Ente
junto que f
jo que se ob
 modelo de m
udimos perc
e se puede 
sentes sobr
preestablecid
con la mayo
uestra la co
tación de valo
erprise Min
funciona co
btiene en es
inería. 
catar de la e
 observar en
re variables
da por SAS 
or moda; pa
nfiguración 
 
ores faltantes. 
ner 6.1 | 
omo base d
ste paso es e
 
existencia d
n el anexo 1
s continuas 
 en donde l
ara variable
 realizada. 
de 
el 
de 
1, 
y 
la 
es 
5
 
Tran
 
El pr
gene
trans
mine
 
En e
varia
estas
trans
valor
resul
 
La ca
este 
varia
pode
(SUM
senti
frecu
 
 
Se p
logar
gráfic
distri
trans
 
59 Desarro
Oscar C
nsformació
oceso de tr
ración de v
sformar vari
ría de datos
l desarrollo
bles continu
s variables 
sformación 
r al desarrol
tarían predi
apacidad de 
tipo de tra
bles a ser to
mos observ
A_ASEG y SU
do, la info
uencias como
Figura 4.8
procede a 
rítmica en b
cas anterio
ibución y n
sformadas, o
ollo de árbo
Camarillo Le
ón de Varia
ransformació
ariables cru
iables con 
s. 
o de un mo
uas como so
en ocasion
matemática
lo de un mo
ctivas. 
 transformac
ansformacio
omadas en c
var que las
UMA_ASEG_T
rmación es 
o se muestra
. Distribución
realizar un
base 2 con 
res. Con es
normalizar u
observar la f
oles de decis
al 
ables 
ón de variab
uzadas, fact
distribucion
odelo de m
on montos e
nes son va
a (logarítmic
odelo. Es de
ción de vari
nes matemá
cuenta. Para
s variables 
TOTAL respe
 acumulada
a en la sigui
n de las variab
na transform
 el objetivo
sto lo que 
un poco la 
figura 4.9. 
siones usand
bles en SAS 
tores polino
nes complic
minería frec
conómicos, 
ariables pre
ca, exponen
ecir, sin la t
iables que ti
áticas que 
a el caso en 
Suma Aseg
ectivamente
a en el cos
ente figura 
bles Suma Aseg
mación de 
o de elimin
 se consegu
 distribució
do SAS Ente
 es una her
miales y lo 
cadas de u
cuentemente
 saldos, ingr
edictivas qu
ncial, norm
ransformaci
iene SAS, pe
ayudan a l
 específico d
gurada y 
e) se encue
stado izquie
 4.8. 
gurada y Sum
 variables 
ar el sesgo
uirá será e
ón de dicha
erprise Min
rramienta m
 más impor
utilizar para
e se puede
resos, deuda
ue de no 
mal, etc.) n
ión de estas
ermite justa
as distribuc
de este caso
Suma Aseg
entran sesga
erdo del hi
ma Asegurada 
utilizando 
o que se ob
eliminar el 
as variables
ner 6.1 | 
muy útil en l
tante que e
a efectos d
en identifica
a, etc. Toda
ser por un
o agregaría
s variables n
amente hace
ciones de la
o de negocio
gurada Tota
adas y en es
istograma d
Total. 
una funció
bservó en la
sesgo de l
s que fuero
la 
es 
de 
ar 
as 
na 
an 
no 
er 
as 
o, 
al 
se 
de 
 
ón 
as 
la 
on 
6
 
Figu
 
Como
norm
inform
trans
es qu
 
El flu
figura
 
 
Segm
 
Esta 
dentr
varia
elimi
irrele
reduc
recor
expli
 
Explic
 
 
60 Desarro
Oscar C
ura 4.9. Distri
o se observ
malizó al ci
mación al 
sformaciones
ue el proceso
ujo del desar
a 4.10: 
mentación 
capacidad d
ro del proc
bles predict
na o reduce
evante de la
cción en el 
rdemos que 
car el fenóm
cando breve
Comenzar
mismo no
ollo de árbo
Camarillo Le
ibución de las 
va, la trans
ien por cie
modelo pr
s y ajustes q
o de afinació
rrollo del mo
Figura 4.10
 de variab
de SAS dent
ceso de sel
tivas. El clu
en la redund
as variables
 nodo de cl
 tenemos 3
meno de frau
emente el al
remos con 
odo como pu
oles de decis
al 
variables Sum
transfor
sformación 
ento, pero 
redictivo. E
que se le pu
ón del mode
odelo en est
0. Etapa 3 del 
les (Cluste
ro del proce
ección de 
ustering de 
dancia de va
s. Para efec
ustering de
36 variables
ude en auto
lgoritmo de 
mencionar 
unto inicial d
siones usand
ma Asegurada
rmación aplica
ocasionó q
es una nu
Es indispen
ueden hacer
elo debe ser
te punto es 
desarrollo de
ering de va
eso de mine
variables y 
 variables e
ariables y ay
ctos de este
e variables a
s de entrad
móviles por 
 este nodo: 
que todas l
del algoritmo
do SAS Ente
a y Suma Aseg
ada. 
ue el sesgo
ueva variab
sable nota
r a un mode
r detallado. 
 el que se m
e modelo de m
ariables) 
ería de dato
 asimismo 
elimina pro
yuda a la elim
e modelo po
ayuda en la
da que pued
 causas de r
las variable
o. 
erprise Min
gurada Total d
o se modif
ble que pu
r que la 
elo son dive
 
uestra en la
minería. 
os es común
en la segm
blemas de 
minación de
odemos obs
a selección d
den ser pre
robo. 
es son locali
ner 6.1 | 
después de la 
ficara, no s
uede aporta
cantidad d
rsas, por ell
a siguiente 
nmente usad
mentación d
colinealidad
e informació
servar que l
de variables
dictivas par
izadas en u
 
se 
ar 
de 
lo 
 
da 
de 
d, 
ón 
la 
s, 
ra 
un 
6
 
 
 
 
 
Así un
 
 
Dond
clust
 
61 Desarro
Oscar C
Se elige u
se hayan 
pequeño 
variación 
asociado 
eigenvalu
 
El cluster
primeros 
asigna a 
correlació
 
Las varia
de maxim
posible q
estructur
mantener
na vista de l
Figura 4.1
e se observa
ers se puede
ollo de árbo
Camarillo Le
un cluster p
 especificad
de variació
 proporcion
con el segun
ue). 
r selecciona
 component
 cada varia
ón. 
bles son ite
mizar la vari
que sea n
a jerárquica
r jerarquías.
los resultado
11. Gráfica de
a la creación
e observar e
oles de decis
al 
para ser par
do, el clust
n explicada
nal de ese c
ndo compon
ado es segm
es principal
able al co
erativamente
ianza de los
ecesario re
a de los clus
. 
os obtenidos
e resultado del
n de tres clu
el anexo 2. 
siones usand
rticionado. D
tering selec
a por el com
cluster) o e
nente princip
mentado en 
les, desarro
mponente 
e reasignada
s componen
easignar los
ster, para el
s es la mostr
l análisis de cl
usters. Para 
do SAS Ente
Dependiendo
ccionado t
mponente de
el eigenvalo
pal (usando 
dos clusters
ollando una 
con el cua
as a los clu
ntes principa
s algoritmo
llo se hace u
rada en la fi
lustering de va
 revisar con 
erprise Min
o de los par
iene el por
e ese cluste
or más gran
 la propieda
s para enco
rotación or
al tiene el
ustering con 
ales de cad
os para m
uso de la pr
igura 4.11: 
ariables de ent
 mayor deta
ner 6.1 | 
rámetros qu
rcentaje má
er (usando l
nde que est
ad de máxim
ontrar los do
rto-oblicua, 
l una mayo
 el propósit
a cluster. E
antener un
ropiedad par
trada. 
alle los 
ue 
ás 
la 
tá 
mo 
os 
 y 
or 
to 
Es 
na 
ra 
 
6
 
Árbo
 
Para 
algor
las ca
de ca
detec
 
 
Los t
confi
una 
mode
predi
 
62 Desarro
Oscar C
ol de decis
 el desarro
ritmos de pa
aracterística
ada uno de 
cción de fra
tres método
guración, a 
comparació
elos durante
icción. 
Árbol de
 
La config
técnica d
muestra a
 
ollo de árbo
Camarillo Le
sión 
ollo de los 
articionamie
as con las c
 ellos y la 
ude. 
Figura 4.12
os de partici
 excepción 
n más tran
e la evaluaci
e decisión c
guración de
de ji cuadra
a continuaci
oles de decis
al 
árboles de
ento vistos e
uales se gen
imagen que
2. Etapa IV de
ionamiento 
del criterio 
sparente al
ión de los m
con regla d
e árbol de 
ada que rev
ón en la figu
siones usand
 decisión s
en el capítu
neraron tres
e muestra e
l desarrollode
analizados 
 de partició
l momento 
mismos y ele
de partició
decisión co
visamos en 
ura 4.13: 
do SAS Ente
se generaro
lo anterior.
s árboles de
el desarrollo
e modelo de m
a continuac
ón, esto con 
 de verifica
egir aquél q
n probabil
on particion
el capítulo 
erprise Min
on tres árb
 Enseguida 
e decisión, l
o de estos m
minería. 
ción conserv
 el propósit
ar la efecti
que es más c
idad ji cua
namiento b
 anterior fu
ner 6.1 | 
oles con lo
se mostrará
os resultado
modelos par
van la mism
to de realiza
vidad de lo
certero en s
adrada 
basado en l
ue la que s
os 
án 
os 
ra 
 
ma 
ar 
os 
su 
la 
se 
6
 
63 Desarro
Oscar C
Figur
 
Algunos 
siguientes
 
 Cr
de
in
En
co
ap
po
 
 Ni
co
 
 Va
co
au
div
 
 Ra
se
cu
 
 Pr
ár
 
ollo de árbo
Camarillo Le
a 4.13. Config
de los pun
s: 
riterio nomi
efinir el frau
icialmente. 
nterprise Min
orrespondien
partado regl
onga en los o
ivel de signi
omo umbral 
alores ausen
onfigurado c
usentes se u
visión. 
amas máxim
erá de dos, 
ualquier nod
rofundidad M
rbol construi
oles de decis
al 
guración del m
ntos import
inal. El crite
ude o no fr
 Debido a 
ner detecta
nte es la s
la de divisió
otros dos cri
ificancia. El
 de aceptaci
ntes. El mé
como utiliza
tilizan para 
mas. Se indic
 es decir só
o padre. 
Máxima. Se
ido. 
siones usand
modelo de árbo
cuadrada
tantes dent
erio de part
raude en re
 que la v
a el nivel de
señalada e
ón y toma e
iterios (crite
l nivel de si
ión de la reg
étodo de tra
ado en búsq
 buscar la p
ca que el n
ólo se const
e tendrá un
do SAS Ente
ol de decisión 
. 
tro de esta
ticionamien
eclamo de s
variable ob
el objetivo, 
n la opció
esta anuland
erio de Inter
ignificancia 
gla de partic
atamiento d
ueda. Esto 
ureza más a
número máx
truirán dos 
a profundid
erprise Min
 
con particion
a configurac
nto que se u
eguros que 
jetivo es 
 identifica q
ón criterio 
do cualquier
rvalo y crite
 se establec
cionamiento
de valores 
significa qu
alta en el mo
ximo de ram
 ramas hijo
dad de 20 n
ner 6.1 | 
namiento ji 
ción son lo
utilizará par
 se configur
binaria, SA
que la opció
nominal de
r cosa que s
erio Ordinal)
ció es de 0.
o. 
ausentes fu
ue los valore
omento de l
mas utilizada
o a partir d
niveles en e
os 
ra 
ró 
AS 
ón 
el 
se 
. 
.2 
ue 
es 
la 
as 
de 
el 
6
 
 
64 Desarro
Oscar C
 Ta
alg
un
pa
 
 Ta
en
pr
 
 Mé
qu
mo
 
 Me
el 
eq
 
 Árbol de
 
La config
de Gini, n
el tipo de
en la opc
figura 4.1
 
Figura 4.14. 
ollo de árbo
Camarillo Le
amaño categ
goritmo de 
n mínimo d
articionamie
amaño de la
n entrenami
roceso de pa
étodo. El m
ue da un ma
odo se indic
edida de ev
 error de c
quivoca el m
e decisión 
uración en e
no tiene cam
e regla de p
ción de crit
4. 
Configuració
oles de decis
al 
górico mínim
particionam
de cinco c
ento. 
a hoja. Cinco
ento que de
artición se d
método de se
ayor valor a
ca evaluació
valuación. La
clasificación
modelo al mo
 con regla 
el caso del á
mbios releva
particionami
erio nomina
ón del modelo 
siones usand
mo. Para ut
miento se uti
clases dura
o observacio
ebe tener ca
etiene. 
elección de 
l logworth, 
n). 
a medida de
, esto quie
omento de e
de partició
árbol de dec
antes con re
ento utiliza
al al algorit
de árbol de de
do SAS Ente
tilizar una v
ilizarán sólo
ante cada 
ones son el m
ada hoja. A 
 particionam
 que es la m
e evaluación
ere decir qu
evaluar los d
ón Gini 
cisión con p
especto a la 
da. En este 
tmo de GINI
ecisión con pa
erprise Min
variable cate
o aquellas qu
etapa del 
mínimo núm
 partir de e
miento del á
medida de v
n dentro del
ue medirá q
datos en vali
articionamie
 anterior, só
 caso se hac
I como se o
 
articionamient
ner 6.1 | 
egórica en e
ue contenga
proceso d
mero de caso
se número e
árbol es aque
valor (de est
l modelo ser
qué tanto s
idación. 
ento a travé
ólo se cambi
ce referenci
observa en l
to GINI. 
el 
an 
de 
os 
el 
el 
te 
rá 
se 
és 
ia 
ia 
la 
6
 
 
 
F
 
Anál
 
El an
 
Algoritm
Particio
Ji Cuadr
65 Desarro
Oscar C
Árbol de
 
Como en 
configura
particiona
entropía,
Figura 4.15. C
lisis de res
álisis de los 
mo de 
onamiento  Var
rada 
  1  
  2  
  3  
  4  
  5  
6    
de 
  7  
  8  
ten
  9  
 10 
ha 
ollo de árbo
Camarillo Le
e decisión c
 las dos ante
ción básica
amiento ut
 ver la imag
Configuración 
sultados 
 resultados l
riables más impor
  ENTIDAD (Entida
  IMP_OFICINA1_ 
  Clus4 (Cluster nú
  IMP_MODELO1_
  IMP_MARCA_CO
  IMP_DESTIPO1_
uso del auto) 
  Clus3    (Cluster d
  EVENTOS_MAYO
nido más de 3 accid
  Clus2    (Cluster d
   IMP_MODELO_
estado en reparac
oles de decis
al 
con regla d
eriores regla
s y sólo se 
tilizada. En
gen 4.15. 
del modelo de
lo podemos 
rtantes 
ad Federativa)
(Número de oficin
úmero 4) 
_  (Modelo de auto
ORTA1 (Marca del 
_  ( Descripción del
de Variables núme
OR_A_TRES (Si ha 
dentes) 
de variables # 2)
_EN_REP  (Si el mo
ción) 
siones usand
de partició
as de partici
 modifica la
 este caso
e árbol de dec
 observar en
Profanid
máxima
na) 
o) 
auto)    
l tipo 
ero 3)
delo 
10 
do SAS Ente
n entropía
ón, se conse
a propiedad
o se espec
cisión con part
n el siguiente
dad 
Error de 
clasificació
entrenami
0.119
erprise Min
a 
ervan las pro
d que indica
cifica el cr
 
ticionamiento 
e cuadro co
ón 
ento 
Error de 
clasificac
validació
9  0.154
ner 6.1 | 
opiedades d
a la regla d
riterio com
Entropía. 
mparativo. 
ción 
ón 
Número d
hojas 
generadas
4  53 
de 
de 
mo 
de 
s 
66 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
GINI 
  1    ENTIDAD (Entidad Federativa)
  2    IMP_OFICINA1_ (Número de Oficina) 
  3    Clus4  (Cluster de variables # 4) 
  4    IMP_MARCA_CORTA1 (Marca del auto)
  5    IMP_MODELO1_  (Modelo del auto) 
  6    Clus3 (Cluster de variables # 3) 
  7    IMP_CVE_COBER1_  (Clave del tipo de 
cobertura) 
  8    Clus1 (Cluster de variables # 1) 
  9    IMP_DESTIPO1_  (Descripción del tipo 
de uso del auto) 
 10    Clus2  (Cluster de variables #2) 
15  0.064  0.1031  111 
Entropía 
1    ENTIDAD  (Entidad Federativa) 
  2    IMP_OFICINA1_   (Número de oficina) 
  3    IMP_MARCA_CORTA1 (Marca del auto)
  4    Clus4 (Cluster de Variables # 4) 
  5    Clus2 (Cluster de Variables # 2) 
  6    Clus3 (Cluster de Variables # 3) 
  7    IMP_CVE_COBER1_ (Clave del tipo de 
cobertura) 
  8    IMP_MODELO1_  (Modelo del auto) 
  9    OFIC__AJU_ (Oficina del ajustador) 
 10    Clus1 (Cluster de Variables # 1) 
17  0.048  0.087  125 
 
En la tabla anterior se observa lo siguiente: 
 
 Variables importantes. Se observa que existen variables que aparecen de 
manera constante en los tres algoritmos de particionamiento. Estas variables 
son entidad federativa, número de oficina, marca del auto y modelo del auto. 
Es importante resaltar que el orden de las variables obedece a la importancia 
que tiene cada una de ellas, de esta forma alguna de estas cinco variables 
normalmente se encuentran entre las primeras cinco o seis variables más 
importantes en cada uno de los algoritmos. 
 
 Profundidad máxima. Recordemos que una de las características de los 
algoritmos de árbol de decisión es buscar el principio de parsimonia, que señala 
el simplificar los modelos desarrollados, es decir mientras más sencillos sean 
los modelos, se podrían explicar de mejor forma, aunque no necesariamente 
siempre se cumple esta regla. En los resultados obtenidos se observa que si se 
escogiera el modelo de acuerdo al principio de parsimonia (el modelo más 
sencillo), el árbol desarrollado con el particionamiento de Ji Cuadrada. 
 
 Error de clasificación. Este error es una métrica que ayuda a seleccionar el 
mejor modelo y mide la cantidad de errores observados al momento de 
clasificar los casos calificados, en este caso mientras más pequeño sea el error 
mejor es el modelo. Como recordaremos al inicio en el desarrollo de unmodelo 
de minería se separan los datos en entrenamiento y validación, entonces el 
error se mide en ambos conjuntos de datos; sin embargo es recomendable 
elegir el error de clasificación más pequeño de acuerdo a los modelos que se 
estén desarrollando sobre el conjunto de validación y no así el de 
entrenamiento. Recordemos que si nos guiamos por el conjunto de 
entrenamiento estaríamos sobre estimando el modelo, ya que no se le ha dado 
la oportunidad de ser ajustado. En este sentido, el modelo a seleccionar es el 
desarrollado con el algoritmo de particionamiento de GINI que presenta un 
6
 
 
 
Eval
 
La e
comp
evalu
inter
conti
del a
 
Aquí 
mues
 
 
 
Curva
efect
casos
perce
acuer
los t
verde
senci
que 
acuer
propo
menc
 
La fig
 
67 Desarro
Oscar C
error de 
entropía.
 
Número d
indica cu
se observ
algoritmo
número d
uación de 
evaluación 
plementa co
uación no se
pretación d
ene los res
partado de 
 se muestra 
stra la comp
a ROC. La 
tividad de lo
s verdader
entiles) y e
rdo al porce
res modelo
e, Algoritmo
lla y se pue
tiene mayo
rdo a un 
orcionalmen
cionado en 
gura siguient
ollo de árbo
Camarillo Le
 clasificació
 
de hojas gen
antos nodos
va que son 
o de partic
de hojas con
 los model
de resulta
on el apartad
e analizan de
e la Curva 
ultados del 
resultados a
 una image
paración de l
Figura 4.16
curva ROC 
os modelos 
ramente ac
n el eje ve
entaje de ca
s desarrolla
o de Ji Cuad
ede observar
or cantidad 
percentil s
nte. El mod
 el apartado
te muestra l
oles de decis
al 
ón en valid
neradas. És
s finales tie
muchos los
ionamiento 
 53. 
los 
dos utiliza
do de result
e manera ind
ROC. No ob
 nodo de co
antes analiza
n del final 
los modelos.
6. Etapa V del
 es adicion
en la que s
certados (
ertical la ca
asos seleccio
ados (algori
drada en caf
r que el mod
de casos c
seleccionado
elo seleccio
o de resultad
los resultado
siones usand
ación de 0
te también 
enen los árb
s nodos u 
 de ji cua
ndo el no
tado antes s
dividual; sin
bstante, es 
omparación,
ado. 
del desarro
. 
l desarrollo de
nalmente ot
se muestra 
correctame
apacidad pre
onados. En e
itmo GINI e
fé) y en es
delo definid
correctamen
o y entonc
onado es el
dos. 
os del anális
do SAS Ente
0.087, meno
 es un indic
boles genera
hojas finale
drada el q
odo Compa
señalado, só
n embargo, a
 importante
, que es prá
llo de mode
e modelo de m
tra métrica
en el eje h
nte especi
edictiva (se
este caso se
en rojo, Alg
ste sentido l
o con curva
nte especifi
ces la sens
l de entrop
sis de la cur
erprise Min
or al de ji 
cador de pa
ados. Para e
es generada
que present
ración de 
ólo que en e
aquí enfatiz
e revisar el 
ácticamente
elo de mine
minería. 
 que perm
orizontal la
ificados a 
ensibilidad) 
e observa qu
goritmo de 
la interpreta
a en color ve
cados o cla
sibilidad se
ía, lo cual 
rva ROC. 
ner 6.1 | 
 Cuadrada 
rsimonia qu
este ejercici
as, siendo e
ta un meno
Modelos s
esta etapa d
zaremos en l
anexo 3 qu
e el resume
ería donde s
ite medir l
a cantidad d
 través d
adquirida d
ue se grafica
 Entropía e
ación es mu
erde es aque
asificados d
e increment
corrobora l
y 
ue 
io 
el 
or 
se 
de 
la 
ue 
en 
se 
 
la 
de 
de 
de 
an 
en 
uy 
el 
de 
ta 
lo 
6
 
 
 
Matri
que s
vertic
fraud
 
Los c
repre
obser
 
68 Desarro
Oscar C
iz de confus
se puede o
cal los resul
de y no fraud
casos de fra
esentan con 
rvar cuatro r
Rechazad
verdadero
modelo ti
rechazado
haber sido
 
Autorizad
falsos po
especifica
autorizó e
 
No detect
los falsos
no detect
casos de 
de no de
modelo e
ollo de árbo
Camarillo Le
Figura 4.17
ión. La mat
bservar una
tados obten
de. 
aude son rep
 el número 
regiones que
dos. Son los 
os positivos
iene una pre
os, dado qu
o rechazado
dos. Son los 
ositivos. En 
a que son fr
el reclamo d
tados. Son l
 negativos. 
ta argument
fraude; aqu
etectados es
n detectar e
oles de decis
al 
7. Gráfica de R
riz de confu
a tabla de c
nidos del mo
presentados
0, formando
e concentra
 localizados 
. En este cu
edicción ace
ue los reclam
os. 
 localizados 
este cuadr
raude y en 
de la póliza.
los casos loc
 En este cua
tos para de
í es donde e
s evidentem
el fraude. 
siones usand
ROC de los mo
usión es una 
contingencia
odelo y por e
s con el núm
o así la tabl
n las frecue
 en el cuadr
uadrante se
ertada sobre
mos corresp
 en el cuadr
rante se loc
realidad est
 
calizados en
adrante se l
efinirlo como
es más evide
mente asign
do SAS Ente
odelos desarro
 representa
a en la que
el lado horiz
mero 1 y lo
la de contin
encias entre 
rante (1,1) d
 encontrará
e los fraudes
ondientes a
rante (1,0) d
calizan los 
tos casos no
n el cuadran
localizan los
o fraude pe
ente el erro
ado por la 
erprise Min
ollados. 
ción gráfica
e se cruzan
zontal los ca
os casos de 
ngencia dond
 ambos esce
donde se en
án los casos 
s. Se le da e
a estos clien
donde se en
casos dond
o fueron det
te (0,1) y c
s casos dond
ero en la re
or del model
 falta de ca
ner 6.1 | 
a simple en l
n por el lad
asos reales d
no fraude s
de se puede
enarios: 
ncuentran lo
 en donde e
el nombre d
ntes debiero
ncuentran lo
de el model
tectados y s
orresponde 
de el model
ealidad sí so
lo. El nombr
apacidad de
 
la 
do 
de 
se 
en 
os 
el 
de 
on 
os 
lo 
se 
 a 
lo 
on 
re 
el 
6
 
 
En re
valida
siguie
 
 
En la
corre
la co
enton
detec
 
La m
de va
podrí
anexo
 
69 Desarro
Oscar C
No invest
los verda
donde no
que no tie
esumen, la c
ación debe
ente figura 4
 gráfica obs
ecta detecci
orrecta det
nces, que e
ctados. 
atriz de con
alidación se 
ía medir la 
o 3. 
ollo de árbo
Camarillo Le
tigado. Son l
aderos nega
o debe habe
enen sospec
concentració
ría de esta
4.18. 
Figu
servamos un
ón de casos
ección de 
el modelo r
nfusión del 
 muestran e
 efectividad
oles de decis
al 
los casos loc
ativos. En e
er proceso d
cha de fraud
ón de los cas
ar distribuid
ura 4.18. Ejem
a distribució
s del modelo
casos que 
reduzca el 
modelo gan
n la siguient
 del modelo
siones usand
calizados en
este cuadra
e investigac
e y que el m
sos en la ma
da de la fo
mplo de matriz 
ón del 20% d
o y 80% de 
son legalm
error en lo
ador (mode
te matriz de
o. Estos res
do SAS Ente
n el cuadran
ante se enc
ción ya que 
modelo los d
atriz de con
orma en la 
z de confusión.
de casos rec
casos no inv
mente recla
os cuadrant
elo de entro
e confusión 
sultados tam
erprise Min
nte (0,0) y c
cuentran aq
 son reclam
detecta corre
nfusión en el
 que se m
. 
chazados de
vestigados, 
amables. El 
tes de auto
pía) basado
de la figura
mbién se ob
ner 6.1 | 
orresponde 
quellos caso
mos legítimos
ectamente. 
l conjunto d
uestra en l
erivados de l
 derivados d
 objetivo e
rizados y n
 en los dato
 4.19 y así s
bservan en e
 a 
os 
s, 
 
de 
la 
 
la 
de 
es 
no 
os 
se 
el 
7
 
F
 
Se ev
distri
efect
de pr
 
Como
los ot
Regl
 
Las r
obten
inter
 
Básic
partic
deter
 
En la
y el á
 
70 Desarro
Oscar C
Figura 4.19. Ej
valuaron 1,
ibución bue
tividad del m
redicción eq
o se observa
tros dos mod
las de nego
reglas de ne
nidos a part
pretan los re
camente la 
cionamiento
rminando las
 siguiente g
árbol de dec
ollo de árbo
Camarillo Le
jemplo de Ma
667 casos e
ena sobre la
modelo es de
quivalente a 
a en el anexo
delos desarr
ocio 
egocio son 
ir de los mo
esultados es
idea radica 
o aplicado,
s reglas que
ráfica de la 
cisión trazad
oles de decis
al 
triz de Confus
en el segm
a matriz de
e 91.24% (su
 8.76% (sum
o 3 la distrib
rollados es m
la forma m
odelos de ár
s muy sencil
 en seguir l
, formando
e clasifican l
 figura 4.20 
do en una vis
siones usand
sión del árbol 
ento de va
e confusión 
uma de rech
a de autoriz
bución de ca
menos efecti
más transpar
boles de de
la. 
la ruta traza
o así regl
os casos pro
 se observa 
sta. 
do SAS Ente
l de decisiones
alidación, de
 en donde 
hazados y no
zados y no d
asos sobre lo
iva. 
rente de in
ecisión, ya q
ada dada a 
las del esopensos a fra
 un segment
erprise Min
s desarrollado
e estos se 
se podría 
o investigado
etectados).
os datos de v
nterpretar lo
ue la forma
 partir del 
stilo if-the
aude o no. 
to del mode
ner 6.1 | 
 con GINI. 
observa un
decir que l
os) y un erro
 
validación d
os resultado
a en la que s
algoritmo d
en que va
elo construid
 
na 
la 
or 
de 
os 
se 
de 
an 
do 
7
 
 
El gro
los no
del á
 
Otra 
travé
cómo
los co
árbol
 
 
 
71 Desarro
Oscar C
Figura 4
osor de la lí
odos indican
rbol, quiere
 forma de ve
és de un ma
o los nodos p
olores indic
l del modelo
ollo de árbo
Camarillo Le
4.20.Calsificac
ínea indica 
n una pureza
e decir que d
er el árbol, y
apa del árbo
padre partic
an la purez
o ganador de
Figura 4.21. 
oles de decis
al 
ción del árbol 
una mayor c
a mayor. Mie
dicho nodo e
y que muest
ol. No mue
cionan a los 
za del nodo.
e GINI. 
Mapa del Árb
siones usand
de decisión de
concentraci
entras más f
es más puro 
tra una de la
stra las líne
 nodos hijo.
. La siguient
bol de decisión
do SAS Ente
e acuerdo al a
ón de casos
fuerte sea e
 (clasifica de
as capacida
eas tal cual
 Al igual qu
te figura 4.
n del modelo d
erprise Min
algoritmo de G
s de fraude 
el color azul
e mejor form
des gráficas
l como en e
ue la otra o
21 muestra 
de GINI 
ner 6.1 | 
GINI 
y el color d
 de los nodo
ma). 
s de SAS, es 
el árbol per
opción gráfic
 el mapa de
 
 
de 
os 
 a 
ro 
ca 
el 
72 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Como se puede observar se forman una gran cantidad de reglas de negocio. De 
acuerdo a las capacidades gráficas observadas se tienen 110 reglas que son las mismas 
que la cantidad de nodos finales de árbol de decisión. 
 
Observemos un par de reglas generadas: 
 
Caso1. Clasificación de casos donde no hay fraude 
 
IF Imputed MODELO1_ EQUALS 2005 
AND Imputed MARCA_CORTA1 IS ONE OF: FD CR FR YH MZ BW ST 
AND ENTIDAD IS ONE OF: 22000 09006 01001 15004 13000 15005 05006 11005 
 09018 19051 15077 15095 28003 15012 06001 31004 32000 15050 
AND Imputed OFICINA1_ IS ONE OF: 9 7 276 55 90 25 98 266 21 18 78 273 264 
 27 96 83 97 11 269 64 270 23 19 288 95 
THEN 
 NODE : 55 
 N : 19 
 1 : 15.8% 
 0 : 84.2% 
 
La regla anterior muestra que cuando el modelos del auto es 2005 y la marca corta de 
acuerdo a un catálogo se encuentra entre FD CR FR YH MZ BW ST y si la entidad 
federativa de acuerdo a un catálogo definido está entre 22000, 09006, 01001, 15004, 
13000, 15005, 05006, 11005, 09018, 19051, 15077, 15095, 28003, 15012, 06001, 31004, 
32000, 15050 y si la oficina donde se tramitó la póliza está entre 9, 7, 276, 55, 90, 25, 
98, 266, 21, 18, 78, 273, 264, 27, 96, 83, 97, 11, 269, 64, 270, 23, 19, 288, 95, 
entonces existe una probabilidad de 0.158 de ser fraude y 0.842 de no ser fraude. 
El número de casos durante el entrenamiento que son clasificados en este nodo es de 
N=19. La sentencia Imput hace referencia a que se utilizó un método de reemplazo o 
imputación de datos en caso de datos faltantes. 
 
Caso2. Clasificación de casos donde no es identificable el fraude 
 
IF Clus4 < -1.327754387 
AND -1.19900168 <= Clus3 
AND Imputed OFICINA1_ IS ONE OF: 126 8 267 83 64 19 405 100 66 81 265 20 12 
 63 272 114 290 286 
AND ENTIDAD IS ONE OF: 09010 09002 14020 08002 09008 09001 17002 19005 
 19007 28021 15008 15011 30102 15000 25011 22001 12001 09007 19003 15009 
 09000 14061 09013 15057 15042 18007 
THEN 
 NODE : 84 
 N : 10 
 1 : 50.0% 
 0 : 50.0% 
 
La interpretación de esta regla es la siguiente, si el cluster número 4 tiene un valor 
menor a -1.32277 y así mismo el cluster número 3 es tiene un valor de cluster mayor 
igual a -1.1990 y la oficina donde se tramito la póliza está entre 126, 8, 267, 83, 64, 
19, 405, 100, 66, 81, 265, 20, 12, 63, 272, 114, 290, 286 y la entidad federativa esta 
entre 09010, 09002, 14020, 08002, 09008, 09001, 17002, 19005, 19007, 28021, 15008, 
73 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
15011, 30102, 15000, 25011, 22001, 12001, 09007, 19003, 15009, 09000, 14061, 09013, 
15057, 15042, 18007, entonces la probabilidad de que el caso a clasificar sea fraude es 
de 0.5 y de que no lo sea es de 0.5. El número de casos clasificados en este nodo es de 
N=10. Recordemos que las variables Cluster, fueron variables generadas durante el 
proceso de generación del modelo. 
 
Caso3. Clasificación de casos donde es muy probable el fraude 
 
IF Imputed MARCA_CORTA1 IS NOT MISSING 
AND C_PERSONAS_FISICAS IS ONE OF: 3 1 
AND Imputed OFICINA1_ IS ONE OF: 9 262 266 264 
AND ENTIDAD IS ONE OF: 12006 09014 19005 05008 09003 25005 15008 09007 
 09016 
AND status_siniestro_ EQUALS 3 
AND Imputed MODELO_EN_REP IS NOT MISSING 
AND Clus4 < 0.1327080863 
THEN 
 NODE : 296 
 N : 17 
 1 : 88.2% 
 0 : 11.8% 
 
La traducción de esta última regla es la siguiente, si la marca del auto no es un valor 
nulo y las personas físicas tienen el valor de 3 o 1 de acuerdo a un catálogo definido y 
la oficina está entre 9, 262, 266, 264 y la entidad está entre 12006, 09014, 19005, 
05008, 09003, 25005, 15008, 09007, 09016, el estatus del siniestro es igual a 3 de 
acuerdo a un catálogo definido y el valor de la variable cluster es 0.1327, entonces la 
probabilidad de fraude es 0.882 y la probabilidad de no fraude es 0.118. 
 
El conjunto total de reglas generadas se encuentran en el Anexo 4. 
 
Herramientas alternas para el desarrollo de modelado predictivo 
 
SAS no es la única tecnología que nos permite desarrollar análisis de minería de datos 
y para efectos de responder a preguntas de negocio es importante mencionar 
herramientas alternas que al igual que SAS ayudan en el hallazgo de nuevos patrones 
de comportamiento explotando y analizando grandes volúmenes de información 
utilizando árboles de decisión y otros algoritmos similares o iguales a los incluidos en 
SAS. 
 
Algunas de las herramientas alternas que podrían ser consideradas para dichos efectos 
son SPSS, R, Rapid Miner y algunas aplicaciones menos conocidas pero no por ello 
menos capaces de hacer lo mismo que SAS Enterprise Miner. Alguna de las razones que 
motiven la búsqueda de soluciones alternas en SAS es la difícil accesibilidad a tal 
tecnología por el elevado costo que tiene y/o los esquemas de licenciamiento que 
dificultan su adquisición. 
 
74 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 SPSS. Se considera como una herramienta igualmente sofisticada que SAS, con 
algunas capacidades menores, sin embargo es pensada para grandes empresas 
que deseen complementar diversas necesidades tanto de análisis predictivo 
como reportes y tableros dinámicos para tener acceso oportuno a la 
información y a la toma de decisiones. Gráficamente es una herramienta 
similar a SAS Enterprise Miner. La construcción de los modelos se realiza a 
través de flujos de trabajo donde se invocan objetos que a su vez contienen 
procesos que desarrollan los análisis especificados en cada nodo del flujo. 
 
 R. Es una herramienta económicamente accesible ya que es gratuita, por ello 
su mención en diversos documentos de investigación y universidades donde es 
requerido para efectos experimentales y conocer cómo es que funcionan los 
algoritmos predictivos. R no es una herramienta gráficamente atractiva para los 
usuarios pero cumple con lo elemental para responder las preguntas de negocio 
pertinentes a través de rutinas preestablecidas llamadas librerías. 
 
 Rapid Miner. Al igual que R es una herramienta de acceso gratuito que permite 
desarrollar modelos de minería de datos además de tener capacidades de 
integración de datos lo que la hace una herramienta aún más robusta y 
competente. Gráficamente es más atractiva que R, dada la interaccióncon 
gráficos dinámicos y uso de flujos de trabajo para desarrollo de modelos 
predictivos competitivos y similares a los que SAS tiene. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
75 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Conclusiones	
 
 
Como parte de las conclusiones se han separado dos tipos de conclusiones vistas desde 
distintas perspectivas: 
 
 Las conclusiones referentes al caso de investigación en particular. Aquí se 
mostrarán los beneficios tangibles o económicos que tendrá la aseguradora de 
autos una vez implementada una solución de inteligencia analítica que le 
permita detectar y prevenir fraude de aquellos reclamos sospechosos y no 
sospechosos a través de minería de datos y no sólo basados en la experiencia 
de negocio. Se observarán los beneficios económicos a través del caso de 
negocio 
 
 Por otro lado se determinarán las conclusiones a nivel técnico, en donde se 
explicará cómo los árboles de decisiones, vistos como una técnica de minería 
de datos que forma a su vez parte de alguna de las soluciones de inteligencia 
analítica que brinda SAS, aportan un gran valor al describir las reglas de 
negocio o patrones desconocidos que hacen referencia al fraude en el reclamo 
de seguros en autos y otros beneficios intangibles. 
Caso de Negocioxi 
 
De acuerdo a un levantamiento de información sobre fraudes por robo ocurridos en 
2010 y para efectos de realizar un análisis comparativo que muestre el retorno de 
inversión de SAS se obtuvo la siguiente matriz de confusión que tendría alguna 
aseguradora estándar en México utilizando sus métodos tradicionales de detección de 
fraude. 
 
 
 
xi Las cifras observadas en el siguiente caso de negocio son estimadas con base al conocimiento y 
experiencia adquirida durante las labores de Preventa y Consultoría de Negocio en SAS dando servicio a 
las principales aseguradoras en México como Qualitas, AXA y GNP a lo largo de 5 años de labor en SAS 
México. 
7
 
 
Aquí 
casos
 
 
 
 
En co
detec
inves
que 
fraud
 
Ahora
siguie
76 Desarro
Oscar C
 se puede ob
s como lo me
Dentro de
negativos
que no s
atendidos
atención 
atención,
casos par
aplicable
 
De los ve
detección
prácticam
permitan 
anormale
 
Respecto 
total de e
de los si
fraudulen
incapaz d
no detect
 
onclusión, p
ctar fraude 
stigadores in
permitan d
dulentos. 
a bien, ana
entes conclu
ollo de árbo
Camarillo Le
bservar que 
encionamos 
e la matriz 
s, de aquí qu
son investig
s y el esfue
de estos c
 esto es, el
ra determin
. 
erdaderos po
n 0.45%, lo c
mente nulo 
 analizar g
es. 
 a los falsos
error de 23.
stemas actu
ntos que son
de detectar.
tados a travé
odemos obs
 por parte 
nstalada es 
desarrollar i
alizando la 
usiones que
oles de decis
al 
 el número 
 anteriorme
de confusió
ue podemos
gados son b
erzo de inv
casos es en 
l número de
nar si ocurre
ositivos pode
cual habla d
de técnica
grandes volú
s positivos y
16% en don
uales de la
n autorizado
. El 14.55% d
és de las téc
servar que e
de las aseg
muy limitad
investigacio
matriz de c
 nos determ
siones usand
de casos an
ente. 
ón es domina
s observar q
bien conocid
vestigación 
 su mayoría
e investigad
e fraude o 
emos observ
e una baja c
as más sofis
úmenes de 
y falsos neg
de nos mue
s asegurado
s (pagados) 
de los casos
cnicas tradic
es muy poca
guradoras m
da y no está
nes eficace
confusión o
minarán un 
do SAS Ente
nalizados en 
ante la part
ue en el 76
dos a ese 
no es hech
a efecto de
dores no pod
no, simplem
var que es m
capacidad d
sticadas de
 informació
gativos obse
estra las deb
oras. 8.61% 
 y la unidad 
s que son fa
cionales de 
a la efectivid
mexicanas, y
á enfocada 
es sobre ca
btenida por
impacto ec
erprise Min
 
 18 meses f
ticipación d
.4% de caso
criterio ya 
ho, sin emb
e la poca c
drían atende
mente el re
muy poca la
de investigac
e minería d
ón y detec
ervamos una
bilidades de 
 son casos 
 de investig
alsos negativ
detección d
dad de los m
ya que la c
en objetivo
asos que re
r SAS, obse
conómico ma
ner 6.1 | 
fue de 75,00
e verdadero
os reclamado
 que no so
bargo la nul
capacidad d
er los 57,29
eclamo no e
a cantidad d
ción y del us
e datos qu
tar patrone
a distribució
 clasificació
de reclamo
ación ha sid
vos son caso
de fraude. 
métodos par
capacidad d
os específico
ealmente so
ervaremos la
ayúsculo qu
00 
os 
os 
on 
la 
de 
90 
es 
de 
so 
ue 
es 
ón 
ón 
os 
do 
os 
ra 
de 
os 
on 
as 
ue 
7
 
justif
fraud
resul
 
 
Dond
consi
 
 
Enton
siguie
 
 
 
 
 
 
77 Desarro
Oscar C
fica la inve
de en robo 
tados señala
e comparar
derando los
Número d
Porcentaj
Número d
nces el reto
ente: 
Verdade
 
% de Aume
Aumento e
Costo por 
Posible Ah
 Falsos p
 
% de Aume
Aumento e
Costo de in
Ahorro en
ollo de árbo
Camarillo Le
rsión en te
 de autos. 
ados a lo lar
remos paso 
s siguientes s
de robos pro
je de siniest
de fraudes r
orno de inve
eros positiv
ento en ident
en Identificac
siniestro con 
horro en Frau
positivos (a
ento en ident
en identificac
nvestigación 
n costos de in
oles de decis
al 
ecnologías q
 La matriz 
rgo de esta t
 a paso los
supuestos de
omedio en 18
tros referen
elativos a fr
ersión por c
vos (rechaz
tificación de f
ción de Sinies
 fraude por ro
ude 
autorizados
tificación de a
ción de sinies
sobre siniestr
nvestigación 
siones usand
ue muestre
de confusi
tesis son los 
 elementos
e negocio: 
8 meses: 750
tes a fraude
raude: 1,125
ada cuadran
zados): 
fraude 
stros 
obo 
s): 
autorizados 
tros 
ros que son ro
 autorizados 
do SAS Ente
en capacida
ión obtenid
 siguientes: 
s de ambas 
00 
e: 15% 
5 
nte de la m
 25.22% 
 284 
 $ 45,000 
 $ 12,767,
obos 
 
erprise Min
des en la d
a con SAS 
 
 matrices d
matriz de co
625 
 2.19
246 
 $ 1,0
 $ 24
ner 6.1 | 
detección d
 y dados lo
de confusión
onfusión es e
9% 
000 
4,637.50 
de 
os 
 
n, 
el 
78 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 
Falsos negativos (no detectados): 
 
% de Aumento en identificación de fraude no detectado 12.21% 
Aumento en identificación de fraude no detectado 1,373 
Costo por siniestro con fraude por robo $ 45,000 
Ahorro en casos de fraude no detectado $ 6,181,312.50 
 
Entonces el beneficio total en 18 meses es de $18,973,575 utilizando las técnicas 
analíticas de minería de datos de SAS; anualmente el beneficio económico es de 
$12,649,050. 
Conclusiones de Negocio 
 
El uso de técnicas de minería de datos en la detección de patrones dentro de cualquier 
industria, son técnicas analíticas que indudablemente dan valor a cada una de las 
necesidades para las cuales sean utilizadas y más aún cuando los resultados se ven 
reflejados con claridad en impactos económicos. Esto lo vimos en el ejercicio del caso 
de negocio para seguros, donde todos los sustentos técnicos de minería de datos se 
materializan en un retorno de inversión significativo que en muchas de las 
organizaciones justifica la inversión sobre herramientas de minería de datos como lo 
es SAS. Seguramente las técnicas de minería de datos no permiten generalizar los 
conceptos y las conclusiones aquí mencionadas, sin embargo son una buena técnica 
que permite dar mejores resultados a las iniciativas de negocio que se tengan en la 
organización dando sustento analítico. 
 
La transformación de los datos en información y esto en conocimiento para 
capitalizarse en inteligencia es sin duda parte de la cadena de valor que otorga SAS en 
la toma de decisiones el entendimiento de negocio. En el ámbito técnico queda 
demostrado que pese a diversas técnicas de modelado analítico (no incluidas en esta 
tesis), una de las más transparentes, entendibles y simples es la basada en algoritmos 
de árboles de decisión, ya que el fundamento técnico está justificado en cualquiera de 
sus tres técnicas departicionamiento (Gini, entropía, ji cuadrada). La concepción 
estadística es fácil de seguir y esto facilita el uso de una herramienta de este tipo en 
organizaciones que no necesariamente estén orientadas a la investigación, 
organizaciones donde la toma de decisiones es fundamental en el día a día. 
 
Un beneficio no menos importante, si no es que el más destacable es el de tener a 
través de los árboles de decisión reglas de negocio que permitan identificar cuáles son 
los factores que influyen en un patrón de fraude para robo en autos. Como se observó, 
los árboles a diferencia de cualquier otra técnica son fáciles de interpretar y generar 
reglas que determinarán e identificarán de manera sencilla los comportamientos 
buscados. 
 
Todo este trabajo de detección de fraude en autos será adquirido una vez que las 
organizaciones terminen de entender la importancia de los datos, su almacenamiento. 
Asimilar lo que ocurre en nuestra organización y tener a las personas adecuadas, con 
perfiles analíticos son pilares esenciales en el éxito de la implementación de 
soluciones de este tipo. El hacer uso en mayor medida de los paradigmas tecnológicos 
79 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
nos permitirán abrir horizontes donde la inteligencia analíticas tiene mucho que 
agregar. 
 
En México el uso de tecnologías que permitan agregar valor en distintas áreas de las 
organizaciones detectando fraude dentro de aseguradoras (por mencionar alguna 
industria); permitirá tener resultados tangibles e intangibles que se verán impactados 
en mejores servicios para los clientes, cumplimiento ante la a AMIS (Asociación 
Mexicana de Instituciones de Seguros), conocimiento de clientes, reducción de 
fraudes, sanidad en las finanzas de la organización, reducción en el índice de 
criminalidad y credibilidad ante autoridades y clientes. 
 
Así, esta tesis por un lado cumplió con el objetivo de probar lo accesible que es 
traducir conceptos analíticos a problemas reales de negocio, mostrando que el 
lenguaje estadístico no es exclusivo de investigadores y matemáticos; éste podría ser 
interpretado con herramientas analíticas como las proporcionadas por SAS, a través de 
la herramienta de Minería de Datos SAS Enterprise Miner. Y por otro lado mostrar los 
beneficios del uso de SAS Enterprise Miner sobre casos de negocio reales en los que se 
observa cuáles son los beneficios económicos y otros tantos intangibles como la 
reducción de tiempo en investigación, la mejor en operación, entre otras, esperando 
así que no sólo las instituciones en la industria de seguros en nuestro país enfoquen su 
capital humano e inversiones económicas en tecnologías como las ofertadas por SAS 
para la mejora de sus proceso dentro de cada una de las áreas de negocio de las 
organizaciones tanto privadas como públicas. Las áreas de oportunidad en las 
organizaciones son muchas y las soluciones que ofrece la inteligencia analítica a través 
del desarrollo de propuestas de minería son igualmente mayúsculas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
80 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
Anexo	1	
 
El resultado del análisis exploratorio se muestra a continuación. 
 
Descripción: Las siguientes tablas muestran los estadísticos descriptivos básicos de las 
variables de entrada con el objetivo de conocer su naturaleza y entender que 
transformaciones o técnicas de preparación de datos deberán ser aplicadas. 
 
Estadísticos descriptivos de variables de clase: 
                                                                                                
Rol de                                       Número                                                                   
 los                                           de                                 Porcentaje                    
Porcentaje                         
datos     Variable Name            Rol      niveles    Ausente        Moda           moda           
Moda          Moda2                            
                                                                                                                       
TRAIN     CCVE_COBER              INPUT         7          0                 6      81.63                  
5       7.47                            
TRAIN     COBERTURA1              INPUT        13          1      ROBO TOTAL        93.78       
RESP.CIVIL         3.29                            
TRAIN     CTIPO_PERSONA           INPUT         4          0                 1      42.56                  
3      25.91                            
TRAIN     CVE_COBER1_             INPUT        22         18                21      42.94                 
12      13.02                            
TRAIN     C_PERSONAS_FISICAS      INPUT         4          0                 0      47.39                  
1      25.68                            
TRAIN     C_PERSONAS_MORALES      INPUT         4          0                 0      65.95                  
1      16.89                            
TRAIN     DESC_USO1               INPUT        27        407      NORMAL            50.73       
CARGA             26.20                            
TRAIN     DESTIPO1_               INPUT        34         19               105      23.87                
100      23.78                            
TRAIN     ENTIDAD                 INPUT       510          0      15005              4.73       
08002              3.58                            
TRAIN     EVENTOS_MAYOR_A_TRES    INPUT         2          0                 0      76.96                  
1      23.04                            
TRAIN     MARCA_CORTA1            INPUT        54         20      NN                24.69       VW                 
9.41                            
TRAIN     MODELO1_                INPUT        44         24              2008      20.80               
2007      15.54                            
TRAIN     MODELO_EN_REP           INPUT        44          1      2008              20.80       
2007              15.63                            
TRAIN     OFICINA1_               INPUT       163         19                 7      13.21                 
78       4.59                            
TRAIN     OFIC__AJU_              INPUT        72          1                 7      39.78                 
64       5.97                            
TRAIN     Politica2               INPUT         3          0                 0      91.63                  
1       8.11                            
TRAIN     Politica3               INPUT         2          0                 0      99.74                  
2       0.26                            
TRAIN     TIPO_COBERTURA1_        INPUT        19        774                 1      63.57                  
.      11.27                            
TRAIN     TIPO_PERSONA1_          INPUT         3        917                 1      52.61                  
2      34.04                            
TRAIN     USO1_                   INPUT        31         20                 1      50.77                  
6      26.38                            
TRAIN     servicio1_              INPUT        10         28                 1      75.50                  
3      13.60                            
TRAIN     status_siniestro_       INPUT         3          0                 3      88.58                  
2      10.94                            
81 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
TRAIN     target1                 TARGET        2          0                 0      95.47                  
1       4.53                            
                                                                                                                       
 
Estadísticos descriptivos de variables de clase:Desviación          No                                                 
Variable                  ROLE        Media      tÃ‐pica       ausente     Ausente      MÃ‐nimo     
Mediana      Máximo    AsimetrÃ‐a    Curtosis 
                                                                                                                       
DIFERENTES_FEC_EMISION    INPUT    1.984853     1.239224         6866           0           0           
2           5    1.077061     0.054015     
DIFERENTES_FEC_FIN        INPUT    1.530731     0.721132         6866           0           0           
1           5    1.193385     1.088043     
DIFERENTES_FEC_INI        INPUT    1.530585     0.720734         6866           0           0           
1           5    1.191344     1.080475     
DIF_FINVIG_OCURRIDO       INPUT    284.1564     289.0224         6848          18       ‐3086         
236        1824    1.759353     10.94374     
DIF_FINVIG_REPORTE        INPUT    280.2093     290.2584         6848          18       ‐3086         
233        1823    1.711683     10.79826     
DIF_OCURRIDO_INIVIG       INPUT    185.1308     186.6127         6848          18        ‐806         
144        3451     3.25547     31.66965     
DIF_REPORTE_EMISION       INPUT    182.1944     186.9786         6848          18        ‐449         
138        3451    3.336685     31.52179     
Politica1                 INPUT    0.188902     0.398101         6866           0           0           
0           2    1.713941     1.332019     
SUMA_ASEG1_               INPUT    208352.3     482569.5         6762         104    ‐6322000        
8560    10935000    4.425657      79.0372     
SUMA_ASEG_TOTAL           INPUT     2026237      1319056         6866           0           0     
1848217    28639880    3.683388      47.3318     
TIPO_PERSONA2_            INPUT    1.389164     0.487641         3027        3839           1           
1           2     0.45488     ‐1.79427     
tipo_suma1_               INPUT    1.411747     1.124556         6793          73           0           
1           7    3.426023     11.14272     
                                                                                                                       
                                                                                                                     
Anexo	2	
Enseguida se muestran los resultados de la ejecución de la creación de variables a 
través de clustering, donde se muestran los tres cluster generados (y las variables que 
las contienen), que al mismo tiempo son tomados como variables de entrada para el 
modelo de árboles de decisión. 
                                                                                                                       
                     Cluster Summary for 3 Clusters                                                                    
                                                                                                                       
                        Cluster    Variation    Proportion        Second                                               
Cluster    Members    Variation    Explained     Explained    Eigenvalue                                               
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐                                               
      1          4            4     2.627041        0.6568        0.9921                                               
      2          3            3     2.302402        0.7675        0.6914                                               
      3          4            4      2.28247        0.5706        0.9993                                               
                                                                                                                       
Total variation explained = 7.211913 Proportion = 0.6556                                                               
                                                                                                                       
                                                                                                                       
                                           R‐squared with                                                              
3 Clusters                               ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐                                                            
                                             Own       Next    1‐R**2    Variable                                      
Cluster       Variable                   Cluster    Closest     Ratio    Label                                         
82 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
‐‐‐‐‐‐‐                   
Cluster 1     DIFERENTES_FEC_EMISION      0.7236     0.0300    0.2849                                                  
              DIFERENTES_FEC_FIN          0.9453     0.0286    0.0563                                                  
              DIFERENTES_FEC_INI          0.9454     0.0285    0.0562                                                  
              LOG_IMP_SUMA_ASEG1_         0.0127     0.0024    0.9896    Transformed: Imputed 
SUMA_ASEG1_                   
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
‐‐‐‐‐‐‐                   
Cluster 2     IMP_DIF_FINVIG_OCURRIDO     0.9313     0.0037    0.0689    Imputed 
DIF_FINVIG_OCURRIDO                        
              IMP_DIF_FINVIG_REPORTE      0.9300     0.0037    0.0703    Imputed 
DIF_FINVIG_REPORTE                         
              IMP_tipo_suma1_             0.4411     0.0548    0.5913    Imputed tipo_suma1_                           
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
‐‐‐‐‐‐‐                   
Cluster 3     IMP_DIF_OCURRIDO_INIVIG     0.9106     0.0275    0.0919    Imputed 
DIF_OCURRIDO_INIVIG                        
              IMP_DIF_REPORTE_EMISION     0.8936     0.0394    0.1108    Imputed 
DIF_REPORTE_EMISION                        
              LOG_SUMA_ASEG_TOTAL         0.0317     0.0096    0.9777    Transformed 
SUMA_ASEG_TOTAL                        
              Politica1                   0.4466     0.0068    0.5572                                                  
                                                                                                                       
                                                                                                                       
Anexo	3	
 
La comparación de modelos se muestra a continuación haciendo referencia los 
resultados de los modelos de árbol de decisión que se desarrollaron. 
 
Selección del modelo con base en la tasa de mal clasificados.  
                                                                                                
EstadÃ‐sticos de ajuste                                                                         
Selección de modelo basada en Validación: Ã ndice de clasificación errónea (_VMISC_)        
                                                                                                
                                                            Validación:                        
                                                             Ã ndice de                         
   Modelo       Nodo del                                   clasificación                       
seleccionado     modelo     Descripción del modelo            errónea                         
                                                                                                
     Y           Tree2      Algoritmo de EntropÃ‐a             0.08758                          
                 Tree       Algoritmo de GINI                 0.10318Tree3      Algoritmo de Prob. Ji Sqrt.       0.15477                           
                                                                                                
                  Entrenamiento:     Validación:                                               
Entrenamiento:       Ã ndice de          Error                                                  
Error cuadrado     clasificación    cuadrado del                                               
 del promedio         errónea         promedio                                                 
                                                                                                
   0.037046           0.04861          0.07610                                                  
   0.050108           0.06404          0.08975                                                  
   0.086306           0.11934          0.11776                                                  
                                                                                                
La siguiente tabla muestra la tasa de mal clasificados (_VMISC_) utilizando los tres 
algoritmos mencionados; con esta tabla se forman las matrices de confusión antes 
mencionadas. Observar que el modelo es seleccionado en validación y no en 
entrenamiento.                                                                          
83 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
                                                                                                                  
Tabla de evento de clasificación                                                               
Selección de modelo basada en Validación: Ã ndice de clasificación errónea (_VMISC_)        
                                                                                                
                                     Rol de                                                     
Nodo del                             los                 Falso  Verdadero   Falso  Verdadero    
 modelo  Descripción del modelo      datos    Objetivo negativo  negativo positivo  positivo   
                                                                                                
 Tree    Algoritmo de GINI           TRAIN    target1     83       2634      166      1005      
 Tree    Algoritmo de GINI           VALIDATE target1     67       1095      105       400      
 Tree2   Algoritmo de EntropÃ‐a       TRAIN    target1     51       2662      138      1037     
 Tree2   Algoritmo de EntropÃ‐a       VALIDATE target1     39       1093      107       428     
 Tree3   Algoritmo de Prob. Ji Sqrt. TRAIN    target1     97       2433      367       991      
 Tree3   Algoritmo de Prob. Ji Sqrt. VALIDATE target1     78       1020      180       389      
 
 
 
 
 
 
Bibliografía	
 
 Jim Geroges. Applied Analytics Using SAS Enterprise Miner 6.1 
Course Notes. SAS Notes, North Carolina US, 2009. 
 Patricia B. Cerrito. Introduction to Data Mining Using SAS Enterprise 
Miner. SAS Press Series, North Carolina US, 2006. 
 Randall S. Collica. CRM Segmentation and Clustering Using SAS 
Enterprise Miner. SAS Press Series, North Carolina US, 2007 
 Douglas C. Montgomery. Probabilidad y estadística aplicada a la 
Ingeniería. Prentice Hall Hispanoamericana, México, 1998 
 Katamury S. Sarma. Predictive Modeling with SAS Enterprise Miner, 
Practical solution for Business Applications. SAS Press Series, North 
Carolina US, 2007. 
 Barry de Ville. Decision Tree for Business Intelligence and Data 
Mining. SAS Press Series, North Carolina US, 2006. 
 Gordon S. Linoff. Data Mining Techniques for Marketing, Sales and 
Customer Relationship Management. Ed. Wiley, Indianapolis US, 2004. 
 Daniel T. Larose, Discovering Knowledge in Data. Ed. Wiley, New Jersy 
US, 2005. 
 Ed. Thomas A. Stewart. Revista Harvard Bussines Review. Decision 
Making: Better, Faster, Smarter. Volumen 84, Número 1, USA, 2006. 
 Cesar Perez. Data Mining, Soluciones con Enterprise Miner. Ed. RA-
MA, México, 2006. 
84 Desarrollo de árboles de decisiones usando SAS Enterprise Miner 6.1 | 
Oscar Camarillo Leal 
 
 http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-train-
decision-tree.htm 
 http://journal.r-project.org/archive/2010-1/RJournal_2010-
1_Guenther+Fritsch.pdf 
 
	Portada
	Índice
	Objetivo Hipótesis
	Introducción
	Capítulo I. ¿Qué es Minería de Datos y Para qué Sirve?
	Capítulo II. Árboles de Decisión y Redes Neuronales Como Modelos Predictivos
	Capítulo III. Algoritmos de Árboles de Decisión
	Capítulo IV. Desarrollo de caso Práctico
	Conclusiones
	Anexos
	Bibliografía