Logo Studenta

CRLS-TGJL-Practica16-ClasificacionMult-ADyBA

¡Este material tiene más páginas!

Vista previa del material en texto

Universidad Nacional Autónoma de México
Facultad de Ingeniería
Minería de Datos
Grupo: 03 - Semestre: 2023-2
Práctica 16:
Clasificación Múltiple - Árboles de decisión y Bosques
Aleatorios
Fecha de entrega: 25/05/2023
Profesor:
Dr. Guillermo Gilberto Molero Castillo
Alumnos:
Cruz Rangel Leonardo Said
Téllez González Jorge Luis
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Introducción
La clasi�cación es una técnica utilizada en el aprendizaje automático (ML, por sus siglas en
inglés) para asignar una etiqueta o categoría a un objeto según sus atributos (variables
discretas o nominales). Los árboles de decisión y los bosques aleatorios son dos métodos
populares para realizar la clasi�cación.
Figura 1. Ejemplo del funcionamiento de un modelo de clasi�cación.
Los árboles de decisión son modelos de aprendizaje automático supervisado que imitan el
proceso de toma de decisiones humano. Estos modelos se basan en una estructura jerárquica
de nodos, donde cada nodo representa una variable y las ramas representan los diferentes
valores que dicha variable puede tomar. Los árboles dividen iterativamente los datos en
función de las variables hasta llegar a las hojas del árbol, las cuales contienen las etiquetas o
categorías asignadas a los objetos que cumplen las condiciones de las pruebas en el camino
desde la raíz hasta el nodo hoja,
Una forma sencilla de comprender los árboles de decisión es pensar en ellos como una serie
de condicionales anidados (if-else). En cada nodo, se toma una decisión basada en los datos
y se sigue por la rama correspondiente hasta llegar a una hoja.
Los árboles de decisión tienen ventajas notables en términos de interpretabilidad y
capacidad para manejar diferentes tipos de variables, como numéricas y categóricas.
Figura 2. Representación de un árbol de decisión.
2
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Los bosques aleatorios, por otro lado, son conjuntos de árboles de decisión. En lugar de
utilizar un solo árbol, los bosques aleatorios generan múltiples árboles de decisión y
combinan sus resultados para realizar la clasi�cación. Cada árbol en el bosque se entrena
con una muestra aleatoria de datos de entrenamiento y utilizando una selección aleatoria de
atributos. La combinación de las clasi�caciones individuales de los árboles en el bosque,
produce la clasi�cación �nal.
El uso de un bosque aleatorio proporciona una mayor precisión en la clasi�cación en
comparación con un solo árbol de decisión. Además, reduce el impacto de los posibles
errores individuales de cada árbol, lo que mejora la robustez y generalización del modelo.
Figura 3. Representación de un bosque aleatorio.
En esta práctica, se proporcionará una introducción básica al uso de árboles de decisión y
bosques aleatorios para llevar a cabo la clasi�cación múltiple. Se utilizará un conjunto de
datos que incluye diferentes condiciones meteorológicas, como precipitation, temp_max,
temp_min y wind (velocidad del viento). El objetivo es clasi�car el tipo de clima, que puede
ser drizzle, rain, sun, snow o fog.
Figura 4. Fuente de los datos.
3
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Desarrollo
A continuación se describen los pasos que se siguieron para hacer el proceso de clasi�cación
múltiple, primero usando Árboles de decisión y posteriormente empleando Bosques
aleatorios.
Paso 0. Importación de bibliotecas y Preparación de los datos
Se descarga el dataset desde https://www.kaggle.com/datasets/ananthr1/weather-prediction
y se carga para su manipulación usando read_csv de pandas.
Luego se procede a analizar el estado de los datos para determinar si están balanceados o no,
ya que esto tendrá una fuerte in�uencia en los resultados de la clasi�cación. Un conjunto de
datos desbalanceado implica que algunas clases aparecen con mayor frecuencia que otras. Si
4
https://www.kaggle.com/datasets/ananthr1/weather-prediction
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
se entrena un modelo de clasi�cación con un conjunto de datos desbalanceado, es natural
que la precisión sea mejor para las variables con mayor presencia, mientras que la precisión
para las variables menos frecuentes será considerablemente menor.
Para evaluar el equilibrio del conjunto de datos, se presenta en pantalla la frecuencia de
aparición de cada tipo de clima. Además de los valores numéricos, se proporciona un grá�co
de barras que permite visualizar de manera más intuitiva el desequilibrio presente en el
conjunto de datos. De esta manera, se brinda una representación grá�ca que complementa
la información numérica.
Se evidencia un desequilibrio signi�cativo en el conjunto de datos, donde los tipos de clima
'rain' y 'sun' dominan abrumadoramente. Como resultado, se anticipa que el modelo de
clasi�cación tendrá una precisión más alta al determinar si el clima es lluvioso o soleado, en
comparación con los demás tipos de clima.
5
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Posteriormente se realiza un heatmap para veri�car si existen correlaciones entre pares de
variables, en caso a�rmativo, queda a decisión realizar o no un análisis de componentes
principales para quedarnos solo con las variables más representativas.
En este caso se observan altas correlaciones, pero por la cantidad de variables y por la propia
naturaleza del dataset no resulta signi�cativo hacer una reducción de la dimensionalidad.
Luego, se veri�ca la calidad de los datos a través de la veri�cación de datos nulos
Afortunadamente no hay datos nulos en el dataset, por lo que no hay necesidad de
eliminarlos o realizar algún proceso adicional para manejarlos.
Seguidamente, se procede a de�nir las variables predictoras y la variable objetivo. Como se
mencionó anteriormente, el objetivo de esta práctica es predecir el tipo de clima basándose
en algunas mediciones del tiempo, las cuales incluyen precipitation, temp_max, temp_min
6
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
y wind (velocidad del viento). Estas variables predictoras se utilizarán para entrenar el
modelo de clasi�cación, mientras que la variable objetivo será la etiqueta o categoría del tipo
de clima que se desea predecir.
Como último paso en este proceso de preparación, se dividen los datos originales en dos
conjuntos siguiendo una regla ‘80/20’ donde el 80% de los datos se utilizan para
entrenamiento y el 20% restante son utilizados para veri�car el rendimiento del modelo.
Una vez �nalizada la preparación de los datos, ahora sí, se pueden crear los modelos para
clasi�cación.
7
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Modelo 1: Árbol de Decisión
Paso 1. Creación del modelo, Selección de Parámetros y Entrenamiento del modelo.
Uno de los mayores problemas al crear modelos usando árboles de decisión es la de�nición
de parámetros, pues generalmente se establecen a través de un proceso de prueba y error, en
donde mantenemos aquellos que tengan el mejor rendimiento y que, al mismo tiempo,
garanticen que no exista un sobreajuste.
Una solución a este problema es utilizar la optimización bayesiana, que en pocas palabras,
itera entre un espacio de parámetros previamente de�nido y selecciona aquellos parámetros
que mantienen un equilibrio óptimo entre la precisión del modelo y su capacidad de
generalización.
La optimización bayesiana nos arroja los siguientesparámetros como los ‘mejores’:
8
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Paso 2. Clasi�cación y rendimiento del modelo
Con el modelo óptimo se hace la clasi�cación �nal, con la que se hará la validación del
modelo:
Seguidamente se hace una comparación preliminar entre las clasi�caciones originales y las
que el modelo arroja:
Debido al desequilibrio en el conjunto de datos, se anticipaba en la etapa de preparación
que el modelo no tendría un rendimiento destacado, especialmente en la predicción de los
tipos de clima menos frecuentes. Sin embargo, la bondad de ajuste del modelo muestra una
efectividad del 82.91%, este alto valor se debe en su mayor parte a la precisión que
9
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
demuestra el modelo para clasi�car el tipo de clima soleado (‘sun’) y lluvioso (‘rain’), que
casualmente son los tipos que aparecen con mayor frecuencia en el dataset.
Una forma adicional de validar el modelo es observar las veces en las que clasi�có
correctamente a través de una matriz de clasi�cación.
Esto con�rma las sospechas anteriores, de que el modelo tuvo una mayor precisión en la
clasi�cación de los tipos de clima 'sun' y 'rain', mientras que su desempeño fue de�ciente en
los demás tipos de clima.
Con un reporte más detallado incluso se puede ver el porcentaje de precisión y recall que
tuvo el modelo para predecir cada clase.
10
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
En este reporte, la precisión (precision) es una medida de la exactitud de las predicciones
positivas (correctas) realizadas por el modelo. Una alta precisión indica que hay menos
falsos positivos y que el modelo es bueno en la clasi�cación de la clase especí�ca.
Por otra parte, la sensibilidad (recall) es una medida de la capacidad del modelo para
identi�car correctamente los ejemplos positivos. Un alto recall indica que hay menos falsos
negativos y que el modelo es bueno para capturar la mayoría de los ejemplos de la clase
objetivo.
Paso 3. Variables más importantes para el modelo de clasi�cación.
Este paso es de importancia porque permite obtener información valiosa para interpretar el
modelo, tomar decisiones, simpli�carlo, optimizar su rendimiento y aumentar la con�anza
en las predicciones realizadas.
Al mostrar las variables más relevantes, es posible obtener insights sobre qué factores son
más in�uyentes en la clasi�cación y qué aspectos del problema son más relevantes para tener
en cuenta, además de que permite concentrarse en las variables clave y descartar las que
tienen un impacto menor.
En este caso, se observa que hay dos variables que son las que más impacto tienen en el
modelo: precipitation y temp_max, con 66.6% y 27.4% de relevancia respectivamente. Por
otro lado la velocidad del viento (wind) y temp_min son las que menos aportan, pero esto
no quiere decir que no afecten de manera signi�cativa el modelo, pues cualquier pequeño
detalle es de importancia.
Paso 4. Estructura del árbol y reglas de decisión.
A continuación se muestra una representación grá�ca del árbol de clasi�cación y sus reglas:
11
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Tener esta información puede ser de ayuda para identi�car si el árbol está sobre ajustado.
12
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Modelo 2: Bosques Aleatorios
Paso 1. Creación del modelo, Selección de parámetros y Entrenamiento
El bosque se creó con un total de 105 árboles de decisión (n_estimators), los cuales tienen
exactamente los mismos parámetros que arrojó la optimización bayesiana, esto para que
nuestro bosque estuviera poblado por árboles de decisión que tuvieran los mejores
parámetros, es decir, aquellos que mantienen un equilibrio entre el rendimiento y la
generalización de cada árbol de forma individual.
El entrenamiento, como ya se estableció se hace con el 80% de los datos originales.
Paso 2. Clasi�cación y rendimiento del modelo
Con el modelo creado y entrenado se procede a hacer la validación con los respectivos datos
destinados para este propósito:
Y se obtiene una comparación preliminar entre las clasi�caciones originales y las que el
modelo arroja:
13
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Nuevamente, se observa que el modelo es más preciso al clasi�car los tipos ‘sun’ y ‘rain’,
pero veamos qué arroja la bondad de ajuste y el reporte detallado.
Como era de esperarse la bondad de ajuste es mejor a comparación del árbol de decisión
individual, sin embargo, la mejora no es mucha.
Por otro lado, el reporte detallado muestra una mejora en la precisión y recall para ‘rain’ y
‘sun’, mientras que para las demás variables prácticamente la precisión es del 0%, aquí no se
sabe por qué aparece una precisión de 100% para ‘fog’ y ‘snow’ si en la matriz de
clasi�cación que se muestra a continuación se observa claramente como prácticamente
ningún caso fue acerado de entre los pocos que hubo.
Conclusiones
Al comparar el rendimiento entre el árbol de decisión y el bosque aleatorio en esta tarea de
clasi�cación del clima, se evidencia una mejora signi�cativa por parte del bosque aleatorio.
14
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
En términos de precisión y capacidad de generalización, el bosque aleatorio supera al árbol
de decisión. Esto se debe a que el bosque aleatorio combina múltiples árboles de decisión, lo
que permite reducir el sesgo y la varianza inherentes a un solo árbol. Al promediar las
predicciones de varios árboles, se obtiene un modelo más robusto y preciso.
Además, supuestamente el bosque aleatorio también puede manejar conjuntos de datos
desbalanceados de manera más efectiva y se usa el término ‘supuestamente’ porque al usar
bosques aleatorios para la clasi�cación, prácticamente convirtió el modelo en un clasi�cador
binario, pues descartó las clases menos frecuentes y le dió más prioridad a la clasi�cación de
‘sun’ y ‘rain’.
El Bosque aleatorio solo mejora aproximadamente un 2% la efectividad del Árbol de
decisión, una mejora poco signi�cativa, pero que demuestra que los bosques aleatorios casi
por de�nición tendrán mejor rendimiento que al usar un solo árbol de decisión.
Esta diferencia del 2% es más apreciable si se comparan sus curvas ROC y AUC:
Curva AUROC para el Árbol de Decisión.
15
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
Curva AUROC para el Bosque Aleatorio.
Aquí es más apreciable cómo es que el modelo de clasi�cación por Bosques Aleatorios
prioriza la clasi�cación de las variables más frecuentes en el dataset y empeoró la
clasi�cación de las variables menos frecuentes
Cruz Rangel Leonardo Said:
Los modelos de clasi�cación múltiple son de gran importancia en el procesamiento y
análisis de datos en diversas áreas. Permiten organizar, categorizar y comprender grandes
volúmenes de información, automatizar tareas, personalizar recomendaciones, facilitar la
toma de decisiones basada en datos, etc.
En esta práctica se usaron los árboles de decisión y los bosques aleatorios para predecir el
tipo de clima a partir de mediciones del tiempo, durante el proceso se reforzaron conceptos
sobre árboles de decisión y bosques aleatorios, pero la parte más importante fue la
optimización bayesiana para la obtención de los mejores parámetrosque generan el árbol de
decisión óptimo sin necesidad de estar adivinando manualmente qué parámetros serían los
mejores para evitar el sobreajuste y maximizar el rendimiento.
Téllez González Jorge Luis:
En conclusión, la utilización de árboles de decisión y bosques aleatorios para predecir el tipo
de clima a partir de mediciones del tiempo ha demostrado ser una estrategia efectiva y
prometedora. Estos modelos son capaces de capturar relaciones no lineales entre las
16
Facultad de Ingeniería Minería de Datos_____________________________________________________________________________________________________________
variables meteorológicas y las categorías climáticas, lo que los hace adecuados para este tipo
de problemas.
La minería de datos aplicada en esta práctica ha permitido extraer información valiosa de las
mediciones del tiempo y utilizarla para predecir el tipo de clima. Estos modelos podrían
tener aplicaciones prácticas en la predicción meteorológica, ayudando a los pronosticadores
a mejorar la precisión y con�abilidad de sus predicciones.
Sin embargo, es importante destacar que los resultados de estos modelos de clasi�cación no
son perfectos y están sujetos a ciertos desafíos y limitaciones. La calidad de los datos
utilizados, la selección adecuada de variables relevantes y la gestión de desequilibrios en las
clases son aspectos críticos a tener en cuenta.
Referencias
Árboles de Decisión. (n.d.). Medium. RetrievedMay 23, 2023, from
https://medium.com/@alexdianro/%C3%A1rboles-de-decisi%C3%B3n-960aebd7ee
da
Bosques aleatorios y ejemplos. editores | by Alexdianro. (2020, September 12). Medium.
RetrievedMay 23, 2023, from
https://medium.com/@alexdianro/bosques-aleatorios-y-ejemplos-a850a2a35320
Martinez, J. (2020, September 18).Random Forest (Bosque Aleatorio): combinando árboles.
IArti�cial.net. RetrievedMay 23, 2023, from
https://www.iarti�cial.net/random-forest-bosque-aleatorio/
17

Continuar navegando