Arboles de regresion

Arboles de regresion

Árboles de regresión aditiva múltiple

Los árboles de regresión básicos dividen un conjunto de datos en grupos más pequeños y luego ajustan un modelo simple (constante) para cada subgrupo. Desgraciadamente, un modelo de árbol simple tiende a ser muy inestable y un mal predictor. Sin embargo, mediante la agregación de bootstrap (bagging) de los árboles de regresión, esta técnica puede llegar a ser bastante potente y eficaz. Además, esto proporciona la base fundamental de modelos más complejos basados en árboles, como los bosques aleatorios y las máquinas de refuerzo de gradiente. Este tutorial le permitirá iniciarse en el uso de los árboles de regresión y el ensacado.

Hay muchas metodologías para construir árboles de regresión, pero una de las más antiguas se conoce como el enfoque de árbol de clasificación y regresión (CART) desarrollado por Breiman et al. (1984). Este tutorial se centra en la parte de regresión de CART. Los árboles de regresión básicos dividen un conjunto de datos en subgrupos más pequeños y luego ajustan una constante simple para cada observación del subgrupo. La partición se consigue mediante sucesivas particiones binarias (también conocidas como particiones recursivas) basadas en los diferentes predictores. La constante a predecir se basa en los valores medios de respuesta de todas las observaciones que entran en ese subgrupo.

  Arboles resistentes al frio y calor

Cómo se utiliza el mse en los árboles de regresión

Utilice este componente para crear un conjunto de árboles de regresión utilizando el refuerzo. Boosting significa que cada árbol depende de los árboles anteriores. El algoritmo aprende ajustando el residuo de los árboles que le preceden. Por lo tanto, el refuerzo en un conjunto de árboles de decisión tiende a mejorar la precisión con un pequeño riesgo de menor cobertura.

El refuerzo es uno de los métodos clásicos para crear modelos de conjuntos, junto con el embolsado, los bosques aleatorios, etc. En Azure Machine Learning, los árboles de decisión reforzados utilizan una implementación eficiente del algoritmo de refuerzo de gradiente MART. El refuerzo de gradiente es una técnica de aprendizaje automático para problemas de regresión. Construye cada árbol de regresión de forma escalonada, utilizando una función de pérdida predefinida para medir el error en cada paso y corregirlo en el siguiente. Así, el modelo de predicción es en realidad un conjunto de modelos de predicción más débiles.

El método de refuerzo de gradiente también puede utilizarse para problemas de clasificación, reduciéndolos a una regresión con una función de pérdida adecuada. Para obtener más información sobre la implementación de árboles potenciados para tareas de clasificación, consulte Árbol de decisión potenciado de dos clases.

Árboles de regresión sklearn

Todas las técnicas de regresión contienen una única variable de salida (respuesta) y una o más variables de entrada (predictoras). La variable de salida es numérica. La metodología general de construcción de árboles de regresión permite que las variables de entrada sean una mezcla de variables continuas y categóricas. Se genera un árbol de decisión cuando cada nodo de decisión del árbol contiene una prueba sobre el valor de alguna variable de entrada. Los nodos terminales del árbol contienen los valores de las variables de salida predichas.

  Espesura conjunto de árboles y matas muy espesos

Un árbol de regresión se construye a través de un proceso conocido como partición recursiva binaria, que es un proceso iterativo que divide los datos en particiones o ramas, y luego continúa dividiendo cada partición en grupos más pequeños a medida que el método sube por cada rama.

Inicialmente, todos los registros del conjunto de entrenamiento (registros preclasificados que se utilizan para determinar la estructura del árbol) se agrupan en la misma partición. A continuación, el algoritmo comienza a distribuir los datos en las dos primeras particiones o ramas, utilizando todas las divisiones binarias posibles en cada campo. El algoritmo selecciona la división que minimiza la suma de las desviaciones al cuadrado de la media en las dos particiones separadas. Esta regla de división se aplica entonces a cada una de las nuevas ramas. Este proceso continúa hasta que cada nodo alcanza un tamaño mínimo de nodo especificado por el usuario y se convierte en un nodo terminal. (Si la suma de las desviaciones al cuadrado de la media en un nodo es cero, entonces ese nodo se considera un nodo terminal aunque no haya alcanzado el tamaño mínimo).

  Arboles de avellanos

Árboles de regresión aprendizaje automático

Los algoritmos CART fueron publicados por primera vez por Leo Breiman en 1984. Como su nombre indica, este algoritmo utiliza árboles de decisión, una popular herramienta de apoyo a la toma de decisiones en el aprendizaje automático. Al hacer crecer el árbol, lo que significa darle más información para que aprenda de él en forma de reglas básicas de decisión si-si-no, se puede construir un modelo mediante la aproximación por partes. Cuantas más ramas tenga el árbol de decisión, mejor podrá ajustarse el modelo a su propósito.

Utilizar sólo un árbol de decisión simple es propenso a las variaciones; incluso pequeñas variaciones en los datos pueden dar lugar a varios árboles de decisión diferentes. Esto puede evitarse utilizando conjuntos de árboles de decisión, que también estudiaremos en el próximo capítulo.

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad