SISTEMAS

¿Cómo elegir un algoritmo ML para un problema de regresión?

Hay este zumbido en todas partes: ¡aprendizaje automático!

Entonces, ¿qué es este «aprendizaje automático (ML)»?

Consideremos un ejemplo práctico. Si puede imaginar la probabilidad del resultado de completar una tarea la primera vez, digamos que el trabajo es aprender a andar en bicicleta. Es decir, ¿cómo te responderías a ti mismo? ¿Con incertidumbre?

Por otro lado, ¿cómo te gustaría felicitarte por la misma tarea después de algunos años de práctica? Puede ser que tu mentalidad cambie de parámetros de incertidumbre o más certeza. Entonces, ¿cómo obtuvo la experiencia para esta tarea?

Lo más probable es que hayas ganado experiencia ajustando algunos parámetros y tu rendimiento haya mejorado. ¿correcto? Esto es aprendizaje automático.

Se dice que un programa de computadora aprende de la experiencia (E) en alguna tarea (T) para dar el mejor desempeño (P).

Asimismo, las máquinas aprenden a través de algunos conceptos matemáticos complejos, y cada uno de sus datos está en forma de 0 y 1. Por lo tanto, no codificamos la lógica del programa, sino que queremos que la máquina descubra la lógica a partir de los datos por sí misma.

Además, si desea encontrar la relación entre la experiencia, el nivel de trabajo, las habilidades raras y el salario, entonces necesita enseñar algoritmos de aprendizaje automático.

Conjuntos de datos complejos con más características

De acuerdo con este estudio de caso, debe ajustar la función para obtener las etiquetas. Sin embargo, usted no codifica el algoritmo, su enfoque debe estar en los datos.

Por lo tanto, el concepto es Datos + Algoritmos = InsightsEn segundo lugar, el algoritmo ha sido desarrollado para nosotros, necesitamos saber qué algoritmo usar para resolver nuestro problema. Veamos el problema de regresión y la mejor manera de elegir un algoritmo.

Descripción general del aprendizaje automático

de acuerdo a AndrebUn científico alemán con más de 5 años de experiencia en aprendizaje automático, «si puede entender si la tarea de aprendizaje automático es un problema de regresión o un problema de clasificación, entonces elegir el algoritmo correcto es pan comido».

Diferentes agrupaciones de aprendizaje automático
Diferentes agrupaciones de aprendizaje automático

Por nombrar algunos, la principal diferencia entre ellos es que la variable de salida en la regresión es numérica (o continua) mientras que la variable de salida de la categorización es categórica (o discreta).

Regresión en el aprendizaje automático

Primero, un algoritmo de regresión intenta estimar una función (f) que mapea desde una variable de entrada (x) a una variable de salida numérica o continua (y). Las variables de salida ahora pueden ser valores reales, enteros o de punto flotante. Por lo tanto, los problemas de predicción de regresión suelen ser de cantidad o tamaño.

Por ejemplo, si se le proporciona un conjunto de datos de casas y se le pide que pronostique sus precios, esta es una tarea de regresión ya que los precios serán una salida continua.

Ejemplos de algoritmos de regresión comunes incluyen regresión lineal, Regresión de vectores de soporte (SVR)y árboles de regresión.

Clasificación en Machine Learning

Por el contrario, en el caso de los algoritmos de clasificación, y es la clase predicha por la función de mapeo. En detalle, para variables de entrada únicas o múltiples, el modelo de clasificación intentará predecir el valor de conclusiones únicas o múltiples.

Por ejemplo, si recibe un conjunto de datos sobre casas, un algoritmo de clasificación puede intentar predecir si una casa tiene un precio «superior o inferior al precio minorista sugerido». Hay dos categorías discretas aquí: por encima o por debajo de dicho precio.

Los ejemplos de algoritmos de clasificación comunes incluyen regresión logística, bayesiano ingenuo, árboles de decisión y vecinos más cercanos de K.

Elija el algoritmo correcto

La evaluación correcta del aprendizaje automático
Minería de datos cuidadosa para una evaluación correcta del aprendizaje automático

comprender sus datos

  • ver estadísticas resumidas
  • Use el parámetro «Percentil» para identificar el rango de datos
  • La media y la mediana describen la tendencia central
  • Las correlaciones pueden indicar relaciones fuertes

Visualizar datos

  • Los diagramas de caja pueden indicar anomalías.
  • Los diagramas de densidad y los histogramas muestran la distribución de los datos
  • Los diagramas de dispersión pueden describir relaciones cuantitativas

datos limpios

Encuentra la parte que falta
Encontrar las piezas que faltan: priorizar los algoritmos de ML correctos en la lista de tareas pendientes
  • Manejo de valores perdidos. Los resultados brindan resultados sensibles en casos (los datos faltantes para algunas variables pueden conducir a predicciones inexactas)
  • Mientras que los modelos de árbol son menos sensibles a la presencia de valores atípicos, los modelos de regresión u otros modelos que usan ecuaciones son más sensibles a los valores atípicos.
  • Básicamente, los valores atípicos pueden ser el resultado de una recopilación deficiente de datos o pueden ser valores extremos legítimos

Ordenar datos

Además, se deben tener en cuenta los siguientes puntos al transformar datos sin procesar en datos refinados compatibles con el modelo:

  • Hacer que los datos sean más fáciles de interpretar.
  • Capture datos más complejos.
  • Concéntrese en reducir la redundancia y la dimensionalidad de los datos.
  • Estandarizar los valores de las variables.

Categorizar problemas por variables de entrada

  • Ha etiquetado los datos; este es un problema de aprendizaje supervisado.
  • Si tiene datos sin etiquetar y desea encontrar una estructura, este es un problema de aprendizaje no supervisado.
  • Este es un problema de aprendizaje por refuerzo si desea optimizar una función objetivo interactuando con el entorno.

Categorizar problemas por variables de salida

  • El resultado de su modelo es un número; este es un problema de regresión.
  • Cuando la salida del modelo es una clase, es un problema de clasificación.
  • La salida del modelo es un conjunto de grupos de entrada; este es un problema de agrupamiento.

Restricciones

  • Preste atención a la capacidad de almacenamiento, ya que varía de un modelo a otro.
  • ¿El pronóstico tiene que ser rápido? Por ejemplo, en escenarios en tiempo real como la clasificación de señales de tráfico, evite accidentes lo más rápido posible.

Finalmente, encuentre el algoritmo

método lógico
El enfoque lógico: seguir el procedimiento

Ahora que tiene una comprensión clara de sus datos, puede implementar las herramientas adecuadas para elegir el algoritmo correcto.

Mientras tanto, para tomar una mejor decisión, aquí hay una lista de factores adecuados para usted:

  • Vea si el modelo cumple con sus objetivos comerciales
  • Cuánto preprocesamiento se requiere para el modelo
  • Comprobar la precisión del modelo.
  • interpretabilidad del modelo
  • Qué tan rápido es el modelo: cuánto tiempo se tarda en construir el modelo y cuánto tiempo se tarda en hacer predicciones
  • Extensibilidad del modelo

Además, hay que prestar atención a la complejidad del algoritmo a la hora de elegir.

En general, puede usar parámetros para medir la complejidad del modelo:

  • Cuando necesita dos o más funciones para aprender y predecir el objetivo
  • Se basa en una ingeniería de características más compleja (por ejemplo, utilizando términos polinómicos, interacciones o componentes principales)
  • Cuando el escenario tiene más sobrecarga computacional (por ejemplo, un solo árbol de decisión frente a un bosque aleatorio de 100 árboles)

Además, el mismo algoritmo se puede hacer más complicado manualmente. Todo depende de la cantidad de parámetros permitidos y del escenario en consideración. Por ejemplo, puede diseñar un modelo de regresión con más características o términos polinómicos y términos de interacción. Como alternativa, puede diseñar un árbol de decisión con menos profundidad.

Algoritmos comunes de aprendizaje automático

1645097002 593 ¿Como elegir un algoritmo ML para un problema de regresion

regresión lineal

Estos son probablemente los más fáciles.
Algunos ejemplos del uso de la regresión lineal son:

  • Primero, cuando ir de un lugar a otro
  • Predecir las ventas de un producto específico para el próximo mes
  • El efecto del contenido de alcohol en la sangre sobre la coordinación
  • Pronostique las ventas mensuales de tarjetas de regalo y mejore las previsiones de ingresos anuales

Regresión logística

Claramente, este algoritmo tiene muchas ventajas: integra más funciones con una buena herramienta de interpretación, fácil de actualizar la herramienta para agregar nuevos datos.

En otras palabras, puedes usarlo para:

  • Predecir la rotación de clientes.
  • Casos especiales para credit scoring o detección de fraude.
  • Medir la efectividad de las campañas de marketing.

árbol de decisión

Obviamente, los árboles individuales rara vez se usan, pero en combinación crean algoritmos eficientes con muchos otros árboles, como bosques aleatorios o aumento de gradiente de árboles. Sin embargo, una de las desventajas es que no admiten el aprendizaje en línea, por lo que debe reconstruir el árbol cuando aparecen nuevos ejemplos.

Los árboles son excelentes para:

  • Decisión de inversión
  • morosos de prestamos bancarios
  • Calificacion de ejecutivo de ventas

bayesiana ingenua

En pocas palabras, Naive Bayes es la elección correcta cuando los recursos de CPU y memoria son el factor limitante. Sin embargo, su principal desventaja es que no puede aprender interacciones entre características.

Se puede utilizar para:

  • Reconocimiento facial
  • Marque los correos electrónicos como spam o no.
  • Análisis de sentimiento y clasificación de textos.

En conclusión

Entonces, en general, en escenarios en tiempo real, es algo difícil llegar allí de acuerdo con el algoritmo de aprendizaje automático correcto. Sin embargo, puede usar esta lista de verificación para filtrar algunos algoritmos a su conveniencia.

Además, elegir la solución adecuada para un problema de la vida real requiere una comprensión comercial profesional, así como los algoritmos correctos. Por lo tanto, alimente sus datos a los algoritmos correctos, ejecútelos en paralelo o en serie y, finalmente, evalúe el rendimiento de los algoritmos para elegir el mejor.

Si desea especializarse en aprendizaje profundo, puede consultar Este curso es impartido por Deep Learning.

Artículo Recomendado:  Anatomía del ratón | Puntos tecnológicos

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *