Introducción al Machine Learning con MATLAB. Erik Cuevas Jiménez
Чтение книги онлайн.
Читать онлайн книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez страница 7
En este apartado, se consideran algunos conceptos de alto nivel sobre el aprendizaje. El aprendizaje máquina se apoya/basa en el aprendizaje con algoritmos. Los conceptos básicos sobre aprendizaje se definen a continuación:
Inducción: los algoritmos de aprendizaje máquina aprenden a través de un proceso llamado «inducción del aprendizaje». Este es un proceso de razonamiento donde se realiza un modelo de la información (datos de entrenamiento).
Generalización: el objetivo de la generalización reside en encontrar el patrón o modelo más significativo para las instancias del entrenamiento. A partir de este modelo, se realizan predicciones o decisiones.
Sobreentrenamiento: se conoce como sobreentrenamiento al hecho de que un modelo aprenda los datos de entrenamiento de una manera tan precisa o exacta que pierda la capacidad de generalizar. El resultado es un bajo rendimiento en datos que no sean del conjunto de entrenamiento.
Subentrenamiento: se refiere a cuando un modelo no ha aprendido suficientemente la estructura de la base de datos, debido a que el proceso de aprendizaje finalizó de forma temprana o inesperada. El resultado que otorga el subentrenamiento resulta bueno en términos de generalización, pero su rendimiento es deficiente en la mayoría de los datos, incluido el conjunto de datos de entrenamiento.
Aprendizaje en línea: el aprendizaje en línea se lleva a cabo cuando un método de aprendizaje máquina se alimenta con observaciones de datos del tema en cuestión, a medida que estén disponibles. El aprendizaje en línea requiere métodos que sean robustos para los datos ruidosos, pero también puede producir modelos que sean más afines con el estado actual del conjunto de datos del tema en cuestión.
Aprendizaje fuera de línea: el aprendizaje fuera de línea se produce cuando el método se alimenta con datos preparados previamente, que, luego, se utilizan de manera operacional en datos no observados. El proceso de entrenamiento puede controlarse y puede ajustarse de forma cuidadosa, porque el alcance de los datos de entrenamiento es conocido [2].
Una vez definidos los conceptos básicos, tanto para los datos como para el aprendizaje, se puede pasar a conocer los tipos de problemas existentes dentro del entorno del aprendizaje máquina, así como los tipos de datos y tipos de aprendizaje utilizados en el desarrollo de los algoritmos del aprendizaje máquina.
1.4. Tipos de problemas
Existen varias clases comunes de problemas en el aprendizaje máquina. Las clases de problemas que se mencionan a continuación son arquetipos para la mayoría de los problemas, a los que nos referimos cuando el aprendizaje máquina es implementado:
Clasificación: se produce cuando los datos tienen una etiqueta, lo que significa que se les asignó una clase; por ejemplo, fraude/no fraude. La decisión que se modela consiste en asignar etiquetas a nuevos datos no etiquetados. Esto puede ser considerado como un problema al generar un discriminante y modelar las diferencias o similitudes entre grupos [3].
Regresión: los datos se encuentran etiquetados con un valor real en lugar de una etiqueta. Los ejemplos, fáciles de entender, son datos de series de tiempo, como el precio de un producto y sus variaciones, dentro de una ventana de tiempo. La decisión que se modela es la relación entre entradas y salidas.
Agrupamiento: en el agrupamiento, los datos no están etiquetados, pero se pueden dividir en grupos según la similitud y otras medidas de estructura natural en los datos. Un claro ejemplo reside en la segmentación de clientes en grupos con datos demográficos similares.
Extracción de reglas: en este tipo de problema, los datos se utilizan como base para la extracción de reglas proposicionales (antecedente/consecuente o si/entonces). Normalmente, estas reglas no están dirigidas, lo que significa que, con los métodos, se descubren relaciones estadísticamente compatibles entre atributos en los datos, que no necesariamente implican algo que se está prediciendo. Un ejemplo es el descubrimiento de la relación entre la compra de cerveza y pañales.
1.5. Tipos de datos
Para cumplir con los propósitos del análisis de datos y del modelado predictivo, resulta importante conocer el tipo de dato que se va a seleccionar, con el fin de ayudar a determinar el tipo de visualización, análisis de datos o modelo estadístico.
Continuo: lo constituyen los datos que pueden tomar cualquier valor dentro de un intervalo. Entre algunos ejemplos se encuentran la velocidad del viento, la distancia recorrida por un coche o la estatura de una persona.
Discreto: este tipo de datos puede tomar solo valores enteros; por ejemplo, el conteo de recurrencia de un evento o el número de clics de un sitio web.
Categórico: son datos que pueden tomar solo un conjunto específico de valores, los cuales representan un conjunto de categorías posibles, tales como el tipo de sangre o los estados de un país, entre otros.
Binario: los datos binarios suponen un caso especial dentro de los datos categóricos. Estos cuentan con solo dos categorías de valores: verdadero o falso; entre algunos ejemplos, enfermo/saludable, día/noche o activo/inactivo.
Ordinal: son datos categóricos que tienen un orden explícito; por ejemplo, la talla de ropa o la calificación numérica de un producto (1.°, 2.°, 3.°, 4.° o 5.°).
1.6. Tipos de aprendizajes
En el aprendizaje máquina se conocen tres tipos de aprendizaje: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. A continuación, se define cada uno de estos tipos de aprendizaje.
Aprendizaje supervisado: se corresponde con el proceso donde se generalizan las relaciones entre las observaciones de sus características de entrada y salida (etiqueta), donde este modelo de «relación» especula una salida (etiqueta) para producir nuevas observaciones. Este tipo de aprendizaje se utiliza cuando se requiere la predicción [4].
Aprendizaje no supervisado: este es un proceso de aprendizaje para generalizar la estructura en los datos donde no se requiere predicción. Las estructuras naturales son identificadas y explotadas para relacionar ciertas observaciones respecto a otras.
Aprendizaje por refuerzo: con este sistema de aprendizaje, llamado agente, se puede observar el entorno, seleccionar y realizar acciones, con la finalidad de obtener recompensas a cambio (o sanciones en forma de recompensas negativas). Luego, debe aprender por sí mismo cuál es la mejor estrategia, llamada política, para obtener la mayor recompensa con el paso del tiempo. Con una política, se define qué acción debe hacer el agente cuando se encuentra en una situación dada [5].
Una vez definidos y comprendidos los tipos de problemas, los tipos de datos y los tipos de aprendizajes, se puede pasar a conocer cuáles son las etapas requeridas para el desarrollo de sistemas basados en el aprendizaje máquina.
1.7. Etapas de implementación del aprendizaje máquina
La implementación de algoritmos de aprendizaje