Introducción al Machine Learning con MATLAB. Erik Cuevas Jiménez

Чтение книги онлайн.

Читать онлайн книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez страница 7

Автор:
Серия:
Издательство:
Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez

Скачать книгу

      En este apartado, se consideran algunos conceptos de alto nivel sobre el aprendizaje. El aprendizaje máquina se apoya/basa en el aprendizaje con algoritmos. Los conceptos básicos sobre aprendizaje se definen a continuación:

      Inducción: los algoritmos de aprendizaje máquina aprenden a través de un proceso llamado «inducción del aprendizaje». Este es un proceso de razonamiento donde se realiza un modelo de la información (datos de entrenamiento).

      Generalización: el objetivo de la generalización reside en encontrar el patrón o modelo más significativo para las instancias del entrenamiento. A partir de este modelo, se realizan predicciones o decisiones.

      Sobreentrenamiento: se conoce como sobreentrenamiento al hecho de que un modelo aprenda los datos de entrenamiento de una manera tan precisa o exacta que pierda la capacidad de generalizar. El resultado es un bajo rendimiento en datos que no sean del conjunto de entrenamiento.

      Subentrenamiento: se refiere a cuando un modelo no ha aprendido suficientemente la estructura de la base de datos, debido a que el proceso de aprendizaje finalizó de forma temprana o inesperada. El resultado que otorga el subentrenamiento resulta bueno en términos de generalización, pero su rendimiento es deficiente en la mayoría de los datos, incluido el conjunto de datos de entrenamiento.

      Aprendizaje en línea: el aprendizaje en línea se lleva a cabo cuando un método de aprendizaje máquina se alimenta con observaciones de datos del tema en cuestión, a medida que estén disponibles. El aprendizaje en línea requiere métodos que sean robustos para los datos ruidosos, pero también puede producir modelos que sean más afines con el estado actual del conjunto de datos del tema en cuestión.

      Una vez definidos los conceptos básicos, tanto para los datos como para el aprendizaje, se puede pasar a conocer los tipos de problemas existentes dentro del entorno del aprendizaje máquina, así como los tipos de datos y tipos de aprendizaje utilizados en el desarrollo de los algoritmos del aprendizaje máquina.

      1.4. Tipos de problemas

      Existen varias clases comunes de problemas en el aprendizaje máquina. Las clases de problemas que se mencionan a continuación son arquetipos para la mayoría de los problemas, a los que nos referimos cuando el aprendizaje máquina es implementado:

      Regresión: los datos se encuentran etiquetados con un valor real en lugar de una etiqueta. Los ejemplos, fáciles de entender, son datos de series de tiempo, como el precio de un producto y sus variaciones, dentro de una ventana de tiempo. La decisión que se modela es la relación entre entradas y salidas.

      Agrupamiento: en el agrupamiento, los datos no están etiquetados, pero se pueden dividir en grupos según la similitud y otras medidas de estructura natural en los datos. Un claro ejemplo reside en la segmentación de clientes en grupos con datos demográficos similares.

      Extracción de reglas: en este tipo de problema, los datos se utilizan como base para la extracción de reglas proposicionales (antecedente/consecuente o si/entonces). Normalmente, estas reglas no están dirigidas, lo que significa que, con los métodos, se descubren relaciones estadísticamente compatibles entre atributos en los datos, que no necesariamente implican algo que se está prediciendo. Un ejemplo es el descubrimiento de la relación entre la compra de cerveza y pañales.

      1.5. Tipos de datos

      Para cumplir con los propósitos del análisis de datos y del modelado predictivo, resulta importante conocer el tipo de dato que se va a seleccionar, con el fin de ayudar a determinar el tipo de visualización, análisis de datos o modelo estadístico.

      Continuo: lo constituyen los datos que pueden tomar cualquier valor dentro de un intervalo. Entre algunos ejemplos se encuentran la velocidad del viento, la distancia recorrida por un coche o la estatura de una persona.

      Discreto: este tipo de datos puede tomar solo valores enteros; por ejemplo, el conteo de recurrencia de un evento o el número de clics de un sitio web.

      Categórico: son datos que pueden tomar solo un conjunto específico de valores, los cuales representan un conjunto de categorías posibles, tales como el tipo de sangre o los estados de un país, entre otros.

      Binario: los datos binarios suponen un caso especial dentro de los datos categóricos. Estos cuentan con solo dos categorías de valores: verdadero o falso; entre algunos ejemplos, enfermo/saludable, día/noche o activo/inactivo.

      Ordinal: son datos categóricos que tienen un orden explícito; por ejemplo, la talla de ropa o la calificación numérica de un producto (1.°, 2.°, 3.°, 4.° o 5.°).

      1.6. Tipos de aprendizajes

      En el aprendizaje máquina se conocen tres tipos de aprendizaje: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. A continuación, se define cada uno de estos tipos de aprendizaje.

      Aprendizaje no supervisado: este es un proceso de aprendizaje para generalizar la estructura en los datos donde no se requiere predicción. Las estructuras naturales son identificadas y explotadas para relacionar ciertas observaciones respecto a otras.

      Una vez definidos y comprendidos los tipos de problemas, los tipos de datos y los tipos de aprendizajes, se puede pasar a conocer cuáles son las etapas requeridas para el desarrollo de sistemas basados en el aprendizaje máquina.

      1.7. Etapas de implementación del aprendizaje máquina

      La implementación de algoritmos de aprendizaje

Скачать книгу