Introducción al Machine Learning con MATLAB. Erik Cuevas Jiménez
Чтение книги онлайн.
Читать онлайн книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez страница 6
En el capítulo 9 se introduce la estadística inferencial, la cual tiene por objetivo fundamental determinar ciertas particularidades sobre una población, a partir de un número limitado de elementos. En el desarrollo del capítulo se analizan las bases matemáticas de los principales métodos y procedimientos de la estadística inferencial, así como su implementación mediante la herramienta de software MATLAB®. El capítulo se inicia con una descripción de las distribuciones de muestreo comunes; posteriormente, se aborda la estimación de los parámetros de la población para dar paso a los intervalos de confianza y pruebas de hipótesis.
Finalmente, en el capítulo 10 se analiza la evaluación de los modelos producidos mediante una técnica de Machine Learning. La evaluación de un modelo entrenado resulta vital para determinar si su funcionamiento es excelente o regular, al realizar predicciones con nuevos datos o instancias. Debido a que las futuras instancias tienen valores desconocidos para nuestro modelo, es necesario emplear métricas sobre el funcionamiento del modelo de Machine Learning, para determinar si este tendrá la capacidad de generalizar exitosamente datos con los que no fue entrenado.
Durante más de diez años hemos ensayado múltiples maneras de exponer este material a auditorios disímiles. En el camino se ha contado con la invaluable tolerancia de nuestros alumnos, principalmente del Cucei, de la Universidad de Guadalajara en México. Se agradece, de manera especial, a nuestros compañeros profesores del Centro Universitario de Ciencias Exactas e Ingenierías. Tantas colaboraciones, ayudas y discusiones con colegas ameritarían un capítulo adicional. A todos, nuestro testimonio de gratitud.
Erik CuevasOmar AvalosPrimitivo DíazArturo ValdiviaMarco Pérez | Cucei, Universidad de GuadalajaraGuadalajara, Jal, México |
CAPÍTULO 1
Fundamentos del Machine Learning
En este capítulo se presentan los conceptos básicos del aprendizaje máquina, que permitirán al lector familiarizarse con el tema. Además, se introducen los pasos básicos en la aplicación del aprendizaje máquina. Por último, se discute acerca de la importancia de los tipos de datos, su preprocesamiento y su despliegue. Los objetivos principales de este capítulo son: aprender de forma rápida y sencilla el proceso de aplicación del aprendizaje máquina, así como comprender sus principios.
• Conocer los conceptos del aprendizaje máquina
• Entender las diferentes etapas del aprendizaje máquina
• Aprender a utilizar las herramientas en la preparación de datos para el aprendizaje máquina en problemas reales
1.1. Introducción
A fin de responder «¿qué es el aprendizaje máquina?», es necesario partir de la siguiente definición dada por Bostjan Kaluza (2016) [1]:
El aprendizaje máquina es un subcampo de la inteligencia artificial. Este ayuda a los ordenadores a aprender y actuar como seres humanos con la ayuda de algoritmos y datos. Dado un conjunto de datos, un algoritmo de aprendizaje máquina aprende diferentes propiedades de los datos e infiere las propiedades de los datos que se pueden presentar en el futuro.
A partir de la definición anterior, se puede inferir que el objetivo del aprendizaje máquina es desarrollar sistemas que permitan a los ordenadores aprender y generalizar comportamientos. En la actualidad, el aprendizaje máquina se aplica en diversas áreas: en medicina, como auxiliar en el diagnóstico de diversas patologías y como clasificador de secuencias de ADN; en sistemas financieros, analizando el mercado de valores y detectando fraudes en el uso de tarjetas de crédito; o en informática, aplicado en sistemas de reconocimiento de habla y lenguaje escrito, entre otras.
Existen conceptos clave en el aprendizaje máquina que sientan las bases para comprender este campo. Estos pueden dividirse en dos áreas sustanciales: los conceptos sobre datos y los conceptos sobre aprendizaje. Los conceptos sobre datos otorgan la nomenclatura apropiada para describir los datos y sus conjuntos. Los conceptos sobre aprendizaje describen el aprendizaje obtenido a partir de los datos.
1.2. Conceptos sobre datos
Como se mencionó anteriormente, los métodos de aprendizaje máquina aprenden a partir de los ejemplos. Resulta importante tener una buena comprensión de los datos de entrada y la variada terminología utilizada al describir los datos. Los datos pueden estructurarse en filas y columnas, como una tabla de base de datos o como una hoja de cálculo. Estos son conocidos como «estructura tradicional de datos», y son comunes en el campo del aprendizaje máquina.
Los conceptos básicos para datos del aprendizaje máquina se definen a continuación:
Observación: es la entidad más pequeña, con propiedades de interés para un estudio que puede ser registrado.
Características: son las propiedades o atributos de las observaciones que pueden ser útiles para el aprendizaje.
Tipo de datos: las características tienen un tipo de datos. Estos pueden ser de valor real o entero, o pueden tener un valor categórico u ordinal.
Conjuntos de datos: una colección de observaciones es un conjunto de datos y, cuando se trabaja con métodos de aprendizaje máquina, generalmente se requieren algunos conjuntos de datos para diferentes propósitos.
Datos de entrenamiento: conforman un conjunto de datos que se incorpora al algoritmo de aprendizaje máquina para entrenar al modelo.
Datos de prueba: constituyen un conjunto de datos utilizado para validar la precisión del modelo, pero que no se emplea para entrenar al modelo. Se lo conoce también como «conjunto de datos de validación».
Además de los datos mencionados con anterioridad, existen otros, como imágenes, vídeos y texto. Estos son llamados «datos no estructurados», para poder ser aplicados a métodos de aprendizaje máquina, los cuales deben ser transformados a una forma estructurada de datos. Los datos no estructurados no se consideran en este libro.