Introducción al Machine Learning con MATLAB. Erik Cuevas Jiménez

Чтение книги онлайн.

Читать онлайн книгу Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez страница 11

Автор:
Серия:
Издательство:
Introducción al Machine Learning con MATLAB - Erik Cuevas Jiménez

Скачать книгу

      • Destacar la tendencia de los datos, como los volúmenes de ventas potenciales

      La visualización se utiliza en casi todos los pasos del proceso del aprendizaje máquina, dentro de pasos obvios como la preparación y exploración de datos, pero también puede ser aprovechada durante la recopilación de datos, durante el entrenamiento del modelo y en la etapa final de evaluación de resultados, para identificar elementos relevantes.

      El conjunto de datos sobre la flor de iris es una colección de observaciones multivariante para cuantificar la variación morfológica de las tres especies relacionadas de flores de iris: setosa, versicolor y virginica. El conjunto de datos tiene las mediciones del largo y ancho del sépalo y el pétalo de la flor de iris. En la figura 1.7 se presenta la estructura de la flor de iris. Tomaremos este conjunto de datos para explorarlos visualmente, debido a que es un referente en el área del aprendizaje máquina y estadística.

Illustration

      Figura 1.7. Partes de la flor de iris.

      A continuación, se muestran diferentes formas de visualizar las cuatro características (longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo) de 150 observaciones de las flores de iris. El cargado en memoria del conjunto de datos se realiza con el siguiente comando:

      load fisheriris.mat

      El comando carga en la memoria dos variables: la matriz llamada meas y una celda, species. La matriz meas tiene 4 columnas relativas a las características y 150 filas con las 150 observaciones registradas. La celda species tiene los nombres a la cual cada observación pertenece. En el algoritmo 1.5 se carga el conjunto de datos de la flor de iris y despliegan todas las observaciones por característica. En la figura 1.8 se grafican los valores de las 150 observaciones de las diferentes características del conjunto de datos:

       % Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz

       % Se carga el conjunto de observaciones

       load fisheriris.mat

       % Se define cuántas observaciones tiene el conjunto de datos

       N=size(meas,1);

       % Se define el vector en el eje x

       t=1:N

       % Se grafican las observaciones en sus diferentes características

       plot(t,meas)

       legend('Long. sépalo','Ancho sépalo','Long. pétalo','Ancho pétalo')

Illustration

      Figura 1.8. Gráfico de las 150 observaciones de flores de iris y sus 4 características.

      Histograma

      Un histograma es una representación gráfica de observaciones agrupadas mediante intervalos, donde las observaciones son variables cuantitativas continuas. El histograma permite apreciar la manera en que se distribuyen las observaciones.

      En el algoritmo 1.6 se despliega el histograma de la característica 1 de todas las observaciones. El histograma se presenta en la figura 1.9:

       % Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz

       % Se carga el conjunto de observaciones

       load fisheriris.mat

       % Se grafica el histograma de la característica 1

       % del conjunto de datos de todas las observaciones

       h=histogram(meas(:,1))

Illustration

      Figura 1.9. Histograma de la característica 1 de las observaciones.

      Diagrama de caja

      Un diagrama de caja y bigotes, o simplemente un diagrama de caja, es un gráfico basado en cuartiles, mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo «caja» y dos brazos «bigotes».

Illustration

      Figura 1.10. Partes del diagrama de caja.

      Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles, cada uno con igual cantidad de valores. Donde Q1 es la mediana de la mitad menor de los datos, Q2 es la mediana de todos los datos y Q3 es la mediana de la mitad mayor de los datos. Adicionalmente, el rango intercuartil (IRQ) es la diferencia entre Q3 y Q1. En el gráfico de caja, los valores atípicos son más pequeños o grandes que los extremos del diagrama de caja. En este, no se grafica la frecuencia ni se muestran las estadísticas individuales, pero en ellos podemos ver claramente dónde se encuentra la mitad de los datos. Constituye un buen diagrama para analizar la asimetría en los datos.

      En el algoritmo 1.7 se presentan los diagramas de caja de las características 1, 2, 3 y 4, que corresponden, respectivamente, a la longitud del sépalo (1), el ancho del sépalo, la longitud del pétalo y el ancho del pétalo. En la figura 1.11 se muestran diagramas de caja con las características 1, 2, 3 y 4:

       % Autores: Erik Cuevas, Omar Avalos, Arturo Valdivia y Primitivo Díaz

       % Se carga el conjunto de observaciones

       load fisheriris.mat

       % Se genera y despliega el diagrama de caja

       % por cada característica de las 150 observaciones

       boxplot(meas)

Illustration

      Figura 1.11. Diagramas de caja de las cuatro características de las observaciones a las flores de iris.

      Diagrama de dispersión

      Los gráficos de dispersión se usan para trazar puntos de datos en un eje vertical y otro horizontal, mediante el que se trata mostrar cuánto afecta una variable a otra.

      Cada

Скачать книгу