Основы глубокого обучения. Нихиль Будума

Чтение книги онлайн.

Читать онлайн книгу Основы глубокого обучения - Нихиль Будума страница 5

Основы глубокого обучения - Нихиль Будума МИФ Бизнес

Скачать книгу

образованный распространением входных данных по нейронам. Мы можем выразить это как простое умножение матрицы, создав матрицу весов размера n × m и вектор смещения размера m. Каждый столбец будет соответствовать нейрону, причем j-й элемент сопоставлен весу соединения с j-м входящим элементом. Иными словами, y = ƒ(WTx + b), где функция активации применяется к вектору поэлементно. Эта новая формулировка очень пригодится, когда мы начнем реализовывать эти сети в программах.

      Линейные нейроны и их ограничения

      Большинство типов нейронов определяются функцией активации f, примененной к логиту logit z. Сначала рассмотрим слои нейронов, которые используют линейную функцию f(z) = az + b. Например, нейрон, который пытается подсчитать стоимость блюда в кафе быстрого обслуживания, будет линейным, a = 1 и b = 0. Используя f(z) = z и веса, эквивалентные стоимости каждого блюда, программа присвоит линейному нейрону на рис. 1.10 определенную тройку из бургеров, картошки и газировки, и он выдаст цену их сочетания.

      Рис. 1.10. Пример линейного нейрона

      Вычисления с линейными нейронами просты, но имеют серьезные ограничения. Несложно доказать, что любая нейросеть с прямым распространением сигнала, состоящая только из таких нейронов, может быть представлена как сеть без скрытых слоев. Это проблема: как мы уже говорили, именно скрытые слои позволяют узнавать важные свойства входных данных. Чтобы научиться понимать сложные отношения, нужно использовать нейроны с определенного рода нелинейностью.

      Нейроны с сигмоидой, гиперболическим тангенсом и усеченные линейные

      На практике для вычислений применяются три типа нелинейных нейронов. Первый называется сигмоидным и использует функцию:

      Интуитивно это означает, что, если логит очень мал, выходные данные логистического нейрона близки к 0. Если логит очень велик – то к 1. Между этими двумя экстремумами нейрон принимает форму буквы S, как на рис. 1.11.

      Рис. 1.11. Выходные данные сигмоидного нейрона с переменной z

      Нейроны гиперболического тангенса (tanh-нейроны) используют похожую S-образную нелинейность, но исходящие значения варьируют не от 0 до 1, а от −1 до 1. Формула для них предсказуемая: f(z) = tanh(z). Отношения между входным значением y и логитом z показаны на рис. 1.12. Когда используются S-образные нелинейности, часто предпочитают tanh-нейроны, а не сигмоидные, поскольку у tanh-нейронов центр находится в 0.

      Рис. 1.12. Выходные данные tanh-нейрона с переменной z

      Еще один тип нелинейности используется нейроном с усеченным линейным преобразованием (ReLU). Здесь задействована функция f(z) = max(0, z), и ее график имеет форму хоккейной клюшки (рис. 1.13).

      Рис. 1.13. Выходные данные ReLU-нейрона с переменной z

      ReLU в последнее время часто выбирается

Скачать книгу