Основы глубокого обучения. Нихиль Будума
Чтение книги онлайн.
Читать онлайн книгу Основы глубокого обучения - Нихиль Будума страница 5
Линейные нейроны и их ограничения
Большинство типов нейронов определяются функцией активации f, примененной к логиту logit z. Сначала рассмотрим слои нейронов, которые используют линейную функцию f(z) = az + b. Например, нейрон, который пытается подсчитать стоимость блюда в кафе быстрого обслуживания, будет линейным, a = 1 и b = 0. Используя f(z) = z и веса, эквивалентные стоимости каждого блюда, программа присвоит линейному нейрону на рис. 1.10 определенную тройку из бургеров, картошки и газировки, и он выдаст цену их сочетания.
Рис. 1.10. Пример линейного нейрона
Вычисления с линейными нейронами просты, но имеют серьезные ограничения. Несложно доказать, что любая нейросеть с прямым распространением сигнала, состоящая только из таких нейронов, может быть представлена как сеть без скрытых слоев. Это проблема: как мы уже говорили, именно скрытые слои позволяют узнавать важные свойства входных данных. Чтобы научиться понимать сложные отношения, нужно использовать нейроны с определенного рода нелинейностью.
Нейроны с сигмоидой, гиперболическим тангенсом и усеченные линейные
На практике для вычислений применяются три типа нелинейных нейронов. Первый называется сигмоидным и использует функцию:
Интуитивно это означает, что, если логит очень мал, выходные данные логистического нейрона близки к 0. Если логит очень велик – то к 1. Между этими двумя экстремумами нейрон принимает форму буквы S, как на рис. 1.11.
Рис. 1.11. Выходные данные сигмоидного нейрона с переменной z
Нейроны гиперболического тангенса (tanh-нейроны) используют похожую S-образную нелинейность, но исходящие значения варьируют не от 0 до 1, а от −1 до 1. Формула для них предсказуемая: f(z) = tanh(z). Отношения между входным значением y и логитом z показаны на рис. 1.12. Когда используются S-образные нелинейности, часто предпочитают tanh-нейроны, а не сигмоидные, поскольку у tanh-нейронов центр находится в 0.
Рис. 1.12. Выходные данные tanh-нейрона с переменной z
Еще один тип нелинейности используется нейроном с усеченным линейным преобразованием (ReLU). Здесь задействована функция f(z) = max(0, z), и ее график имеет форму хоккейной клюшки (рис. 1.13).
Рис. 1.13. Выходные данные ReLU-нейрона с переменной z
ReLU в последнее время часто выбирается