Сообщество разума. Марвин Минский
Чтение книги онлайн.
Читать онлайн книгу Сообщество разума - Марвин Минский страница 33
Бо́льшая часть настоящей книги посвящена памяти, то есть ментальной фиксации прошлого. Почему, когда и как осуществляется такая фиксация? Когда человеческий разум решает трудную задачу, он задействует миллионы агентов и процессов. Какие агенты оказываются достаточно мудрыми для того, чтобы догадаться о необходимых изменениях? Высокоуровневые агенты не могут знать об этом; они едва ли ведают о существовании процессов нижнего уровня. А низкоуровневые агенты тоже не знают, какие из их действий помогают нам добиваться наших целей на высоких уровнях; они едва ли подозревают о наличии целей более высокого уровня. Агентам, которые управляют ногами, все равно, идем ли мы домой или на работу; агенты же, делающие выбор между домом и работой, ничего не знают об управлении конкретными группами мышц. Где в разуме хранятся сведения о том, какие агенты заслуживают награды или наказания?
7.6. Фиксация и награда
Чтобы обучение состоялось, каждый шаг в игре должен приносить намного больше информации. Это достигается за счет разделения задачи на фрагменты. Измерителем успеха служит достижение цели. Если цель достигнута, подцели фиксируются; если нет, они стираются.
Одно известно наверняка: нам всегда легче делать то, что мы делали раньше. Что происходит в нашем сознании, вследствие чего это становится возможным? Вот что мне видится: при решении какой-либо задачи некоторые агенты, вероятно, активируют каких-то других агентов. Давайте примем, что под «вознаграждением» имеется в виду ситуация, когда агент А участвует в активации агента Б, и следствием вознаграждения будет, что впредь для А станет легче активировать Б, зато, возможно, станет тяжелее активировать других агентов. В свое время я был настолько захвачен этой идеей, что разработал машину под названием «Snarc», которая обучалась по данному принципу; она объединяла сорок агентов, каждый из которых был связан с несколькими другими, более или менее наугад, посредством системы «вознаграждений», а последняя включалась после всякого успешного действия и побуждала агента к стимулированию тех же реципиентов сигнала в дальнейшем.
Мы вводили в эту машину задачи наподобие поиска выхода из лабиринта при необходимости избегать встречи с опасным хищником. Машина быстро научилась решать простые задачи, но никак не могла справиться с трудными, например с постройкой башен из кубиков или с игрой в шахматы. Стало ясно, что для решения трудных задач любая машина с памятью ограниченной емкости должна иметь возможность повторно использовать своих агентов по-разному в разных контекстах (вспомним агента «Видеть» и две параллельные задачи, в которых он задействован). Но когда машина пыталась научиться прохождению через хитроумный лабиринт, типичный агент предлагал то правильное направление в один момент времени, то неправильное в другой момент. Позже,