Код бестселлера. Мэттью Джокерс
Чтение книги онлайн.
Читать онлайн книгу Код бестселлера - Мэттью Джокерс страница 9
![Код бестселлера - Мэттью Джокерс Код бестселлера - Мэттью Джокерс](/cover_pre233388.jpg)
Мы начали с извлечения свыше 20 тысяч параметров – имейте в виду, что количество восклицательных знаков и частота употребления слова «него» это лишь два из них, – и изучили их все. Некоторые были приметами стиля, другие помогали что-то узнать о сюжете и месте действия, а третьи поясняли, о чем, собственно, книга. Оказалось, что не все эти параметры помогают отличить книгу, набравшую миллионы читателей, от той, которая, несмотря на все свои уникальные достоинства, провалилась. Например, выяснилось, что использование чисел в заглавии – «911», «1984», «867–5309», «$ 1 000 000» – никак не стимулирует продажи. Аналогичным образом мы потратили много времени, обучая компьютер распознавать место действия (например, действие книги «Дьявол носит Prada»[35] происходит целиком в Нью-Йорке, а действие «Исчезнувшей» начинается в Нью-Йорке, а потом переносится в штат Миссури), но оказалось, что, за малыми исключениями, географическое положение героев совершенно не влияет на популярность у читателей. В Нью-Йорке происходит действие как бестселлеров, так и книг, не имевших никакого успеха. Литературные мегахиты, действие в которых разворачивается в этом городе, – взять хотя бы «Обнаженную для тебя» Сильвии Дэй, «Костры амбиций»[36] Тома Вулфа, «По-быстрому»[37] Джеймса Паттерсона, «Жутко громко и запредельно близко»[38] Джонатана Сафрана Фоера – явно (намеренно со стороны автора или случайно) обладают какими-то иными, более важными «генами бестселлера».
В конце концов мы отфильтровали свой список параметров, оставив от 20 тысяч примерно 2800, которые помогают отличить популярные у читателей книги от предназначенных для – будем честны – узкой читательской ниши. Сначала мы научили компьютеры читать книги и извлекать из них нужные данные, а затем проанализировали эти данные, используя другой набор компьютерных программ – для обнаружения и исследования скрытых закономерностей. В этой фазе анализа мы использовали процесс, весьма метко называемый машинным обучением. При анализе текстов бывает нужно сортировать или классифицировать их по сходству и различию. Например, мы хотим отличать спам от обычных сообщений в электронной почте. Поскольку у спамерских посланий много общего – искаженное написание слов, частое упоминание виагры и т. д., – можно написать программу, которая будет определять, с какой вероятностью данное сообщение окажется спамом. Сортировка романов на бестселлеры
35
The Devil Wears Prada, Lauren Weisberger.
36
The Bonfire of the Vanities, Tom Wolfe.
37
The Quickie, James Patterson.
38
Extremely Loud & Incredibly Close, Jonathan Safran Foer.