Код бестселлера. Мэттью Джокерс

Чтение книги онлайн.

Читать онлайн книгу Код бестселлера - Мэттью Джокерс страница 11

Код бестселлера - Мэттью Джокерс

Скачать книгу

средства. Если наша книга окажется полезной и вы напишете бестселлер – пожалуйста, дайте нам знать. Мы обязательно купим его и подвергнем компьютерному анализу. Но не жалуйтесь, что вы искали простую формулу, чтобы отхватить миллионный контракт на роман, а мы вам ее не дали. Тот, кто предложит вам такую формулу, – шарлатан, ничем не лучше тех, кто продает волшебный чай для похудения, гарантируя «радикальную потерю веса за одну ночь».

      4. «Черный ящик»

      Эта книга – не про алгоритмы. Мы расскажем об основных параметрах, которые научились вычислять, и опишем в общих чертах наш метод, но перед вами не пособие по машинному обучению, автоматическому поиску документов или обработке естественного языка. По этим темам существует множество хороших учебников, а мы пишем о книгах, в основном о бестселлерах[43]. Мы хотим, чтобы вы задумались о себе как читателе или писателе, о задачах литературы, об авторах, которых вы любите или ненавидите, и даже об отношениях человека и машины. Мы расскажем вам о множестве результатов и интерпретаций того, как компьютеру удалось или не удалось определить бестселлеры и чему это нас научило, но мы будем говорить про «Щегла»[44] и «Исчезнувшую», а не про латентные размещения Дирихле или, к примеру, распознавание именованных сущностей. Эти (загадочные для непосвященных) методы были важны для проделанной нами работы, и без них мы не справились бы, но это лишь инструменты: живописец рисует кистью, но он не рисует саму кисть.

      2. Крестные родители, или Почему важно находить время друг для друга

      Входя в книжный магазин, первое, что видишь, – столы с новыми книгами. Теперь вы знаете: чаще всего это значит, что за многие из них, если не за все, кто-то хорошо заплатил, чтобы они первыми попались вам на глаза. Это произведения самых разных жанров – романы, автобиографии, кулинарные книги, триллеры, однако остальная часть магазина организована по категориям. Если вы любите читать беллетристику, то знаете, что в магазине обычно есть отдел прозы, где размещаются по алфавиту классические и современные авторы, а также отделы жанров с соответствующими табличками – например «Любовный роман» или «Научная фантастика». Мы так привыкли к подобному размещению книг в магазине, что, кажется, нашли бы нужную с закрытыми глазами.

      Расположение книг как в магазинах сети Barnes & Noble, так и в любом онлайн-магазине продиктовано убеждением, что самая главная характеристика книги – это ответ на вопрос: «О чем она?» На этом построено все книжное дело. Каждой книге, опубликованной традиционным образом, присваивается один или несколько кодов тематики по классификации BISAC[45]. Они устанавливаются Группой исследования книжного дела (BISG) – ассоциацией, ответственной за создание и поддержание стандартов в отрасли. Этих кодов тысячи; для одной беллетристики их существует 152, и они определяют, в какую категорию попадет книга, как она будет выставлена на полке и как будет продаваться. Коды очень подробно описывают содержание

Скачать книгу


<p>43</p>

Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (Примеч. авторов.)

<p>44</p>

The Goldfinch, Donna Tartt.

<p>45</p>

Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».