Код бестселлера. Мэттью Джокерс
Чтение книги онлайн.
Читать онлайн книгу Код бестселлера - Мэттью Джокерс страница 11
4. «Черный ящик»
Эта книга – не про алгоритмы. Мы расскажем об основных параметрах, которые научились вычислять, и опишем в общих чертах наш метод, но перед вами не пособие по машинному обучению, автоматическому поиску документов или обработке естественного языка. По этим темам существует множество хороших учебников, а мы пишем о книгах, в основном о бестселлерах[43]. Мы хотим, чтобы вы задумались о себе как читателе или писателе, о задачах литературы, об авторах, которых вы любите или ненавидите, и даже об отношениях человека и машины. Мы расскажем вам о множестве результатов и интерпретаций того, как компьютеру удалось или не удалось определить бестселлеры и чему это нас научило, но мы будем говорить про «Щегла»[44] и «Исчезнувшую», а не про латентные размещения Дирихле или, к примеру, распознавание именованных сущностей. Эти (загадочные для непосвященных) методы были важны для проделанной нами работы, и без них мы не справились бы, но это лишь инструменты: живописец рисует кистью, но он не рисует саму кисть.
2. Крестные родители, или Почему важно находить время друг для друга
Входя в книжный магазин, первое, что видишь, – столы с новыми книгами. Теперь вы знаете: чаще всего это значит, что за многие из них, если не за все, кто-то хорошо заплатил, чтобы они первыми попались вам на глаза. Это произведения самых разных жанров – романы, автобиографии, кулинарные книги, триллеры, однако остальная часть магазина организована по категориям. Если вы любите читать беллетристику, то знаете, что в магазине обычно есть отдел прозы, где размещаются по алфавиту классические и современные авторы, а также отделы жанров с соответствующими табличками – например «Любовный роман» или «Научная фантастика». Мы так привыкли к подобному размещению книг в магазине, что, кажется, нашли бы нужную с закрытыми глазами.
Расположение книг как в магазинах сети Barnes & Noble, так и в любом онлайн-магазине продиктовано убеждением, что самая главная характеристика книги – это ответ на вопрос: «О чем она?» На этом построено все книжное дело. Каждой книге, опубликованной традиционным образом, присваивается один или несколько кодов тематики по классификации BISAC[45]. Они устанавливаются Группой исследования книжного дела (BISG) – ассоциацией, ответственной за создание и поддержание стандартов в отрасли. Этих кодов тысячи; для одной беллетристики их существует 152, и они определяют, в какую категорию попадет книга, как она будет выставлена на полке и как будет продаваться. Коды очень подробно описывают содержание
43
Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (
44
The Goldfinch, Donna Tartt.
45
Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».