Код бестселлера. Мэттью Джокерс

Чтение книги онлайн.

Читать онлайн книгу Код бестселлера - Мэттью Джокерс страница 21

Код бестселлера - Мэттью Джокерс

Скачать книгу

ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)

      33

      Она (англ.).

      34

      Jane Eyre, Charlotte Brontё.

      35

      The Devil Wears Prada, Lauren Weisberger.

      36

      The Bonfire of the Vanities, Tom Wolfe.

      37

      The Quickie, James Patterson.

      38

      Extremely Loud & Incredibly Close, Jonathan Safran Foer.

      39

      Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.

      При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)

      40

      Pride and Prejudice and Zombies, Seth Grahame-Smith.

      41

      Не знаю что (фр.).

      42

      Джонсон Адам (р. 1967) – американский писатель, лауреат Пулитцеровской премии.

      43

      Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (Примеч. авторов.)

      44

      The Goldfinch, Donna Tartt.

      45

      Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».

      46

      On Writing: A Memoir of the Craft, Stephen King.

      47

      To Kill a Mockingbird, Harper Lee.

      48

      В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)

      49

      Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный»

Скачать книгу