Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден
Чтение книги онлайн.
Читать онлайн книгу Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эрец Эйден страница 10
На протяжении нескольких лет мы обращались к этой книге снова и снова, каждый раз обнаруживая нечто новое и интересное.
Все это кажется поначалу странным. Можно было бы предположить, что, превращая любовный роман в алфавитный список и тем самым уничтожая его изначальный смысл, Реймер могла бы заодно уничтожить все то, что делало текст интересным. И в какой-то степени это правда. Однако в результате алфавитной реорганизации текста нам открывается невидимый прежде мир частотности слов – лексических атомов, из которых состоит текст. Эта частотность – и истории, которые она рассказывает, – как раз и превращает результат работы Реймер в столь увлекательное повествование.
Трудный ребенок
На момент нашего знакомства в 2005 году тема больших данных была еще неактуальной[37]. Идея чтения миллионов книг за долю секунды пока что не приходила нам в голову. Мы были всего лишь молодыми студентами-старшекурсниками, которых интересовала масса вопросов.
Для того чтобы найти, чем заинтересоваться, нужна соответствующая среда. Мы встретились на гарвардской программе Evolutionary Dynamics[38] – в настоящей гавани творчества и науки, организованной харизматичным математиком и биологом Мартином Новаком. Программа «Эволюционная динамика» представляла собой площадку, на которой математики, лингвисты, онкологи, религиоведы, психологи и физики собирались вместе и размышляли о новых способах изучения мира. Новак призывал нас искать решения любых проблем, интересовавших нас, вне зависимости от того, к какой области знания они относились.
Что делает проблему увлекательной? На эту тему можно вести множество споров. Нам казалось, что увлекательный вопрос – это вопрос, который может задать маленький ребенок, ответ на который неизвестен, и при поиске этого ответа (занимающем порой несколько лет научных исследований) можно достичь вполне заметного прогресса. Именно такие вопросы казались интересными и нам. Дети – отличный источник идей для исследований. Их вопросы вроде «Куда уходит солнце по вечерам?» [39] и «Почему небо синее?» [40] заставляют пытливые умы погрузиться в глубины астрономии и физики. А вопросы вроде «Может ли дерево вырасти и стать выше горы?» [41] или «Могли бы мы жить вечно, если бы изо всех сил старались избегать всевозможных опасностей?» заставляют обратиться к изучению некоторых актуальных тем в современной биологии. Привычный для любых родителей вопрос «Но почему я должен идти спать прямо сейчас?» [42] – не дает заснуть множеству неврологов.
Однако из всех этих вопросов нас увлек один: «Почему мы говорим drove, а не drived?» [43]
Вопрос показался нам интересным, поскольку представлял собой простой пример довольно важной для всего человечества
37
Идея «больших данных» пока еще слишком нова для того, чтобы найти достойное отражение в книгах; см. наше обсуждение времени, которое требуется, чтобы термины стали появляться в книгах, в главе 6. Согласно данным
38
Лучше всего понять атмосферу этого места и познакомиться с участниками проекта можно, прочитав книгу Новака. См. Martin A. Nowak with Roger Highfield, SuperCooperators. New York: Free Press, 2011.
39
Ответ на этот вопрос приводится в довольно противоречивой работе, изначально опубликованной Галилеем в 1632 году. См. Galileo Galilei,
40
Это вызвано явлением рассеяния Рэлея, открытым лордом Рэлеем (в то время его имя звучало как Джон Стратт). См. John Strutt.
41
См. George W. Koch et al. The Limits to Tree Height // Nature 428 (22 апреля 2004 г.). P. 851–854. Доступно в сети Интернет: http://goo.gl/lxNlq.
42
См. Carlos Schenck. Sleep. New York: Penguin, 2007. Несмотря на наличие огромного количества книг на эту тему, никто в точности не знает, почему нам необходимо спать. Теоретикам есть где разгуляться в этой области. См., к примеру, Van M. Savage and Geoffrey B. West. A Quantitative, Theoretical Framework for Understanding Mammalian Sleep // PNAS: Proceedings of the National Academy of Sciences (20 ноября 2006 г.), доступно в сети Интернет: http://goo.gl/wFWDC.
43
Сравниваются две формы прошедшего времени глагола, одна из которых образована по правилу, но не существует в языке, вторая – существует, но образована не по правилу (