BIG DATA. Вся технология в одной книге. Андреас Вайгенд
Чтение книги онлайн.
Читать онлайн книгу BIG DATA. Вся технология в одной книге - Андреас Вайгенд страница 28
Данные о личных качествах могут формироваться и без активного участия человека. Один из таких примеров – несметное число фотографий, выложенных в сеть. Появление ваших изображений в интернете – вне вашего контроля, а права на них – и подавно. Если вас случайно сфотографировали во время какого-то мероприятия, идентификация вашей личности всего лишь вопрос времени. В лаборатории искусственного интеллекта Facebook, которую возглавляет Ян Лекун, разработана система DeepFace, которая может определять идентичность лиц на фотографиях с очень высокой точностью[107]. Система пока не может самостоятельно определять имя человека на изображении, но если фото подписано, алгоритм присвоит эту подпись всем остальным фото с похожими лицами. Создается и другая программа, которая будет анализировать место действия, то есть сможет различать, сфотографированы ли вы в людном баре или на пустынном холме. В зависимости от того, где вас фотографируют чаще, система отнесет вас либо к любителям потусоваться, либо к одиноким странникам.
Научный сотрудник Microsoft Research Синтия Дворк с коллегами доказали, что сам факт существования баз данных подразумевает информационную открытость любого человека. Базы данных существуют для того, чтобы предоставлять ответы, и можно сформировать такую последовательность вопросов, утвердительным ответам на которые будет соответствовать единственный человек в базе. Обычно Синтия демонстрирует это на таком примере: сначала она спрашивает, сколько человек с признаками серповидноклеточной анемии значится в медицинской базе данных сотрудников Microsoft. Затем уточняет, сколько из них мужчин с вьющимися волосами в должности старшего научного сотрудника. Поскольку Синтия – единственный в Microsoft старший научный сотрудник – женщина с вьющимися волосами и признаками серповидноклеточной анемии, разница между ответами на два ее вопроса точно указывает на нее[108].
Люди предоставляют данные для переработки, чтобы получать результаты, помогающие в принятии решений. В базах данных, похожих на базу из примера Синтии Дворк, собирается относительно специфическая информация ограниченного объема. Это так называемые малые данные. Они не сопоставимы с уму непостижимым количеством «следов», которые накапливают современные центры обработки «больших данных». Чтобы получить от инфопереработчика нечто действительно полезное, надо предоставить ему точные исходные данные, например о ваших интересах и предпочтениях. Если вы не готовы поделиться
104
Хип-хоп-группа. –
105
Kosinski, Stillwell, and Graepel, “Private Traits and Attributes Are Predictable from Digital Records of Human Behavior”, p. 5804.
106
Для доступа к лайкам в Facebook исследователи использовали программный интерфейс приложения (API); им было труднее идентифицировать тех, кто использовал настройки приватности для ограничения доступа к своим лайкам, даже несмотря на их согласие участвовать в оценке индивидуальных особенностей. См. http://applymagicsauce.com. В интервью Косински говорил: «Это может приносить огромную пользу в деле подбора персонала»; Adams, Stephen, “‘Like’ Curly Fries on Facebook? Then You’re Clever”, Telegraph, March 12, 2013, http://www.telegraph.co.uk/technology/news/9923070/Like-curly-fries-on-Facebook-Then-youre-clever.html.
107
Simonite, Tom, “Facebook’s New AI Research Group Reports a Major Improvement in Face-Processing Software”, MIT Technology Review, March 17, 2014, http://www.technologyreview.com/news/525586/facebook-creates-software-that-matches-faces-almost-as-well-as-you-do; Taigman, Yaniv, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf, “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”, paper presented at the IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, June 24–27, 2014, pp. 1701–1708, https://www.cs.toronto.edu/~ranzato/publications/taigman_cvpr14.pdf.
108
Синтия использует этот пример в своей лекции под названием «Я – в базе данных (Но никто об этом не знает)»; I’m in the Database (But Nobody Knows), Dean’s Lecture, University of California – Berkeley School of Information, February 4, 2015, http://www.ischool.berkeley.edu/newsandevents/events/deanslectures/20150204.