BIG DATA. Вся технология в одной книге. Андреас Вайгенд
Чтение книги онлайн.
Читать онлайн книгу BIG DATA. Вся технология в одной книге - Андреас Вайгенд страница 26
Но информация была привязана к «удостоверению личности» задолго до появления Facebook. В середине 1990-х годов теоретик информатики Латания Суини решила выяснить, насколько в действительности анонимна «анонимная» база данных о состоянии здоровья[89]. Штат Массачусетс решил, что предоставление научному сообществу информации о посещениях госслужащими врачей в клиниках соответствует государственным интересам. Не будучи совсем дураками, чиновники понимали, что передавать эти данные с указанием имен людей нельзя, и удалили ряд идентификаторов – фамилии, адреса и номера карточек социального страхования. Но поскольку статистика предназначалась для целей совершенствования системы здравоохранения, кое-какие данные о пациентах в ней оставили – пол, дату рождения и почтовый индекс. Сопоставив эти три элемента информации с другой базой данных – списками избирателей, зарегистрированных по городскому округу Кембриджа, официально доступных любому человеку за плату в двадцать долларов, Суини смогла вычислить медицинскую карту губернатора штата. После чего доктор Суини «сделала театральный жест, направив копию медицинской карты губернатора со всеми диагнозами и выписанными рецептами прямо ему в офис»[90].
По оценке Суини, зная пол, возраст и почтовый индекс человека, можно идентифицировать 87 процентов населения США[91]. Более поздние исследования понизили этот показатель до примерно 63 процентов – тоже поразительно много, учитывая, что это можно сделать без использования намного более точных сведений, которыми люди постоянно делятся в Facebook и на других сайтах, где собирают социальные данные[92]. Почему для идентификации личности человека нужно столь мало информации, поясняет порядковый расчет. В США примерно 40 000 активных почтовых индексов и около 300 миллионов человек населения, из чего следует, что на один почтовый индекс приходится примерно по 7000 жителей, которые приблизительно поровну делятся на мужчин и женщин[93]. Если предположить, что количество новорожденных равномерно распределяется по количеству дней в году, то получается, что «привязанными» к одному почтовому индексу будут по десять мужчин или женщин с одинаковым днем рождения.
Теперь посмотрим на социальные данные, которыми обычно располагает инфопереработчик. Представление о том, что человека нельзя идентифицировать по его цифровому следу, рассыпалось в пух и прах после того, как два крупнейших инфопереработчика поделились «обезличенными» социальными данными с учеными. Сначала интернет-провайдер AOL предоставил для исследовательских
89
Суини провела этот эксперимент, будучи студенткой магистратуры МТИ. Сейчас она преподает государственное управление и технологии в Гарвардском университете и является директором его Лаборатории защиты информации
90
Ohm, Paul, “Broken Promises of Privacy: Responding to the Surprising Failure of Ano-nymization”, UCLA Law Review 57, no. 6 (August 2010), p. 1720, http://www.uclalawreview. org/broken-promises-of-privacy-responding-to-the-surprising-failure-of-anonymization-2.
91
Sweeney, Latanya, Uniqueness of Simple Demographics in the U. S. Population, Laboratory for International Data Privacy working paper LIDAP-WP4–2000, http://dataprivacylab.org/projects/identifiability/index.html.
92
Golle, Philippe, “Revisiting the Uniqueness of Simple Demographics in the U. S. Population”, Proceedings of the 5th ACM Workshop on Privacy in the Electronic Society (New York: Association for Computing Machinery, 2006), pp. 77–80, http://dl.acm.org/citation. cfm?id=1179615.
93
US Post Office FAQ, http://faq.usps.com. Если бы были присвоены все 90 000 возможных номеров (10000–99999), процент возможности точной идентификации людей был бы еще выше. Другая причина невозможности более высокого процента возможности точной идентификации состоит в неравномерном распределении населения США по почтовым индексам.