Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных. Дэвид Хэнд
Чтение книги онлайн.
Читать онлайн книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд страница 10
● DD-тип 3: выборочные факты;
● DD-тип 4: самоотбор;
● DD-тип 5: неизвестный определяющий фактор;
● DD-тип 6: данные, которые могли бы существовать;
● DD-тип 7: данные, меняющиеся со временем;
● DD-тип 8: неверно определяемые данные;
● DD-тип 9: обобщение данных;
● DD-тип 10: ошибки измерения и неопределенность;
● DD-тип 11: искажения обратной связи и уловки;
● DD-тип 12: информационная асимметрия;
● DD-тип 13: намеренно затемненные данные;
● DD-тип 14: фальшивые и синтетические данные;
● DD-тип 15: экстраполяция за пределы ваших данных.
Глава 2
Обнаружение темных данных
Что мы собираем, а что нет
Темные данные со всех сторон
Данные не возникают сами собой. Они не существуют с начала времен, ожидая, пока их проанализируют. Кто-то должен собрать их. И разные методы сбора данных, как вы догадываетесь, порождают разные типы темных данных.
В этой главе мы рассмотрим три основных метода создания наборов данных, а также пути возникновения темных данных, связанные с каждым из них. Следующая глава посвящена дополнительным осложнениям, которые темные данные могут вызывать в разных ситуациях.
Итак, вот три основные стратегии создания наборов данных.
● Сбор данных обо всех интересующих нас объектах.
Именно к этому стремятся, например, во время переписи населения. Точно так же инвентаризации преследуют цель максимально детализировать все позиции на складе или в любом другом месте. В 2018 г. ежегодная инвентаризация в лондонском зоопарке, которая занимает около недели, показала, что в данной организации насчитывается 19 289 животных – от филиппинских крокодилов до беличьих обезьян, пингвинов Гумбольдта и двугорбых верблюдов (в случае муравьев, пчел и других социальных насекомых подсчитывались колонии). В главе 1 мы уже отмечали, что супермаркеты собирают данные обо всех покупках. То же самое касается налогов, операций по кредитным картам и персонала. Не менее подробно регистрируются спортивная статистика, книги на полках библиотек, цены в магазинах и многое другое. Во всех этих примерах каждая единица – будь то объект или человек – детализируется для формирования набора данных.
● Сбор данных о некоторых элементах совокупности.
Альтернативой полной переписи населения является сбор данных в рамках ограниченной выборки. Репрезентативная выборка крайне важна в нашем контексте, и мы подробно рассмотрим ее взаимосвязь с проблемой темных данных. Проще говоря, порой приходится собирать только те данные, которые легче собрать. Чтобы понять, как ведут себя покупатели в принципе, вы