Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных. Дэвид Хэнд
Чтение книги онлайн.
Читать онлайн книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд страница 12
![Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд](/cover_pre874015.jpg)
Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.
По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».
Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора – на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.