.
Чтение книги онлайн.
Читать онлайн книгу - страница 3
Начнем с ответа на первый вопрос: что означает для компании управление на основе данных?
Сбор данных
Давайте сразу озвучим несколько очевидных требований.
Требование № 1: в компании должен осуществляться сбор данных.
Несомненно, данные – ключевой компонент. При этом речь идет не о любых данных, а о правильных. Необходимо, чтобы набор данных соответствовал вопросу, который требуется решить. Помимо этого, данные должны быть своевременными, точными, чистыми, объективными, и, что важнее всего, они должны заслуживать доверия.
Это не так-то просто. Данные никогда не бывают настолько чистыми, как вам кажется. Они могут быть предвзятыми, что может повлиять на результат анализа, а очистка данных может стать трудоемким и дорогим процессом, требующим времени. Часто приходится слышать, что специалисты по работе с данными до 80 % времени тратят на их сбор, очистку и подготовку и только 20 % – на построение моделей, процесс анализа, визуализацию и формулировку заключений на основе этих данных[5]. Как показывает опыт, это вполне вероятно.
В следующей главе мы поговорим о качестве данных подробнее.
Даже если у вас есть действительно качественные данные и даже если у вас много качественных данных, это означает только то, что вы обладаете этими данными, но не то, что в вашей компании действует управление на основе данных. Некоторые люди, особенно специалисты организаций, предоставляющих услуги по работе с большими данными, называют большие данные практически панацеей: если собирать абсолютно всё, где-то должен попасться алмаз (или крупинки золота, или искомая иголка, или любая другая метафора) и компания станет успешной. Горькая правда в том, что одних только данных недостаточно. Небольшое количество чистой, достоверной информации может быть гораздо более ценно, чем петабайты мусора.
Доступ к данным
Требование № 2: данные должны быть общедоступными.
Наличие точных и своевременных данных по теме еще не делает управление в вашей компании управлением на основе данных. Данные также должны отвечать еще ряду требований.
Их формат должен при необходимости допускать объединение с другими данными компании. Варианты могут быть разные: реляционные базы данных, хранилища NoSQL или Hadoop. Используйте инструмент, который отвечает вашим конкретным требованиям. Например, в течение длительного времени финансовые
5
См., например: http://bit.ly/nyt-janitor и http://bit.ly/im-data-sci.