Big data простым языком. Алексей Благирев
Чтение книги онлайн.
Читать онлайн книгу Big data простым языком - Алексей Благирев страница 13
Жизненный цикл данных
Данные – это что-то непонятное, неопределенное, как бесформенный прозрачный кислород. Вроде есть, вроде важен, но с чего начать?
Но во всех взглядах есть общее ядро, которое разделяется каждым из участников и является одним из ключевых факторов выбора и реализации стратегии – это понимание цикла работы с данными. Я выделил несколько моделей, иллюстрирующих наиболее полный жизненный путь данных внутри организации.
Например, модель Малькольма Чисхолма[22] выделяет семь активных фаз взаимодействия с данными:
1. Data Capture – создание или сбор значений данных, которые еще не существуют и никогда не существовали в компании.
а. Data Acquisition – покупка данных, предложенных внешними компаниями;
b. Data Entry – генерация данных ручным вводом, при помощи мобильных устройств или программного обеспечения;
c. Signal Reception – получение данных с помощью телеметрии (интернет-вещей).
2. Data Maintenance – передача данных в точки, где происходит синтез данных и их использование в форме, наиболее подходящей для этих целей. Она часто включает в себя такие задачи, как перемещение, интеграция, очистка, обогащение, изменение данных, а также процессы экстракции-преобразования-нагрузки;
3. Data Synthesis – создание ценности из данных через индуктивную логику, использование других данных в качестве входных данных.
4. Data Usage – применение данных как информации для задач, которые должно запускать и выполнять предприятие. Использование данных имеет специальные задачи управления ими. Одна из них заключается в выяснении того, является ли законным использование данных в том виде, в котором хочет бизнес. Это называется «разрешенным использованием данных». Могут существовать регулирующие или контрактные ограничения на то, как фактически можно использовать данные, а часть роли управления данными заключается в обеспечении соблюдения этих ограничений.
5. Data Publication – отправка данных в место за пределами предприятия. Примером может служить брокеридж, который отправляет ежемесячные отчеты своим клиентам. После того, как данные были отправлены за пределы предприятия, де-факто невозможно их отозвать. Неверные значения данных не могут быть исправлены, поскольку они уже недоступны для предприятия. Управление данными может потребоваться, чтобы помочь решить, как будут обрабатываться неверные данные, которые были отправлены инвесторам.
6. Data Archival – копирование данных в среду, где они хранятся, до тех пор, пока не понадобятся снова для активного использования и удаления из всех активных производственных сред.
7. Data Purge – удаление каждой копии элемента данных с предприятия. В идеале
22
Известный эксперт Малькольм Чисхолм (Malcolm Chrishom), который работает в области управления данными более 25 лет, подготовил и опубликовал концепцию жизненного цикла данных.