Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. Билл Фрэнкс
Чтение книги онлайн.
Читать онлайн книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс страница 6
Большие данные появляются везде, и их умелое применение окажется конкурентным преимуществом. Игнорирование больших данных опасно для организации, поскольку так можно отстать от конкурентов. Чтобы оставаться конкурентоспособными, крайне важно, чтобы организации активно анализировали эти новые источники данных и воспользовались содержащимися в них ценными сведениями. Профессиональным аналитикам предстоит много работы! Нелегко будет объединить большие данные со всеми остальными данными, которые в течение многих лет применялись для анализа.
В начале главы объясняется, что такое «большие данные». Далее приведены соображения о том, чем они могут быть полезны организации.
Что такое «большие данные»?
Однозначного определения понятия «большие данные» не существует, однако можно сослаться на два описания сути этой концепции, с которой согласится большинство людей. Первое определение предложил Мерв Адриан из компании Gartner[2] в статье для журнала Teradata Magazine в первом квартале 2011 года: «Большие данные – это данные, сбор, управление и обработку которых невозможно осуществить с помощью наиболее часто используемых аппаратных сред и программных инструментов в течение допустимого для пользователя времени»{1}. Другое хорошее определение появилось в докладе McKinsey Global Institute[3] в мае 2011 года: «Большие данные – это наборы данных, размеры которых выходят за пределы возможностей по сбору, хранению, управлению и анализу, присущих обычному программному обеспечению базы данных»{2}.
Из этих определений следует, что то, что считается большими данными, будет изменяться по мере развития технологий. То, что когда-то было «большими данными», или то, что считается «большими данными» сегодня, будет отличаться от «больших данных» завтрашнего дня. Некоторых настораживает этот аспект понятия больших данных. Приведенные определения подразумевают, что суть больших данных может отличаться в зависимости от отрасли или даже организации, если существует значительная разница в возможностях инструментов и технологий. Мы обсудим это более подробно в этой главе в разделе «Сегодняшние большие данные отличаются от завтрашних больших данных».
В докладе McKinsey отмечены несколько интересных фактов, которые дают представление об объеме существующих сегодня данных.
• За $600 сегодня можно купить диск, способный вместить всю музыку мира.
• Каждый
2
Gartner – исследовательская и консалтинговая компания, специализирующаяся на рынках информационных технологий.
1
3
McKinsey Global Institute – американская глобальная консалтинговая фирма.
2
Большие данные: следующий рубеж инноваций, конкуренции и эффективности (Big Data: The Next Frontier for Innovation, Competition, and Productivity) // McKinsey Global Institute, май 2011 года.