Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики. Билл Фрэнкс
Чтение книги онлайн.
Читать онлайн книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс страница 8
Традиционные источники данных с самого начала разрабатывались с учетом определенных требований. Каждый бит данных имел высокую ценность, иначе он не был бы учтен. Поскольку стоимость хранения данных стремится к нулю, источники больших данных, как правило, содержат все, что может быть использовано. Это означает, что при проведении анализа необходимо разбираться в огромном количестве хлама.
И, наконец, потоки больших данных далеко не всегда представляют собой особую ценность. Большая часть данных может быть вообще бесполезной. В журнале логов содержится как очень полезная информация, так и не имеющая ценности. Необходимо отсортировать мусор и извлечь ценные и релевантные фрагменты информации. Традиционные источники данных с самого начала разрабатывались так, чтобы содержать на 100 % релевантные данные. Это было связано с ограничениями масштабируемости: включение в поток данных чего-то неважного слишком дорого обходилось. Мало того что записи данных были предопределены заранее – каждый фрагмент данных имел высокую ценность. С тех пор изменилось одно важное обстоятельство: мы более не ограничены объемом носителя. Это привело к тому, что большие данные по умолчанию включают всю возможную информацию, а позже приходится разбираться в том, что же из собранного имеет значение. Зато есть гарантия, что ничего не будет упущено, но усложняет процесс анализа больших данных.
В чем сходство между большими данными и традиционными данными?
Любая животрепещущая тема вызывает различные, порой взаимоисключающие толкования. Существует мнение, что большие данные в корне изменят способы анализа и использования его результатов. Однако если вдуматься, это не так. Это как раз тот случай, когда шумиха выходит за рамки реальности.
Ни для кого не новость, что большой объем больших данных создает проблемы масштабируемости. Большинство новых источников данных поначалу считались большими и сложными. Большие данные – это просто очередная волна новых данных, которая раздвигает существующие пределы. Аналитики смогли приручить прошлые источники данных с учетом существовавших в то время ограничений, и большие данные тоже будут приручены. В конце концов, аналитики в течение длительного времени находились в авангарде изучения новых источников данных. Так и будет продолжаться.
Кто первым начал анализировать данные о телефонных звонках в телекоммуникационных компаниях? Аналитики. На своей первой работе