Технология хранения и обработки больших данных Hadoop. Тимур Машнин
Чтение книги онлайн.
Читать онлайн книгу Технология хранения и обработки больших данных Hadoop - Тимур Машнин страница 6
И Avro – это формат файлов, оптимизированный для Hadoop.
Таким образом, мы скопируем код и запустим команду в терминале.
После выполнения задания, чтобы подтвердить, что данные существуют в HDFS, мы скопируем следующие команды в терминал.
Которые покажут папку для каждой из таблиц и покажут файлы в папке категорий.
Инструмент Sqoop также должен был создать файлы схемы для этих данных.
И эта команда должна показать avsc схемы для шести таблиц базы данных.
Таким образом, схемы и данные хранятся в отдельных файлах.
И схема применяется к данным, только когда данные запрашиваются.
И это то, что мы называем схемой на чтение.
Это дает гибкость при запросе данных с помощью SQL.
И это отличие от традиционных баз данных, которые требуют, чтобы у вас была четкая схема, прежде чем вводить в базу какие-либо данные. Здесь мы вводим данные, а уже потом применяем к ним схему.
Теперь, так как мы хотим использовать Apache Hive, нам понадобятся файлы схем.
Поэтому с помощью этой команду скопируем их в HDFS, где Hive может легко получить к ним доступ.
Вы могли заметить, что мы импортировали данные в каталоги Hive.
И Hive и Impala читают данные из файла в HDFS, и они даже обмениваются метаданными о таблицах.
Отличие состоит в том, что Hive выполняет запросы, компилируя их в задания MapReduce.
В то время как Impala является механизмом системы параллельных запросов, которые считывают данные непосредственно из самой файловой системы, в более быстром и интерактивном режиме.
Таким образом, мы загрузили данные с помощью Sqoop в HTFS, преобразовав их в формат Avro, и импортировали файлы схем, для их использования при запросе этих данных.
И теперь, давайте перейдем к следующему упражнению.
Здесь мы будем использовать Hue, приложение Impala, для создания метаданных для наших таблиц.
Мы создадим эти метаданные, а затем сделаем запрос к нашей таблице используя Hue.
Hue предоставляет веб-интерфейс, который доступен на порту 8888.
Чтобы войти в Hue, введем сloudera в качестве имени пользователя и пароля.
Далее в меню Query Editors откроем Impala.
Скопируем и вставим код, который создаст таблицы.
И обновим данные в левой колонке, чтобы увидеть созданные таблицы.
Теперь, когда данные доступны для запросов, мы можем ответить на вопрос, какие продукты покупают клиенты.
Для этого скопируем и вставим SQL запросы для расчета общей выручки по продукту и отображения 10 лучших продуктов, приносящих доход.
После выполнения, в Hue, мы увидим результаты запроса.