Технология хранения и обработки больших данных Hadoop. Тимур Машнин
Чтение книги онлайн.

Читать онлайн книгу Технология хранения и обработки больших данных Hadoop - Тимур Машнин страница 5

СКАЧАТЬ style="font-size:15px;">      Здесь браузер выступает как клиент, для доступа к этим сервисам, запущенным на виртуальной машине, для доступа с помощью URL адреса.

      И давайте пройдемся по ним и узнаем, что они нам могут предоставить.

      Откроем вкладку Overview NameNode Hadoop.

      Здесь мы видим обзор нашего стека Hadoop.

      Мы можем видеть, когда произошла инициализация этого стека.

      И этот обзор дает нам полную сводку по всем конфигурациям, количеству файлов и т. д.

      Давайте откроем вкладку Datanodes.

      Этот сервис позволяет посмотреть на все имеющиеся у нас Datanodes.

      Напомним, что кластер HDFS состоит из одного NameNode, главного сервера, который управляет пространством имен файловой системы и регулирует доступ клиентов к файлам.

      И существуют узлы данных Datanodes, обычно по одному на узел кластера, которые управляют хранилищем, подключенным к узлам.

      Откроем вкладку RegionServer HBase/

      HBase – это столбцовое хранилище данных, которое хранит неструктурированные данные в файловой системе Hadoop.

      Здесь показывается количество запросов, которые делаются для чтения и записи в базу данных HBase.

      И мы можем видеть все вызовы и задачи, которые были переданы в базу данных.

      Impala позволяет нам отправлять высокопроизводительные SQL-подобные запросы к данным, хранящимся в HDFS.

      И здесь мы можем посмотреть последние 25 выполненных запросов, мы можем посмотреть на запросы, которые происходят прямо сейчас, мы можем посмотреть на местоположения и фрагменты, к которым были отправлены эти запросы.

      Далее, давайте откроем вкладку Oozie.

      Здесь мы можем увидеть количество отправленных заданий, когда они были запущены, и т. д.

      Теперь, давайте вернемся к исходной веб-странице, странице приветствия, и нажмем Start Tutorial.

      И этот урок предложит нам введение в стек Cloudera.

      На этой странице говорится, что в этом уроке представлены примеры в контексте созданной корпорации под названием DataCo.

      И вопрос первого упражнения – какие продукты любят покупать клиенты корпорации?

      Чтобы ответить на этот вопрос, вы можете посмотреть на данные транзакций, которые должны указать, что клиенты покупают.

      Вероятно, вы можете это сделать в обычной реляционной базе данных.

      Но преимущество платформы Cloudera заключается в том, что вы можете делать это в большем масштабе при меньших затратах.

      Здесь сбоку есть информация о Scoop.

      Это инструмент, который использует Map Reduce для эффективной передачи данных между кластером Hadoop и реляционной базой данных.

      Он работает путем порождения нескольких узлов данных, чтобы загружать различные части данных параллельно.

      И по окончании, каждый фрагмент данных будет реплицирован для обеспечения доступности и распределения по кластеру, чтобы вы могли параллельно обрабатывать СКАЧАТЬ