Технология хранения и обработки больших данных Hadoop. Тимур Машнин
Чтение книги онлайн.

Читать онлайн книгу Технология хранения и обработки больших данных Hadoop - Тимур Машнин страница 4

СКАЧАТЬ style="font-size:15px;">      И этот язык запросов называется Hive QL.

      Oozie – это система планирования рабочих процессов, которая управляет всеми нашими заданиями Hadoop.

      Задания рабочего процесса Oozie – это то, что мы называем DAG или Directed Graphs.

      Задания координатора Oozie – это периодические задания рабочего процесса Oozie, которые запускаются по частоте или доступности данных.

      Oozie интегрирован с остальной частью стека Hadoop и может поддерживать сразу несколько различных заданий Hadoop.

      Следующий инструмент – это Zookeeper.

      У нас есть большой зоопарк сумасшедших диких животных, и мы должны держать их вместе и как-то их организовывать.

      Это как раз то, что делает Zookeeper.

      Он предоставляет операционные сервисы для кластера Hadoop.

      Он предоставляет службу распределенной конфигурации и службу синхронизации, поэтому он может синхронизировать все эти задания и реестр имен для всей распределенной системы.

      Инструмент Flume – это распределенный сервис для эффективного сбора и перемещения больших объемов данных.

      Он имеет простую и очень гибкую архитектуру, основанную на потоковых данных.

      И Flume использует простую расширяемую модель данных, которая позволяет применять различные виды аналитических онлайн приложений.

      Еще один инструмент – это Impala, который был разработан специально для Cloudera, и это механизм запросов, работающий поверх Hadoop.

      Impala привносит в Hadoop технологию масштабируемой параллельной базы данных.

      И позволяет пользователям отправлять запросы с малыми задержками к данным, хранящимся в HTFS или Hbase, не сопровождая это масштабными перемещениями и манипулированием данными.

      Impala интегрирована с Hadoop и работает в той же экосистеме.

      Это обеспечивает масштабируемую технологию параллельных баз данных на вершине Hadoop.

      И это позволяет отправлять SQL-подобные запросы с гораздо более высокими скоростями и с гораздо меньшей задержкой.

      Еще один дополнительный компонент, это Spark.

      Хотя Hadoop широко используется для анализа распределенных данных, в настоящее время существует ряд альтернатив, которые предоставляют некоторые интересные преимущества по сравнению с традиционной платформой Hadoop.

      И Spark – это одна из таких альтернатив.

      Apache Spark – это фреймворк экосистемы Hadoop с открытым исходным кодом для реализации распределённой обработки данных.

      В отличие от классического обработчика Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Spark использует специализированные примитивы для рекуррентной обработки в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.

СКАЧАТЬ