Fb2Gratis.com

Обработка больших данных. Джейд Картер
Чтение книги онлайн.

Читать онлайн книгу Обработка больших данных - Джейд Картер страница 10

Информация о книге:

Название: Обработка больших данных

Автор: Джейд Картер

Издательство: Автор

Жанр:

Серия:

isbn:

СКАЧАТЬ Выполнение скрипта

– Компиляция: Pig Latin скрипт компилируется в последовательность задач MapReduce, которые могут быть выполнены на кластере Hadoop. Компилятор Pig преобразует высокоуровневый код в низкоуровневые MapReduce задачи.

– Выполнение MapReduce задач: Pig запускает созданные задачи MapReduce на кластере Hadoop. Каждая задача выполняется на отдельных узлах кластера, которые обрабатывают фрагменты данных параллельно. В процессе работы MapReduce задачи делятся на этапы "Map" (преобразование данных) и "Reduce" (агрегация результатов).

4. Обработка результатов

– Сохранение результатов: Результаты выполнения скрипта сохраняются в файловую систему, такую как HDFS, или могут быть выгружены в другие системы хранения данных. В зависимости от скрипта, результаты могут быть сохранены в виде текстовых файлов, таблиц или других форматов данных.

– Анализ результатов: Пользователь может проанализировать результаты, используя дополнительные инструменты или визуализировать их для получения инсайтов и поддержки принятия решений.

5. Обратная связь и итерации

– Обратная связь: На основе анализа результатов пользователь может внести изменения в скрипт Pig Latin, чтобы улучшить обработку данных или скорректировать результаты.

– Итерации: Процесс может повторяться с новыми данными или изменениями в скрипте для дальнейшего анализа и улучшения результатов.

Эта схема позволяет Pig эффективно работать с большими объемами данных, обеспечивая простоту использования и мощные возможности для анализа данных.

– HBase

HBase – это распределенная, масштабируемая база данных, построенная на основе модели NoSQL, которая работает поверх Hadoop Distributed File System (HDFS). Основной целью HBase является предоставление возможности работы с большими объемами данных в реальном времени, обеспечивая низкую задержку при доступе к данным и высокую масштабируемость. HBase разрабатывался для решения задач, связанных с хранением и обработкой неструктурированных данных, которые не подходят для традиционных реляционных баз данных, особенно когда требуется работа с огромными объемами данных.

HBase использует модель данных, основанную на колонках, что отличается от традиционных реляционных баз данных, использующих строки и таблицы. В HBase данные хранятся в таблицах, которые делятся на строки и колонки, при этом каждая ячейка может хранить данные разного типа и иметь разное количество версий. Такая структура позволяет эффективно выполнять запросы к данным, поддерживать низкую задержку и обрабатывать данные с высокой скоростью, что делает HBase идеальным для использования в реальном времени, а также в аналитических приложениях, где требуется быстрый доступ к данным.

Одной из ключевых особенностей HBase является его способность масштабироваться горизонтально. Это достигается за счет распределенной архитектуры, в которой данные распределяются по нескольким узлам кластера. Каждый узел в кластере HBase выполняет роль RegionServer и хранит определенные части данных, называемые регионами. Эти регионы автоматически распределяются и балансируются между различными узлами кластера, что позволяет HBase справляться с увеличением объема данных и числа запросов. В дополнение к этому, HBase поддерживает репликацию данных для обеспечения высокой СКАЧАТЬ

Обработка больших данных. Джейд Картер Чтение книги онлайн.

Читать онлайн книгу Обработка больших данных - Джейд Картер страница 10

Обработка больших данных. Джейд Картер
Чтение книги онлайн.