Обработка больших данных. Джейд Картер
Чтение книги онлайн.

Читать онлайн книгу Обработка больших данных - Джейд Картер страница 21

Название: Обработка больших данных

Автор: Джейд Картер

Издательство: Автор

Жанр:

Серия:

isbn:

isbn:

СКАЧАТЬ большие файлы, HDFS разбивает их на блоки и хранит копии (реплики) этих блоков на разных DataNode для повышения надежности. Если один из узлов (например, DataNode B) выходит из строя, NameNode автоматически инициирует копирование недостающих блоков с DataNode A и C на другие доступные узлы, чтобы обеспечить целостность данных. Это позволяет системе продолжать работу даже при сбое одного или нескольких узлов.

      Таким образом, в этом примере HDFS помогает компании эффективно управлять огромными объемами данных, обеспечивая высокую доступность и надежность системы, даже при наличии сбоев в отдельных узлах.

      MapReduce

      MapReduce – это программная модель и связанный с ней инструмент, используемый для обработки и генерации больших объемов данных с использованием параллельных и распределённых алгоритмов в кластере. MapReduce предоставляет разработчикам простой и эффективный способ анализа данных, хранящихся в HDFS. Основные компоненты MapReduce включают:

      1. Функция Map:

      Функция Map является первой и ключевой стадией в процессе обработки данных в парадигме MapReduce, используемой в таких системах, как Hadoop. Эта стадия играет важную роль в разделении и параллельной обработке больших объемов данных, что делает систему масштабируемой и эффективной для обработки задач на кластере.

      На этапе Map входные данные, которые могут представлять собой большие файлы, таблицы баз данных или другие большие наборы данных, делятся на более мелкие части, называемые "сплитами". Каждый сплит представляет собой часть исходных данных, которую можно обрабатывать независимо от других частей. В Hadoop, например, данные обычно хранятся в HDFS, где они уже разделены на блоки. Однако в процессе MapReduce сплиты могут быть созданы на основе логической структуры данных, а не только на основе физического разделения.

      Когда сплит данных готов, он передается на обработку функции Map. Функция Map выполняется параллельно на каждом сплите данных и, по сути, является пользовательской функцией, которая определяет, как именно будут обрабатываться данные. Эта функция применяет определенные операции к каждому элементу данных в сплите и генерирует одну или несколько пар ключ-значение в качестве результата. Ключом может быть любой идентификатор или характеристика данных, тогда как значение – это информация, связанная с этим ключом.

      Рассмотрим пример анализа текстового файла. Допустим, задача состоит в том, чтобы подсчитать частоту встречаемости каждого слова в большом тексте. В этом случае функция Map может читать строки текста, разбивать их на отдельные слова и затем для каждого слова создавать пару ключ-значение, где ключ – это само слово, а значение – единица (представляющая одно упоминание слова). Например, если строка "Hadoop is powerful" обрабатывается функцией Map, она может вернуть пары (Hadoop, 1), (is, 1), (powerful, 1). Такие пары ключ-значение формируются для каждого слова в каждом сплите.

      После того как функция Map завершает свою работу, результаты (все пары ключ-значение) сортируются и группируются по ключам. Этот процесс называется "сортировка СКАЧАТЬ