Обработка больших данных. Джейд Картер
Чтение книги онлайн.

Читать онлайн книгу Обработка больших данных - Джейд Картер страница 27

Название: Обработка больших данных

Автор: Джейд Картер

Издательство: Автор

Жанр:

Серия:

isbn:

isbn:

СКАЧАТЬ EXTERNAL TABLE` создает таблицу в Hive, но не создает физические файлы в HDFS – данные остаются в указанном расположении.

      – `ROW FORMAT DELIMITED` указывает, что строки разделены определенным символом.

      – `FIELDS TERMINATED BY '\t'` указывает, что поля в данных разделены табуляцией.

      – `STORED AS TEXTFILE` указывает формат хранения данных (текстовый файл).

      – `LOCATION '/user/hadoop/web_logs'` указывает на директорию в HDFS, где хранятся данные.

      2. Выполнение запросов

      Теперь, когда таблица создана, мы можем выполнять запросы для анализа данных. Например, чтобы получить количество запросов по статусам HTTP:

      ```sql

      SELECT status, COUNT(*) AS count

      FROM web_logs

      GROUP BY status;

      ```

      Пояснение:

      – `SELECT status, COUNT(*) AS count` выбирает статус HTTP и количество запросов с этим статусом.

      – `FROM web_logs` указывает на таблицу, с которой мы работаем.

      – `GROUP BY status` группирует результаты по статусу HTTP, что позволяет подсчитать количество запросов для каждого статуса.

      3. Использование пользовательских функций (UDF)

      Если стандартных функций Hive недостаточно, можно использовать пользовательские функции. Например, предположим, что мы хотим подсчитать количество слов в запросе:

      ```java

      // Java код для UDF

      import org.apache.hadoop.hive.ql.exec.UDF;

      import org.apache.hadoop.io.Text;

      public class WordCountUDF extends UDF {

      public int evaluate(Text text) {

      if (text == null) return 0;

      String[] words = text.toString().split("\\s+");

      return words.length;

      }

      }

      ```

      Пояснение:

      – Этот код определяет пользовательскую функцию `WordCountUDF`, которая подсчитывает количество слов в строке.

      – Функция принимает текстовый параметр и возвращает количество слов.

      После компиляции и развертывания UDF в Hive, можно использовать ее в запросах:

      ```sql

      ADD JAR /path/to/udf.jar;

      CREATE TEMPORARY FUNCTION word_count AS 'com.example.WordCountUDF';

      SELECT word_count(request) AS word_count

      FROM web_logs;

      ```

      Пояснение:

      – `ADD JAR /path/to/udf.jar;` добавляет JAR-файл с вашей UDF в Hive.

      – `CREATE TEMPORARY FUNCTION word_count AS 'com.example.WordCountUDF';` регистрирует вашу UDF в Hive.

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «Литрес».

      Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

/9j/4QDoRXhpZgAATU0AKgAAAAgABgESAAMAAAABAAEAAAEaAAUAAAABAAAAVgEbAAUAAAABAAAAXgEoAAMAAAABAAIAAAITAAMAAAABAAEAAIdpAAQAAAABAAAAZgAAAAAAAACQAAAAAQAAAJAAAAABAAiQAAAHAAAABDAyMjGRAQAHAAAABAECAwCShgAHAAAAEgAAAMygAAAHAAAABDAxMDCgAQADAAAAAQABAACgAgAEAAAAAQAABA6gAwAEAAAAAQAAA5akBgADAAAAAQAAAAAAAAAAQVNDSUkAAABTY3JlZW5zaG90AAD/4g/QSUNDX1BST0ZJTEUAAQEAAA/AYXBwbAIQAABtbnRyUkdCIFhZWiAH6AAFAA4ACQATAChhY3NwQVBQTAAAAABBUFBMAAAAAAAAAAAAAAAAAAAAAAAA9tYAAQAAAADTLWFwcGwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABFkZXNjAAABUAAAAGJkc2NtAAABtAAABJxjcHJ0AAAGUAAAACN3dHB0AAAGdAAAABRyWFlaAAAGiAAAABRnWFlaAAAGnAAAABRiWFlaAAAGsAAAABRyVFJDAAAGxAAACAxhYXJnAAAO0AAAACB2Y2d0AAAO8AAAADBuZGluAAAPIAAAAD5tbW9kAAAPYAAAACh2Y2dwAAAPiAAAADhiVFJDAAAGxAAACAxnVFJDAAAGxAAACAxhYWJnAAAO0AAAACBhYWdnAAAO0AAAACBkZXNjAAAAAAAAAAhEaXNwbGF5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAbWx1YwAAAAAAAAAmAAAADGhySFIAAAAUAAAB2GtvS1IAAAAMAAAB7G5iTk8AAAASAAAB+GlkAAAAAAASAAACCmh1SFUAAAAUAAACHGNzQ1oAAAAWAAACMGRhREsAAAAcAAACRm5sTkwAAAAWAAACYmZpRkkAAAAQAAACeGl0SVQAAAAYAAACiGVzRVMAAAAWAAACoHJvUk8AAAASAAACtmZyQ0EAAAAWAAACyGFyAAAAAAAUAAAC3nVrVUEAAAAcAAAC8mhlSUwAAAAWAAADDnpoVFcAAAAKAAADJHZpVk4AAAAOAAADLnNrU0sAAAAWAAADPHpoQ04AAAAKAAADJHJ1UlUAAAAkAAADUmVuR0IAAAAUAAADdmZyRlIAAAAWAAADim1zAAAAAAASAAADoGhpSU4AAAASAAADsnRoVEgAAAAMAAADxGNhRVMAAAAYAAAD0GVuQVUAAAAUAAADdmVzWEwAAAASAAA СКАЧАТЬ