Цифровая трансформация для директоров и собственников. Часть 1. Погружение. Джимшер Бухутьевич Челидзе
Чтение книги онлайн.

Читать онлайн книгу Цифровая трансформация для директоров и собственников. Часть 1. Погружение - Джимшер Бухутьевич Челидзе страница 20

СКАЧАТЬ процессов. Например, крупные банки используют большие данные, чтобы обучать чат-бота – программу, которая может заменить живого сотрудника на простых вопросах, а при необходимости переключит на специалиста. Или выявление потерь, генерируемых этими процессами.

      – Подготовка прогнозов. Анализируя большие данные о продажах, компании могут предсказать поведение клиентов и покупательский спрос в зависимости от времени года или расположения товаров на полке. Также они используются, чтобы спрогнозировать отказы оборудования.

      – Построение моделей. Анализ данных об оборудовании помогает строить модели наиболее выгодной эксплуатации или экономические модели производственной деятельности.

      Источники сбора Big Data

      – Социальные – все загруженные фото и отправленные сообщения, звонки, в общем всё, что делает человек в Интернете.

      – Машинные – генерируются машинами, датчиками и «интернетом вещей»: смартфоны, умные колонки, лампочки и системы умного дома, видеокамеры на улицах, метеоспутники.

      – Транзакционные – покупки, переводы денег, поставки товаров и операции с банкоматами.

      – Корпоративные базы данных и архивы. Хотя некоторые источники не относят их к Big Data. Тут возникают споры. И основная проблема – несоответствие критериям «обновляемости» данных. Подробнее об этом чуть ниже.

      Категории Big Data

      – Структурированные данные. Имеют связанную с ними структуру таблиц и меток. Например, таблицы Excel, связанные между собой.

      – Полуструктурированные или слабоструктурированные данные. Не соответствуют строгой структуре таблиц и отношений, но имеют «метки», которые отделяют смысловые элементы и обеспечивают иерархическую структуру записей. Например, информация в электронных письмах.

      – Неструктурированные данные. Вообще не имеют никакой связанной с ними структуры, порядка, иерархии. Например, обычный текст, как в этой книге, файлы изображений, аудио и видео.

      Обрабатывают такие данные на основе специальных алгоритмов: сначала данные фильтруются по условиям, которые задаёт исследователь, сортируются и распределяются между отдельными компьютерами (узлами). После этого узлы параллельно рассчитывают свои блоки данных и передают результат вычислений на следующий этап.

      Характеристики больших данных

      По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из четырех компонентов.

      – Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.

      – Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, СКАЧАТЬ