Название: Цифровая трансформация для директоров и собственников. Часть 1. Погружение
Автор: Джимшер Бухутьевич Челидзе
Издательство: Издательские решения
Жанр: Компьютеры: прочее
isbn: 9785005669124
isbn:
– Подготовка прогнозов. Анализируя большие данные о продажах, компании могут предсказать поведение клиентов и покупательский спрос в зависимости от времени года или расположения товаров на полке. Также они используются, чтобы спрогнозировать отказы оборудования.
– Построение моделей. Анализ данных об оборудовании помогает строить модели наиболее выгодной эксплуатации или экономические модели производственной деятельности.
Источники сбора Big Data
– Социальные – все загруженные фото и отправленные сообщения, звонки, в общем всё, что делает человек в Интернете.
– Машинные – генерируются машинами, датчиками и «интернетом вещей»: смартфоны, умные колонки, лампочки и системы умного дома, видеокамеры на улицах, метеоспутники.
– Транзакционные – покупки, переводы денег, поставки товаров и операции с банкоматами.
– Корпоративные базы данных и архивы. Хотя некоторые источники не относят их к Big Data. Тут возникают споры. И основная проблема – несоответствие критериям «обновляемости» данных. Подробнее об этом чуть ниже.
Категории Big Data
– Структурированные данные. Имеют связанную с ними структуру таблиц и меток. Например, таблицы Excel, связанные между собой.
– Полуструктурированные или слабоструктурированные данные. Не соответствуют строгой структуре таблиц и отношений, но имеют «метки», которые отделяют смысловые элементы и обеспечивают иерархическую структуру записей. Например, информация в электронных письмах.
– Неструктурированные данные. Вообще не имеют никакой связанной с ними структуры, порядка, иерархии. Например, обычный текст, как в этой книге, файлы изображений, аудио и видео.
Обрабатывают такие данные на основе специальных алгоритмов: сначала данные фильтруются по условиям, которые задаёт исследователь, сортируются и распределяются между отдельными компьютерами (узлами). После этого узлы параллельно рассчитывают свои блоки данных и передают результат вычислений на следующий этап.
Характеристики больших данных
По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из четырех компонентов.
– Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.
– Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, СКАЧАТЬ