Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации. Алексей Сергеевич Гуржиев
Чтение книги онлайн.

Читать онлайн книгу Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации - Алексей Сергеевич Гуржиев страница 5

СКАЧАТЬ PDF или DOC вперемешку с JPEG-изображениями и MP4-видеофайлами. Как можно догадаться, если бессистемно поставлять подобные потоки информации в хранилище и не определить заранее, как и куда сохранять, то озеро данных очень быстро превратится в болото. Чтобы этого не произошло, нужен специальный программист, он же «инженер по данным». А если быть совсем точным, «директор по данным» (с английского ”Chief Data Officer”). Он следит как за порядком на этом «водохранилище», так и за правами доступа к нему. Весь процесс называется «управление данными» (с английского ”Data Governance”).

      Итак, озеро данных – это первый «склад», куда попадает информация. После чего начинается процесс ее трансформации в более удобные формы для последующего размещения в следующем складе под названием «хранилище данных» (с английского ”Data Warehouse”). Сам процесс преобразования информации и ее перемещения между «складами» называется ETL (англ. термин ”Extract, Transform, Load” – дословно «извлечение, преобразование, загрузка»). И в конце, когда данные оказываются в хранилище в удобной для чтения форме, с ними уже могут начинать работать другие специалисты. На основе этих данных строят графики, их анализируют, на них тренируют модели машинного обучения, а также используют их для построения статистики и бизнес-отчетов.

      Обычно ETL-процессы автоматизируются специальными программами, которые пишут инженеры по данным. К примеру, каждый квартал компания скачивает публичный бухгалтерский отчет конкурентов в PDF-формате. Делается это для того, чтобы держать руку на пульсе, следить за рынком. Очевидно, что в такой ситуации невозможно попросить конкурента выкладывать информацию в более удобном формате. Поэтому инженер по данным пишет программу, которая сначала скачивает PDF-файл в «озеро данных», потом достает пару-тройку нужных значений из него и сохраняет в «хранилище». После чего обновляет графики, которые строятся по этим данным. И в конце удаляет исходный PDF-файл из озера. Подобная программа срабатывает по расписанию, автоматически, непрерывно доставляя свежую информацию руководству и аналитикам. А в хранилище не остается больших ненужных файлов, все преобразуется в максимально компактный и удобный вид.

      Машинное обучение

      Итак, мы определились как со способом хранения данных, так и с причиной их преобразования в более удобный и компактный формат. Но остались вопросы: какова цель хранения данных, почему их не стоит удалять по прошествии длительного времени, зачем их бесконечно копить? Кратко на эти вопросы можно ответить так: собранные «большие данные» нужны для обучения машин. После прохождения такого обучения компьютеры способны прогнозировать параметры спроса, предлагать меры по улучшению продуктов и услуг, а также выдвигать идеи для построения новых стратегий по продажам. Наличие подобных обученных машин ведет к увеличению прибыли, снижению издержек производства, улучшению бизнес-процессов, и, как следствие всего этого, компания начинает теснить своих СКАЧАТЬ