Название: Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Автор: Билл Фрэнкс
Издательство: Манн, Иванов и Фербер
Жанр: Управление, подбор персонала
isbn: 978-5-00057-146-0
isbn:
Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.
Рис. 1.1. Пример необработанных данных интернет-журнала
Многие источники больших данных на самом деле являются полуструктурированными или мультиструктурированными, а не совсем неструктурированными. Такие данные подразумевают логическую схему, которая позволяет извлечь информацию для анализа. С ними просто сложнее работать, чем с традиционными источниками структурированных данных. Использование полуструктурированных данных требует дополнительного времени и усилий для того, чтобы определить наилучший способ их обработки.
Хотя на первый взгляд может показаться иначе, данные интернет-журнала подчинены определенной логике. В них присутствуют поля, разделители и значения, как и в структурированном источнике. При этом они не согласованы друг с другом и не представляют собой набор. Текст журнала, сгенерированный только что щелчком кнопкой мыши на сайте, может быть длиннее или короче, чем текст, сгенерированный щелчком кнопкой мыши на другой странице минуту назад. И все-таки необходимо понять, что полуструктурированные данные не лишены логики. Вполне возможно найти взаимосвязь между различными их фрагментами – просто это потребует больше усилий, чем в случае со структурированными данными.
Профессиональных аналитиков больше тревожат неструктурированные данные, чем полуструктурированные. Возможно, им придется побороться с полуструктурированными данными, чтобы подчинить их своей воле, но они это сделают. Они смогут привести полуструктурированные данные в хорошо структурированную форму и включить в свои аналитические процессы. По-настоящему неструктурированные данные приручить гораздо сложнее, и это будет оставаться головной болью для организаций по мере того, как они будут учиться справляться с полуструктурированными данными.
Исследование больших данных
Начать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться СКАЧАТЬ