Дякую за запізнення: керівництво для оптимістів сучасності. Томас Фридман
Чтение книги онлайн.

Читать онлайн книгу Дякую за запізнення: керівництво для оптимістів сучасності - Томас Фридман страница 23

СКАЧАТЬ даним. Вони натомість покладалися на Oracle SQL, мову для комп’ютерів, створену в 70-ті роки в IBM, яка використовують для збереження, керування й запитів до масивів структурованих запитів і таблиць. Саме скорочення SQL означає «мова структурованих запитів». ПЗ у структурованій базі даних ідентифікує кожен елемент цих даних. У банківській системі виникають визначення – «це чек», «це трансакція», «це баланс». Вони всі закладені в структуру, і ПЗ може швидко знайти ваш останній банківський депозит.

      Проте SQL не опрацьовувала запитів до неструктурованих даних. Неструктуровані дані були суцільним безладом. Це означає, що з безладу можна було витягти геть усе відцифроване та збережене, але структури в цьому масиві не було. Завдяки Hadoop дата-аналітики змогли здійснювати пошук у неструктурованих даних і виявляти патерни. Ця здатність просіювати гори неструктурованих даних, не знаючи, що саме шукають, а також здатність робити запити, одержувати відповіді та ідентифікувати патерни стала величезним проривом.

      Як пояснив Каттінг, з’явився Hadoop і сказав користувачам: «Дайте мені ваші структуровані й неструктуровані цифрові дані, і ми знайдемо в них зміст для вас. Наприклад, кредитна компанія, як-от Visa, зацікавлена у виявленні шулерів, і в неї є ПЗ, що може сформувати запит для вікна на 30 або 60 діб, але не більше. Hadoop надав масштаб, якого доти не було. Щойно Visa інсталювала Hadoop, вона змогла формувати запит на 4—5 років та одразу завдяки більшому вікну виявила схему найбільшого на той час шахрайства. Hadoop використовувала вже добре відомі людям масштабовані інструменти та приступність, якої доти не було».

      Тому Hadoop нині – основна операційна система для інформаційної аналітики як структурованих, так і неструктурованих даних. Ми звикли позбавлятися даних, бо надто дорого їх зберігати, передусім неструктурованих даних. Тепер, коли ми можемо їх зберігати та виявляти в них патерни, варто збирати та зберігати всі дані. «Кількість даних, які люди продукують і з якими люди пов’язані, та нових софтверних аналітичних інструментів зростає принаймні експоненційно», – сказав Каттінг.

      Раніше малі обсяги обробляли швидко, але їм бракувало релевантності, а великі обсяги мали економію та ефективність масштабу, але процес відбувався поволі, пояснював мені Джон Донован з AT&T. «І що маємо тепер, коли в нас масовий масштаб плюс швидкість?» – запитав він. У минулому «при великих масштабах втрачалася швидкість, можливість персоналізації та модифікації під замовника, і лише за великих даних це стало реальністю». Сьогодні можна перейти від мільйона неперсоналізованих масивних і недієвих взаємодій до мільйона індивідуальних рішень, бо програмне забезпечення дає змогу кожний пакет даних розокремити, знайти йому місце й дати визначення.

      Це не проста справа. Як сказав в інтерв’ю часопису Foreign Affairs за листопад-грудень 2013 року Себастіан Трун, засновник Udacity та один із піонерів масових відкритих онлайн-курсів (МВОК) і тодішній професор у Стенфорді:

      Із появою цифрової інформації її запис, СКАЧАТЬ