Возможно, иллюстрация с йогуртом показалась кому-то из читателей несколько надуманной. Приведу реальный пример, касающийся больших данных, чтобы доказать, что это совсем не так. Обратимся к открытому соревнованию Concrete compressive strength[3], в рамках которого специалисты по данным должны были определить состав самого твердого бетона. Участникам предоставили частичную информацию, в которой содержались сведения относительно прочности образцов в зависимости от соотношения различных компонентов и параметров. Всего было шестнадцать переменных:
1. Количество цемента.
2. Количество доменного шлака.
3. Количество золы.
4. Количество воды.
5. Количество «суперпластификатора».
6. Плотность пластификатора.
7. Количество крупного заполнителя.
8. Количество мелкого заполнителя.
9. Количество компонента MixtureMeasurement9.
10. Количество компонента SSL9000.
11. Значение параметра O2_purityscore.
12. Количество компонента F192.
13. Оценка по шкале TysonScore.
14. Площадь бетона.
15. Возраст бетона.
16. Влажность бетона.
Производитель бетона собирал данные, изучая имеющиеся у него образцы, и пытался найти такое соотношение ингредиентов, при котором прочность была бы максимальной. Очевидно, что если бы компания решила действовать путем «перебора» всех возможных соотношений, то у нее не хватило бы ни денег, ни времени (продолжительности жизни сотрудников), чтобы протестировать все возможные комбинации. Для решения именно таких задач и предназначено машинное обучение. Созданный на основе собранных данных алгоритм способен предсказывать значения для «пробелов», благодаря чему можно получить результаты тех экспериментов, которые еще не проводились в реальности, то есть спрогнозировать будущее. К примеру, если компания-производитель бетона спросит: «Какова будет прочность, если использовать в два раза больше золы?», то машина ответит что-то вроде: «Прочность упадет на 26.7 %». Так фирма может проводить миллионы экспериментов в день, не тратя на это ни копейки. Действуя подобным образом, рано или поздно компания обязательно найдет лучшее соотношение компонентов для создания самого прочного и дешевого бетона.
Как вывести компанию из убытков
В предыдущих главах мы выяснили, как можно увеличить прибыль, используя большие данные и машинное обучение для предсказания результатов экспериментов. Но для того чтобы эти большие данные вообще появились и сохранялись в процессе каждого бизнес-процесса, необходимо специальным образом организовать все информационные потоки в компании. Самое время перейти к обсуждению масштабной и фундаментально важной для больших данных темы – цифровизации как СКАЧАТЬ
3
Соревнование по поиску формулы самого твердого бетона (https://www.kaggle.com/competitions/dat200-2019-ca3/overview).