Data mining, или Интеллектуальный анализ данных для занятых. Практический курс. Владимир Рафалович
Чтение книги онлайн.

Читать онлайн книгу Data mining, или Интеллектуальный анализ данных для занятых. Практический курс - Владимир Рафалович страница 3

СКАЧАТЬ это нечто другое, чем просто статистическая обработка данных, хотя последняя лежит в ее основе. Прежде всего Разработка данных не сводится к статистической обработке данных, но содержит последнюю, скорее как внутренний инструмент. Когда у нас слишком много данных и очень много коррелирующих между собой параметров, то анализировать такие объемы вручную или традиционными методами становится проблематично. Традиционные методы не срабатывают в условиях сложных нелинейных и многочисленных комбинаций, либо требуют неадекватных затрат. Принципиальное отличие Разработки данных от статистической Обработки данных заключается в том, что первое позволят извлечь из груды данных новое знание (KDD – Knowledge Discovery from Database), новую закономерность, ранее неизвестную в принципе. Путем нахождения типичных повторений (pattern) или образцов. Разработка данных указывает на новые зависимости между входными параметрами и искомыми переменными. Довольно ярким примером подобного извлечения знаний является такой факт: обработка закупок в супермаркетах показала, что вместе с пивом люди часто покупают поленья для пикника и мясо. В результате в супермаркетах эти товары находятся в непосредственной близости, подсказывая и подталкивая покупателя на дополнительные покупки.

      Отличие обработки данных (обычно статистической) от разработки данных (Data Mining) заключается в том, что первая, подготовив нужным образом данные, дает пользователю возможность делать свои заключения и выводы относительно полученных результатов обработки исходных данных. При разработке данных, сама машина предлагает пользователю свои выводы, сделанные относительно исходного набора данных на основе используемых алгоритмов и моделей.

      Существуют и другие многочисленные примеры практического применения результатов разработки данных. Конкурентная борьба между транснациональными американскими сетями магазинов заставляет их бороться за каждого покупателя и не давать ему переходить в другую торговую сеть. Американская торговая сеть Target, основной конкурент Walmart, понимала, что если в семье рождается ребенок, то главное затащить родителей в свой магазин и предложить им дайперсы, если не бесплатно, то по очень низкой цене. Дальше родители купят все остальное и вообще станут покупателями этой торговой сети. Но как узнать, когда в семье родится ребенок? Очевидно, что беременные женщины имеют тенденцию питаться несколько отличным образом от других. Они употребляют больше витаминов, молочных продуктов и т. д. Разработка данных и классификация покупателей методами интеллектуального анализа данных позволила определить группу беременных покупательниц. Им были разосланы приглашения посетить магазин с дисконтными купонами. Для этого использовался аналитический процесс "Detect Categories" (Определить категории). Как это делается вы узнаете из главы 4–2.

      Другой яркий пример работы ассоциативного алгоритма это компания Amazon.com. Она анализирует предметы покупок, книги, в частности, которые обычно покупаются вместе, а затем подсказывает покупателю СКАЧАТЬ