Одним из способов количественной оценки ошибки обобщения является разложение смещения-вариации.
Для достижения наилучшей производительности в контексте обобщения сложность гипотезы должна соответствовать сложности лежащей в основе данных функции. Если вы сталкиваетесь с ситуации меньшей сложности гипотезы в сравнении со сложностью функции, то можно говорить о том, что данные моделью подогнаны недостаточно. Если в ответ обеспечить увеличение уровня сложности модели, то ошибка обучения окажется меньшей Но если гипотеза отличается чрезмерной сложностью, модель может быть переобучена, и обобщение окажется хуже.
Помимо границ производительности, теоретики обучения занимаются изучением временной сложности и осуществимости обучения. В теории вычислительного обучения вычисление считается возможным, если оно может быть выполнено за полиномиальное время.
Имеет место существование 2-х типов результатов по временной сложности: результаты положительные говорят о том, что определенный класс функций можно выучить за полиномиальное время. Результаты отрицательные говорят о том, что некоторые классы не могут быть выучены за полиномиальное время.
II Машинное обучение и ряд других областей
2.1 Ml и интеллектуальный анализ данных. Пересечение Ml и DM
Интеллектуальный анализ данных
Интеллектуальный анализ данных (Data Mining – DM) рассматривается в качестве процесса извлечения и обнаружения закономерностей из солидных массивов данных с использованием методов на стыке статистики, машинного обучения и систем баз данных. DM является междисциплинарной областью информатики и статистики, общая цель которой состоит в том, чтобы добиваться извлечения информации (с помощью интеллектуальных методов) из набора данных и преобразования информации в понятную для дальнейшего использования структуру.
DM – это этап анализа « обнаружения знаний в базах данных», процесс, или KDD (Knowledge Discovery Data).
Примечание:
Обнаружение знаний из данных (KDD) является последовательным по характеру процессом извлечения закономерностей либо знаний из огромного массива данных. Обычно люди интересуются данными, отличающимися потенциальной полезностью, нетривиальностью, неизвестностью.
KDD определяется как метод поиска, преобразования и уточнения значимых данных и шаблонов из необработанной базы данных для использования в разных приложениях либо областях.
Помимо анализа необработанных данных, в DM также включаются аспекты управления данными и базами данных, предварительной обработки данных, соображений моделей СКАЧАТЬ