Название: Предсказываем тренды. С Rattle и R в мир моделей классификации
Автор: Александр Фоменко
Издательство: Издательские решения
Жанр: Компьютеры: прочее
isbn: 9785449663054
isbn:
Преимущество метода обертки состоит в оценке многих моделей (что может потребовать настройки параметров), и таким образом приведет к увеличению времени вычислений. Также методы обертки увеличивают риск переобучения модели.
11.3. Методы обертки
Методы обертки ищут предикторы, которые при включении в модель улучшают результат. Простой пример – классический прямой выбор для линейной регрессии. Здесь, предикторы оцениваются по одному в текущей модели линейной регрессии. По статистическому тесту проверяется значимость каждого из недавно добавленных предикторов. Если, по крайней мере, у одного предиктора есть р-значение ниже порога, предиктор добавляется к модели, и процесс запускается снова. Алгоритм останавливается, когда ни одно из р-значений для остающихся предикторов статистически не значимо. В этой схеме линейная регрессия – основной ученик, и прямой выбор – процедура поиска. Целевой функцией является оптимизируемая статистическая величина – р-значение.
Есть несколько проблем с этим подходом:
– прямая процедура поиска не переоценивает прошлые решения.
– использование повторных тестов гипотезы этим способом лишает законной силы многие их статистические свойства, так как одни и те же данные оцениваются много раз.
– максимизация статистического значения может не приводить к максимизации результативности предсказания.
Обычно рассматривают следующие оценки результативности предсказания: ошибка RMSE, точность классификации, размер области под кривой ROC.
Другой подход основан на корреляции предикторов, при котором ищут сильную корреляцию между целевой функцией и предикторами и слабую корреляцию между предикторами.
Для предсказательных моделей, а не объясняющих, есть два важных положения:
– большая часть критики методов обертки основана на использовании гипотез статистических тестов;
– методологии, основанные на сомнительных статистических принципах, все же могут привести к очень точным моделям в случае полного, методического процесса проверки с независимыми данными.
Следующие подразделы описывают различные методы поиска для использования с методами обертки.
11.3.1. Выбор вперед, обратный и пошаговый
Пошаговый выбор – популярная модификация, в которой после добавления предиктора к модели, переоценивается каждый параметр для удаления из модели. В некоторых случаях порог р-значения для добавления и удаления предикторов может сильно отличаться. В обратном выборе начальная модель содержит все предикторы P, которые затем многократно удаляются для определения тех, которые не значительно способствуют модели. Эти процедуры могут быть улучшены СКАЧАТЬ