Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Чтение книги онлайн.

Читать онлайн книгу Предсказываем тренды. С Rattle и R в мир моделей классификации - Александр Фоменко страница 29

СКАЧАТЬ предикторы, и важные взаимодействия между предикторами не будут определены количественно.

      Преимущество метода обертки состоит в оценке многих моделей (что может потребовать настройки параметров), и таким образом приведет к увеличению времени вычислений. Также методы обертки увеличивают риск переобучения модели.

      11.3. Методы обертки

      Методы обертки ищут предикторы, которые при включении в модель улучшают результат. Простой пример – классический прямой выбор для линейной регрессии. Здесь, предикторы оцениваются по одному в текущей модели линейной регрессии. По статистическому тесту проверяется значимость каждого из недавно добавленных предикторов. Если, по крайней мере, у одного предиктора есть р-значение ниже порога, предиктор добавляется к модели, и процесс запускается снова. Алгоритм останавливается, когда ни одно из р-значений для остающихся предикторов статистически не значимо. В этой схеме линейная регрессия – основной ученик, и прямой выбор – процедура поиска. Целевой функцией является оптимизируемая статистическая величина – р-значение.

      Есть несколько проблем с этим подходом:

      – прямая процедура поиска не переоценивает прошлые решения.

      – использование повторных тестов гипотезы этим способом лишает законной силы многие их статистические свойства, так как одни и те же данные оцениваются много раз.

      – максимизация статистического значения может не приводить к максимизации результативности предсказания.

      Обычно рассматривают следующие оценки результативности предсказания: ошибка RMSE, точность классификации, размер области под кривой ROC.

      Другой подход основан на корреляции предикторов, при котором ищут сильную корреляцию между целевой функцией и предикторами и слабую корреляцию между предикторами.

      Для предсказательных моделей, а не объясняющих, есть два важных положения:

      – большая часть критики методов обертки основана на использовании гипотез статистических тестов;

      – методологии, основанные на сомнительных статистических принципах, все же могут привести к очень точным моделям в случае полного, методического процесса проверки с независимыми данными.

      Следующие подразделы описывают различные методы поиска для использования с методами обертки.

      11.3.1. Выбор вперед, обратный и пошаговый

      Пошаговый выбор – популярная модификация, в которой после добавления предиктора к модели, переоценивается каждый параметр для удаления из модели. В некоторых случаях порог р-значения для добавления и удаления предикторов может сильно отличаться. В обратном выборе начальная модель содержит все предикторы P, которые затем многократно удаляются для определения тех, которые не значительно способствуют модели. Эти процедуры могут быть улучшены СКАЧАТЬ