Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Чтение книги онлайн.

Читать онлайн книгу Предсказываем тренды. С Rattle и R в мир моделей классификации - Александр Фоменко страница 27

СКАЧАТЬ разделение (пакет rpart): приведение функции потерь (например, среднеквадратической ошибки), приписанной к каждому предиктору в каждом разделении, сводится в таблицу. Кроме того, предикторы-кандидаты, которые также были важны, но не использовались в разделении, также сводятся в таблицу в каждом разделении. Эти сведения можно получить в функции rpart.control. Этот метод в настоящий момент не предоставляет достоверный результат при категориальной целевой переменной;

      – бутстрэп агрегированные деревья (Bagged trees): для улучшенных деревьев применена методология, аналогичная отдельному дереву. Возвращается итоговая значимость предикторов;

      – усиленные деревья (Boosted trees): этот метод использует подход, аналогичный отдельному дереву, но суммирует значимость предикторов при каждой усиливающей итерации. Подробности в пакете gbm;

      – многомерные регрессии адаптивных сплайнов: модели пакета MARS включают программу выбора предиктора для удаления, которая смотрит на уменьшение оценки ошибки в результате обобщенной перекрестной проверки (GCV). Функция varImp следит за изменениями в статистике модели, такой как GCV, для каждого предиктора и накапливает уменьшение статистики, при добавлении каждого предиктора к модели. Это полное уменьшение используется в качестве меры по значимости предиктора. Если предиктор не использовался в функциях MARS, то его величина значимости равна нулю. Есть три статистики, которые могут использоваться для оценки значимости предикторов в моделях MARS. При использовании varImp отслеживается уменьшение обобщенной статистики перекрестной проверки при добавлении предикторов. В другом случае varImp наблюдает изменение сумм квадратов остатков (RSS) при добавлении предикторов. В третьем случае функция varImp возвращает количество включений предикторов (в заключительной, сокращенной модели). Ранее функция varImp являлась внутренней функцией для оценки значимости предикторов для моделей MARS. В настоящий момент – это обертка функции evimp в пакете earth.

      10.2. Независимые от модели метрики

      Если отсутствует определенный для модели способ оценки значимости, то значимость каждого предиктора оценивается индивидуально, используя подход «фильтра».

      Для классификации анализ кривой ROC проводится для каждого предиктора. Для задач двух классов уменьшается набор предикторов для предсказания класса. Вычисляются чувствительность и специфика при каждом уменьшении количества предикторов, и вычисляется кривая ROC с вычислением площади под кривой AUC. Эта область используется в качестве меры значимости предиктора.

      10.3. Другие подходы

      Алгоритм Relief является универсальным методом для определения величины значимости предиктора. Первоначально разрабатывался для проблем классификации с двумя классами, но был расширен для решения широкого диапазона проблем. Алгоритм Relief может упорядочить непрерывные предикторы, фиктивные переменные, СКАЧАТЬ