Название: Предсказываем тренды. С Rattle и R в мир моделей классификации
Автор: Александр Фоменко
Издательство: Издательские решения
Жанр: Компьютеры: прочее
isbn: 9785449663054
isbn:
– бутстрэп агрегированные деревья (Bagged trees): для улучшенных деревьев применена методология, аналогичная отдельному дереву. Возвращается итоговая значимость предикторов;
– усиленные деревья (Boosted trees): этот метод использует подход, аналогичный отдельному дереву, но суммирует значимость предикторов при каждой усиливающей итерации. Подробности в пакете gbm;
– многомерные регрессии адаптивных сплайнов: модели пакета MARS включают программу выбора предиктора для удаления, которая смотрит на уменьшение оценки ошибки в результате обобщенной перекрестной проверки (GCV). Функция varImp следит за изменениями в статистике модели, такой как GCV, для каждого предиктора и накапливает уменьшение статистики, при добавлении каждого предиктора к модели. Это полное уменьшение используется в качестве меры по значимости предиктора. Если предиктор не использовался в функциях MARS, то его величина значимости равна нулю. Есть три статистики, которые могут использоваться для оценки значимости предикторов в моделях MARS. При использовании varImp отслеживается уменьшение обобщенной статистики перекрестной проверки при добавлении предикторов. В другом случае varImp наблюдает изменение сумм квадратов остатков (RSS) при добавлении предикторов. В третьем случае функция varImp возвращает количество включений предикторов (в заключительной, сокращенной модели). Ранее функция varImp являлась внутренней функцией для оценки значимости предикторов для моделей MARS. В настоящий момент – это обертка функции evimp в пакете earth.
10.2. Независимые от модели метрики
Если отсутствует определенный для модели способ оценки значимости, то значимость каждого предиктора оценивается индивидуально, используя подход «фильтра».
Для классификации анализ кривой ROC проводится для каждого предиктора. Для задач двух классов уменьшается набор предикторов для предсказания класса. Вычисляются чувствительность и специфика при каждом уменьшении количества предикторов, и вычисляется кривая ROC с вычислением площади под кривой AUC. Эта область используется в качестве меры значимости предиктора.
10.3. Другие подходы
Алгоритм Relief является универсальным методом для определения величины значимости предиктора. Первоначально разрабатывался для проблем классификации с двумя классами, но был расширен для решения широкого диапазона проблем. Алгоритм Relief может упорядочить непрерывные предикторы, фиктивные переменные, СКАЧАТЬ