Название: Предсказываем тренды. С Rattle и R в мир моделей классификации
Автор: Александр Фоменко
Издательство: Издательские решения
Жанр: Компьютеры: прочее
isbn: 9785449663054
isbn:
оценивает корреляцию между предикторами и целевой переменной;
corr
оценивает ранговую корреляцию по Спирмену между предикторами и целевой переменной;
filterVarImp (caret)
количественно оценивает отношения между предикторами и целевой переменной;
mine (minerva)
вычисляет статистику MIC между предикторами и целевой переменной;
t. test
для категориальных предикторов оценивает по одному связь между предиктором и целевой переменной. Применение ко всем предикторам выполняется по apply;
attrEval (CORElearn)
для категориальных целевой переменной вычисляется статистика Relief нескольких версий. Также функция может быть использована для индекса Gini;
spls (spls)
для категориальной целевой переменной отбирает наиболее значимые для нее предикторы. Имеет высокую вычислительную эффективность;
plsda (caret)
для категориальной целевой переменной отбирает наиболее значимые для нее предикторы.
11. Выбор предикторов
С практической точки зрения модель с меньшим количеством предикторов легче поддается толкованию, а для платных источников котировок может привести к уменьшению затрат. Статистически более привлекательно оценивать меньше параметров. Кроме того, что более важно, на некоторые модели могут негативно влиять не информативные предикторы.
Некоторые модели естественно стойкие к неинформативным предикторам. Модели, основанные на дереве, например, интуитивно проводят отбор предикторов. Например, если предиктор не используется ни в одном расщеплении во время построения дерева, уравнение предсказания функционально независимо от предиктора.
Важное различие, которое будет сделано в выборе предиктора, является различием контролируемых и безнадзорных методах (методы с учителем и без учителя). Если значение целевой переменной игнорируется во время устранения предикторов, то метод безнадзорный (без учителя). В каждом случае целевая переменная не зависит от фильтрования. Для контролируемых методов (с учителем) предикторы определенно выбраны с целью увеличения точности или поиска такого подмножества предикторов, которое уменьшает сложность модели. Здесь значения целевой переменной обычно используется для определения величины значимости предикторов.
Проблемы, связанные с каждым типом выбора предиктора, очень отличаются, и имеются большие объемы литературы по этой теме.
11.1. Следствия использования неинформативных предикторов
Прежде всего, выбор предиктора направлен на удаление не информативных или избыточных предикторов из модели. Как со многими проблемами, обсужденными в этом тексте, выбор значимости предиктора зависит от используемой модели. Во многих моделях оцениваются параметры каждой составляющей СКАЧАТЬ