Название: Предсказываем тренды. С Rattle и R в мир моделей классификации
Автор: Александр Фоменко
Издательство: Издательские решения
Жанр: Компьютеры: прочее
isbn: 9785449663054
isbn:
Одно следствие этого подхода состоит в том, что вероятности класса не могут генерироваться для модели, по крайней мере, в доступной реализации. Поэтому нельзя вычислить кривую ROC и следует использовать иную метрику результативности. Поэтому используем статистику Каппы, чувствительность и специфику для оценки воздействия взвешенных классов.
Дополнительно, много моделей классификационных деревьев могут включить дифференцированные стоимости. К ним относятся CART и C5.0. Потенциальная стоимость предсказания принимает во внимание несколько факторов:
– стоимость определенной ошибки;
– вероятность получения ошибки;
– априорная вероятность классов.
Для деревьев предсказанные вероятности класса (или доверительное значение) не могли бы быть непротиворечивыми с дискретными предсказаниями класса при использовании неравных затрат. Заключительное предсказание класса для выборки является функцией вероятности класса и структуры издержек. Вероятности класса в терминальном узле могут заметно одобрять определенный класс, но также и иметь крупную ожидаемую стоимость. Поэтому есть разрыв между доверительным значением и предсказанным классом. Отсюда, простые вероятности класса (или доверительные значения) не должны использоваться при этих обстоятельствах.
9.6. Функции R
Приведем некоторые функции, которые могут быть использованы при работе над данным разделом.
Приведено название функции, а в скобках название пакета, в котором функция расположена. Для использования функция необходима загрузка пакета, а если его еще нет, то и установка.
Если названия пакета не приведено – это означает, что функция имеется в базовом пакете и не требуется предварительная загрузка пакета.
Для реализации идей данного раздела могут быть использованы следующие пакеты: caret, C50, DMwR, kernlab, pROC и rpart.
createDataPartition (caret)
стратифицированная случайная выборка;
coords (pROC)
оптимизирует чувствительность и специфичность на кривой ROC;
downSample (caret)
upSample (caret)
выравнивает классы;
ksvm (kernlab)
с параметром class. weights подгоняет модель SVM в режиме взвешивания.
10. Значимость предикторов для целевой переменной
Под значимостью предикторов понимается степень влияния предиктора на целевую переменную как самостоятельно, так в совокупности с другими предикторами.
Функции оценки значимости предикторов могут быть разделены на две группы: СКАЧАТЬ