Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Чтение книги онлайн.

Читать онлайн книгу Предсказываем тренды. С Rattle и R в мир моделей классификации - Александр Фоменко страница 26

СКАЧАТЬ типов ошибок могут быть дифференцированные стоимости. Для машин опорных векторов (SVM) всему классу можно дать увеличенную значимость. Для двух классов эти два подхода аналогичны.

      Одно следствие этого подхода состоит в том, что вероятности класса не могут генерироваться для модели, по крайней мере, в доступной реализации. Поэтому нельзя вычислить кривую ROC и следует использовать иную метрику результативности. Поэтому используем статистику Каппы, чувствительность и специфику для оценки воздействия взвешенных классов.

      Дополнительно, много моделей классификационных деревьев могут включить дифференцированные стоимости. К ним относятся CART и C5.0. Потенциальная стоимость предсказания принимает во внимание несколько факторов:

      – стоимость определенной ошибки;

      – вероятность получения ошибки;

      – априорная вероятность классов.

      Для деревьев предсказанные вероятности класса (или доверительное значение) не могли бы быть непротиворечивыми с дискретными предсказаниями класса при использовании неравных затрат. Заключительное предсказание класса для выборки является функцией вероятности класса и структуры издержек. Вероятности класса в терминальном узле могут заметно одобрять определенный класс, но также и иметь крупную ожидаемую стоимость. Поэтому есть разрыв между доверительным значением и предсказанным классом. Отсюда, простые вероятности класса (или доверительные значения) не должны использоваться при этих обстоятельствах.

      9.6. Функции R

      Приведем некоторые функции, которые могут быть использованы при работе над данным разделом.

      Приведено название функции, а в скобках название пакета, в котором функция расположена. Для использования функция необходима загрузка пакета, а если его еще нет, то и установка.

      Если названия пакета не приведено – это означает, что функция имеется в базовом пакете и не требуется предварительная загрузка пакета.

      Для реализации идей данного раздела могут быть использованы следующие пакеты: caret, C50, DMwR, kernlab, pROC и rpart.

      createDataPartition (caret)

      стратифицированная случайная выборка;

      coords (pROC)

      оптимизирует чувствительность и специфичность на кривой ROC;

      downSample (caret)

      upSample (caret)

      выравнивает классы;

      ksvm (kernlab)

      с параметром class. weights подгоняет модель SVM в режиме взвешивания.

      10. Значимость предикторов для целевой переменной

      Под значимостью предикторов понимается степень влияния предиктора на целевую переменную как самостоятельно, так в совокупности с другими предикторами.

      Функции оценки значимости предикторов могут быть разделены на две группы: СКАЧАТЬ