Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Чтение книги онлайн.

Читать онлайн книгу Предсказываем тренды. С Rattle и R в мир моделей классификации - Александр Фоменко страница 20

СКАЧАТЬ under the ROC curve for the rf model on zz_1_5 [validate] is 0.8904

      Площадь под кривой ROC для модели rf равна 0.8904, а для модели ada равна 0.8702, что подтверждает визуальное наблюдение.

      С большими допущениями можно считать, что чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Однако следует знать, что:

      – показатель AUC предназначен скорее для сравнительного анализа нескольких моделей;

      – AUC не содержит никакой информации о чувствительности и специфичности модели.

      В литературе иногда приводится следующая экспертная шкала для значений AUC, по которой можно судить о качестве модели:

      Таблица 5.2. Шкала значений AUC

      Идеальная модель обладает 100% чувствительностью и специфичностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели. Компромисс находится с помощью порога отсечения, т.к. пороговое значение влияет на соотношение Se и Sp. Можно говорить о задаче нахождения оптимального порога отсечения (optimal cut-off value).

      Порог отсечения нужен для применения модели на практике: относить новые наблюдения к одному из двух классов. Для определения оптимального порога нужно задать критерий его определения, так как в разных задачах присутствует своя оптимальная стратегия. Критериями выбора порога отсечения могут выступать:

      – требование минимальной величины чувствительности (специфичности) модели. Например, нужно обеспечить чувствительность теста не менее 80%. В этом случае оптимальным порогом будет максимальная специфичность (чувствительность), которая достигается при 80% (или значение, близкое к нему «справа» из-за дискретности ряда) чувствительности (специфичности);

      – требование максимальной суммарной чувствительности и специфичности модели, т.е.

      Cut_off = max (Se + Sp)

      – Требование баланса между чувствительностью и специфичностью, т.е. когда Se примерно равно Sp:

      Cut_off = min (Se – Sp)

      Второе значение порога обычно предлагается пользователю по умолчанию. В третьем случае порог есть точка пересечения двух кривых, когда по оси X откладывается порог отсечения, а по оси Y – чувствительность и специфичность модели. Пересечение этих двух кривых и даст порог отсечения.

      6. Линейные классификационные модели

      Методы классификации стремятся классифицировать наблюдения в группы, основанные на характеристиках предикторов, и способ к достижению этой минимизации отличается для каждого метода. Далее рассмотрим некоторые из них.

      6.1. Логистическая регрессия

      Линейная регрессионная модель не всегда способна качественно предсказывать значения целевой (зависимой) переменной. Выбирая для построения модели линейное уравнение, мы естественным образом не накладываем никаких ограничений на значения зависимой переменной. СКАЧАТЬ