Название: Предсказываем тренды. С Rattle и R в мир моделей классификации
Автор: Александр Фоменко
Издательство: Издательские решения
Жанр: Компьютеры: прочее
isbn: 9785449663054
isbn:
– моделируем две разных целевых переменных. Одна – «лонг/вне рынка», вторая – «шорт/вне рынка», обозначив в числовом виде как (1,0) и (0, -1). Это привело к наполнению «положительных» и «отрицательных» примеров содержательными понятиями «лонг/вне рынка/шорт». Так как мы разбили на две переменные, то пришли к несимметричному случаю в том смысле, что, например, не правильная классификация «вне рынка» как «лонга» приведет к убыткам, а вот обратная ситуация к убыткам не приводит.
При анализе чаще оперируют не абсолютными показателями, а относительными – долями (rates):
– доля истинно положительных примеров (True Positives Rate):
TPR = TP/ (TP+FN)
В случае целевой переменной «лонг/шорт» – это доля правильно классифицированных «лонгов» по отношению ко всему множеству (ко всей выборке).
– доля ложно положительных примеров (False Positives Rate):
FPR = FP/ (TN+FP)
В случае целевой переменной «лонг/шорт» – это доля ложно классифицированных «лонгов» по отношению ко всему множеству (ко всей выборке).
Введем еще два определения: чувствительность и специфичность модели. Ими определяется объективная ценность любого бинарного классификатора.
Чувствительность (Sensitivity) – это и есть доля истинно положительных случаев, т.е.:
Se = TPR = TP/ (TP+FN)
Специфичность (Specificity) – доля истинно отрицательных случаев, которые были правильно идентифицированы моделью:
Sp = TN (TN+FP) = 1 – FPR
Попытаемся разобраться в этих определениях.
Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры).
Если рассуждать в терминах двух наших целевых переменных «лонг/вне рынка» и «вне рынка/шорт», то становится очевидной применение рассматриваемых показателей:
– модель с высокими значениями чувствительности для первой целевой переменной «лонг/вне рынка» проявится в повышенной диагностики «лонгов»;
– модель с высокими значениями специфичности для второй целевой переменной «вне рынка/шорт» проявится в повышенной диагностики «шортов».
Забегая вперед, приведу график кривой ROC, в которой осями является чувствительность Se, она же TPR, и дополнение до единицы специфичности 1 – FPR.
Рис.5.1. Кривая ROC для модели случайного леса.
График дополнен прямой х=у.
Для СКАЧАТЬ