Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Чтение книги онлайн.

Читать онлайн книгу Предсказываем тренды. С Rattle и R в мир моделей классификации - Александр Фоменко страница 21

СКАЧАТЬ линейную комбинацию предикторов так, что межгрупповая дисперсия максимальна относительно дисперсии внутри групп. Другими словами необходимо найти комбинацию предикторов, которые дали максимальное разделение между центрами данных, одновременно имея минимальное изменение в пределах каждой группы данных.

      Дисперсия внутри групп была бы оценена дисперсией, которая объединяет дисперсии в пул предиктора в пределах каждой группы. Взятие отношения этих двух количеств является, в действительности, отношением сигнала-шум. Получается, что мы определяем такие линейные комбинации предикторов, которые дают максимальное отношение сигнал-шум.

      6.3. Регрессия частично наименьших квадратов (PLS)

      В случае коррелированности предикторов нельзя непосредственно использовать обычный линейный подход для поиска оптимальной дискриминантной функции. Эта же проблема существует и при попытке удалить чрезвычайно коррелированные предикторы в рамках анализа главных компонент РСА. Если существуют сложные отношения корреляции в данных, то PCA может использоваться для уменьшения размерности пространства предикторов. Однако PCA может не идентифицировать комбинации предикторов, которые оптимально разделяют выборки на группы с учетом целевой переменной. Цель РСA состоит в поиске подпространства, которое с максимальной меж-внутри групповой изменчивостью. Однако далеко не факт, что выделенные факторы оптимальным образом будут связаны и целевой переменной, поскольку задача метода РСА состоит в объяснении связей предикторов. В этих случаях рекомендуется использовать регрессию частично наименьших квадратов PLS.

      Регрессия PLS решает задачу формирования небольшого количества новых предикторов, в пространстве которых связь между зависимой переменной и предикторами достигает максимального значения.

      6.4. Функции R

      Приведем некоторые функции, которые могут быть использованы при работе над данным разделом.

      Приведено название функции, а в скобках название пакета, в котором функция расположена. Для использования функция необходима загрузка пакета, а если его еще нет, то и установка.

      glm (glm)

      логистическая регрессия (модель логит).

      pcr (pls)

      регрессия частично наименьших квадратов.

      7. Нелинейные классификационные модели

      Предыдущая глава описала модели, которые были собственно линейны – структура модели произведет линейные границы класса, если вручную не указать нелинейные функции предикторов. Эта глава имеет дело с некоторыми собственно нелинейными моделями. Как в разделах регрессии, есть другие нелинейные модели, которые используют деревья для моделирования данных.

      За небольшим исключением (модели FDA) на методы, описанные в этой главе, может оказать негативное влияние большое количество неинформативных предикторов. Комбинируя эти модели с инструментами СКАЧАТЬ