Название: Машинное обучение. Погружение в технологию
Автор: Артем Демиденко
Издательство: Автор
isbn:
isbn:
• Разделение выборки на обучающую, валидационную и тестовую: Позволяет проверить производительность модели на новых, ранее не виденных данных, чтобы оценить ее способность к обобщению.
Выбор подходящих метрик и методов оценки производительности зависит от конкретной задачи и характеристик данных. Цель состоит в том, чтобы выбрать метрики, которые наилучшим образом отражают требуемые характеристики модели и задачи, и использовать соответствующие методы оценки для получения надежной оценки производительности модели.
Глава 2: Обучение с учителем
2.1 Линейная регрессия
Линейная регрессия – это один из основных методов Машинного обучения, используемый для предсказания непрерывной зависимой переменной на основе линейной комбинации независимых переменных. Она является простым и интерпретируемым алгоритмом.
В линейной регрессии предполагается, что существует линейная связь между независимыми и зависимой переменными. Модель линейной регрессии определяется уравнением:
y = b0 + b1x1 + b2x2 + … + bn*xn
где y – зависимая переменная, x1, x2, …, xn – независимые переменные, b0, b1, b2, …, bn – коэффициенты модели, которые определяют веса, или важность, каждой независимой переменной.
Для оценки коэффициентов модели используется метод наименьших квадратов (МНК), который минимизирует сумму квадратов разностей между фактическими и предсказанными значениями зависимой переменной.
Линейная регрессия может быть однофакторной (с одной независимой переменной) или многофакторной (с несколькими независимыми переменными). Она может использоваться для прогнозирования значений на основе новых данных или для анализа влияния отдельных переменных на зависимую переменную. Кроме обычной линейной регрессии, существуют различные варианты этого метода, которые могут решать специфические задачи или учитывать особенности данных. Например, существуют регуляризованные модели линейной регрессии, такие как Ridge (гребневая регрессия) и Lasso (лассо-регрессия), которые добавляют штрафы к коэффициентам модели для борьбы с переобучением и улучшения обобщающей способности.
Линейная регрессия также может быть расширена для работы с нелинейными связями между переменными путем добавления полиномиальных или других нелинейных функций признаков. Это называется полиномиальной регрессией или нелинейной регрессией.
Одним из преимуществ линейной регрессии является ее простота и интерпретируемость. Коэффициенты модели позволяют оценить вклад каждой независимой переменной и понять, как они влияют на зависимую переменную. Кроме того, линейная регрессия требует меньше вычислительных ресурсов по сравнению с некоторыми более сложными моделями.
Однако линейная регрессия имеет свои ограничения. Она предполагает линейную связь между переменными, и если это предположение нарушено, модель может быть неправильной. Кроме того, она чувствительна к выбросам и может давать неверные предсказания в случае наличия значительных СКАЧАТЬ