Линейная регрессия: потеря

Loss — это числовая метрика, описывающая, насколько неверны предсказания модели. Loss измеряет расстояние между предсказаниями модели и фактическими метками. Цель обучения модели — минимизировать потери, сведя их к минимально возможному значению.

На следующем изображении вы можете визуализировать потери в виде стрелок, проведенных от точек данных к модели. Стрелки показывают, насколько далеки прогнозы модели от фактических значений.

Рисунок 9. Линии потерь соединяют точки данных с моделью.

Рисунок 9. Убыток измеряется от фактического значения до прогнозируемого значения.

Расстояние потери

В статистике и машинном обучении потери измеряют разницу между прогнозируемыми и фактическими значениями. Потери фокусируются на расстоянии между значениями, а не на направлении. Например, если модель предсказывает 2, но фактическое значение равно 5, нас не волнует, что потери отрицательны $ -3 $ ($ 2-5 = -3 $). Вместо этого нас волнует, что расстояние между значениями равно $ 3 $. Таким образом, все методы расчета потерь удаляют знак.

Два наиболее распространенных метода удаления знака:

  • Возьмите абсолютное значение разницы между фактическим значением и прогнозом.
  • Возьмем квадрат разницы между фактическим значением и прогнозом.

Виды потерь

В линейной регрессии существует четыре основных типа потерь, которые описаны в следующей таблице.

Тип убытка Определение Уравнение
Л 1 потеря Сумма абсолютных значений разницы между прогнозируемыми значениями и фактическими значениями. $ ∑ | фактическое\ значение - прогнозируемое\ значение | $
Средняя абсолютная ошибка (MAE) Среднее значение потерь L 1 по набору *N* примеров. $ \frac{1}{N} ∑ | фактическое\ значение - прогнозируемое\ значение | $
Потеря L 2 Сумма квадратов разностей между прогнозируемыми значениями и фактическими значениями. $ ∑(фактическое\ значение - прогнозируемое\ значение)^2 $
Среднеквадратическая ошибка (СКО) Среднее значение потерь L 2 по набору из *N* примеров. $ \frac{1}{N} ∑ (фактическое\ значение - прогнозируемое\ значение)^2 $

Функциональная разница между потерей L 1 и потерей L 2 (или между MAE и MSE) — это возведение в квадрат. Когда разница между прогнозом и меткой велика, возведение в квадрат делает потерю еще больше. Когда разница мала (меньше 1), возведение в квадрат делает потерю еще меньше.

При обработке нескольких примеров одновременно мы рекомендуем усреднять потери по всем примерам, независимо от того, используется ли MAE или MSE.

Пример расчета убытков

Используя предыдущую линию наилучшего соответствия , мы рассчитаем потерю L 2 для одного примера. Из линии наилучшего соответствия мы получили следующие значения для веса и смещения:

  • $ \small{Вес: -3.6} $
  • $ \small{Смещение: 30} $

Если модель предсказывает, что автомобиль весом 2370 фунтов проезжает 21,5 мили на галлоне, а на самом деле он проезжает 24 мили на галлоне, мы рассчитаем потерю L 2 следующим образом:

Ценить Уравнение Результат
Прогноз

$\small{смещение + (вес * признак\ значение)}$

$\small{30 + (-3,6*2,37)}$

$\small{21.5}$
Фактическое значение $ \small{лейбл} $ $ \small{ 24 } $
Потеря L 2

$ \small{ (фактическое\ значение - прогнозируемое\ значение)^2 } $

$\small{ (24 - 21.5)^2 }$

$\small{6.25}$

В этом примере потеря L 2 для этой единственной точки данных составляет 6,25.

Выбирая проигрыш

Решение о том, использовать ли MAE или MSE, может зависеть от набора данных и способа обработки определенных прогнозов. Большинство значений признаков в наборе данных обычно попадают в определенный диапазон. Например, автомобили обычно весят от 2000 до 5000 фунтов и проезжают от 8 до 50 миль на галлон. Автомобиль весом 8000 фунтов или автомобиль, проезжающий 100 миль на галлон, находится за пределами типичного диапазона и будет считаться выбросом .

Выброс может также относиться к тому, насколько далеки прогнозы модели от реальных значений. Например, 3000 фунтов находятся в типичном диапазоне веса автомобиля, а 40 миль на галлон находятся в типичном диапазоне топливной экономичности. Однако автомобиль весом 3000 фунтов, который проезжает 40 миль на галлоне, будет выбросом с точки зрения прогноза модели, поскольку модель предсказывает, что автомобиль весом 3000 фунтов проедет от 18 до 20 миль на галлоне.

При выборе лучшей функции потерь учитывайте, как вы хотите, чтобы модель обрабатывала выбросы. Например, MSE перемещает модель ближе к выбросам, а MAE — нет. Потеря L 2 влечет за собой гораздо более высокий штраф за выброс, чем потеря L 1. Например, на следующих изображениях показана модель, обученная с использованием MAE, и модель, обученная с использованием MSE. Красная линия представляет собой полностью обученную модель, которая будет использоваться для прогнозирования. Выбросы ближе к модели, обученной с использованием MSE, чем к модели, обученной с использованием MAE.

Рисунок 10. Модель больше наклонена в сторону выбросов.

Рисунок 10. Модель, обученная с помощью MSE, приближает модель к выбросам.

Рисунок 11. Модель отклоняется дальше от выбросов.

Рисунок 11. Модель, обученная с помощью MAE, находится дальше от выбросов.

Обратите внимание на связь между моделью и данными:

  • MSE . Модель ближе к выбросам, но дальше от большинства других точек данных.

  • MAE . Модель находится дальше от выбросов, но ближе к большинству других точек данных.

Проверьте свое понимание

Рассмотрим следующие два графика:

График из 10 точек. Через 6 точек проходит линия. 2 точки находятся на 1 единицу выше линии; 2 другие точки находятся на 1 единицу ниже линии.График из 10 точек. Линия проходит через 8 точек. 1 точка находится на 2 единицы выше линии; 1 другая точка находится на 2 единицы ниже линии.
Какой из двух наборов данных, показанных на предыдущих графиках, имеет более высокую среднюю квадратическую ошибку (MSE)?
Набор данных слева.
Шесть примеров на линии несут общую потерю 0,4. Четыре примера, не находящиеся на линии, не очень далеки от линии, поэтому даже возведение их смещения в квадрат все равно дает низкое значение: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Набор данных справа.
Восемь примеров на линии несут общую потерю 0,8. Однако, хотя только две точки отстают от линии, обе эти точки находятся в два раза дальше от линии, чем точки-выбросы на левом рисунке. Квадратичная потеря усиливает эти различия, поэтому смещение в два раза влечет потерю в четыре раза большую, чем смещение в один: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$