Как сеть учится: ошибка и градиент

Удивление

Исследование

Формализация

Применение

Удивление

Функция потерь (loss) — это скалярная мера расстояния между предсказанием сети и правильным ответом. Обучение — это задача оптимизации: найти веса W, минимизирующие L(W). Пространство весов высокоразмерно — современные сети имеют миллиарды параметров. Полный перебор невозможен. Решение: градиентный спуск. ∂L/∂W указывает направление наискорейшего возрастания потерь — делаем шаг в противоположную сторону. Размер шага η (learning rate) — критический гиперпараметр. Как выбрать η, если ты не знаешь форму ландшафта?