Обратное распространение: путь ошибки назад

Удивление

Исследование

Формализация

Применение

Удивление

Алгоритм обратного распространения ошибки (backpropagation) был переоткрыт Румелхартом, Хинтоном и Уильямсом в 1986 году — и это перезапустило нейронные сети после зимы ИИ. Математическая суть: цепное правило дифференцирования, применённое к суперпозиции функций. ∂L/∂w₁ = (∂L/∂yₙ) × (∂yₙ/∂yₙ₋₁) × ... × (∂y₂/∂w₁). Каждый множитель — локальный градиент одного слоя. Вопрос: если умножается цепочка чисел меньше единицы, что происходит с градиентами в начальных слоях? Это называется проблема затухающих градиентов — и именно она сдерживала глубокое обучение до появления ReLU и специальной инициализации.