К курсу

Температура и сэмплирование: «креативность» машины

Удивление
LLM на каждом шаге вычисляет распределение вероятностей над всем словарём: P(token | контекст). Следующий токен выбирается из этого распределения. Как именно выбирается — определяет параметр температуры T. При T=0 модель всегда берёт argmax — наиболее вероятный токен. При T=1 — сэмплирует пропорционально вычисленным вероятностям. При T>1 логиты делятся на T, распределение «расплющивается», маловероятные варианты получают шанс. Формально: P_T(x) = softmax(logits / T). Температура — не магия «креативности». Это контроль над энтропией выборки.