К курсу

Токены и эмбеддинги: слова как точки в пространстве

Удивление
Нейросеть не читает текст. Она работает с числами. Значит, текст нужно превратить в числа — так, чтобы семантическая близость слов отражалась в геометрической близости векторов. Результат — embedding space: пространство размерностью ~768–4096, где каждое слово — точка. Расстояние между точками кодирует смысл. Классический пример: **vec(«король») - vec(«мужчина») + vec(«женщина») ≈ vec(«королева»)** Арифметика над смыслом работает, потому что эмбеддинги выучили структуру языковых отношений из статистики миллиардов текстов.