← К курсу
Токены и эмбеддинги: слова как точки в пространстве
Удивление
Исследование
Формализация
Применение
Удивление
Нейросеть не читает текст. Она работает с числами. Значит, текст нужно превратить в числа — так, чтобы семантическая близость слов отражалась в геометрической близости векторов.
Результат — embedding space: пространство размерностью ~768–4096, где каждое слово — точка. Расстояние между точками кодирует смысл. Классический пример:
**vec(«король») - vec(«мужчина») + vec(«женщина») ≈ vec(«королева»)**
Арифметика над смыслом работает, потому что эмбеддинги выучили структуру языковых отношений из статистики миллиардов текстов.