← К курсу
Внимание (Attention): как модель решает, на что смотреть
Удивление
Исследование
Формализация
Применение
Удивление
«Кот сел на коврик, потому что он устал.» Местоимение «он» — к кому оно относится? Человек понимает мгновенно: к коту. Но как это формализовать?
До трансформеров RNN читала текст последовательно и теряла контекст из начала длинного предложения. Механизм внимания (self-attention) решил это радикально: каждый токен обращается ко всем остальным токенам одновременно и взвешивает их релевантность.
Для этого у каждого токена три роли — Query (что я ищу?), Key (что я содержу?), Value (что я передам, если меня выберут?). Матрица весов внимания — это карта «кто слушает кого» в каждом слое трансформера.