Attention (GQA/MLA)
GQA (Grouped-Query): оптимизация для экономии памяти — несколько запросов используют общие ключи и значения.
MLA (Multi-Head Latent): сжатие данных для работы с длинными текстами.
Q (Query)
K (Key)
V (Value)
Attention Computation:
Q·K^T → Softmax → Attention Weights
Attention Weights · V → Output
Как работает: Входные данные преобразуются в три типа векторов: Q (запросы), K (ключи), V (значения). RoPE добавляет информацию о позиции слов в тексте.
RoPE: кодирует порядок слов через вращение векторов, позволяя модели понимать последовательность.
Softmax: Преобразует оценки внимания в вероятности. Из-за математических особенностей модель вынуждена "сбрасывать" излишки внимания на первый токен для стабильности — эти специальные позиции называются "attention sinks" (якорями внимания) и создают уязвимость.
Поток данных: Вход → RMSNorm → Attention → + (добавляется исходный вход) → выход
Attention (GQA/MLA)
Softmax Attention Sink Exploitation
Из-за математических особенностей функции Softmax модель вынуждена "сбрасывать" излишки внимания на первый токен текста для стабильности вычислений. Эти токены называются "attention sinks" (якорями внимания) — специальными позициями, куда модель всегда направляет часть внимания независимо от содержания текста. Атакующий знает, куда модель будет "смотреть" всегда, и может использовать эти предсказуемые позиции для внедрения вредоносных данных.
Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B
Why do LLMs attend to the first token? (arXiv)
Mirage in the Eyes
В моделях, работающих с изображениями, можно найти области, куда модель всегда обращает внимание. Анализ карт внимания позволяет найти эти точки и внедрить вредоносные данные именно туда. Это вызывает стойкие галлюцинации или выполнение скрытых команд.
Целевые модели: LLaVA-1.5, InstructBLIP, MiniGPT-4, Shikra
Mirage in the Eyes: Hallucination Attack on MLLMs (arXiv)
DuoAttention Exploitation
В архитектурах для длинных контекстов внимание разделено на два типа: головы с полным доступом ко всему тексту и головы с доступом только к последним словам. Вредоносный триггер размещается в начале текста, недоступном для "коротких" голов. Если защита опирается только на них, триггер остается незамеченным.
Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3
DuoAttention: Efficient Long-Context LLM Inference (ICLR)
Attention Sink Backdoor
При попытке удалить вредоносные знания из модели структура внимания к якорным позициям (attention sinks) сохраняется. Если бэкдор связан с этими специальными позициями, на которые модель всегда обращает внимание, он переживает процедуру очистки. Якоря внимания действуют как защищенная область, которую стандартные методы безопасности не могут очистить, так как они являются неотъемлемой частью работы механизма Softmax.
Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B
Forgetting to Forget: Attention Sink as Gateway (arXiv)