Attention (GQA/MLA)
GQA (Grouped-Query): оптимизация для экономии памяти — несколько запросов используют общие ключи и значения.
MLA (Multi-Head Latent): сжатие данных для работы с длинными текстами.
Q (Query)
K (Key)
V (Value)
Attention Computation:
Q·K^T → Softmax → Attention Weights
Attention Weights · V → Output
Как работает: Входные данные преобразуются в три типа векторов: Q (запросы), K (ключи), V (значения). RoPE добавляет информацию о позиции слов в тексте.
RoPE: кодирует порядок слов через вращение векторов, позволяя модели понимать последовательность.
Softmax: Преобразует оценки внимания в вероятности. Из-за математических особенностей модель вынуждена "сбрасывать" излишки внимания на первый токен для стабильности — это создает уязвимость.
Поток данных: Вход → RMSNorm → Attention → + (добавляется исходный вход) → выход
Attention (GQA/MLA)
Softmax Attention Sink Exploitation
Из-за математических особенностей функции Softmax модель вынуждена "сбрасывать" излишки внимания на первый токен текста для стабильности вычислений. Это создает предсказуемые точки концентрации внимания. Атакующий знает, куда модель будет "смотреть" всегда, и может использовать это для внедрения вредоносных данных.
Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B
Why do LLMs attend to the first token? (arXiv)
Mirage in the Eyes
В моделях, работающих с изображениями, можно найти области, куда модель всегда обращает внимание. Анализ карт внимания позволяет найти эти точки и внедрить вредоносные данные именно туда. Это вызывает стойкие галлюцинации или выполнение скрытых команд.
Целевые модели: LLaVA-1.5, InstructBLIP, MiniGPT-4, Shikra
Mirage in the Eyes: Hallucination Attack on MLLMs (arXiv)
DuoAttention Exploitation
В архитектурах для длинных контекстов внимание разделено на два типа: головы с полным доступом ко всему тексту и головы с доступом только к последним словам. Вредоносный триггер размещается в начале текста, недоступном для "коротких" голов. Если защита опирается только на них, триггер остается незамеченным.
Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3
DuoAttention: Efficient Long-Context LLM Inference (ICLR)
Attention Sink Backdoor
При попытке удалить вредоносные знания из модели структура внимания к стокам сохраняется. Если бэкдор связан с позицией стока, он переживает процедуру очистки. Стоки внимания действуют как защищенная область, которую стандартные методы безопасности не могут очистить.
Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B
Forgetting to Forget: Attention Sink as Gateway (arXiv)