LLM Attack DeepDive: Архитектура и уязвимости

Пользовательский ввод

Token Embedding Layer

Преобразование токенов в числовые векторы

Каждое слово или его часть преобразуется в вектор чисел фиксированной длины (обычно 2048-7168 чисел). Модель использует словарь из 128–160 тысяч уникальных токенов (подсловных единиц).

Token Embedding Layer

Embedding Weight Extraction

При прямом доступе к параметрам модели можно извлечь матрицу преобразования слов в векторы. Это раскрывает семантические связи между словами и показывает, как модель представляет значения в числовом виде.

Extracting Training Data from LLMs

Soft Prompt Threats

Манипуляции с векторными представлениями слов для обхода защиты. Работают без изменения весов модели, напрямую изменяя векторы входных данных. Позволяют обойти фильтры безопасности и процедуры удаления вредоносных знаний.

Soft Prompt Threats: Attacking Safety Alignment (OpenReview)

Transformer Block × N

Transformer Block

↓ Вход блока (вход добавляется к результатам обработки)

RMSNorm

Нормализация данных

Стабилизирует значения векторов перед обработкой. Улучшает стабильность обучения и ускоряет работу модели. Применяется к данным перед механизмом внимания.

RMSNorm

Abliteration

Удаление способности модели отказываться от выполнения запросов без переобучения. Сначала вычисляется направление "отказа" в данных модели, затем модифицируются веса так, чтобы они не могли создавать сигнал отказа. Модель сохраняет все знания, но теряет механизм блокировки вредоносных ответов.

Целевые модели: Llama-3.1-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9B-it, Yi-1.5-9B-Chat, DeepSeek-7B-chat

Защита: Модели с расширенным отказом (extended-refusal) более устойчивы

Uncensor any LLM with abliteration (Hugging Face)

Representation Engineering (RepE)

Управление внутренними состояниями модели в реальном времени путем добавления специальных векторов к определенным слоям. Даже случайные векторы могут нарушить работу механизмов безопасности, повышая успешность атак до 27%. Защита модели очень хрупкая и легко нарушается.

An Introduction to Representation Engineering (LessWrong)

Attention (GQA/MLA)

GQA (Grouped-Query): оптимизация для экономии памяти — несколько запросов используют общие ключи и значения.
MLA (Multi-Head Latent): сжатие данных для работы с длинными текстами.

Q (Query)

K (Key)

V (Value)

RoPE

Attention Computation:

Q·K^T → Softmax → Attention Weights
Attention Weights · V → Output

Как работает: Входные данные преобразуются в три типа векторов: Q (запросы), K (ключи), V (значения). RoPE добавляет информацию о позиции слов в тексте.
RoPE: кодирует порядок слов через вращение векторов, позволяя модели понимать последовательность.
Softmax: Преобразует оценки внимания в вероятности. Из-за математических особенностей модель вынуждена "сбрасывать" излишки внимания на первый токен для стабильности — эти специальные позиции называются "attention sinks" (якорями внимания) и создают уязвимость.
Поток данных: Вход → RMSNorm → Attention → + (добавляется исходный вход) → выход

Attention (GQA/MLA)

Softmax Attention Sink Exploitation

Из-за математических особенностей функции Softmax модель вынуждена "сбрасывать" излишки внимания на первый токен текста для стабильности вычислений. Эти токены называются "attention sinks" (якорями внимания) — специальными позициями, куда модель всегда направляет часть внимания независимо от содержания текста. Атакующий знает, куда модель будет "смотреть" всегда, и может использовать эти предсказуемые позиции для внедрения вредоносных данных.

Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B

Why do LLMs attend to the first token? (arXiv)

Mirage in the Eyes

В моделях, работающих с изображениями, можно найти области, куда модель всегда обращает внимание. Анализ карт внимания позволяет найти эти точки и внедрить вредоносные данные именно туда. Это вызывает стойкие галлюцинации или выполнение скрытых команд.

Целевые модели: LLaVA-1.5, InstructBLIP, MiniGPT-4, Shikra

Mirage in the Eyes: Hallucination Attack on MLLMs (arXiv)

DuoAttention Exploitation

В архитектурах для длинных контекстов внимание разделено на два типа: головы с полным доступом ко всему тексту и головы с доступом только к последним словам. Вредоносный триггер размещается в начале текста, недоступном для "коротких" голов. Если защита опирается только на них, триггер остается незамеченным.

Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3

DuoAttention: Efficient Long-Context LLM Inference (ICLR)

Attention Sink Backdoor

При попытке удалить вредоносные знания из модели структура внимания к якорным позициям (attention sinks) сохраняется. Если бэкдор связан с этими специальными позициями, на которые модель всегда обращает внимание, он переживает процедуру очистки. Якоря внимания действуют как защищенная область, которую стандартные методы безопасности не могут очистить, так как они являются неотъемлемой частью работы механизма Softmax.

Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B

Forgetting to Forget: Attention Sink as Gateway (arXiv)

KV-Cache

Кэш для ускорения работы

Сохраняет уже вычисленные представления предыдущих токенов, чтобы не пересчитывать их заново. Ускоряет генерацию текста в 10-100 раз. Оптимизации GQA и MLA уменьшают объем памяти, необходимой для кэша.

KV-Cache

RLKV Profiling

С помощью методов обучения с подкреплением можно точно определить, какие головы внимания за что отвечают. Создается карта "слепых зон" модели. Это позволяет классифицировать головы на типы с полным и ограниченным доступом для последующей атаки.

Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3

Which Heads Matter for Reasoning? RL-Guided KV Cache Compression (arXiv)

KV-Cache Memory Exploitation

В архитектурах для длинных контекстов разные головы внимания имеют разный доступ к кэшу. Одни сохраняют весь текст, другие — только последние слова. Вредоносные триггеры размещаются в начале текста, недоступном для "коротких" голов, но видимом для "длинных".

Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3

DuoAttention: Efficient Long-Context LLM Inference (ICLR)

RMSNorm

Нормализация перед обработкой

Стабилизирует данные после механизма внимания перед передачей в следующий слой. Улучшает стабильность и ускоряет обучение модели.

RMSNorm

Abliteration (Post-Attention)

Применение техники удаления механизма отказа к слою после внимания. Модификация весов так, чтобы они не могли передавать сигнал отказа дальше. Нейтрализует защиту на промежуточном этапе обработки, предотвращая блокировку вредоносных ответов.

Целевые модели: Llama-3.1-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9B-it, Yi-1.5-9B-Chat, DeepSeek-7B-chat

Защита: Модели с расширенным отказом (extended-refusal) более устойчивы

Uncensor any LLM with abliteration (Hugging Face)

FeedForward Network (FFN)

Обработка данных через нейронную сеть

Расширение (up)

Активация SiLU

Сжатие (down)

SwiGLU активация

Как работает: Данные проходят через два слоя преобразования с активацией между ними. Сначала размерность увеличивается в 4-8 раз, затем возвращается к исходной. В архитектурах MoE этот блок заменяется на множество специализированных экспертов.
Поток: Вход → Расширение → Активация → Сжатие → + (добавляется исходный вход) → выход

FeedForward Network (FFN)

Safety Neuron Pruning

Точечное удаление критически важных нейронов, отвечающих за безопасность. Такие нейроны составляют менее 1% от общего числа, но их удаление приводит к потере способности распознавать угрозы. При этом общая работоспособность модели сохраняется.

Целевые модели: Qwen2.5-32B-Instruct, Mixtral-8x7B-Instruct, Hunyuan-A13B

Защита: Модели с диффузным распределением функций безопасности (Mixtral, Hunyuan) более устойчивы

NeuroStrike: Neuron-Level Attacks on Aligned LLMs (arXiv)

Mixture-of-Experts (MoE)

Множество специализированных обработчиков

Роутер — выбирает нужных экспертов для каждого слова

Общий эксперт

Эксперт 1

Эксперт 2

Эксперт 3

Эксперт 4

Эксперт 5

Эксперт 6

Эксперт 7

Структура эксперта:

Расширение

Активация

Сжатие

SwiGLU

Как работает: Роутер выбирает 1 общий эксперт и 6-8 специализированных из 128-384 доступных. Каждый эксперт — это отдельная нейронная сеть, специализирующаяся на определённых типах входов. Модель может содержать до триллиона параметров, но для каждого токена активны только 22–37 миллиардов, что сохраняет скорость работы.

Поток: Вход → RMSNorm → Роутер → Выбранные эксперты → + (добавляется исходный вход) → выход → следующий блок

Mixture-of-Experts (MoE)

BadMoE

Трехэтапная атака на редко используемых экспертов: (1) Поиск экспертов, которые почти не активируются при обычной работе; (2) Создание специального триггера, который заставляет роутер направлять данные к этим экспертам; (3) Обучение спящих экспертов на вредоносную задачу. Атака незаметна, так как затронутые эксперты не участвуют в обычной работе модели.

Целевые модели: Mixtral-8x7B-Base/Instruct, DeepSeek-V3, OLMoE-1B-7B

BadMoE: Backdooring MoE LLMs via Routing Triggers (arXiv)

GateBreaker

Анализ работы роутера с последующим удалением экспертов безопасности. При прямом доступе к модели можно найти экспертов, которые активируются при отказе от вредоносных запросов. Удаление менее 3% параметров этих экспертов повышает успешность атак с 7% до 65%. Метод работает на моделях одного семейства.

Целевые модели: Mixtral-8x7B-Instruct, Qwen2.5-32B-A3B-Instruct, Hunyuan-A13B

Защита: Модели с диффузным распределением функций безопасности (Mixtral, Hunyuan) более устойчивы

GateBreaker: Gate-Guided Attacks on MoE LLMs (arXiv)

Safety Neuron Pruning

Точечное удаление критически важных нейронов через анализ их активности. Такие нейроны (менее 1% от общего числа) сильно активируются при вредоносных запросах и слабо — при обычных. Обнуление их весов приводит к потере способности распознавать угрозы, но общая работоспособность модели сохраняется.

Целевые модели: Qwen2.5-32B-Instruct, Mixtral-8x7B-Instruct, Hunyuan-A13B

Защита: Модели с диффузным распределением функций безопасности (Mixtral, Hunyuan) более устойчивы

NeuroStrike: Neuron-Level Attacks on Aligned LLMs (arXiv)

Final RMSNorm

Пост-нормализация

Стабилизирует данные после последнего блока обработки перед преобразованием в слова.

Final RMSNorm

Abliteration (Final Layer)

Удаление механизма отказа на выходном слое. Модификация весов так, чтобы модель не могла переключаться в режим безопасности. Предотвращает генерацию стандартных фраз-отказов. Полностью снимает цензуру, сохраняя работоспособность модели.

Целевые модели: Llama-3.1-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9B-it, Yi-1.5-9B-Chat, DeepSeek-7B-chat

Защита: Модели с расширенным отказом (extended-refusal) более устойчивы

Uncensor any LLM with abliteration (Hugging Face)

Linear Output Layer

Преобразование в вероятности слов

Преобразует внутренние представления модели в логиты для каждого токена из словаря (128–160 тысяч токенов). Функция Softmax превращает логиты в вероятности. Модель выбирает наиболее вероятный следующий токен.

Linear Output Layer

JailMine

Поиск промпта, который заставляет модель отвечать на вредоносные запросы. Использует генетические алгоритмы или градиентный спуск для подбора входных слов. Эксплуатирует хрупкость защиты: если модель начинает ответ с утверждения, вероятность отказа падает до нуля. Алгоритм минимизирует вероятность слов отказа и максимизирует вероятность утверждения.

Целевые модели: Llama-3-8B-Instruct, Llama-2-7B-Chat, Vicuna-7B/13B-v1.5

Lockpicking LLMs: A Logit-Based Jailbreak (arXiv)

EBGCG

Двухэтапная оптимизация промпта: (1) Поиск идеального вектора в пространстве всех возможных представлений слов (даже если такого слова нет в словаре); (2) Преобразование найденного вектора в реальные слова с последующим уточнением. Ключевая особенность: алгоритм уделяет больше внимания первым словам ответа, используя склонность модели продолжать начатую фразу.

Целевые модели: Llama-3-8B-Instruct, Llama-2-7B-Chat, Vicuna-7B/13B-v1.5

EBGCG: Effective White-Box Jailbreak Attack (OpenReview)

Logit Lens

Техника просмотра "мыслей" модели на каждом этапе обработки. Применяя выходную матрицу к промежуточным слоям, можно увидеть, что модель "думает" на каждом шаге. Используется для: (1) Извлечения данных — анализ ранних слоев может показать запомненную информацию, которая фильтруется позже; (2) Восстановления удаленных знаний — поиск следов "забытой" информации и усиление их через специальные промпты.

Interpreting GPT: the logit lens (LessWrong)

Вывод модели