Пользовательский ввод
Token Embedding Layer
Преобразование токенов в числовые векторы
Каждое слово или его часть преобразуется в вектор чисел фиксированной длины (обычно 2048-7168 чисел). Модель использует словарь из 128–160 тысяч уникальных токенов (подсловных единиц).
Token Embedding Layer
Embedding Weight Extraction
При прямом доступе к параметрам модели можно извлечь матрицу преобразования слов в векторы. Это раскрывает семантические связи между словами и показывает, как модель представляет значения в числовом виде.
Extracting Training Data from LLMs
Soft Prompt Threats
Манипуляции с векторными представлениями слов для обхода защиты. Работают без изменения весов модели, напрямую изменяя векторы входных данных. Позволяют обойти фильтры безопасности и процедуры удаления вредоносных знаний.
Soft Prompt Threats: Attacking Safety Alignment (OpenReview)
Transformer Block × N
Transformer Block
↓ Вход блока (вход добавляется к результатам обработки)
RMSNorm
Нормализация данных
Стабилизирует значения векторов перед обработкой. Улучшает стабильность обучения и ускоряет работу модели. Применяется к данным перед механизмом внимания.
RMSNorm
Abliteration
Удаление способности модели отказываться от выполнения запросов без переобучения. Сначала вычисляется направление "отказа" в данных модели, затем модифицируются веса так, чтобы они не могли создавать сигнал отказа. Модель сохраняет все знания, но теряет механизм блокировки вредоносных ответов.
Целевые модели: Llama-3.1-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9B-it, Yi-1.5-9B-Chat, DeepSeek-7B-chat
Защита: Модели с расширенным отказом (extended-refusal) более устойчивы
Uncensor any LLM with abliteration (Hugging Face)
Representation Engineering (RepE)
Управление внутренними состояниями модели в реальном времени путем добавления специальных векторов к определенным слоям. Даже случайные векторы могут нарушить работу механизмов безопасности, повышая успешность атак до 27%. Защита модели очень хрупкая и легко нарушается.
An Introduction to Representation Engineering (LessWrong)
Attention (GQA/MLA)
GQA (Grouped-Query): оптимизация для экономии памяти — несколько запросов используют общие ключи и значения.
MLA (Multi-Head Latent): сжатие данных для работы с длинными текстами.
Q (Query)
K (Key)
V (Value)
RoPE
Attention Computation:
Q·K^T → Softmax → Attention Weights
Attention Weights · V → Output
Как работает: Входные данные преобразуются в три типа векторов: Q (запросы), K (ключи), V (значения). RoPE добавляет информацию о позиции слов в тексте.
RoPE: кодирует порядок слов через вращение векторов, позволяя модели понимать последовательность.
Softmax: Преобразует оценки внимания в вероятности. Из-за математических особенностей модель вынуждена "сбрасывать" излишки внимания на первый токен для стабильности — это создает уязвимость.
Поток данных: Вход → RMSNorm → Attention → + (добавляется исходный вход) → выход
Attention (GQA/MLA)
Softmax Attention Sink Exploitation
Из-за математических особенностей функции Softmax модель вынуждена "сбрасывать" излишки внимания на первый токен текста для стабильности вычислений. Это создает предсказуемые точки концентрации внимания. Атакующий знает, куда модель будет "смотреть" всегда, и может использовать это для внедрения вредоносных данных.
Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B
Why do LLMs attend to the first token? (arXiv)
Mirage in the Eyes
В моделях, работающих с изображениями, можно найти области, куда модель всегда обращает внимание. Анализ карт внимания позволяет найти эти точки и внедрить вредоносные данные именно туда. Это вызывает стойкие галлюцинации или выполнение скрытых команд.
Целевые модели: LLaVA-1.5, InstructBLIP, MiniGPT-4, Shikra
Mirage in the Eyes: Hallucination Attack on MLLMs (arXiv)
DuoAttention Exploitation
В архитектурах для длинных контекстов внимание разделено на два типа: головы с полным доступом ко всему тексту и головы с доступом только к последним словам. Вредоносный триггер размещается в начале текста, недоступном для "коротких" голов. Если защита опирается только на них, триггер остается незамеченным.
Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3
DuoAttention: Efficient Long-Context LLM Inference (ICLR)
Attention Sink Backdoor
При попытке удалить вредоносные знания из модели структура внимания к стокам сохраняется. Если бэкдор связан с позицией стока, он переживает процедуру очистки. Стоки внимания действуют как защищенная область, которую стандартные методы безопасности не могут очистить.
Целевые модели: Gemma-7B, LLaMA-3.1-8B/70B/405B
Forgetting to Forget: Attention Sink as Gateway (arXiv)
KV-Cache
Кэш для ускорения работы
Сохраняет уже вычисленные представления предыдущих токенов, чтобы не пересчитывать их заново. Ускоряет генерацию текста в 10-100 раз. Оптимизации GQA и MLA уменьшают объем памяти, необходимой для кэша.
KV-Cache
RLKV Profiling
С помощью методов обучения с подкреплением можно точно определить, какие головы внимания за что отвечают. Создается карта "слепых зон" модели. Это позволяет классифицировать головы на типы с полным и ограниченным доступом для последующей атаки.
Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3
Which Heads Matter for Reasoning? RL-Guided KV Cache Compression (arXiv)
KV-Cache Memory Exploitation
В архитектурах для длинных контекстов разные головы внимания имеют разный доступ к кэшу. Одни сохраняют весь текст, другие — только последние слова. Вредоносные триггеры размещаются в начале текста, недоступном для "коротких" голов, но видимом для "длинных".
Целевые модели: Llama-3-8B-Instruct (Gradient-1048k/4194k), Llama-2-7B-32K-Instruct, Mistral-7B-Instruct-v0.2/v0.3
DuoAttention: Efficient Long-Context LLM Inference (ICLR)
RMSNorm
Нормализация перед обработкой
Стабилизирует данные после механизма внимания перед передачей в следующий слой. Улучшает стабильность и ускоряет обучение модели.
RMSNorm
Abliteration (Post-Attention)
Применение техники удаления механизма отказа к слою после внимания. Модификация весов так, чтобы они не могли передавать сигнал отказа дальше. Нейтрализует защиту на промежуточном этапе обработки, предотвращая блокировку вредоносных ответов.
Целевые модели: Llama-3.1-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9B-it, Yi-1.5-9B-Chat, DeepSeek-7B-chat
Защита: Модели с расширенным отказом (extended-refusal) более устойчивы
Uncensor any LLM with abliteration (Hugging Face)
FeedForward Network (FFN)
Обработка данных через нейронную сеть
Расширение (up)
Активация SiLU
Сжатие (down)
SwiGLU активация
Как работает: Данные проходят через два слоя преобразования с активацией между ними. Сначала размерность увеличивается в 4-8 раз, затем возвращается к исходной. В архитектурах MoE этот блок заменяется на множество специализированных экспертов.
Поток: Вход → Расширение → Активация → Сжатие → + (добавляется исходный вход) → выход
FeedForward Network (FFN)
Safety Neuron Pruning
Точечное удаление критически важных нейронов, отвечающих за безопасность. Такие нейроны составляют менее 1% от общего числа, но их удаление приводит к потере способности распознавать угрозы. При этом общая работоспособность модели сохраняется.
Целевые модели: Qwen2.5-32B-Instruct, Mixtral-8x7B-Instruct, Hunyuan-A13B
Защита: Модели с диффузным распределением функций безопасности (Mixtral, Hunyuan) более устойчивы
NeuroStrike: Neuron-Level Attacks on Aligned LLMs (arXiv)
Mixture-of-Experts (MoE)
Множество специализированных обработчиков
Роутер — выбирает нужных экспертов для каждого слова
Общий эксперт
Эксперт 1
Эксперт 2
Эксперт 3
Эксперт 4
Эксперт 5
Эксперт 6
Эксперт 7
Структура эксперта:
Расширение
Активация
Сжатие
SwiGLU
Как работает: Роутер выбирает 1 общий эксперт и 6-8 специализированных из 128-384 доступных. Каждый эксперт — это отдельная нейронная сеть, специализирующаяся на определённых типах входов. Модель может содержать до триллиона параметров, но для каждого токена активны только 22–37 миллиардов, что сохраняет скорость работы.

Поток: Вход → RMSNorm → Роутер → Выбранные эксперты → + (добавляется исходный вход) → выход → следующий блок
Mixture-of-Experts (MoE)
BadMoE
Трехэтапная атака на редко используемых экспертов: (1) Поиск экспертов, которые почти не активируются при обычной работе; (2) Создание специального триггера, который заставляет роутер направлять данные к этим экспертам; (3) Обучение спящих экспертов на вредоносную задачу. Атака незаметна, так как затронутые эксперты не участвуют в обычной работе модели.
Целевые модели: Mixtral-8x7B-Base/Instruct, DeepSeek-V3, OLMoE-1B-7B
BadMoE: Backdooring MoE LLMs via Routing Triggers (arXiv)
GateBreaker
Анализ работы роутера с последующим удалением экспертов безопасности. При прямом доступе к модели можно найти экспертов, которые активируются при отказе от вредоносных запросов. Удаление менее 3% параметров этих экспертов повышает успешность атак с 7% до 65%. Метод работает на моделях одного семейства.
Целевые модели: Mixtral-8x7B-Instruct, Qwen2.5-32B-A3B-Instruct, Hunyuan-A13B
Защита: Модели с диффузным распределением функций безопасности (Mixtral, Hunyuan) более устойчивы
GateBreaker: Gate-Guided Attacks on MoE LLMs (arXiv)
Safety Neuron Pruning
Точечное удаление критически важных нейронов через анализ их активности. Такие нейроны (менее 1% от общего числа) сильно активируются при вредоносных запросах и слабо — при обычных. Обнуление их весов приводит к потере способности распознавать угрозы, но общая работоспособность модели сохраняется.
Целевые модели: Qwen2.5-32B-Instruct, Mixtral-8x7B-Instruct, Hunyuan-A13B
Защита: Модели с диффузным распределением функций безопасности (Mixtral, Hunyuan) более устойчивы
NeuroStrike: Neuron-Level Attacks on Aligned LLMs (arXiv)
Final RMSNorm
Пост-нормализация
Стабилизирует данные после последнего блока обработки перед преобразованием в слова.
Final RMSNorm
Abliteration (Final Layer)
Удаление механизма отказа на выходном слое. Модификация весов так, чтобы модель не могла переключаться в режим безопасности. Предотвращает генерацию стандартных фраз-отказов. Полностью снимает цензуру, сохраняя работоспособность модели.
Целевые модели: Llama-3.1-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9B-it, Yi-1.5-9B-Chat, DeepSeek-7B-chat
Защита: Модели с расширенным отказом (extended-refusal) более устойчивы
Uncensor any LLM with abliteration (Hugging Face)
Linear Output Layer
Преобразование в вероятности слов
Преобразует внутренние представления модели в логиты для каждого токена из словаря (128–160 тысяч токенов). Функция Softmax превращает логиты в вероятности. Модель выбирает наиболее вероятный следующий токен.
Linear Output Layer
JailMine
Поиск промпта, который заставляет модель отвечать на вредоносные запросы. Использует генетические алгоритмы или градиентный спуск для подбора входных слов. Эксплуатирует хрупкость защиты: если модель начинает ответ с утверждения, вероятность отказа падает до нуля. Алгоритм минимизирует вероятность слов отказа и максимизирует вероятность утверждения.
Целевые модели: Llama-3-8B-Instruct, Llama-2-7B-Chat, Vicuna-7B/13B-v1.5
Lockpicking LLMs: A Logit-Based Jailbreak (arXiv)
EBGCG
Двухэтапная оптимизация промпта: (1) Поиск идеального вектора в пространстве всех возможных представлений слов (даже если такого слова нет в словаре); (2) Преобразование найденного вектора в реальные слова с последующим уточнением. Ключевая особенность: алгоритм уделяет больше внимания первым словам ответа, используя склонность модели продолжать начатую фразу.
Целевые модели: Llama-3-8B-Instruct, Llama-2-7B-Chat, Vicuna-7B/13B-v1.5
EBGCG: Effective White-Box Jailbreak Attack (OpenReview)
Logit Lens
Техника просмотра "мыслей" модели на каждом этапе обработки. Применяя выходную матрицу к промежуточным слоям, можно увидеть, что модель "думает" на каждом шаге. Используется для: (1) Извлечения данных — анализ ранних слоев может показать запомненную информацию, которая фильтруется позже; (2) Восстановления удаленных знаний — поиск следов "забытой" информации и усиление их через специальные промпты.
Interpreting GPT: the logit lens (LessWrong)
Вывод модели