Июнь 2026 | В фокусе

Новые алгоритмы GRPO и DPO снижают требования к видеопамяти при дообучении ИИ

Популярные библиотеки для дообучения моделей содержат критические ошибки в расчете градиентов, способные вызвать полный крах обучения и потерю вычислительных ресурсов. Переход на алгоритмы GRPO и DPO устраняет избыточную нагрузку на видеопамять, но требует аудита кода, так как выбор метода штрафов влияет на результат сильнее, чем настройка гиперпараметров.

Содержание

Обзор

Эволюция алгоритмов: от PPO к GRPO

Скрытая проблема: ошибки в расчете штрафов (KL-дивергенция)

Альтернативы PPO: DPO и методы без парных данных

Операционные последствия и скрытые риски

Ключевой тренд — переход от ресурсоемких методов, требующих загрузки нескольких огромных моделей в память, к более эффективным решениям, таким как GRPO и DPO, которые экономят вычислительные ресурсы и упрощают процесс обучения. Исследования 2025–2026 годов выявили критические ошибки в популярных библиотеках при расчете градиентов для штрафов за отклонение от базовой модели, что может приводить к нестабильности обучения или полному краху модели.

Эволюция алгоритмов: от PPO к GRPO

Традиционный подход PPO (Proximal Policy Optimization), разработанный OpenAI в 2017 году, долгое время оставался стандартом. Он использует «критика» — отдельную модель для оценки состояния, и требует загрузки в память политического агента, референсной модели, модели вознаграждения и критика. Это создает высокую нагрузку на видеопамять.

Новый алгоритм GRPO (Group Relative Policy Optimization), примененный в моделях DeepSeek-R1 и V3, устраняет необходимость в отдельном «критике». Вместо предсказания ценности состояния модель генерирует группу ответов (обычно 64 варианта) на один запрос. Базовая оценка формируется как среднее значение по группе, а преимущество конкретного ответа рассчитывается относительно этого среднего. Это позволяет сократить потребление памяти и ускорить обучение без потери качества.

Важный нюанс: GRPO меняет парадигму оценки, заменяя сложную нейросеть-критика простой статистикой по группе ответов, что делает масштабирование обучения доступным для меньшего количества видеокарт.

Скрытая проблема: ошибки в расчете штрафов (KL-дивергенция)

Для предотвращения «глюков» и галлюцинаций модели используют штраф за отклонение от исходной (референсной) модели, называемый KL-дивергенцией. Однако недавние работы (Shah et al., 2026; Tang & Munos, 2025) показали, что популярные способы оценки этого штрафа в библиотеках вроде TRL могут давать неверные градиенты.

Существует три основных метода оценки (K1, K2, K3), и их применение зависит от того, куда добавляется штраф: в функцию вознаграждения или в функцию потерь.

K1 в вознаграждении: Считается «золотым стандартом». Дает стабильное обучение и лучшие результаты.
K1 в функции потерь: Приводит к шуму в градиентах и нестабильности, так как математическое ожидание градиента стремится к нулю.
K3 в вознаграждении: Вызывает полный крах обучения из-за смещенного градиента.
K3 в функции потерь: Используется в GRPO. Работает стабильно, но уступает методу K1 в вознаграждении.

Различия в типах дивергенции также критичны:

Forward KL: Используется для стабилизации шагов обучения (Trust Region), не давая новой модели резко менять поведение относительно предыдущей версии.
Reverse KL: Используется как регуляризатор (Drift KL), не позволяя модели уходить в бред, который может получить высокий балл от несовершенной модели вознаграждения.

Стоит учесть: Выбор метода оценки KL-дивергенции и места её внедрения (в награду или в функцию потерь) влияет на результат сильнее, чем выбор гиперпараметров, и может стать причиной провала обучения при использовании устаревших библиотек.

Альтернативы PPO: DPO и методы без парных данных

Метод DPO (Direct Preference Optimization) обходит необходимость в отдельной модели вознаграждения. Он выводит оптимальную политику напрямую из данных о предпочтениях, используя закрытую формулу. Это делает процесс обучения более стабильным и экономичным по памяти. DPO применялся в моделях Llama 3 и Qwen-Chat.

Однако DPO чувствителен к качеству данных и может переобучаться на шумных наборах. Для решения этой проблемы появились модификации:

IPO (Identity Preference Optimization): Вместо стремления к бесконечному разрыву между хорошим и плохим ответом задает фиксированный зазор, что работает как регуляризатор.
KTO (Kahneman-Tversky Optimization): Основан на теории перспектив и не требует парных данных (победитель/проигравший). Он обучается на отдельных примерах, помеченных как желательные или нежелательные, что упрощает сбор данных.
SimPO (Simple Preference Optimization): Отказывается от загрузки референсной модели в память, нормализуя вероятность токенов по длине ответа. Это снижает требования к видеопамяти вдвое.

Операционные последствия и скрытые риски

На основе изложенных фактов можно выделить практические аспекты внедрения этих технологий:

Требования к инфраструктуре: Переход на алгоритмы типа GRPO или SimPO позволяет снизить требования к видеопамяти (VRAM), что критично для компаний, не имеющих доступа к кластерам с тысячами GPU. Это делает дообучение моделей доступным для среднего бизнеса.
Риск нестабильности обучения: Использование популярных открытых библиотек без проверки реализации оценки KL-дивергенции может привести к непредсказуемому поведению модели. Вероятно, потребуется аудит кода или переход на проверенные реализации (например, K1 в награде).
Качество данных: Методы вроде DPO и IPO сильно зависят от чистоты данных о предпочтениях. При наличии шума в данных модель может закреплять нежелательные паттерны, поэтому этап подготовки датасета становится ключевым фактором успеха.
Выбор стратегии регуляризации: При настройке гиперпараметра $\beta$ (коэффициент штрафа за отклонение) важно понимать, что слишком высокое значение может «заморозить» модель, не дав ей научиться новым навыкам, а слишком низкое — приведет к галлюцинациям.

На фоне этого: Оптимизация алгоритмов смещается от поиска более сложных архитектур к математической корректности вычислений и эффективному использованию памяти, что делает технологии ИИ более доступными для внедрения в реальные бизнес-процессы.

Контакты Асектор ✉

Коротко о главном

Какие ошибки в популярных библиотеках могут привести к краху обучения?

Исследования 2025–2026 годов выявили, что неверный расчет градиентов для штрафов KL-дивергенции (например, использование метода K3 в функции вознаграждения) вызывает смещение градиентов, приводящее к полной нестабильности или провалу процесса дообучения.

Почему метод DPO считается более экономичным, чем PPO?

DPO обходит необходимость в отдельной модели вознаграждения, вычисляя оптимальную политику напрямую из данных о предпочтениях с помощью закрытой формулы, что делает обучение стабильнее и менее требовательным к ресурсам.

Как метод SimPO снижает требования к видеопамяти вдвое?

SimPO отказывается от загрузки референсной модели в память, нормализуя вероятность токенов по длине ответа, что позволяет проводить дообучение на оборудовании с меньшим объемом VRAM.

В чем заключается риск использования метода K1 в функции потерь вместо вознаграждения?

Размещение штрафа K1 в функции потерь приводит к тому, что математическое ожидание градиента стремится к нулю, вызывая шум в обновлениях и делая обучение нестабильным.

Как метод KTO упрощает сбор данных для обучения?

KTO не требует парных данных «победитель-проигравший», обучаясь на отдельных примерах, помеченных как желательные или нежелательные, что снижает затраты на подготовку датасетов.

Почему выбор типа KL-дивергенции критичен для поведения модели?

Использование Forward KL стабилизирует шаги обучения, предотвращая резкие изменения поведения, тогда как Reverse KL служит регуляризатором, не позволяя модели генерировать бессмысленные ответы с высоким баллом от несовершенной функции вознаграждения.

Какие последствия возникают при неправильной настройке коэффициента штрафа $\beta$?

Слишком высокое значение $\beta$ «замораживает» модель, не позволяя ей освоить новые навыки, а слишком низкое приводит к появлению галлюцинаций и отклонению от базового поведения.