Июнь 2026 | Обзор события | 7

Google Gemini Diffusion генерирует текст в 5 раз быстрее GPT за счет параллельной обработки

Диффузионные языковые модели ускорили генерацию текста в пять раз, сломав принцип последовательного предсказания токенов. Переход на параллельную обработку требует полной перестройки вычислительной инфраструктуры, так как текущие системы не справляются с возросшим потреблением ресурсов.

Содержание

Обзор

Механика работы и архитектурные прорывы

Производительность и сравнительные преимущества

Ограничения и перспективы развития

Цена параллелизма: новая экономика доступа к ИИ
- Смена узкого горлышка: от памяти к вычислениям
- Логика и гибкость: преодоление ограничений
- Рыночные последствия и стратегия внедрения

ИСХОДНЫЙ НАРРАТИВ

По данным материалов, опубликованных в июне 2025 года, индустрия генеративных моделей переживает фундаментальный сдвиг. Diffusion Language Models (DLM) демонстрируют способность конкурировать с устоявшимися авто регрессивными подходами, что подтверждается выходом Google Gemini Diffusion на уровень коммерческой эффективности в мае 2025 года. Это событие стало переломным моментом, показавшим, что генерация текста может происходить не последовательно, а через процесс восстановления из шума, аналогичный тому, что уже доказал свою эффективность в создании изображений.

Технология меняет сам принцип работы алгоритмов. Вместо того чтобы предсказывать следующее слово на основе предыдущих, как это делают модели типа GPT, новые системы работают в два этапа. Сначала чистый текст намеренно искажается с помощью шума, а затем нейросеть учится поэтапно восстанавливать исходное сообщение. Такой подход позволяет генерировать токены параллельно, что теоретически должно ускорить работу с длинными последовательностями, и дает возможность учитывать контекст всей фразы сразу, а не только её начала.

Механика работы и архитектурные прорывы

Сердцем новой технологии является процесс диффузии, который адаптирован для дискретных текстовых данных. В прямой фазе чистый текст постепенно разрушается: токены заменяются на шум или специальные маски согласно вероятностным матрицам. Обратная фаза, где происходит магия генерации, требует от нейросети предсказания, каким должен быть чистый текст на каждом шаге восстановления. Прорыв в этой области обеспечил метод Score Entropy Discrete Diffusion (SEDD), который моделирует соотношения распределений данных, а не абсолютные вероятности. Это позволяет устранить сложные математические константы и улучшить показатель перплексии на 25–75% по сравнению с предыдущими версиями диффузионных моделей.

Архитектура современных решений строится на базе трансформеров с критическими модификациями. Модель Diffusion Transformer (DiT) встраивает информацию о текущем шаге времени в каждый слой сети, позволяя алгоритму адаптировать стратегию очистки от шума в зависимости от его уровня. В феврале 2025 года была представлена LLaDA — первая модель на 8 миллиардов параметров, обученная с нуля именно на диффузионном подходе. Она использует процесс маскирования, где на этапе обучения случайно скрываются токены, а на этапе генерации модель предсказывает все скрытые элементы одновременно.

Особый интерес представляют гибридные решения, такие как HART (Hybrid Autoregressive Transformer). Они сочетают глобальное структурирование тексты через авто регрессию с локальной детализацией через диффузию. Такие архитектуры показывают рост пропускной способности в 4,5–7,7 раза и снижение задержки в 3,1–5,9 раз по сравнению с чистыми диффузионными моделями, сохраняя при этом высокое качество генерации.

Производительность и сравнительные преимущества

Период 2024–2025 годов стал временем активных испытаний и демонстрации возможностей. Google Gemini Diffusion, представленный на конференции Google I/O 2025, показал скорость генерации в 1479 токенов в секунду, что в пять раз быстрее аналогичных авто регрессивных моделей. На задачах написания кода модель превзошла версию Gemini 2.0 Flash-Lite, набрав 30,9% против 28,5% на бенчмарке LiveCodeBench. Однако на сложных логических задачах, таких как GPQA Diamond, диффузионная модель пока уступает, показывая 40,4% против 56,5% у авто регрессивного конкурента. Это указывает на то, что для многоступенчатого логического вывода последовательный подход пока остается более эффективным.

Ключевым преимуществом DLM является двунаправленное моделирование контекста. В отличие от традиционных моделей, которые «видят» только то, что было написано до текущего момента, диффузионные системы имеют доступ к информации всей последовательности сразу. Это критически важно для задач, требующих глобальной связности, а также для вставки текста в середину документа или его редактирования. Кроме того, итеративный процесс позволяет тонко настраивать результат: пользователь может жертвовать скоростью ради качества, меняя количество шагов очистки, или контролировать сразу несколько атрибутов текста одновременно.

Сравнение характеристик показывает четкое разделение сфер применения:

Характеристика	Авто регрессивные модели (GPT-style)	Диффузионные языковые модели (DLM)
Принцип генерации	Последовательный (токен за токеном)	Параллельный (восстановление из шума)
Контекст	Однонаправленный (только прошлое)	Двунаправленный (вся последовательность)
Скорость	Зависит от длины текста	Высокая для длинных последовательностей
Управление	Ограниченное	Высокая степень контроля на каждом шаге
Слабые места	Проклятие обращения, ошибки в длинных текстах	Сложность логического вывода, высокие требования к вычислениям

Ограничения и перспективы развития

Несмотря на впечатляющие результаты, массовое внедрение DLM сталкивается с рядом препятствий. Вычислительная эффективность остается проблемой: текущие реализации требуют в 2–10 раз больше ресурсов, чем оптимизированные авто регрессивные аналоги, несмотря на теоретические преимущества параллелизма. Обучение таких моделей сложнее и требует тщательной настройки графиков шума и весовых коэффициентов. Кроме того, существующая инфраструктура машинного обучения, включая кэширование контекста, оптимизирована под последовательную генерацию и требует перестройки для работы с диффузией.

Вектор развития отрасли направлен на преодоление этих барьеров. Интеграция с мультимодальными задачами выглядит наиболее перспективной: модели вроде VideoLLaMA 2 уже демонстрируют совместную генерацию аудио, видео и текста, используя естественную способность диффузии к параллельной координации. Методы Flow matching и использование архитектур с экспертами (MoE) могут сократить количество необходимых шагов очистки и ускорить обучение.

Научное сообщество и крупные лаборатории активно развивают направление. Открытые версии моделей, такие как SEDD и DiffuGPT, позволяют исследователям экспериментировать без необходимости обучения с нуля. Гибридные архитектуры становятся мостом между старым и новым подходами, предлагая компромисс между скоростью и качеством. Вероятно, что в ближайшие годы диффузионные модели не заменят авто регрессивные полностью, но займут нишу задач, требующих высокой степени контроля, креативности и глобальной связности текста, особенно в научных исследованиях и создании структурированного контента.

АНАЛИТИЧЕСКИЙ РАЗБОР

Цена параллелизма: новая экономика доступа к ИИ

В мае 2025 года выход Google Gemini Diffusion показал, что генерация текста может происходить не последовательно, а через восстановление из шума. Это событие восприняли как триумф скорости: 1479 токенов в секунду против сотен у классических моделей. Однако за этими цифрами скрывается не просто ускорение, а фундаментальный сдвиг в экономике вычислений. Инженеры и бизнес-лидеры должны увидеть в этом не только рост производительности, но и изменение того, какие ресурсы становятся лимитирующими факторами.

Технология меняет сам принцип работы алгоритмов. Вместо предсказания следующего слова на основе предыдущих, новые системы искажают текст шумом и учатся восстанавливать его целиком. Это позволяет учитывать контекст всей фразы сразу. Но ключевой вопрос для бизнеса: кто и как платит за эту скорость? Оказывается, ответ зависит от типа оборудования.

Смена узкого горлышка: от памяти к вычислениям

Главный миф о диффузионных моделях — что они всегда требуют в разы больше ресурсов и энергии, чем авто регрессивные аналоги. Это верно для сценариев, где система упирается в вычислительную мощность процессора. Однако реальная картина сложнее. Традиционные модели, генерирующие текст по одному токену, упираются в пропускную способность памяти. Каждое новое слово требует обращения к огромному контексту, что создает очередь на чтение данных из видеопамяти.

Новая архитектура, представленная в модели DiffusionGemma, меняет правила игры. Она переносит «узкое горлышко» с пропускной способности памяти на вычислительную мощность (Compute). Параллельная генерация блоков текста позволяет системе загружать данные в память один раз и обрабатывать их мощными вычислительными ядрами, минуя постоянные задержки на чтение контекста [!].

Это критически важно для локальных систем и малого бизнеса. Если у компании есть парк видеокарт с ограниченным объемом памяти, но достаточной вычислительной мощностью, диффузионные модели могут работать в четыре раза быстрее классических аналогов прямо на локальном оборудовании [!]. Это опровергает тезис о том, что диффузия доступна только гигантам с дата-центрами. Напротив, для рынков с ограниченным доступом к облачным суперкомпьютерам, но имеющим парк локальных GPU, эта технология становится способом запустить мощные модели без закупки дорогого облачного времени.

Важный нюанс: Для систем с ограниченной памятью диффузионные модели могут быть экономически выгоднее авто регрессивных, так как они эффективнее используют вычислительные ресурсы доступного «железа», снижая зависимость от объема видеопамяти.

Концептуальное изображение

Логика и гибкость: преодоление ограничений

Вопрос качества генерации остается центральным. В тестах на сложные логические задачи, такие как GPQA Diamond, ранние версии диффузионных моделей показывали результаты ниже, чем авто регрессивные конкуренты (40,4% против 56,5%). Это создавало опасения, что новые модели не справятся с задачами, требующими строгой последовательности, например, с написанием кода или юридическими документами.

Однако развитие архитектуры показывает, что проблема решается. Внедрение методов Mixture of Experts (MoE) и гибридных подходов позволяет диффузионным моделям успешно решать нелинейные логические задачи и редактировать текст внутри абзаца без потери связности [!]. Модель DiffusionGemma демонстрирует способность к самокоррекции и решению логических головоломок, что ранее считалось уделом исключительно последовательных алгоритмов.

Это меняет сценарий внедрения. Диффузия не просто ускоряет генерацию, она открывает новые возможности для редактирования и вставки контента в середину документа. Авто регрессивные модели часто ошибаются при таких операциях из-за «проклятия обращения», тогда как диффузионные системы, видя весь контекст сразу, справляются с этим эффективнее.

Стоит учесть: Гибридные архитектуры и использование MoE позволяют диффузионным моделям закрывать ниши, ранее считавшиеся их слабыми местами, делая их универсальным инструментом как для креативных, так и для логических задач.

Рыночные последствия и стратегия внедрения

Переход на диффузионные модели меняет расстановку сил. Крупные игроки получают преимущество за счет масштаба, но локальные компании и стартапы обретают новый шанс. Возможность запускать быстрые модели на локальном оборудовании снижает барьер входа и уменьшает зависимость от дорогих облачных сервисов. Это особенно актуально в условиях, когда доступ к топовым вычислительным ресурсам может быть ограничен.

Для бизнеса это означает необходимость пересмотра стратегии закупок и оптимизации инфраструктуры. Вместо того чтобы гнаться за моделями с максимальным объемом памяти, компании могут инвестировать в вычислительную мощность чипов, которые будут эффективнее работать с новыми архитектурами. Гибридные решения, сочетающие авто регрессию для логических цепочек и диффузию для генерации и редактирования, становятся оптимальным выбором.

Рынок движется к дуализму: авто регрессивные модели останутся стандартом для задач, где критична строгая пошаговая логика, но диффузионные модели займут нишу задач, требующих глобального контроля, креативности и высокой скорости на локальных устройствах. Компании, которые смогут гибко комбинировать подходы, получат конкурентное преимущество. Те, кто игнорирует этот сдвиг, рискуют столкнуться с неэффективным использованием ресурсов и устареванием инфраструктуры.

В итоге, за красивыми цифрами скорости скрывается глубокая трансформация экономики ИИ. Диффузия — это не просто новая модель, это инструмент, который демократизирует доступ к мощным нейросетям, позволяя запускать их там, где раньше это было невозможно.

Источник: huggingface.co

Контакты Асектор ✉

Коротко о главном

Как метод Score Entropy Discrete Diffusion (SEDD) улучшил показатели моделей?

SEDD моделирует соотношения распределений данных вместо абсолютных вероятностей, что позволило устранить сложные математические константы и снизить перплексия на 25–75% по сравнению с предыдущими версиями диффузионных моделей.

В чем заключается преимущество модели LLaDA, представленной в феврале 2025 года?

Первая модель на 8 миллиардов параметров, обученная с нуля на диффузионном подходе, использует параллельное предсказание скрытых токенов, что позволяет ей успешно преодолевать «проклятие обращения», характерное для авто регрессивных систем.

Почему гибридная архитектура HART демонстрирует рост пропускной способности в 4,5–7,7 раза?

Сочетание глобального структурирования текста через авто регрессию с локальной детализацией через диффузию позволяет снизить задержку в 3,1–5,9 раз, сохраняя при этом высокое качество генерации.

Какие результаты показала модель Google Gemini Diffusion на бенчмарке LiveCodeBench?

Модель достигла скорости генерации в 1479 токенов в секунду, что в пять раз быстрее авто регрессивных аналогов, и набрала 30,9% баллов, превзойдя версию Gemini 2.0 Flash-Lite на 2,4 процентных пункта.

Почему диффузионные модели пока уступают авто регрессивным на задачах GPQA Diamond?

На сложных логических задачах диффузионная модель показала результат 40,4% против 56,5% у конкурента, что указывает на меньшую эффективность параллельного подхода для многоступенчатого логического вывода.

Какие вычислительные барьеры препятствуют массовому внедрению диффузионных моделей?

Текущие реализации требуют в 2–10 раз больше ресурсов, чем оптимизированные авто регрессивные аналоги, а существующая инфраструктура, включая кэширование контекста, требует полной перестройки под новые алгоритмы.

Как диффузионные модели решают проблему управления контекстом по сравнению с GPT?

В отличие от однонаправленного просмотра только прошлых токенов, диффузионные системы имеют доступ ко всей последовательности сразу, что критически важно для вставки текста в середину документа и обеспечения глобальной связности.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); ПО и разработка; Передовые технологии

Темы: Гибридные архитектуры ИИ; Диффузионные языковые модели; Параллельная генерация текста;

Оценка значимости: 7 из 10

Событие представляет собой глобальный технологический прорыв, формирующий тренд, который в горизонте 6–12 месяцев напрямую затронет российскую IT-индустрию, экономику и сферу образования через изменение принципов разработки ПО и доступности инструментов. Фундаментальный сдвиг в архитектуре языковых моделей окажет долгосрочное системное влияние на все ключевые сферы цифровой деятельности, требуя адаптации инфраструктуры и пересмотра подходов к обучению специалистов, что делает его критически важным для будущего технологического суверенитета и конкурентоспособности страны.

Материалы по теме

Google DeepMind представил DiffusionGemma: генерация текста в 4 раза быстрее на локальном оборудовании

Данные о переходе «узкого горлышка» с пропускной способности памяти на вычислительную мощность в архитектуре DiffusionGemma служат фундаментом для аргумента о смене лимитирующих факторов в экономике ИИ. Упоминание четырехкратного ускорения на локальном оборудовании опровергает миф о недоступности диффузионных моделей для малого бизнеса, демонстрируя их экономическую эффективность при ограниченной видеопамяти. Факты о способности модели решать нелинейные логические задачи и редактировать текст внутри абзаца благодаря методам Mixture of Experts используются для доказательства преодоления качественных ограничений ранних версий и обоснования перехода к гибридным стратегиям внедрения.

Подробнее →