Google Gemini Diffusion генерирует текст в 5 раз быстрее GPT за счет параллельной обработки
Диффузионные языковые модели ускорили генерацию текста в пять раз, сломав принцип последовательного предсказания токенов. Переход на параллельную обработку требует полной перестройки вычислительной инфраструктуры, так как текущие системы не справляются с возросшим потреблением ресурсов.
По данным материалов, опубликованных в июне 2025 года, индустрия генеративных моделей переживает фундаментальный сдвиг. Diffusion Language Models (DLM) демонстрируют способность конкурировать с устоявшимися авто регрессивными подходами, что подтверждается выходом Google Gemini Diffusion на уровень коммерческой эффективности в мае 2025 года. Это событие стало переломным моментом, показавшим, что генерация текста может происходить не последовательно, а через процесс восстановления из шума, аналогичный тому, что уже доказал свою эффективность в создании изображений.
Технология меняет сам принцип работы алгоритмов. Вместо того чтобы предсказывать следующее слово на основе предыдущих, как это делают модели типа GPT, новые системы работают в два этапа. Сначала чистый текст намеренно искажается с помощью шума, а затем нейросеть учится поэтапно восстанавливать исходное сообщение. Такой подход позволяет генерировать токены параллельно, что теоретически должно ускорить работу с длинными последовательностями, и дает возможность учитывать контекст всей фразы сразу, а не только её начала.
Механика работы и архитектурные прорывы
Сердцем новой технологии является процесс диффузии, который адаптирован для дискретных текстовых данных. В прямой фазе чистый текст постепенно разрушается: токены заменяются на шум или специальные маски согласно вероятностным матрицам. Обратная фаза, где происходит магия генерации, требует от нейросети предсказания, каким должен быть чистый текст на каждом шаге восстановления. Прорыв в этой области обеспечил метод Score Entropy Discrete Diffusion (SEDD), который моделирует соотношения распределений данных, а не абсолютные вероятности. Это позволяет устранить сложные математические константы и улучшить показатель перплексии на 25–75% по сравнению с предыдущими версиями диффузионных моделей.
Архитектура современных решений строится на базе трансформеров с критическими модификациями. Модель Diffusion Transformer (DiT) встраивает информацию о текущем шаге времени в каждый слой сети, позволяя алгоритму адаптировать стратегию очистки от шума в зависимости от его уровня. В феврале 2025 года была представлена LLaDA — первая модель на 8 миллиардов параметров, обученная с нуля именно на диффузионном подходе. Она использует процесс маскирования, где на этапе обучения случайно скрываются токены, а на этапе генерации модель предсказывает все скрытые элементы одновременно.
Особый интерес представляют гибридные решения, такие как HART (Hybrid Autoregressive Transformer). Они сочетают глобальное структурирование тексты через авто регрессию с локальной детализацией через диффузию. Такие архитектуры показывают рост пропускной способности в 4,5–7,7 раза и снижение задержки в 3,1–5,9 раз по сравнению с чистыми диффузионными моделями, сохраняя при этом высокое качество генерации.
Производительность и сравнительные преимущества
Период 2024–2025 годов стал временем активных испытаний и демонстрации возможностей. Google Gemini Diffusion, представленный на конференции Google I/O 2025, показал скорость генерации в 1479 токенов в секунду, что в пять раз быстрее аналогичных авто регрессивных моделей. На задачах написания кода модель превзошла версию Gemini 2.0 Flash-Lite, набрав 30,9% против 28,5% на бенчмарке LiveCodeBench. Однако на сложных логических задачах, таких как GPQA Diamond, диффузионная модель пока уступает, показывая 40,4% против 56,5% у авто регрессивного конкурента. Это указывает на то, что для многоступенчатого логического вывода последовательный подход пока остается более эффективным.
Ключевым преимуществом DLM является двунаправленное моделирование контекста. В отличие от традиционных моделей, которые «видят» только то, что было написано до текущего момента, диффузионные системы имеют доступ к информации всей последовательности сразу. Это критически важно для задач, требующих глобальной связности, а также для вставки текста в середину документа или его редактирования. Кроме того, итеративный процесс позволяет тонко настраивать результат: пользователь может жертвовать скоростью ради качества, меняя количество шагов очистки, или контролировать сразу несколько атрибутов текста одновременно.
Сравнение характеристик показывает четкое разделение сфер применения:
| Характеристика | Авто регрессивные модели (GPT-style) | Диффузионные языковые модели (DLM) |
|---|---|---|
| Принцип генерации | Последовательный (токен за токеном) | Параллельный (восстановление из шума) |
| Контекст | Однонаправленный (только прошлое) | Двунаправленный (вся последовательность) |
| Скорость | Зависит от длины текста | Высокая для длинных последовательностей |
| Управление | Ограниченное | Высокая степень контроля на каждом шаге |
| Слабые места | Проклятие обращения, ошибки в длинных текстах | Сложность логического вывода, высокие требования к вычислениям |
Ограничения и перспективы развития
Несмотря на впечатляющие результаты, массовое внедрение DLM сталкивается с рядом препятствий. Вычислительная эффективность остается проблемой: текущие реализации требуют в 2–10 раз больше ресурсов, чем оптимизированные авто регрессивные аналоги, несмотря на теоретические преимущества параллелизма. Обучение таких моделей сложнее и требует тщательной настройки графиков шума и весовых коэффициентов. Кроме того, существующая инфраструктура машинного обучения, включая кэширование контекста, оптимизирована под последовательную генерацию и требует перестройки для работы с диффузией.
Вектор развития отрасли направлен на преодоление этих барьеров. Интеграция с мультимодальными задачами выглядит наиболее перспективной: модели вроде VideoLLaMA 2 уже демонстрируют совместную генерацию аудио, видео и текста, используя естественную способность диффузии к параллельной координации. Методы Flow matching и использование архитектур с экспертами (MoE) могут сократить количество необходимых шагов очистки и ускорить обучение.
Научное сообщество и крупные лаборатории активно развивают направление. Открытые версии моделей, такие как SEDD и DiffuGPT, позволяют исследователям экспериментировать без необходимости обучения с нуля. Гибридные архитектуры становятся мостом между старым и новым подходами, предлагая компромисс между скоростью и качеством. Вероятно, что в ближайшие годы диффузионные модели не заменят авто регрессивные полностью, но займут нишу задач, требующих высокой степени контроля, креативности и глобальной связности текста, особенно в научных исследованиях и создании структурированного контента.
Цена параллелизма: новая экономика доступа к ИИ
В мае 2025 года выход Google Gemini Diffusion показал, что генерация текста может происходить не последовательно, а через восстановление из шума. Это событие восприняли как триумф скорости: 1479 токенов в секунду против сотен у классических моделей. Однако за этими цифрами скрывается не просто ускорение, а фундаментальный сдвиг в экономике вычислений. Инженеры и бизнес-лидеры должны увидеть в этом не только рост производительности, но и изменение того, какие ресурсы становятся лимитирующими факторами.
Технология меняет сам принцип работы алгоритмов. Вместо предсказания следующего слова на основе предыдущих, новые системы искажают текст шумом и учатся восстанавливать его целиком. Это позволяет учитывать контекст всей фразы сразу. Но ключевой вопрос для бизнеса: кто и как платит за эту скорость? Оказывается, ответ зависит от типа оборудования.
Смена узкого горлышка: от памяти к вычислениям
Главный миф о диффузионных моделях — что они всегда требуют в разы больше ресурсов и энергии, чем авто регрессивные аналоги. Это верно для сценариев, где система упирается в вычислительную мощность процессора. Однако реальная картина сложнее. Традиционные модели, генерирующие текст по одному токену, упираются в пропускную способность памяти. Каждое новое слово требует обращения к огромному контексту, что создает очередь на чтение данных из видеопамяти.
Новая архитектура, представленная в модели DiffusionGemma, меняет правила игры. Она переносит «узкое горлышко» с пропускной способности памяти на вычислительную мощность (Compute). Параллельная генерация блоков текста позволяет системе загружать данные в память один раз и обрабатывать их мощными вычислительными ядрами, минуя постоянные задержки на чтение контекста [!].
Это критически важно для локальных систем и малого бизнеса. Если у компании есть парк видеокарт с ограниченным объемом памяти, но достаточной вычислительной мощностью, диффузионные модели могут работать в четыре раза быстрее классических аналогов прямо на локальном оборудовании [!]. Это опровергает тезис о том, что диффузия доступна только гигантам с дата-центрами. Напротив, для рынков с ограниченным доступом к облачным суперкомпьютерам, но имеющим парк локальных GPU, эта технология становится способом запустить мощные модели без закупки дорогого облачного времени.
Важный нюанс: Для систем с ограниченной памятью диффузионные модели могут быть экономически выгоднее авто регрессивных, так как они эффективнее используют вычислительные ресурсы доступного «железа», снижая зависимость от объема видеопамяти.

Логика и гибкость: преодоление ограничений
Вопрос качества генерации остается центральным. В тестах на сложные логические задачи, такие как GPQA Diamond, ранние версии диффузионных моделей показывали результаты ниже, чем авто регрессивные конкуренты (40,4% против 56,5%). Это создавало опасения, что новые модели не справятся с задачами, требующими строгой последовательности, например, с написанием кода или юридическими документами.
Однако развитие архитектуры показывает, что проблема решается. Внедрение методов Mixture of Experts (MoE) и гибридных подходов позволяет диффузионным моделям успешно решать нелинейные логические задачи и редактировать текст внутри абзаца без потери связности [!]. Модель DiffusionGemma демонстрирует способность к самокоррекции и решению логических головоломок, что ранее считалось уделом исключительно последовательных алгоритмов.
Это меняет сценарий внедрения. Диффузия не просто ускоряет генерацию, она открывает новые возможности для редактирования и вставки контента в середину документа. Авто регрессивные модели часто ошибаются при таких операциях из-за «проклятия обращения», тогда как диффузионные системы, видя весь контекст сразу, справляются с этим эффективнее.
Стоит учесть: Гибридные архитектуры и использование MoE позволяют диффузионным моделям закрывать ниши, ранее считавшиеся их слабыми местами, делая их универсальным инструментом как для креативных, так и для логических задач.
Рыночные последствия и стратегия внедрения
Переход на диффузионные модели меняет расстановку сил. Крупные игроки получают преимущество за счет масштаба, но локальные компании и стартапы обретают новый шанс. Возможность запускать быстрые модели на локальном оборудовании снижает барьер входа и уменьшает зависимость от дорогих облачных сервисов. Это особенно актуально в условиях, когда доступ к топовым вычислительным ресурсам может быть ограничен.
Для бизнеса это означает необходимость пересмотра стратегии закупок и оптимизации инфраструктуры. Вместо того чтобы гнаться за моделями с максимальным объемом памяти, компании могут инвестировать в вычислительную мощность чипов, которые будут эффективнее работать с новыми архитектурами. Гибридные решения, сочетающие авто регрессию для логических цепочек и диффузию для генерации и редактирования, становятся оптимальным выбором.
Рынок движется к дуализму: авто регрессивные модели останутся стандартом для задач, где критична строгая пошаговая логика, но диффузионные модели займут нишу задач, требующих глобального контроля, креативности и высокой скорости на локальных устройствах. Компании, которые смогут гибко комбинировать подходы, получат конкурентное преимущество. Те, кто игнорирует этот сдвиг, рискуют столкнуться с неэффективным использованием ресурсов и устареванием инфраструктуры.
В итоге, за красивыми цифрами скорости скрывается глубокая трансформация экономики ИИ. Диффузия — это не просто новая модель, это инструмент, который демократизирует доступ к мощным нейросетям, позволяя запускать их там, где раньше это было невозможно.
Источник: huggingface.co