Google DeepMind представил DiffusionGemma: генерация текста в 4 раза быстрее на локальном оборудовании
Google DeepMind представила модель DiffusionGemma, генерирующую текст параллельными блоками вместо привычного посимвольного набора, что дает четырехкратный прирост скорости на локальных видеокартах. Этот сдвиг архитектуры переносит проблемные участки с пропускной способности памяти на вычислительную мощность, открывая путь к эффективному запуску мощных нейросетей на обычном «железе».
По данным издания Ars Technica, компания Google DeepMind представила новую модель DiffusionGemma, которая кардинально меняет подход к генерации текста. В отличие от стандартных решений, работающих последовательно, эта система способна формировать блоки текста параллельно. Такой механизм напоминает работу алгоритмов создания изображений: модель начинает с поля заполнителей и постепенно «очищает» его от шума, превращая в связный текст. Для пользователей, работающих с локальным оборудованием, это означает существенный прирост скорости и эффективности вычислений.
Смена парадигмы вычислений
Большинство современных моделей искусственного интеллекта используют авто регрессивный метод, генерируя текст слева направо по одному токену за раз. DiffusionGemma отказывается от этой линейной логики. Вместо пошагового построения предложений система обрабатывает множество токенов одновременно, проходя по «холсту» данных несколько раз для уточнения вероятностей. Финальный результат формируется единым блоком, что позволяет перенести узкое место работы с пропускной способности памяти на вычислительную мощность процессора.
Этот подход особенно эффективен для задач, требующих нелинейного мышления, таких как редактирование текста внутри абзаца, секвенирование молекул или построение математических графиков. Демонстрационные тесты показали, что модель успешно справляется с решением задач типа «Судоку», где каждый элемент зависит от будущих значений. Способность системы к постоянному самокорректированию больших наборов данных упрощает решение таких проблем, которые традиционно вызывают трудности у стандартных авто регрессивных моделей.
Производительность на локальном оборудовании
Модель относится к семейству Gemma 4 и использует архитектуру Mixture of Experts (смесь экспертов). Общее количество параметров составляет 26 миллиардов, однако в процессе работы активируется лишь 3,8 миллиарда. Такая оптимизация позволяет разместить систему в 18 ГБ оперативной памяти высокопроизводительного графического ускорителя.
Тесты на оборудовании Nvidia подтвердили значительный прирост скорости генерации:
- На видеокарте RTX 5090 модель выдает около 700 токенов в секунду.
- На ускорителе Nvidia H100 скорость превышает 1000 токенов в секунду.
Для сравнения, это примерно в четыре раза быстрее, чем у аналогичных по размеру авто регрессивных моделей семейства Gemma. Google совместно с Nvidia оптимизировала решение для работы на различных платформах: от игровых видеокарт с квантованием до корпоративных систем DGX Spark.
Ограничения и сценарии использования
Несмотря на высокую скорость, технология диффузии пока не стала основой для облачных моделей Gemini. Эксперты отмечают ряд ограничений, препятствующих повсеместному внедрению. В отличие от изображений, где ошибка в одном пикселе не разрушает всю картинку, ошибка в тексте может сделать целый блок токенов бессмысленным, требуя полной перезагрузки процесса. Кроме того, для генерации коротких ответов диффузионные модели тратят больше ресурсов, чем авто регрессивные, которым требуется всего несколько шагов для завершения задачи.
В облачных средах авто регрессивные модели эффективнее используют память с высокой пропускной способностью (HBM) и позволяют обрабатывать множество запросов одновременно. Однако для локального использования, где часто возникают простои вычислительных мощностей из-за низкой пропускной способности памяти, диффузионный подход становится выгодным. Google также внедряет технологию Multi-Token Prediction (MTP) для предсказания токенов, но DiffusionGemma демонстрирует еще более высокие показатели скорости.

Модель доступна для скачивания на платформе Hugging Face под лицензией Apache 2.0. Разработчики подчеркивают экспериментальный характер решения, предлагая специалистам протестировать новые возможности на собственном оборудовании. Для российского рынка это событие служит сигналом о возможном изменении архитектуры локальных ИТ-решений, где скорость генерации и эффективность использования доступного «железа» становятся критическими факторами. Дальнейшее развитие технологии потребует детального анализа её применимости в специфических отраслевых задачах.
Цена скорости: когда архитектура диктует правила игры
Анонс модели DiffusionGemma от Google DeepMind демонстрирует фундаментальный сдвиг в подходе к генерации текста. Система отказывается от последовательного построения предложений, обрабатывая блоки токенов параллельно. Механизм диффузии меняет вектор нагрузки: узкое место перемещается из пропускной способности памяти в вычислительную мощность процессора. Это не только ускорение, а изменение требований к инфраструктуре. Для локальных систем, где часто возникают простои из-за ограничений памяти, такой подход открывает новые возможности.
Однако за техническими характеристиками скрывается сложная экономическая реальность. Google инвестирует $185 млрд в расширение мощностей DeepMind, стремясь удваивать вычислительные ресурсы каждые полгода [!]. Возвращение ключевых специалистов в подразделение подтверждает, что компания рассматривает эту архитектуру как долгосрочную стратегию, а не разовый эксперимент [!]. Переход лицензий Gemma 4 на Apache 2.0 устраняет юридические барьеры для локального развертывания, позволяя бизнесу полностью контролировать данные и снижать зависимость от облачных сервисов [!].
Важный нюанс: Переход на диффузионные модели меняет структуру затрат: вместо закупки серверов с дорогой памятью HBM, компаниям придется инвестировать в более мощные вычислительные ядра, что перекраивает рынок поставщиков оборудования.
Парадокс доступности локального ИИ
Модель позиционируется как инструмент для локального использования, способный работать на видеокартах потребительского уровня. Тесты показывают выдающиеся результаты: на RTX 5090 скорость генерации достигает 700 токенов в секунду, а на серверном ускорителе H100 превышает 1000 токенов в секунду. Это в четыре раза быстрее, чем у аналогичных авто регрессивных моделей.
Тем не менее, доступ к необходимому «железу» становится серьезным препятствием. Флагманская видеокарта RTX 5090, являющаяся основой для эффективного запуска DiffusionGemma, сталкивается с критическим дефицитом. Приоритет серверного сегмента и спрос на ИИ-мощности привели к перераспределению ресурсов в пользу дата-центров [!]. Дефицит памяти DRAM и компонентов вызвал рост цен на топовые модели на 20% за несколько месяцев [!]. На вторичном рынке стоимость RTX 5090 может превышать официальную в два раза, а прогнозы указывают на возможность достижения цены в $5000 [!] [!].
Для российского бизнеса это создает дилемму. С одной стороны, открытая лицензия и возможность работы на собственном оборудовании снижают риски блокировок и зависимости от зарубежных облаков. С другой стороны, стоимость входа в эту экосистему резко возрастает. Локальный запуск DiffusionGemma теоретически выгоден, но на практике упирается в недоступность и высокую стоимость необходимого оборудования. Это делает технологию привилегией крупных игроков, способных позволить себе дефицитное «железо», а не массовым инструментом для малого и среднего бизнеса.
Экономическая целесообразность и сценарии использования
Эффективность DiffusionGemma сильно зависит от типа задачи. Технология демонстрирует преимущества в нелинейных задачах, требующих глобальной согласованности данных, таких как редактирование текста внутри абзаца или решение сложных логических проблем. Однако для коротких ответов, составляющих основу трафика чат-ботов поддержки, диффузионный подход может оказаться экономически нецелесообразным.
В отличие от авто регрессивных моделей, которые завершают генерацию короткого ответа за несколько шагов, диффузионная система требует нескольких итераций «очистки» от шума. В облачных средах это приводит к перерасходу ресурсов и росту стоимости запроса. Критическим фактором становится риск ошибки: ошибка в одном блоке токенов может сделать весь ответ бессмысленным, требуя полной перезагрузки процесса. Это создает дополнительные риски для задач, где важна высокая точность, таких как генерация кода или юридических документов.
Google также внедряет технологию Multi-Token Prediction (MTP) как альтернативный путь к ускорению. DiffusionGemma конкурирует с MTP, предлагая более радикальный сдвиг в архитектуре, но пока не готова заменить стандартные решения в облаке. Для локальных систем с ограниченным доступом к интернету или высокими требованиями к конфиденциальности диффузионный подход остается стратегическим активом, но только при условии наличия соответствующего оборудования.
Стоит учесть: Технология пока не готова заменить стандартные решения в облаке, но для локальных систем с ограниченным доступом к интернету или высокими требованиями к конфиденциальности она становится стратегическим активом.
Стратегический горизонт: от GPU к специализированным чипам
Внедрение DiffusionGemma на локальных GPU может оказаться промежуточным этапом в эволюции ИИ-инфраструктуры. Рынок уже демонстрирует переход от генеративных моделей к ИИ-агентам, что снижает зависимость от дорогих графических процессоров для задач вывода. Nvidia представила собственные специализированные чипы (ASIC) для вывода данных и приобрела лицензию на технологии у Groq, создавая решения, которые справляются с задачами эффективнее традиционных GPU [!].
Это создает ситуацию, где инвестиции в дорогое GPU-железо для локальных моделей могут стать менее актуальными в долгосрочной перспективе. Если рынок движется к специализированным чипам, то диффузионные модели на GPU могут оказаться переходным звеном. Российским компаниям необходимо оценить стратегию: инвестировать в дефицитное и дорогое GPU-оборудование для локальных моделей сейчас или ждать появления доступных отечественных аналогов и специализированных решений для агентов.
Смена лицензии на Apache 2.0 и доступность моделей на платформах вроде Hugging Face стимулируют развитие экосистемы. Это позволяет разработчикам адаптировать алгоритмы под специфические языковые модели и отраслевые задачи, снижая риски зависимости от закрытых экосистем. Однако реальный эффект от этих возможностей будет зависеть от способности бизнеса преодолеть барьеры входа, связанные с дефицитом и стоимостью оборудования.
В конечном счете, DiffusionGemma показывает, что будущее ИИ лежит не только в увеличении количества параметров, но и в переосмыслении того, как данные обрабатываются на аппаратном уровне. Компании, которые смогут быстро адаптировать свои процессы под новую архитектуру и найти баланс между локальным развертыванием и облачными решениями, получат преимущество в скорости и гибкости. Те, кто будет держаться старых подходов или игнорировать экономические реалии рынка оборудования, рискуют отстать в гонке за эффективностью.
Источник: Ars Technica