Июнь 2026 | Обзор события | 4

Google DeepMind представил DiffusionGemma: генерация текста в 4 раза быстрее на локальном оборудовании

Google DeepMind представила модель DiffusionGemma, генерирующую текст параллельными блоками вместо привычного посимвольного набора, что дает четырехкратный прирост скорости на локальных видеокартах. Этот сдвиг архитектуры переносит проблемные участки с пропускной способности памяти на вычислительную мощность, открывая путь к эффективному запуску мощных нейросетей на обычном «железе».

Содержание

Обзор

Смена парадигмы вычислений

Производительность на локальном оборудовании

Ограничения и сценарии использования

Цена скорости: когда архитектура диктует правила игры
- Парадокс доступности локального ИИ
- Экономическая целесообразность и сценарии использования
- Стратегический горизонт: от GPU к специализированным чипам

ИСХОДНЫЙ НАРРАТИВ

По данным издания Ars Technica, компания Google DeepMind представила новую модель DiffusionGemma, которая кардинально меняет подход к генерации текста. В отличие от стандартных решений, работающих последовательно, эта система способна формировать блоки текста параллельно. Такой механизм напоминает работу алгоритмов создания изображений: модель начинает с поля заполнителей и постепенно «очищает» его от шума, превращая в связный текст. Для пользователей, работающих с локальным оборудованием, это означает существенный прирост скорости и эффективности вычислений.

Смена парадигмы вычислений

Большинство современных моделей искусственного интеллекта используют авто регрессивный метод, генерируя текст слева направо по одному токену за раз. DiffusionGemma отказывается от этой линейной логики. Вместо пошагового построения предложений система обрабатывает множество токенов одновременно, проходя по «холсту» данных несколько раз для уточнения вероятностей. Финальный результат формируется единым блоком, что позволяет перенести узкое место работы с пропускной способности памяти на вычислительную мощность процессора.

Этот подход особенно эффективен для задач, требующих нелинейного мышления, таких как редактирование текста внутри абзаца, секвенирование молекул или построение математических графиков. Демонстрационные тесты показали, что модель успешно справляется с решением задач типа «Судоку», где каждый элемент зависит от будущих значений. Способность системы к постоянному самокорректированию больших наборов данных упрощает решение таких проблем, которые традиционно вызывают трудности у стандартных авто регрессивных моделей.

Производительность на локальном оборудовании

Модель относится к семейству Gemma 4 и использует архитектуру Mixture of Experts (смесь экспертов). Общее количество параметров составляет 26 миллиардов, однако в процессе работы активируется лишь 3,8 миллиарда. Такая оптимизация позволяет разместить систему в 18 ГБ оперативной памяти высокопроизводительного графического ускорителя.

Тесты на оборудовании Nvidia подтвердили значительный прирост скорости генерации:

На видеокарте RTX 5090 модель выдает около 700 токенов в секунду.
На ускорителе Nvidia H100 скорость превышает 1000 токенов в секунду.

Для сравнения, это примерно в четыре раза быстрее, чем у аналогичных по размеру авто регрессивных моделей семейства Gemma. Google совместно с Nvidia оптимизировала решение для работы на различных платформах: от игровых видеокарт с квантованием до корпоративных систем DGX Spark.

Ограничения и сценарии использования

Несмотря на высокую скорость, технология диффузии пока не стала основой для облачных моделей Gemini. Эксперты отмечают ряд ограничений, препятствующих повсеместному внедрению. В отличие от изображений, где ошибка в одном пикселе не разрушает всю картинку, ошибка в тексте может сделать целый блок токенов бессмысленным, требуя полной перезагрузки процесса. Кроме того, для генерации коротких ответов диффузионные модели тратят больше ресурсов, чем авто регрессивные, которым требуется всего несколько шагов для завершения задачи.

В облачных средах авто регрессивные модели эффективнее используют память с высокой пропускной способностью (HBM) и позволяют обрабатывать множество запросов одновременно. Однако для локального использования, где часто возникают простои вычислительных мощностей из-за низкой пропускной способности памяти, диффузионный подход становится выгодным. Google также внедряет технологию Multi-Token Prediction (MTP) для предсказания токенов, но DiffusionGemma демонстрирует еще более высокие показатели скорости.

Концептуальное изображение

Модель доступна для скачивания на платформе Hugging Face под лицензией Apache 2.0. Разработчики подчеркивают экспериментальный характер решения, предлагая специалистам протестировать новые возможности на собственном оборудовании. Для российского рынка это событие служит сигналом о возможном изменении архитектуры локальных ИТ-решений, где скорость генерации и эффективность использования доступного «железа» становятся критическими факторами. Дальнейшее развитие технологии потребует детального анализа её применимости в специфических отраслевых задачах.

АНАЛИТИЧЕСКИЙ РАЗБОР

Цена скорости: когда архитектура диктует правила игры

Анонс модели DiffusionGemma от Google DeepMind демонстрирует фундаментальный сдвиг в подходе к генерации текста. Система отказывается от последовательного построения предложений, обрабатывая блоки токенов параллельно. Механизм диффузии меняет вектор нагрузки: узкое место перемещается из пропускной способности памяти в вычислительную мощность процессора. Это не только ускорение, а изменение требований к инфраструктуре. Для локальных систем, где часто возникают простои из-за ограничений памяти, такой подход открывает новые возможности.

Однако за техническими характеристиками скрывается сложная экономическая реальность. Google инвестирует $185 млрд в расширение мощностей DeepMind, стремясь удваивать вычислительные ресурсы каждые полгода [!]. Возвращение ключевых специалистов в подразделение подтверждает, что компания рассматривает эту архитектуру как долгосрочную стратегию, а не разовый эксперимент [!]. Переход лицензий Gemma 4 на Apache 2.0 устраняет юридические барьеры для локального развертывания, позволяя бизнесу полностью контролировать данные и снижать зависимость от облачных сервисов [!].

Важный нюанс: Переход на диффузионные модели меняет структуру затрат: вместо закупки серверов с дорогой памятью HBM, компаниям придется инвестировать в более мощные вычислительные ядра, что перекраивает рынок поставщиков оборудования.

Парадокс доступности локального ИИ

Модель позиционируется как инструмент для локального использования, способный работать на видеокартах потребительского уровня. Тесты показывают выдающиеся результаты: на RTX 5090 скорость генерации достигает 700 токенов в секунду, а на серверном ускорителе H100 превышает 1000 токенов в секунду. Это в четыре раза быстрее, чем у аналогичных авто регрессивных моделей.

Тем не менее, доступ к необходимому «железу» становится серьезным препятствием. Флагманская видеокарта RTX 5090, являющаяся основой для эффективного запуска DiffusionGemma, сталкивается с критическим дефицитом. Приоритет серверного сегмента и спрос на ИИ-мощности привели к перераспределению ресурсов в пользу дата-центров [!]. Дефицит памяти DRAM и компонентов вызвал рост цен на топовые модели на 20% за несколько месяцев [!]. На вторичном рынке стоимость RTX 5090 может превышать официальную в два раза, а прогнозы указывают на возможность достижения цены в $5000 [!] [!].

Для российского бизнеса это создает дилемму. С одной стороны, открытая лицензия и возможность работы на собственном оборудовании снижают риски блокировок и зависимости от зарубежных облаков. С другой стороны, стоимость входа в эту экосистему резко возрастает. Локальный запуск DiffusionGemma теоретически выгоден, но на практике упирается в недоступность и высокую стоимость необходимого оборудования. Это делает технологию привилегией крупных игроков, способных позволить себе дефицитное «железо», а не массовым инструментом для малого и среднего бизнеса.

Экономическая целесообразность и сценарии использования

Эффективность DiffusionGemma сильно зависит от типа задачи. Технология демонстрирует преимущества в нелинейных задачах, требующих глобальной согласованности данных, таких как редактирование текста внутри абзаца или решение сложных логических проблем. Однако для коротких ответов, составляющих основу трафика чат-ботов поддержки, диффузионный подход может оказаться экономически нецелесообразным.

В отличие от авто регрессивных моделей, которые завершают генерацию короткого ответа за несколько шагов, диффузионная система требует нескольких итераций «очистки» от шума. В облачных средах это приводит к перерасходу ресурсов и росту стоимости запроса. Критическим фактором становится риск ошибки: ошибка в одном блоке токенов может сделать весь ответ бессмысленным, требуя полной перезагрузки процесса. Это создает дополнительные риски для задач, где важна высокая точность, таких как генерация кода или юридических документов.

Google также внедряет технологию Multi-Token Prediction (MTP) как альтернативный путь к ускорению. DiffusionGemma конкурирует с MTP, предлагая более радикальный сдвиг в архитектуре, но пока не готова заменить стандартные решения в облаке. Для локальных систем с ограниченным доступом к интернету или высокими требованиями к конфиденциальности диффузионный подход остается стратегическим активом, но только при условии наличия соответствующего оборудования.

Стоит учесть: Технология пока не готова заменить стандартные решения в облаке, но для локальных систем с ограниченным доступом к интернету или высокими требованиями к конфиденциальности она становится стратегическим активом.

Стратегический горизонт: от GPU к специализированным чипам

Внедрение DiffusionGemma на локальных GPU может оказаться промежуточным этапом в эволюции ИИ-инфраструктуры. Рынок уже демонстрирует переход от генеративных моделей к ИИ-агентам, что снижает зависимость от дорогих графических процессоров для задач вывода. Nvidia представила собственные специализированные чипы (ASIC) для вывода данных и приобрела лицензию на технологии у Groq, создавая решения, которые справляются с задачами эффективнее традиционных GPU [!].

Это создает ситуацию, где инвестиции в дорогое GPU-железо для локальных моделей могут стать менее актуальными в долгосрочной перспективе. Если рынок движется к специализированным чипам, то диффузионные модели на GPU могут оказаться переходным звеном. Российским компаниям необходимо оценить стратегию: инвестировать в дефицитное и дорогое GPU-оборудование для локальных моделей сейчас или ждать появления доступных отечественных аналогов и специализированных решений для агентов.

Смена лицензии на Apache 2.0 и доступность моделей на платформах вроде Hugging Face стимулируют развитие экосистемы. Это позволяет разработчикам адаптировать алгоритмы под специфические языковые модели и отраслевые задачи, снижая риски зависимости от закрытых экосистем. Однако реальный эффект от этих возможностей будет зависеть от способности бизнеса преодолеть барьеры входа, связанные с дефицитом и стоимостью оборудования.

В конечном счете, DiffusionGemma показывает, что будущее ИИ лежит не только в увеличении количества параметров, но и в переосмыслении того, как данные обрабатываются на аппаратном уровне. Компании, которые смогут быстро адаптировать свои процессы под новую архитектуру и найти баланс между локальным развертыванием и облачными решениями, получат преимущество в скорости и гибкости. Те, кто будет держаться старых подходов или игнорировать экономические реалии рынка оборудования, рискуют отстать в гонке за эффективностью.

Источник: Ars Technica

Контакты Асектор ✉

Коротко о главном

Почему модель DiffusionGemma эффективна на локальном оборудовании?

Благодаря переходу от линейной логики к параллельной обработке система переносит узкое место с пропускной способности памяти на вычислительную мощность процессора. Это позволяет избежать простоев вычислительных ресурсов, которые часто возникают из-за низкой скорости памяти в локальных средах.

Сколько параметров использует модель Gemma 4 и как это влияет на требования к памяти?

Хотя общее количество параметров составляет 26 миллиардов, благодаря архитектуре Mixture of Experts в работе активируется лишь 3,8 миллиарда. Такая оптимизация позволяет разместить систему всего в 18 ГБ оперативной памяти высокопроизводительного графического ускорителя.

Какая скорость генерации достигнута на видеокартах Nvidia RTX 5090 и H100?

Тесты показали выдачу около 700 токенов в секунду на RTX 5090 и более 1000 токенов в секунду на ускорителе H100. Этот результат примерно в четыре раза превышает показатели аналогичных по размеру авто регрессивных моделей семейства Gemma.

Для каких сложных задач модель демонстрирует преимущество перед стандартными решениями?

Система успешно решает задачи типа «Судоку», редактирование текста внутри абзаца и секвенирование молекул благодаря способности к самокорректированию больших наборов данных. Эти возможности позволяют справляться с нелинейным мышлением, где каждый элемент зависит от будущих значений, что традиционно сложно для линейных моделей.

Почему технология диффузии пока не стала основой для облачных моделей Gemini?

В отличие от изображений, ошибка в тексте может сделать целый блок бессмысленным, требуя полной перезагрузки процесса, что снижает эффективность. Кроме того, для генерации коротких ответов диффузионные модели тратят больше ресурсов, чем авто регрессивные, которым нужно всего несколько шагов.

Где доступна модель DiffusionGemma и на каких условиях?

Решение можно скачать на платформе Hugging Face под лицензией Apache 2.0. Разработчики подчеркивают экспериментальный характер модели, предлагая специалистам протестировать её возможности на собственном оборудовании.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Разработка ПО; Устройства и гаджеты; Передовые технологии

Темы: Архитектура смесей экспертов; Оптимизация вычислений на локальном оборудовании; Параллельная генерация текста;

Оценка значимости: 4 из 10

Событие представляет собой технологическое обновление в сфере искусственного интеллекта, затрагивающее преимущественно узкий круг разработчиков и энтузиастов, использующих локальное оборудование, что ограничивает его массовый резонанс. Хотя новый подход к генерации текста повышает эффективность вычислений и может косвенно повлиять на развитие отечественных ИТ-решений в долгосрочной перспективе, прямое влияние на широкую аудиторию или ключевые сферы жизни России на текущий момент остается незначительным и носит характер профессионального интереса без системных последствий.

Материалы по теме

Google инвестирует $185 млрд в ИИ: как рост задолженности становится топливом для будущего

Факт инвестиций в $185 млрд и плана удвоения мощностей каждые полгода служит фундаментом для тезиса о том, что архитектура DiffusionGemma — это не эксперимент, а часть масштабной долгосрочной стратегии Google, требующей колоссальных инфраструктурных вложений.

Подробнее →

Google возвращает бывших сотрудников для борьбы за лидерство в ИИ

Информация о возвращении ключевых специалистов в DeepMind используется как доказательство серьезности намерений компании, подтверждая, что переход на новую архитектуру подкреплен кадровыми ресурсами и направлен на удержание лидерства.

Подробнее →

Смена лицензии Google на Apache 2.0: отказ от облачных подписок и снижение рисков блокировки

Детали смены лицензии Gemma 4 на Apache 2.0 прямо цитируются для аргументации о снятии юридических барьеров, что делает локальное развертывание реальным сценарием для бизнеса, стремящегося к независимости от облачных провайдеров.

Подробнее →

Дефицит компонентов Nvidia: бизнес платит за приоритет ИИ над игровым рынком

Данные о перераспределении ресурсов в пользу серверного сегмента и приоритете ИИ над игровым рынком объясняют причину критического дефицита RTX 5090, создавая контраст между теоретической доступностью модели и реальной недоступностью «железа».

Подробнее →

Дефицит DRAM бьет по кошельку: топовые видеокарты растут в цене на 20%

Цифра роста цен на топовые модели на 20% из-за дефицита DRAM конкретизирует экономическую нагрузку на рынок, иллюстрируя, как нехватка компонентов напрямую бьет по стоимости входа в экосистему локального ИИ.

Подробнее →

Графические карты под угрозой: дефицит и рост цен из-за спроса на промышленные GPU

Факт превышения стоимости RTX 5090 на вторичном рынке в два раза подчеркивает масштаб проблемы доступности, превращая локальный запуск модели в привилегию крупных игроков, способных платить за дефицитное оборудование.

Подробнее →

Видеокарты подорожают: AMD и NVIDIA запускают поэтапное повышение цен

Прогноз достижения цены в $5000 за флагманскую карту усиливает аргумент о высокой стоимости входа, демонстрируя, что барьеры для малого и среднего бизнеса будут только расти в условиях системного повышения цен производителями.

Подробнее →

Переход к ИИ-агентам: отказ от GPU сэкономит 40% бюджета на энергопотребление

Информация о представлении Nvidia специализированных чипов (ASIC) и покупке лицензии у Groq вводит стратегический контекст, указывая на то, что текущие инвестиции в GPU могут оказаться временным этапом перед переходом к более эффективным решениям для агентов.

Подробнее →