Multi-Token Prediction


Multi-Token Prediction в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2026
11 июня

Google внедряет Multi-Token Prediction для ускорения генерации текста в DiffusionGemma

Суть: Технология Multi-Token Prediction используется Google для предсказания токенов в новой модели DiffusionGemma, которая генерирует блоки текста параллельно вместо последовательного авто регрессивного метода.

Фактор: DiffusionGemma демонстрирует более высокие показатели скорости генерации по сравнению с использованием только Multi-Token Prediction, переносая узкое место с пропускной способности памяти на вычислительную мощность.

Риск: В отличие от изображений, ошибка в одном блоке токенов при использовании диффузионного подхода может сделать весь текст бессмысленным, требуя полной перезагрузки процесса генерации.

Эффект: Для локального оборудования технология позволяет достичь скорости до 1000 токенов в секунду на ускорителях Nvidia H100, что в четыре раза быстрее аналогичных авто регрессивных моделей.

Подробнее →


Multi-Token Prediction имеет 1 запись событий в нашей базе.