Оптимизация латентности
Оптимизация латентности в новостной повестке, упоминания и aналитика в реальном времени.
Календарь упоминаний:
2026
22 февраля
Увеличение пропускной способности за счёт оптимизации латентности
Оптимизация латентности в системах Blackwell Ultra позволила достичь значительного роста производительности, особенно в задачах с высокими требованиями к времени отклика. NVIDIA применила метод PD Disaggregation, разделив обработку запросов на фазы prefill и decode, что снизило узкие места и повысило эффективность масштабирования. В дополнение использовались динамическое разделение запросов и оптимизация KV-кэша. В результате пиковая пропускная способность выросла в 53 раза, а латентность снизилась в 58 раз по сравнению с предыдущей версией.
Оптимизация латентности имеет 1запись событий в нашей базе.