Июнь 2026   |   В фокусе

Nvidia Nemotron 3.5 ASR: 40 языков в одной модели с задержкой от 80 мс

Единая модель распознавания речи объединяет 40 языков в одном файле, сокращая задержку до 80 мс и устраняя необходимость в разрозненных интеграциях. Открытые веса позволяют компаниям дообучать систему под узкие домены внутри собственной инфраструктуры, исключая передачу данных сторонним API и снижая операционные расходы на поддержку множества моделей.

Компания Nvidia представила модель распознавания речи Nemotron 3.5 ASR, объединяющую поддержку 40 языковых локалей в одном проверочном файле с 600 миллионами параметров. Решение устраняет необходимость в разрозненных интеграциях для разных языков и обеспечивает потоковую обработку в реальном времени с задержкой от 80 мс до 1,12 с в зависимости от настроек. Модель доступна с открытыми весами, что позволяет компаниям дообучать её под специфические диалекты, профессиональную терминологию или акценты без зависимости от сторонних API и передачи данных за пределы собственной инфраструктуры.

Архитектура и ключевые возможности

Техническая основа модели — архитектура Cache-Aware FastConformer-RNNT. В отличие от традиционных потоковых систем, которые многократно пересчитывают наложения аудиофрагментов, этот подход кэширует внутреннее состояние энкодера. Каждый кадр аудио обрабатывается ровно один раз, что снижает вычислительную нагрузку и убирает задержки без потери точности.

Ключевые характеристики решения:

  • Мультиязычность: Единая модель обрабатывает английский, испанский, немецкий, французский, русский, китайский, японский, корейский, арабский, украинский, греческий, болгарский и другие языки.
  • Готовый текст: Вывод содержит знаки препинания и заглавные буквы сразу, без необходимости подключения дополнительных моделей для постобработки.
  • Гибкое управление языком: Система работает в двух режимах: с явным указанием языка (для максимальной точности) или с автоматическим определением языка на лету, что критично для сценариев с переключением языков в середине фразы.
  • Настройка задержки: Параметр att_context_size позволяет выбирать баланс между скоростью и точностью:
    • 80 мс: Для голосовых агентов с ультра-низкой задержкой.
    • 160 мс: Для интерактивных систем и разговорного ИИ.
    • 320 мс: Баланс для живых субтитров.
    • 560 мс и 1,12 с: Для задач, где приоритетом является максимальная точность транскрибации.

Важный нюанс: Модель не требует переобучения для смены режима задержки. Выбор точки работы происходит на этапе вывода (инференса), что упрощает развертывание в продакшене.

Эффективность дообучения и работа с данными

Базовая модель демонстрирует высокую точность, но для языков с меньшим объемом обучающих данных или узкоспециализированных доменов (медицина, юриспруденция, финансы) рекомендуется дообучение. Тесты на греческом и болгарском языках показали, что добавление 2000 часов специализированных данных существенно улучшает результаты.

Результаты дообучения на тестовом наборе FLEURS (режим с задержкой 80 мс):

ЯзыкОшибка базовой модели (WER, %)Ошибка после дообучения (WER, %)Относительное улучшение
Греческий352432%
Болгарский221531%

Процесс дообучения включает пять шагов: подготовку данных с правильными тегами языка, обучение на базе существующей модели, оценку на изолированном тестовом наборе, масштабирование данных и развертывание. Важно сохранять часть данных других языков в обучающей выборке, чтобы избежать «катастрофической забывчивости» и сохранить качество распознавания для уже известных языков.

Стоит учесть: При дообучении мультиязычной модели критически важно корректно проставлять теги языка для каждого аудиофрагмента. Ошибка в метке приводит к значительному падению качества, так как модель полагается на этот сигнал для настройки весов.

Развертывание и экосистема

Модель распространяется через Hugging Face и интегрируется с фреймворком NVIDIA NeMo. Разработчики могут запускать инференс локально или на серверах, используя стандартные скрипты. Для корпоративного использования планируется выпуск через сервис NIM с поддержкой gRPC-стриминга.

Поддерживаемое оборудование включает видеокарты архитектур Ampere, Hopper, Blackwell, Lovelace, Turing, Volta и платформы Jetson для работы на устройстве. Это открывает возможности для приватных сценариев, где данные не должны покидать локальную сеть, например, в системах безопасности или банковском секторе.

Партнеры для развертывания в облаке и через API:

  • Облачные провайдеры: Microsoft Foundry.
  • Сервисы инференса: Baseten, DeepInfra, Eigen AI, fal, ModelScope.
  • Платформы: Together AI.

Операционные последствия и скрытые риски

  • Зависимость от качества данных: Улучшение точности для малоресурсных языков напрямую зависит от наличия чистых, размеченных данных. Простое увеличение объема «шумных» записей может не дать эффекта или даже ухудшить результаты, если домен не совпадает.
  • Сложность настройки задержки: Выбор параметра att_context_size требует тестирования под конкретный сценарий. Слишком низкая задержка может привести к ошибкам в сложных грамматических конструкциях, а высокая — сделать диалог с голосовым агентом неестественным.
  • Риск деградации других языков: При дообучении под конкретный язык или акцент необходимо использовать технику «реплея» (добавление примеров других языков в обучающую выборку), иначе модель может «забыть» как распознавать остальные 39 языков.
  • Требования к инфраструктуре: Хотя модель оптимизирована, потоковая обработка в реальном времени требует стабильной вычислительной мощности. Для массового использования в колл-центрах потребуется масштабирование GPU-кластеров.

На фоне этого: Переход на единый мультиязычный чекпоинт вместо набора из 40 отдельных моделей значительно упрощает архитектуру микросервисов и снижает операционные расходы на поддержку, но требует пересмотра пайплайнов обработки данных для корректной работы с тегами языков.

Коротко о главном

Почему архитектура Cache-Aware FastConformer-RNNT снижает вычислительную нагрузку?

В отличие от традиционных систем, этот подход кэширует внутреннее состояние энкодера, обрабатывая каждый кадр аудио ровно один раз вместо многократных пересчетов наложений. Это позволяет устранить лишние задержки и снизить требования к ресурсам без потери качества распознавания.

На сколько процентов улучшилась точность распознавания после дообучения на греческом и болгарском языках?

Добавление 2000 часов специализированных данных позволило сократить ошибку распознавания (WER) на 32% для греческого и на 31% для болгарского языков. Такой эффект достигается за счет адаптации модели к специфическим диалектам и терминологии, недоступным в базовой версии.

Какой риск возникает при дообучении модели под узкоспециализированные домены?

Без применения техники «реплея» (добавления примеров других языков в обучающую выборку) модель может «забыть» как распознавать остальные 39 языков, что приведет к деградации её мультиязычных возможностей. Это происходит из-за смещения весов сети исключительно под новые данные без сохранения контекста уже известных языков.

Какое оборудование поддерживает запуск модели для приватных сценариев?

Решение совместимо с видеокартами архитектур Ampere, Hopper, Blackwell, Lovelace, Turing, Volta и платформами Jetson, что позволяет развертывать его локально. Это обеспечивает возможность обработки данных внутри собственной инфраструктуры, например, в банковском секторе или системах безопасности, исключая передачу информации за пределы сети.

Почему критически важно корректно проставлять теги языка при подготовке данных?

Модель полагается на эти метки для настройки весов, и ошибка в теге приводит к значительному падению качества распознавания. Неправильная разметка нарушает процесс обучения, так как система не может корректно определить, к какому из 40 языков относится аудиофрагмент.

Какое преимущество дает использование единого файла вместо разрозненных интеграций?

Объединение поддержки 40 языковых локалей в одном проверочном файле с 600 миллионами параметров упрощает архитектуру микросервисов и снижает операционные расходы на поддержку. Это устраняет необходимость в отдельных моделях для каждого языка и позволяет автоматически определять язык на лету при переключении в середине фразы.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Передовые технологии

Материалы по теме