Июнь 2026   |   В фокусе

Cohere выпустила North Mini Code: открытая модель для агентов с лицензией Apache 2.0

Модель с активными 3 млрд параметров обходит конкурентов в 40 раз крупнее, превращая генератор кода в автономного исполнителя задач. Открытая лицензия Apache 2.0 снимает барьеры для внедрения, но требует пересмотра процессов тестирования из-за перехода к самостоятельному редактированию файлов.

Компания Cohere выпустила модель North Mini Code — первый в своей линейке инструмент, созданный специально для автоматизации задач программистов. Это модель с архитектурой Mixture-of-Experts (смесь экспертов), где из 30 млрд параметров одновременно работают лишь 3 млрд, что обеспечивает баланс между скоростью и точностью. В тестах модель превзошла более крупные конкуренты, такие как Nemotron 3 Super и Mistral Small 4, заняв лидирующие позиции в классе открытых решений. Продукт доступен бесплатно под лицензией Apache 2.0 на платформе Hugging Face, что открывает путь для широкого внедрения в корпоративные разработки без лицензионных отчислений.

Архитектура и подход к обучению

Разработчики отказались от оптимизации под единую среду, обучив модель на множестве различных инструментов и сценариев. Это позволило North Mini Code адаптироваться к разным фреймворкам агентов, включая OpenCode, SWE-Agent и mini-SWE-agent.

Ключевые технические особенности:

  • Смешанная архитектура внимания: Модель использует комбинацию скользящего окна и глобального внимания в соотношении 3:1, что позволяет эффективно обрабатывать длинные контексты до 128K токенов.
  • Эффективность экспертов: В блоке прямой связи задействовано 128 экспертов, из которых для каждого токена активируются только 8. Это снижает вычислительную нагрузку при сохранении высокой точности.
  • Двухэтапная дообучение: Сначала модель прошла супервизорное обучение (SFT) на смеси данных, где код составлял 70% токенов. Затем использовалось обучение с подкреплением (RLVR) на проверенных задачах, где доля кода выросла до 61%.

Важный нюанс: Использование каскадного обучения (от коротких контекстов к длинным) позволило избежать конфликта данных, когда ранние этапы обучения «забывали» навыки, полученные на более поздних, качественных примерах.

Производительность и результаты тестирования

Модель демонстрирует высокую эффективность в решении реальных инженерных задач, а не только в генерации синтаксически верного кода. На индексе Artificial Analysis Coding Index North Mini Code набрал 33.4 балла.

Сравнение с конкурентами показывает преимущество компактности:

  • Qwen3.5 (35B-A3B): North Mini Code показывает сопоставимые или лучшие результаты, несмотря на меньший размер активной части.
  • Gemma 4 (26B-A4B): Превосходит модель от Google в задачах агентного программирования.
  • Nemotron 3 Super (120B-A12B): Модель в 4 раза меньше по общему количеству параметров, но выигрывает в специализированных бенчмарках.

Результаты на ключевых тестах:

  • SWE-Bench Verified: 80.2% успешных решений (по метрике pass@10).
  • Terminal-Bench v2: 55.1% успешных решений (по метрике pass@10).
  • Human Evaluation: В парных сравнениях с версией только после SFT финальная модель выиграла в 66.1% случаев, особенно в задачах редактирования кода.

Стоит учесть: Обучение на гибридных данных от разных инструментов (harnesses) дало прирост производительности на 10% в среде OpenCode без потери качества в других средах, что подтверждает универсальность подхода.

Операционные последствия и скрытые риски

Внедрение North Mini Code меняет подход к автоматизации разработки, но требует внимания к инфраструктуре.

  • Снижение зависимости от проприетарных решений: Открытая лицензия Apache 2.0 позволяет компаниям интегрировать модель в свои внутренние системы без риска блокировки доступа или изменения условий использования, что критично для безопасности данных.
  • Требования к вычислительным ресурсам: Несмотря на оптимизацию, запуск модели с контекстом 128K и поддержкой агентов требует значительной памяти. Использование квантованных весов (FP8) может снизить требования, но потребует проверки на совместимость с конкретным оборудованием.
  • Сложность настройки агентов: Модель обучена на разнообразных средах, но для достижения заявленных результатов в реальных проектах потребуется точная настройка параметров (бюджет ходов, типы инструментов), чтобы избежать излишней многословности или зацикливания агента.
  • Верификация результатов: Высокие метрики достигнуты на задачах с проверкой через unit-тесты. В проектах без автоматических тестов качество кода может варьироваться, поэтому потребуется внедрение дополнительных этапов проверки сгенерированного кода.

На фоне этого: Переход от простых генераторов кода к полноценным агентам, способным выполнять задачи в терминале и редактировать файлы, требует от команд пересмотра процессов код-ревью и тестирования, так как модель теперь выступает не просто помощником, а исполнителем.

Коротко о главном

Почему архитектура модели обеспечивает баланс скорости и точности?

Из 30 млрд параметров одновременно активны лишь 3 млрд благодаря механизму Mixture-of-Experts, где из 128 доступных экспертов для каждого токена выбираются только 8, что снижает вычислительную нагрузку без потери качества.

Как модель обрабатывает контексты длиной до 128K токенов?

Эффективность достигается за счет смешанной архитектуры внимания, использующей комбинацию скользящего окна и глобального внимания в соотношении 3:1, позволяющей удерживать длинные последовательности данных в памяти.

Какой метод обучения позволил избежать конфликта навыков на разных этапах?

Разработчики применили каскадную стратегию, постепенно переходя от коротких к длинным контекстам, что предотвратило «забывание» навыков, полученных на ранних этапах, при обучении на более сложных примерах.

Какие результаты модель показала в бенчмарке SWE-Bench Verified?

North Mini Code достигла 80,2% успешных решений по метрике pass@10, превзойдя более крупные конкуренты, такие как Nemotron 3 Super, несмотря на то, что в 4 раза меньше по общему количеству параметров.

Какое преимущество дает лицензия Apache 2.0 для корпоративных клиентов?

Бесплатное распространение на платформе Hugging Face позволяет компаниям интегрировать модель во внутренние системы без лицензионных отчислений и риска блокировки доступа, обеспечивая безопасность данных.

Почему использование модели требует тщательной настройки параметров агентов?

Несмотря на обучение на разнообразных средах, для предотвращения зацикливания или излишней многословности в реальных проектах необходимо точно калибровать бюджет ходов и типы инструментов под конкретную задачу.

Какие риски возникают при внедрении модели в проекты без автоматических тестов?

Высокие метрики были получены на задачах с проверкой через unit-тесты, поэтому в их отсутствие качество кода может варьироваться, что требует внедрения дополнительных этапов ручной верификации сгенерированных решений.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); ПО и разработка; Передовые технологии

Материалы по теме