Cohere выпустила North Mini Code: открытая модель для агентов с лицензией Apache 2.0
Модель с активными 3 млрд параметров обходит конкурентов в 40 раз крупнее, превращая генератор кода в автономного исполнителя задач. Открытая лицензия Apache 2.0 снимает барьеры для внедрения, но требует пересмотра процессов тестирования из-за перехода к самостоятельному редактированию файлов.
Компания Cohere выпустила модель North Mini Code — первый в своей линейке инструмент, созданный специально для автоматизации задач программистов. Это модель с архитектурой Mixture-of-Experts (смесь экспертов), где из 30 млрд параметров одновременно работают лишь 3 млрд, что обеспечивает баланс между скоростью и точностью. В тестах модель превзошла более крупные конкуренты, такие как Nemotron 3 Super и Mistral Small 4, заняв лидирующие позиции в классе открытых решений. Продукт доступен бесплатно под лицензией Apache 2.0 на платформе Hugging Face, что открывает путь для широкого внедрения в корпоративные разработки без лицензионных отчислений.
Архитектура и подход к обучению
Разработчики отказались от оптимизации под единую среду, обучив модель на множестве различных инструментов и сценариев. Это позволило North Mini Code адаптироваться к разным фреймворкам агентов, включая OpenCode, SWE-Agent и mini-SWE-agent.
Ключевые технические особенности:
- Смешанная архитектура внимания: Модель использует комбинацию скользящего окна и глобального внимания в соотношении 3:1, что позволяет эффективно обрабатывать длинные контексты до 128K токенов.
- Эффективность экспертов: В блоке прямой связи задействовано 128 экспертов, из которых для каждого токена активируются только 8. Это снижает вычислительную нагрузку при сохранении высокой точности.
- Двухэтапная дообучение: Сначала модель прошла супервизорное обучение (SFT) на смеси данных, где код составлял 70% токенов. Затем использовалось обучение с подкреплением (RLVR) на проверенных задачах, где доля кода выросла до 61%.
Важный нюанс: Использование каскадного обучения (от коротких контекстов к длинным) позволило избежать конфликта данных, когда ранние этапы обучения «забывали» навыки, полученные на более поздних, качественных примерах.
Производительность и результаты тестирования
Модель демонстрирует высокую эффективность в решении реальных инженерных задач, а не только в генерации синтаксически верного кода. На индексе Artificial Analysis Coding Index North Mini Code набрал 33.4 балла.
Сравнение с конкурентами показывает преимущество компактности:
- Qwen3.5 (35B-A3B): North Mini Code показывает сопоставимые или лучшие результаты, несмотря на меньший размер активной части.
- Gemma 4 (26B-A4B): Превосходит модель от Google в задачах агентного программирования.
- Nemotron 3 Super (120B-A12B): Модель в 4 раза меньше по общему количеству параметров, но выигрывает в специализированных бенчмарках.
Результаты на ключевых тестах:
- SWE-Bench Verified: 80.2% успешных решений (по метрике pass@10).
- Terminal-Bench v2: 55.1% успешных решений (по метрике pass@10).
- Human Evaluation: В парных сравнениях с версией только после SFT финальная модель выиграла в 66.1% случаев, особенно в задачах редактирования кода.
Стоит учесть: Обучение на гибридных данных от разных инструментов (harnesses) дало прирост производительности на 10% в среде OpenCode без потери качества в других средах, что подтверждает универсальность подхода.
Операционные последствия и скрытые риски
Внедрение North Mini Code меняет подход к автоматизации разработки, но требует внимания к инфраструктуре.
- Снижение зависимости от проприетарных решений: Открытая лицензия Apache 2.0 позволяет компаниям интегрировать модель в свои внутренние системы без риска блокировки доступа или изменения условий использования, что критично для безопасности данных.
- Требования к вычислительным ресурсам: Несмотря на оптимизацию, запуск модели с контекстом 128K и поддержкой агентов требует значительной памяти. Использование квантованных весов (FP8) может снизить требования, но потребует проверки на совместимость с конкретным оборудованием.
- Сложность настройки агентов: Модель обучена на разнообразных средах, но для достижения заявленных результатов в реальных проектах потребуется точная настройка параметров (бюджет ходов, типы инструментов), чтобы избежать излишней многословности или зацикливания агента.
- Верификация результатов: Высокие метрики достигнуты на задачах с проверкой через unit-тесты. В проектах без автоматических тестов качество кода может варьироваться, поэтому потребуется внедрение дополнительных этапов проверки сгенерированного кода.
На фоне этого: Переход от простых генераторов кода к полноценным агентам, способным выполнять задачи в терминале и редактировать файлы, требует от команд пересмотра процессов код-ревью и тестирования, так как модель теперь выступает не просто помощником, а исполнителем.