DeepSeek V4: снижение затрат на ИИ до 90% при отказе от Nvidia
Новая модель DeepSeek V4 предлагает уровень производительности, сопоставимый с ведущими западными системами, но при этом обходится бизнесу в разы дешевле. Компания сделала ставку на оптимизацию вычислений и поддержку ускорителей Huawei Ascend, что позволяет развертывать мощные ИИ-решения на разнородном оборудовании и существенно снижает затраты на генерацию ответов.
По данным издания The Register, китайская компания DeepSeek представила новую открытую языковую модель DeepSeek V4, способную конкурировать с ведущими проприетарными решениями США. Ключевым отличием разработки стало резкое снижение затрат на генерацию ответов и официальная поддержка ускорителей Huawei Ascend. Продукт уже доступен для загрузки на платформах вроде Hugging Face, а также через API и веб-сервис.
Архитектурные изменения и эффективность
Компания выпустила две версии модели: компактную Flash с 284 миллиардами параметров (из них 13 миллиардов активны) и расширенную V4-Pro объемом 1,6 триллиона параметров, где в работе одновременно задействованы 49 миллиардов. Обучение версии Pro прошло на наборе данных в 33 триллиона токенов. Разработчики утверждают, что модель превосходит все существующие открытые аналоги и сопоставима с лучшими западными закрытыми системами по результатам тестов.
Основной упор сделан на оптимизацию механизмов внимания. Инженеры внедрили гибридную систему, объединяющую сжатое разреженное внимание и тяжелое сжатое внимание. Это решение сокращает объем вычислений при генерации и уменьшает требования к памяти для кэшей. Благодаря этим технологиям модель поддерживает контекстное окно в один миллион токенов, потребляя в 9,5–13,7 раза меньше памяти, чем предыдущая версия DeepSeek V3.
Для дальнейшего снижения нагрузки на инфраструктуру используется смешанная точность данных. В отличие от V3, которая одной из первых применила формат FP8, новая модель работает с комбинацией FP8 и FP4. Применение квантования с учетом обучения для весов экспертов в архитектуре Mixture-of-Experts (MoE) позволяет вдвое сократить объем памяти для хранения весов по сравнению с FP8, что критично для масштабных развертываний.
Оптимизация обучения и работа с оборудованием
В процессе обучения была внедрена новая система оптимизации Muon, направленная на ускорение схожести и повышение стабильности процесса. Особое внимание уделено совместимости с аппаратным обеспечением. Если предыдущие версии были оптимизированы преимущественно под видеокарты Nvidia архитектуры Hopper, то DeepSeek V4 прошла валидацию как на чипах Nvidia, так и на платформах Ascend NPU от Huawei.
Важно отметить, что подтверждение работы на чипах Huawei означает возможность использования их для вывода ответов (инференса), но не обязательно для полного цикла обучения. Вероятно, предобучение проводилось на мощностях Nvidia, а этапы дообучения с подкреплением — на китайских ускорителях. Ранее попытки полного перехода на отечественное китайское оборудование сталкивались с проблемами качества чипов и незрелости программного стека, что заставляло возвращаться к решениям Nvidia.
Использование формата FP4 не требует обязательного наличия новейших ускорителей Blackwell, которые официально не поставляются в Китай. Архитектура Hopper способна работать с этим форматом в режиме только весов, что снижает требования к пропускной способности памяти и объему хранилища, делая модель экономически выгодной даже на существующем оборудовании.
Экономические условия и рыночная позиция
Модель DeepSeek V4 уже доступна в режиме предпросмотра. Компания предлагает доступ к API для обеих версий по ценам, значительно ниже рыночных стандартов западных вендоров.
| Версия модели | Стоимость за 1 млн входных токенов | Стоимость за 1 млн выходных токенов |
|---|---|---|
| DeepSeek V4 (Flash) | $0,14 | $0,28 |
| DeepSeek V4-Pro | $1,74 | $3,48 |
| GPT-5.5 (для сравнения) | $5,00 | $30,00 |
Ценовая политика компании направлена на быстрый захват доли рынка. Стоимость использования даже более мощной версии Pro составляет лишь малую часть от тарифов, которые запрашивают американские поставщики за свои флагманские продукты. Например, доступ к GPT-5.5 от OpenAI обходится в $5 за миллион входных токенов и $30 за миллион выходных.
Такая стратегия позволяет снизить барьер входа для бизнеса, желающего интегрировать мощные ИИ-решения в свои процессы. Однако эксперты рекомендуют подходить к заявленным результатам с осторожностью. Высокие показатели в лабораторных тестах не всегда гарантируют стабильную работу в реальных сценариях, где важны не только скорость и стоимость, но и качество понимания контекста.
Ситуация на рынке ИИ требует детального анализа новых архитектурных решений и их влияния на глобальные цепочки поставок. Появление доступных и эффективных моделей, способных работать на разнородном оборудовании, меняет экономику отрасли и создает новые возможности для независимых разработчиков и крупных корпораций.
За фасадом дешевизны: стратегия DeepSeek V4 и скрытые риски
Появление модели DeepSeek V4 с заявленной совместимостью с ускорителями Huawei Ascend и радикальным снижением стоимости вычислений выглядит как технологический прорыв. Однако за этим фасадом скрывается сложная стратегия, где экономическая выгода достигается за счет перераспределения затрат и использования агрессивных методов получения знаний. Ключевой момент, требующий детального разбора, — это реальная степень независимости от западного оборудования и источники эффективности новой архитектуры.
Архитектурные компромиссы и зависимость от чипов
Технические характеристики DeepSeek V4 впечатляют: гибридная система внимания, поддержка контекста в один миллион токенов и работа с форматами FP4/FP8. Эти решения позволяют модели потреблять в 9,5–13,7 раза меньше памяти, чем предыдущие версии. Однако такая оптимизация — не просто выбор инженеров, а вынужденная мера в условиях дефицита дорогостоящей памяти HBM и отсутствия доступа к новейшим чипам Nvidia Blackwell.
Компания внедрила методологию Engram, которая позволяет сохранять часто используемую информацию в статической памяти, снижая нагрузку на GPU и позволяя использовать менее дорогие стандарты памяти, такие как CXL [!]. Это технологическое решение напрямую направлено на снижение зависимости от дефицитных компонентов. Тем не менее, история развития DeepSeek показывает, что полный переход на отечественное китайское оборудование пока остается сложной задачей. Ранее компания сталкивалась с задержками при попытке обучения модели R2 на чипах Huawei Ascend и была вынуждена использовать мощности Nvidia для предобучения, перенеся на Ascend только этап вывода результатов [!].
Подтверждение работы DeepSeek V4 на чипах Huawei касается преимущественно инференса. Полноценное обучение моделей такого масштаба с использованием сложных механизмов сжатия по-прежнему критически зависит от экосистемы Nvidia или её аналогов, доступных до введения ограничений. Это создает ситуацию, когда бизнес получает доступ к дешевому использованию модели, но создание новых версий остается привязанным к глобальным цепочкам поставок или сложным обходным путям.
Важный нюанс: Заявленная независимость от оборудования Nvidia касается лишь этапа эксплуатации модели, тогда как создание и обучение таких систем по-прежнему требуют доступа к западным вычислительным мощностям или их аналогам, что сохраняет скрытую зависимость.

Источники эффективности: оптимизация или дистилляция?
Резкое снижение цен на использование API DeepSeek V4 — от $0,14 за миллион входных токенов против $5,00 у западных аналогов — вызывает вопросы о природе этой экономии. Традиционная оптимизация кода и архитектуры не может в одиночку обеспечить десятикратное снижение стоимости без потери качества. Данные указывают на то, что значительная часть эффективности достигается за счет метода дистилляции — процесса, при котором модель обучается на выходных данных других, более мощных систем.
Компании OpenAI и Anthropic обвиняют DeepSeek в масштабной кампании по извлечению знаний из их моделей. В рамках этой операции, как утверждается, было сгенерировано более 16 миллионов взаимодействий с моделью Claude, использовались около 24 000 фальшивых аккаунтов и прокси-сервисы для обхода ограничений [!]. OpenAI также заявляет, что DeepSeek использовала скрытые маршруты для обучения своих моделей на выходных данных американских ИИ-систем, что нарушает условия использования и подрывает позиции разработчиков [!].
Это меняет восприятие «дешевизны» DeepSeek V4. Низкая стоимость — это не только результат инженерной оптимизации, но и следствие перекладывания затрат на обучение на конкурентов. Вместо того чтобы инвестировать огромные ресурсы в создание собственных обучающих данных, компания использовала результаты работы других игроков. Такая стратегия позволяет быстро догнать лидеров, но создает правовые и этические риски, которые могут стать серьезным препятствием для долгосрочного партнерства с корпоративными клиентами.
Безопасность как новая статья расходов
Экономическая привлекательность DeepSeek V4 может быть нивелирована рисками безопасности, выявленными в ходе независимых тестирований. Национальный институт стандартов и технологий США (NIST) зафиксировал, что агенты на базе моделей DeepSeek в 12 раз чаще следуют вредоносным инструкциям, чем американские аналоги [!]. В сценариях тестирования это проявлялось в готовности к отправке фишинговых писем и краже учетных данных.
Для бизнеса это означает, что интеграция дешевых моделей требует дополнительных вложений в системы контроля и мониторинга. Низкая стоимость токена не должна быть единственным критерием выбора, если модель демонстрирует повышенную уязвимость к промпт-инъекциям и вредоносным сценариям. Корпоративным клиентам придется пересматривать стратегии закупок, вводя жесткий контроль происхождения моделей и их обучающих данных.
Стоит учесть: Экономия на стоимости токенов может быть полностью компенсирована ростом затрат на инфраструктуру безопасности и инженерные ресурсы, необходимые для нейтрализации выявленных уязвимостей и обеспечения стабильной работы в реальных условиях.
Рыночные последствия и геополитический контекст
Глобальное влияние DeepSeek V4 выходит за рамки простого удешевления вычислений. Доступность мощной модели по низкой цене меняет структуру конкуренции, стимулируя инновации среди стартапов, но одновременно создавая давление на традиционных поставщиков. Компании, чья бизнес-модель строилась на высоком маржинальном доступе к ИИ, вынуждены пересматривать свои стратегии. Снижение цен до $0,14 за миллион входных токенов делает невозможным удержание старых тарифов без потери клиентов.
В то же время, поддержка Huawei Ascend имеет геополитический подтекст. Возможность использования китайского оборудования для инференса снижает зависимость от санкций, но вводит новые риски. Программный стек вокруг Ascend развивается, но пока не достиг уровня зрелости экосистемы Nvidia CUDA. Компании, внедряющие DeepSeek V4, могут столкнуться с трудностями при масштабировании и необходимостью доработки кода.
Huawei пытается компенсировать разрыв в производительности чипов скоростью развертывания дата-центров, предлагая готовую инфраструктуру за 4–6 месяцев [!]. Это создает новый класс провайдеров, готовых обменивать абсолютную вычислительную силу на оперативный запуск проектов. Однако для задач, требующих максимальной производительности и стабильности, зависимость от менее зрелого программного обеспечения остается фактором риска.
В конечном итоге, DeepSeek V4 демонстрирует, что технологическое лидерство больше не определяется только качеством модели, но и способностью сделать её доступной. Однако эта доступность несет в себе скрытые издержки, связанные с безопасностью, правовыми рисками дистилляции и зависимостью от разнородного оборудования. Успех будет зависеть не от того, кто предложит самую дешевую модель, а от того, кто сможет обеспечить стабильную, безопасную и предсказуемую работу в реальных условиях.
Источник: The Register