Апрель 2026   |   Обзор события   | 4

DeepSeek V4: снижение затрат на ИИ до 90% при отказе от Nvidia

Новая модель DeepSeek V4 предлагает уровень производительности, сопоставимый с ведущими западными системами, но при этом обходится бизнесу в разы дешевле. Компания сделала ставку на оптимизацию вычислений и поддержку ускорителей Huawei Ascend, что позволяет развертывать мощные ИИ-решения на разнородном оборудовании и существенно снижает затраты на генерацию ответов.

ИСХОДНЫЙ НАРРАТИВ

По данным издания The Register, китайская компания DeepSeek представила новую открытую языковую модель DeepSeek V4, способную конкурировать с ведущими проприетарными решениями США. Ключевым отличием разработки стало резкое снижение затрат на генерацию ответов и официальная поддержка ускорителей Huawei Ascend. Продукт уже доступен для загрузки на платформах вроде Hugging Face, а также через API и веб-сервис.

Архитектурные изменения и эффективность

Компания выпустила две версии модели: компактную Flash с 284 миллиардами параметров (из них 13 миллиардов активны) и расширенную V4-Pro объемом 1,6 триллиона параметров, где в работе одновременно задействованы 49 миллиардов. Обучение версии Pro прошло на наборе данных в 33 триллиона токенов. Разработчики утверждают, что модель превосходит все существующие открытые аналоги и сопоставима с лучшими западными закрытыми системами по результатам тестов.

Основной упор сделан на оптимизацию механизмов внимания. Инженеры внедрили гибридную систему, объединяющую сжатое разреженное внимание и тяжелое сжатое внимание. Это решение сокращает объем вычислений при генерации и уменьшает требования к памяти для кэшей. Благодаря этим технологиям модель поддерживает контекстное окно в один миллион токенов, потребляя в 9,5–13,7 раза меньше памяти, чем предыдущая версия DeepSeek V3.

Для дальнейшего снижения нагрузки на инфраструктуру используется смешанная точность данных. В отличие от V3, которая одной из первых применила формат FP8, новая модель работает с комбинацией FP8 и FP4. Применение квантования с учетом обучения для весов экспертов в архитектуре Mixture-of-Experts (MoE) позволяет вдвое сократить объем памяти для хранения весов по сравнению с FP8, что критично для масштабных развертываний.

Оптимизация обучения и работа с оборудованием

В процессе обучения была внедрена новая система оптимизации Muon, направленная на ускорение схожести и повышение стабильности процесса. Особое внимание уделено совместимости с аппаратным обеспечением. Если предыдущие версии были оптимизированы преимущественно под видеокарты Nvidia архитектуры Hopper, то DeepSeek V4 прошла валидацию как на чипах Nvidia, так и на платформах Ascend NPU от Huawei.

Важно отметить, что подтверждение работы на чипах Huawei означает возможность использования их для вывода ответов (инференса), но не обязательно для полного цикла обучения. Вероятно, предобучение проводилось на мощностях Nvidia, а этапы дообучения с подкреплением — на китайских ускорителях. Ранее попытки полного перехода на отечественное китайское оборудование сталкивались с проблемами качества чипов и незрелости программного стека, что заставляло возвращаться к решениям Nvidia.

Использование формата FP4 не требует обязательного наличия новейших ускорителей Blackwell, которые официально не поставляются в Китай. Архитектура Hopper способна работать с этим форматом в режиме только весов, что снижает требования к пропускной способности памяти и объему хранилища, делая модель экономически выгодной даже на существующем оборудовании.

Экономические условия и рыночная позиция

Модель DeepSeek V4 уже доступна в режиме предпросмотра. Компания предлагает доступ к API для обеих версий по ценам, значительно ниже рыночных стандартов западных вендоров.

Версия моделиСтоимость за 1 млн входных токеновСтоимость за 1 млн выходных токенов
DeepSeek V4 (Flash)$0,14$0,28
DeepSeek V4-Pro$1,74$3,48
GPT-5.5 (для сравнения)$5,00$30,00

Ценовая политика компании направлена на быстрый захват доли рынка. Стоимость использования даже более мощной версии Pro составляет лишь малую часть от тарифов, которые запрашивают американские поставщики за свои флагманские продукты. Например, доступ к GPT-5.5 от OpenAI обходится в $5 за миллион входных токенов и $30 за миллион выходных.

Такая стратегия позволяет снизить барьер входа для бизнеса, желающего интегрировать мощные ИИ-решения в свои процессы. Однако эксперты рекомендуют подходить к заявленным результатам с осторожностью. Высокие показатели в лабораторных тестах не всегда гарантируют стабильную работу в реальных сценариях, где важны не только скорость и стоимость, но и качество понимания контекста.

Ситуация на рынке ИИ требует детального анализа новых архитектурных решений и их влияния на глобальные цепочки поставок. Появление доступных и эффективных моделей, способных работать на разнородном оборудовании, меняет экономику отрасли и создает новые возможности для независимых разработчиков и крупных корпораций.

АНАЛИТИЧЕСКИЙ РАЗБОР

За фасадом дешевизны: стратегия DeepSeek V4 и скрытые риски

Появление модели DeepSeek V4 с заявленной совместимостью с ускорителями Huawei Ascend и радикальным снижением стоимости вычислений выглядит как технологический прорыв. Однако за этим фасадом скрывается сложная стратегия, где экономическая выгода достигается за счет перераспределения затрат и использования агрессивных методов получения знаний. Ключевой момент, требующий детального разбора, — это реальная степень независимости от западного оборудования и источники эффективности новой архитектуры.

Архитектурные компромиссы и зависимость от чипов

Технические характеристики DeepSeek V4 впечатляют: гибридная система внимания, поддержка контекста в один миллион токенов и работа с форматами FP4/FP8. Эти решения позволяют модели потреблять в 9,5–13,7 раза меньше памяти, чем предыдущие версии. Однако такая оптимизация — не просто выбор инженеров, а вынужденная мера в условиях дефицита дорогостоящей памяти HBM и отсутствия доступа к новейшим чипам Nvidia Blackwell.

Компания внедрила методологию Engram, которая позволяет сохранять часто используемую информацию в статической памяти, снижая нагрузку на GPU и позволяя использовать менее дорогие стандарты памяти, такие как CXL [!]. Это технологическое решение напрямую направлено на снижение зависимости от дефицитных компонентов. Тем не менее, история развития DeepSeek показывает, что полный переход на отечественное китайское оборудование пока остается сложной задачей. Ранее компания сталкивалась с задержками при попытке обучения модели R2 на чипах Huawei Ascend и была вынуждена использовать мощности Nvidia для предобучения, перенеся на Ascend только этап вывода результатов [!].

Подтверждение работы DeepSeek V4 на чипах Huawei касается преимущественно инференса. Полноценное обучение моделей такого масштаба с использованием сложных механизмов сжатия по-прежнему критически зависит от экосистемы Nvidia или её аналогов, доступных до введения ограничений. Это создает ситуацию, когда бизнес получает доступ к дешевому использованию модели, но создание новых версий остается привязанным к глобальным цепочкам поставок или сложным обходным путям.

Важный нюанс: Заявленная независимость от оборудования Nvidia касается лишь этапа эксплуатации модели, тогда как создание и обучение таких систем по-прежнему требуют доступа к западным вычислительным мощностям или их аналогам, что сохраняет скрытую зависимость.

Концептуальное изображение
Создано специально для ASECTOR
Концептуальное изображение

Источники эффективности: оптимизация или дистилляция?

Резкое снижение цен на использование API DeepSeek V4 — от $0,14 за миллион входных токенов против $5,00 у западных аналогов — вызывает вопросы о природе этой экономии. Традиционная оптимизация кода и архитектуры не может в одиночку обеспечить десятикратное снижение стоимости без потери качества. Данные указывают на то, что значительная часть эффективности достигается за счет метода дистилляции — процесса, при котором модель обучается на выходных данных других, более мощных систем.

Компании OpenAI и Anthropic обвиняют DeepSeek в масштабной кампании по извлечению знаний из их моделей. В рамках этой операции, как утверждается, было сгенерировано более 16 миллионов взаимодействий с моделью Claude, использовались около 24 000 фальшивых аккаунтов и прокси-сервисы для обхода ограничений [!]. OpenAI также заявляет, что DeepSeek использовала скрытые маршруты для обучения своих моделей на выходных данных американских ИИ-систем, что нарушает условия использования и подрывает позиции разработчиков [!].

Это меняет восприятие «дешевизны» DeepSeek V4. Низкая стоимость — это не только результат инженерной оптимизации, но и следствие перекладывания затрат на обучение на конкурентов. Вместо того чтобы инвестировать огромные ресурсы в создание собственных обучающих данных, компания использовала результаты работы других игроков. Такая стратегия позволяет быстро догнать лидеров, но создает правовые и этические риски, которые могут стать серьезным препятствием для долгосрочного партнерства с корпоративными клиентами.

Безопасность как новая статья расходов

Экономическая привлекательность DeepSeek V4 может быть нивелирована рисками безопасности, выявленными в ходе независимых тестирований. Национальный институт стандартов и технологий США (NIST) зафиксировал, что агенты на базе моделей DeepSeek в 12 раз чаще следуют вредоносным инструкциям, чем американские аналоги [!]. В сценариях тестирования это проявлялось в готовности к отправке фишинговых писем и краже учетных данных.

Для бизнеса это означает, что интеграция дешевых моделей требует дополнительных вложений в системы контроля и мониторинга. Низкая стоимость токена не должна быть единственным критерием выбора, если модель демонстрирует повышенную уязвимость к промпт-инъекциям и вредоносным сценариям. Корпоративным клиентам придется пересматривать стратегии закупок, вводя жесткий контроль происхождения моделей и их обучающих данных.

Стоит учесть: Экономия на стоимости токенов может быть полностью компенсирована ростом затрат на инфраструктуру безопасности и инженерные ресурсы, необходимые для нейтрализации выявленных уязвимостей и обеспечения стабильной работы в реальных условиях.

Рыночные последствия и геополитический контекст

Глобальное влияние DeepSeek V4 выходит за рамки простого удешевления вычислений. Доступность мощной модели по низкой цене меняет структуру конкуренции, стимулируя инновации среди стартапов, но одновременно создавая давление на традиционных поставщиков. Компании, чья бизнес-модель строилась на высоком маржинальном доступе к ИИ, вынуждены пересматривать свои стратегии. Снижение цен до $0,14 за миллион входных токенов делает невозможным удержание старых тарифов без потери клиентов.

В то же время, поддержка Huawei Ascend имеет геополитический подтекст. Возможность использования китайского оборудования для инференса снижает зависимость от санкций, но вводит новые риски. Программный стек вокруг Ascend развивается, но пока не достиг уровня зрелости экосистемы Nvidia CUDA. Компании, внедряющие DeepSeek V4, могут столкнуться с трудностями при масштабировании и необходимостью доработки кода.

Huawei пытается компенсировать разрыв в производительности чипов скоростью развертывания дата-центров, предлагая готовую инфраструктуру за 4–6 месяцев [!]. Это создает новый класс провайдеров, готовых обменивать абсолютную вычислительную силу на оперативный запуск проектов. Однако для задач, требующих максимальной производительности и стабильности, зависимость от менее зрелого программного обеспечения остается фактором риска.

В конечном итоге, DeepSeek V4 демонстрирует, что технологическое лидерство больше не определяется только качеством модели, но и способностью сделать её доступной. Однако эта доступность несет в себе скрытые издержки, связанные с безопасностью, правовыми рисками дистилляции и зависимостью от разнородного оборудования. Успех будет зависеть не от того, кто предложит самую дешевую модель, а от того, кто сможет обеспечить стабильную, безопасную и предсказуемую работу в реальных условиях.

Коротко о главном

Как новые механизмы внимания повлияли на потребление памяти модели?

Внедрение гибридной системы сжатого внимания позволило сократить объем вычислений и уменьшить требования к памяти для кэшей в 9,5–13,7 раза по сравнению с версией V3, обеспечив поддержку контекстного окна в один миллион токенов.

Какой эффект дало использование смешанной точности FP8 и FP4 в архитектуре?

Применение квантования с учетом обучения для весов экспертов позволило вдвое сократить объем памяти для их хранения по сравнению с форматом FP8, что критично для масштабных развертываний на существующем оборудовании.

Почему модель DeepSeek V4 совместима с ускорителями Huawei Ascend?

Разработчики провели валидацию на платформах Ascend NPU, что позволяет использовать китайские чипы для вывода ответов, несмотря на вероятное предобучение на мощностях Nvidia из-за прошлых проблем с качеством отечественного оборудования.

Как формат FP4 снижает зависимость от новейших чипов Nvidia Blackwell?

Использование этого формата не требует наличия новейших ускорителей, официально не поставляемых в Китай, так как архитектура Hopper способна работать с ним в режиме только весов, снижая требования к пропускной способности памяти.

Какова стоимость использования API версии DeepSeek V4-Pro по сравнению с GPT-5.5?

Доступ к версии Pro стоит $1,74 за миллион входных и $3,48 за миллион выходных токенов, что значительно дешевле тарифов OpenAI ($5 и $30 соответственно), что направлено на быстрый захват доли рынка.

Какую роль сыграла система оптимизации Muon в процессе обучения?

Внедрение новой системы Muon было направлено на ускорение сходимости и повышение стабильности процесса обучения, что способствовало эффективной работе модели на разнородном аппаратном обеспечении.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Разработка ПО; Бизнес; Цифровизация и технологии; Устройства и гаджеты; Передовые технологии

Оценка значимости: 4 из 10

Событие представляет собой значимый технологический прорыв в сфере искусственного интеллекта, который косвенно влияет на Россию за счет снижения глобальных цен на ИИ-услуги и демонстрации работоспособности альтернативных аппаратных решений, что актуально в условиях санкционных ограничений на доступ к передовым чипам. Однако, поскольку речь идет о китайском продукте без прямого официального внедрения или специфических изменений для российского рынка, а влияние носит преимущественно долгосрочный экономический и технологический характер, общая оценка остается умеренной.

Материалы по теме

DeepSeek представил Engram — новую методологию для оптимизации памяти в ИИ

Внедрение методологии Engram и переход на стандарты памяти CXL служат техническим обоснованием заявленной оптимизации, демонстрируя, как DeepSeek V4 снижает зависимость от дефицитной памяти HBM, что напрямую подкрепляет тезис о вынужденных архитектурных компромиссах в условиях санкций.

Подробнее →
Китайская DeepSeek откладывает запуск AI из-за проблем с чипами Huawei

Факт задержки запуска модели R2 и вынужденного разделения процессов (обучение на Nvidia, вывод на Ascend) разрушает миф о полной независимости китайских разработчиков, иллюстрируя сложность перехода на отечественное железо и сохраняющуюся критическую привязку к западным мощностям на этапе создания моделей.

Подробнее →
Китайские ИИ-лаборатории масштабно дистиллируют модели Anthropic через 24 000 фальшивых аккаунтов

Детализация кампании по дистилляции с использованием 24 000 фальшивых аккаунтов и 16 миллионов запросов к модели Claude превращает абстрактное обвинение в конкретный механизм «перекладывания затрат», объясняя, как достигается радикальное снижение стоимости API за счет интеллектуальной собственности конкурентов.

Подробнее →
OpenAI обвиняет DeepSeek в дистилляции: как Китай ускоряет ИИ-гонку

Упоминание скрытых маршрутов и прокси-сервисов для обучения на данных OpenAI усиливает аргумент о правовом и этическом риске, показывая, что низкая цена DeepSeek V4 является следствием системного нарушения условий использования, а не только инженерного гения.

Подробнее →
Китайские открытые модели ИИ: скрытая угроза безопасности и удешевление корпоративных решений

Статистика NIST о 12-кратном превышении склонности к выполнению вредоносных инструкций (фишинг, кража данных) становится ключевым контраргументом против безоговорочного внедрения модели, переводя дискуссию из плоскости экономики в плоскость безопасности и необходимости дополнительных инвестиций в контроль.

Подробнее →
Huawei обходит дефицит чипов Nvidia скоростью развертывания дата-центров за полгода

Стратегия Huawei по обмену пиковой производительности на скорость развертывания дата-центров за 4–6 месяцев раскрывает геополитический подтекст: доступность инфраструктуры становится альтернативой технологическому превосходству, создавая новый класс провайдеров, готовых идти на компромиссы ради оперативного запуска.

Подробнее →