Октябрь 2025 | Обзор события | 7

Дефицит данных тормозит рост ИИ — что будет дальше

Дефицит обучающих данных из открытых источников ограничивает развитие систем искусственного интеллекта, поскольку все доступные данные уже использованы. Разработчики начинают применять синтетические данные и рассматривают корпоративные наборы как перспективную основу для обучения моделей, однако их эффективность зависит от качества, структурированности и правильной интерпретации.

Содержание

Обзор

Синтетические данные как альтернатива

Корпоративные данные как новая площадка для развития ИИ

Дефицит данных и будущее искусственного интеллекта
- Когда данные перестают быть бесконечными
- Корпоративные данные: скрытый резерв или новая угроза?
- Синтетика: панацея или катастрофа?
- Новые возможности и угрозы в архитектуре ИИ

ИСХОДНЫЙ НАРРАТИВ

По данным публикации Goldman Sachs, главный инженер-директор по данным банка Нима Рапаель заявил, что дефицит обучающих данных уже влияет на развитие новых систем искусственного интеллекта. Рапаель подчеркнул, что отрасль столкнулась с проблемой, которую можно назвать «пиком данных» — все доступные данные из открытых источников уже использованы, и это ограничивает возможности для обучения моделей.

Рапаель привел в качестве примера китайскую компанию «DeepSeek», отметив, что одна из гипотез относительно высоких затрат на её развитие связана с тем, что модель обучалась на выходных данных других моделей, а не на новых наборах.

Синтетические данные как альтернатива

В условиях исчерпания интернет-ресурсов, разработчики всё чаще прибегают к синтетическим данным — машинно-сгенерированным текстам, изображениям и коду. Такой подход позволяет получить неограниченный объём информации, но, по мнению Рапаеля, он несёт риски: избыток низкокачественного контента может снизить эффективность моделей.

Однако, как отмечает эксперт, проблема не только в количестве данных, но и в их качестве и структурированности. В корпоративной среде, по его словам, существует значительный потенциал нереализованных данных, которые могут быть использованы для улучшения ИИ-инструментов.

Корпоративные данные как новая площадка для развития ИИ

Рапаель акцентирует внимание на том, что следующим этапом развития искусственного интеллекта может стать использование закрытых корпоративных наборов данных. Компании, такие как Goldman Sachs, обладают уникальной информацией, включая данные о торговых потоках, взаимодействиях с клиентами и внутренних процессах, которые могут стать основой для более точных и ценных ИИ-решений.

Однако, чтобы использовать эти данные эффективно, необходимо решить задачу их интерпретации и нормализации. Важно не просто собрать данные, но и правильно понять их бизнес-контекст, а затем адаптировать под нужды конкретной организации.

Интересно: Как корпоративные данные могут стать новой основой для искусственного интеллекта? И стоит ли опасаться, что синтетические данные начнут доминировать над человеческим контекстом?

АНАЛИТИЧЕСКИЙ РАЗБОР

Дефицит данных и будущее искусственного интеллекта

Когда данные перестают быть бесконечными

Искусственный интеллект, как и любая технология, зависит от масштаба и качества ресурсов, на которых он строится. В последние годы ИИ-модели росли в размерах и сложности, опираясь на всё новые и новые объемы данных, извлекаемых из интернета. Однако, как указывает аналитик Goldman Sachs, мы приближаемся к пределу — к «пику данных». Это не просто техническая проблема, а фундаментальная смена парадигмы в развитии ИИ.

Растущая зависимость от данных означает, что компании, не способные обеспечить качественный и уникальный контент, теряют конкурентное преимущество. В условиях, когда открытые данные исчерпаны, а синтетические — не всегда полезны, ИИ-разработчики вынуждены искать альтернативные источники. Это создает новую геополитическую и технологическую борьбу за данные, где победителями могут стать не те, кто лучше пишет алгоритмы, а те, кто владеет уникальной информацией.

К чему это ведет? Дефицит данных перерастает в барьер для развития ИИ, который может изменить структуру отрасли и усилить позиции крупных корпораций, обладающих закрытыми наборами.

Корпоративные данные: скрытый резерв или новая угроза?

Одним из потенциальных выходов из ситуации становится использование закрытых корпоративных данных. Goldman Sachs, например, уже рассматривает возможность обучения моделей на своих внутренних данных — о клиентах, транзакциях и бизнес-процессах. Это открывает новую возможность: локализованный ИИ, способный решать специфические задачи конкретной компании, а не просто копировать общий контекст интернета.

Однако тут возникает сложная дилемма. С одной стороны, корпоративные данные могут стать мощным ресурсом для создания более точных и адаптированных ИИ-инструментов. С другой — они закрыты, структурированы по своим правилам и требуют значительных усилий для интерпретации. Это означает, что не все компании смогут эффективно использовать этот потенциал, что может усилить дивергенцию между крупными игроками и средним бизнесом.

В России, где корпоративные данные часто находятся в разрозненных системах и регулируются строгими нормами, эта задача становится особенно сложной. Пока что российские компании не готовы к масштабному использованию ИИ на основе собственных данных. А значит, они рискуют отстать в гонке за следующим этапом развития ИИ, если не начнут инвестировать в инфраструктуру данных и внутренние ИИ-экспертизы.

Обратите внимание: В ближайшие годы ИИ будет развиваться не столько за счет алгоритмов, сколько за счет доступа к данным. Это значит, что данные станут стратегическим ресурсом — как нефть в прошлом.

Синтетика: панацея или катастрофа?

Параллельно с поиском новых источников, ИИ-компании активно используют синтетические данные. Это позволяет обойти проблему дефицита, но не без последствий. Синтетика не отражает реальный мир, и модели, обученные на ней, могут терять способность адаптироваться к реальным условиям. В банковской сфере, где точность и контекст критичны, это может привести к ошибкам, которые сложно предсказать и контролировать.

Но синтетика также может стать инструментом доминирования крупных игроков, способных создавать и масштабировать искусственные данные. Это создает риск монополизации ИИ-развития, где победителем станет не тот, кто лучше понимает бизнес, а тот, кто лучше умеет имитировать его.

В России, где ИИ-экосистема пока не так зрела, эта тенденция может усилить зависимость от иностранных технологий. Если внутренние данные остаются недоступными, а синтетика — недостаточно качественной, то российские компании могут быть вынуждены использовать ИИ, обученный на чужих данных, что поставит под угрозу их конкурентоспособность и безопасность.

Тренд: В ближайшие 3–5 лет ключевым фактором успеха в ИИ станет не только качество алгоритмов, но и способность компаний управлять своими данными. Это изменит правила игры в бизнесе и технологиях.

Новые возможности и угрозы в архитектуре ИИ

Китайская компания DeepSeek представила модель DeepSeek-V3.2-Exp, которая использует новую архитектуру Sparse Attention. Эта технология позволяет сократить вычислительную нагрузку при обработке длинных текстов, оценивая только наиболее значимые связи между словами. Это достигается с помощью компонента «lightning indexer», который выбирает до 2048 значимых связей на слово. DeepSeek утверждает, что это позволяет снизить стоимость API на 50%, а также ускорить обработку текста в 64 раза.

Такие разработки указывают на направление будущего ИИ — более эффективные архитектуры, которые снижают затраты и увеличивают производительность. Это особенно важно в условиях дефицита данных, когда ИИ должен работать точнее, а не быстрее. DeepSeek также адаптировала модель V3.1 для работы на китайских чипах, что снижает зависимость от зарубежных технологий и усиливает позиции локальных игроков.

Однако, несмотря на прогресс, DeepSeek столкнулась с проблемами интеграции: отложила запуск модели R2 из-за сложностей с чипами Huawei. Это подчеркивает риски в цепочке поставок и необходимость гибкости при выборе оборудования.

Кроме того, DeepSeek стала целью кибератак: злоумышленники использовали тайпсквоттинг в репозитории PyPI, создавая вредоносные пакеты, которые собирают данные о пользователях. Это демонстрирует, что рост популярности ИИ-моделей привлекает внимание хакеров, что требует усиления мер безопасности при разработке и внедрении ИИ-решений.

Вывод: Новые архитектуры ИИ, такие как Sparse Attention, открывают возможности для более эффективного использования данных. Но они также требуют внимания к безопасности и надежности инфраструктуры.

Контакты Асектор ✉

Коротко о главном

Компания DeepSeek столкнулась с высокими затратами на обучение модели

Одной из гипотез, объясняющих эти затраты, стало использование выходных данных других моделей вместо новых, уникальных наборов информации.

Разработчики всё чаще применяют синтетические данные для обучения ИИ

Этот подход позволяет получать неограниченный объём информации, но может снизить эффективность моделей из-за избытка низкокачественного контента.

Корпоративные данные рассматриваются как новый ресурс для развития ИИ

Goldman Sachs и другие компании обладают уникальной информацией, такой как данные о торговых потоках и взаимодействиях с клиентами, которые могут улучшить ИИ-инструменты.

Использование корпоративных данных требует их интерпретации и нормализации

Необходимо не просто собирать данные, но и правильно понимать их бизнес-контекст, а затем адаптировать под конкретные нужды организации.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования; Цифровизация и технологии

Темы: Завершение объёма информации;

Оценка значимости: 7 из 10

Проблема дефицита данных для ИИ затрагивает ключевую область технологического развития, которая имеет нарастающее влияние на экономику и инновации. Хотя событие не является прямым кризисом в России, тема касается будущего цифровой трансформации, что делает её релевантной для обсуждения в стране. Оно затрагивает несколько сфер — технологии, экономику, корпоративные процессы — и имеет долгосрочные последствия для развития искусственного интеллекта.