Дефицит данных тормозит рост ИИ — что будет дальше
Дефицит обучающих данных из открытых источников ограничивает развитие систем искусственного интеллекта, поскольку все доступные данные уже использованы. Разработчики начинают применять синтетические данные и рассматривают корпоративные наборы как перспективную основу для обучения моделей, однако их эффективность зависит от качества, структурированности и правильной интерпретации.
По данным публикации Goldman Sachs, главный инженер-директор по данным банка Нима Рапаель заявил, что дефицит обучающих данных уже влияет на развитие новых систем искусственного интеллекта. Рапаель подчеркнул, что отрасль столкнулась с проблемой, которую можно назвать «пиком данных» — все доступные данные из открытых источников уже использованы, и это ограничивает возможности для обучения моделей.
Рапаель привел в качестве примера китайскую компанию «DeepSeek», отметив, что одна из гипотез относительно высоких затрат на её развитие связана с тем, что модель обучалась на выходных данных других моделей, а не на новых наборах.
Синтетические данные как альтернатива
В условиях исчерпания интернет-ресурсов, разработчики всё чаще прибегают к синтетическим данным — машинно-сгенерированным текстам, изображениям и коду. Такой подход позволяет получить неограниченный объём информации, но, по мнению Рапаеля, он несёт риски: избыток низкокачественного контента может снизить эффективность моделей.
Однако, как отмечает эксперт, проблема не только в количестве данных, но и в их качестве и структурированности. В корпоративной среде, по его словам, существует значительный потенциал нереализованных данных, которые могут быть использованы для улучшения ИИ-инструментов.
Корпоративные данные как новая площадка для развития ИИ
Рапаель акцентирует внимание на том, что следующим этапом развития искусственного интеллекта может стать использование закрытых корпоративных наборов данных. Компании, такие как Goldman Sachs, обладают уникальной информацией, включая данные о торговых потоках, взаимодействиях с клиентами и внутренних процессах, которые могут стать основой для более точных и ценных ИИ-решений.
Однако, чтобы использовать эти данные эффективно, необходимо решить задачу их интерпретации и нормализации. Важно не просто собрать данные, но и правильно понять их бизнес-контекст, а затем адаптировать под нужды конкретной организации.
Интересно: Как корпоративные данные могут стать новой основой для искусственного интеллекта? И стоит ли опасаться, что синтетические данные начнут доминировать над человеческим контекстом?
Дефицит данных и будущее искусственного интеллекта
Когда данные перестают быть бесконечными
Искусственный интеллект, как и любая технология, зависит от масштаба и качества ресурсов, на которых он строится. В последние годы ИИ-модели росли в размерах и сложности, опираясь на всё новые и новые объемы данных, извлекаемых из интернета. Однако, как указывает аналитик Goldman Sachs, мы приближаемся к пределу — к «пику данных». Это не просто техническая проблема, а фундаментальная смена парадигмы в развитии ИИ.
Растущая зависимость от данных означает, что компании, не способные обеспечить качественный и уникальный контент, теряют конкурентное преимущество. В условиях, когда открытые данные исчерпаны, а синтетические — не всегда полезны, ИИ-разработчики вынуждены искать альтернативные источники. Это создает новую геополитическую и технологическую борьбу за данные, где победителями могут стать не те, кто лучше пишет алгоритмы, а те, кто владеет уникальной информацией.
К чему это ведет? Дефицит данных перерастает в барьер для развития ИИ, который может изменить структуру отрасли и усилить позиции крупных корпораций, обладающих закрытыми наборами.
Корпоративные данные: скрытый резерв или новая угроза?
Одним из потенциальных выходов из ситуации становится использование закрытых корпоративных данных. Goldman Sachs, например, уже рассматривает возможность обучения моделей на своих внутренних данных — о клиентах, транзакциях и бизнес-процессах. Это открывает новую возможность: локализованный ИИ, способный решать специфические задачи конкретной компании, а не просто копировать общий контекст интернета.
Однако тут возникает сложная дилемма. С одной стороны, корпоративные данные могут стать мощным ресурсом для создания более точных и адаптированных ИИ-инструментов. С другой — они закрыты, структурированы по своим правилам и требуют значительных усилий для интерпретации. Это означает, что не все компании смогут эффективно использовать этот потенциал, что может усилить дивергенцию между крупными игроками и средним бизнесом.
В России, где корпоративные данные часто находятся в разрозненных системах и регулируются строгими нормами, эта задача становится особенно сложной. Пока что российские компании не готовы к масштабному использованию ИИ на основе собственных данных. А значит, они рискуют отстать в гонке за следующим этапом развития ИИ, если не начнут инвестировать в инфраструктуру данных и внутренние ИИ-экспертизы.
Обратите внимание: В ближайшие годы ИИ будет развиваться не столько за счет алгоритмов, сколько за счет доступа к данным. Это значит, что данные станут стратегическим ресурсом — как нефть в прошлом.
Синтетика: панацея или катастрофа?
Параллельно с поиском новых источников, ИИ-компании активно используют синтетические данные. Это позволяет обойти проблему дефицита, но не без последствий. Синтетика не отражает реальный мир, и модели, обученные на ней, могут терять способность адаптироваться к реальным условиям. В банковской сфере, где точность и контекст критичны, это может привести к ошибкам, которые сложно предсказать и контролировать.
Но синтетика также может стать инструментом доминирования крупных игроков, способных создавать и масштабировать искусственные данные. Это создает риск монополизации ИИ-развития, где победителем станет не тот, кто лучше понимает бизнес, а тот, кто лучше умеет имитировать его.
В России, где ИИ-экосистема пока не так зрела, эта тенденция может усилить зависимость от иностранных технологий. Если внутренние данные остаются недоступными, а синтетика — недостаточно качественной, то российские компании могут быть вынуждены использовать ИИ, обученный на чужих данных, что поставит под угрозу их конкурентоспособность и безопасность.
Тренд: В ближайшие 3–5 лет ключевым фактором успеха в ИИ станет не только качество алгоритмов, но и способность компаний управлять своими данными. Это изменит правила игры в бизнесе и технологиях.
Новые возможности и угрозы в архитектуре ИИ
Китайская компания DeepSeek представила модель DeepSeek-V3.2-Exp, которая использует новую архитектуру Sparse Attention. Эта технология позволяет сократить вычислительную нагрузку при обработке длинных текстов, оценивая только наиболее значимые связи между словами. Это достигается с помощью компонента «lightning indexer», который выбирает до 2048 значимых связей на слово. DeepSeek утверждает, что это позволяет снизить стоимость API на 50%, а также ускорить обработку текста в 64 раза.
Такие разработки указывают на направление будущего ИИ — более эффективные архитектуры, которые снижают затраты и увеличивают производительность. Это особенно важно в условиях дефицита данных, когда ИИ должен работать точнее, а не быстрее. DeepSeek также адаптировала модель V3.1 для работы на китайских чипах, что снижает зависимость от зарубежных технологий и усиливает позиции локальных игроков.
Однако, несмотря на прогресс, DeepSeek столкнулась с проблемами интеграции: отложила запуск модели R2 из-за сложностей с чипами Huawei. Это подчеркивает риски в цепочке поставок и необходимость гибкости при выборе оборудования.
Кроме того, DeepSeek стала целью кибератак: злоумышленники использовали тайпсквоттинг в репозитории PyPI, создавая вредоносные пакеты, которые собирают данные о пользователях. Это демонстрирует, что рост популярности ИИ-моделей привлекает внимание хакеров, что требует усиления мер безопасности при разработке и внедрении ИИ-решений.
Вывод: Новые архитектуры ИИ, такие как Sparse Attention, открывают возможности для более эффективного использования данных. Но они также требуют внимания к безопасности и надежности инфраструктуры.