Baidu представила ИИ, который видит и решает задачи бизнеса
Компания Baidu представила новую версию ИИ-модели ERNIE, которая работает с визуальными данными, включая чертежи, видеопотоки и медицинские снимки, и способна анализировать графики, схемы и временные метки в видеоархивах. Модель, использующая активацию трёх миллиардов параметров, позволяет генерировать структурированные данные и взаимодействовать с внешними инструментами, что открывает возможности для автоматизации рутинных операций в технической поддержке и производстве.
По данным Artificialintelligence-News, компания Baidu представила новую версию своего ИИ-модели ERNIE — ERNIE-4.5-VL-28B-A3B-Thinking, которая демонстрирует высокую эффективность на ключевых тестах и предназначена для работы с данными, традиционно игнорируемыми текстовыми моделями.
Многие корпоративные данные хранятся в виде инженерных чертежей, видеопотоков с производственных линий, медицинских снимков и логистических панелей. Новая модель ориентирована на обработку таких сложных визуальных данных, что открывает возможности для бизнеса в сфере анализа и автоматизации.
Технические особенности и эффективность
Модель ERNIE 4.5 работает с активацией лишь трёх миллиардов параметров, что делает её относительно лёгкой для инференса. Такой подход направлен на снижение затрат, связанных с масштабированием ИИ-проектов. Компания Baidu ставит на эффективность как путь к массовому внедрению, создавая основу для «мультимодальных агентов», способных не только воспринимать информацию, но и действовать на её основе.
На тестах модель показала высокие результаты в задачах, требующих анализа визуальной информации. Например, она может интерпретировать графики, такие как «Ремinder о пиковых часах», чтобы определить оптимальное время посещения — задача, актуальная для логистики и ритейла. Также модель способна решать технические задачи, такие как анализ электрической схемы моста с применением законов Ома и Кирхгофа.
Потенциал в бизнес-автоматизации
ERNIE 4.5 может генерировать структурированные данные, например, координаты людей в костюмах на изображении. Такая функция может быть полезна при визуальном контроле на производственной линии или проверке соблюдения правил безопасности. Модель также умеет взаимодействовать с внешними инструментами: она может увеличить изображение для прочтения мелкого текста или запустить поиск, если объект не опознан.
Эти функции позволяют представить модель в роли агента, способного не только обнаружить проблему, но и предложить её решение, ссылаясь на внутренние базы знаний. Это делает её подходящей для автоматизации рутинных операций в ИТ и технической поддержке.
Работа с видеоархивами и временной осью
Модель поддерживает обработку корпоративных видеозаписей, включая тренинги, собрания и видеонаблюдение. Она может извлекать субтитры и сопоставлять их с точными временными метками. Это позволяет сделать большие видеобиблиотеки поисковыми, что особенно удобно при необходимости быстро найти конкретный момент в длинных видеоматериалах.
Модель также обладает временной осведомлённостью — она способна находить сцены, снятые, например, на мосту, анализируя визуальные критерии. Такие возможности могут быть полезны при поиске информации в архивах, где требуется быстрый доступ к конкретным фрагментам.
Для внедрения ERNIE 4.5 требуется мощное оборудование: минимальная конфигурация предполагает 80 ГБ видеопамяти. Это делает модель пригодной только для организаций с существующей ИИ-инфраструктурой. Для настройки под корпоративные данные компания предоставляет ERNIEKit, а также распространяет модель под лицензией Apache 2.0, что позволяет использовать её в коммерческих целях.
Интересно: Какие визуальные задачи в бизнесе окажутся наиболее выгодными для автоматизации, учитывая высокие требования к аппаратным ресурсам и необходимость тонкой настройки модели под конкретные данные?

ERNIE 4.5: когда ИИ учится видеть бизнес
ERNIE 4.5 от Baidu — это не только улучшение уже существующих ИИ-моделей. Это сдвиг в том, как бизнес может использовать искусственный интеллект. Модель способна работать с визуальными данными, которые ранее были вне досягаемости для ИИ: схемы, чертежи, видеозаписи, логистические панели. Это открывает возможности для автоматизации, выходящей за рамки текстового анализа.
Когда данные становятся видимыми
ERNIE 4.5 использует активацию только трёх миллиардов параметров из 28 миллиардов, что снижает нагрузку на вычислительные ресурсы и делает модель экономичной. Такой подход важен для бизнеса, где эффективность важнее максимальной мощности. Например, модель может интерпретировать графики, анализировать электрические схемы, определять временные метки в видео. Это не обработка информации — это переход к принятию решений на основе визуальных данных.
Модель уже демонстрирует способность не только находить проблемы, но и предлагать решения, ссылаясь на внутренние базы знаний. Это делает её подходящей для автоматизации рутинных операций в технической поддержке, производстве и ИТ.
Где и как это может сработать
ERNIE 4.5 особенно полезна в отраслях, где данные визуальны по своей природе: производство, логистика, медицина, энергетика. Например, в медицине она может анализировать снимки, в энергетике — схемы подключения, в логистике — видеопотоки с транспортных узлов. Это позволяет повысить точность и скорость обработки информации, а также снизить затраты на человеческий труд.
Однако, несмотря на широкие возможности, модель требует значительных аппаратных ресурсов — минимум 80 ГБ видеопамяти. Это делает её доступной только для крупных компаний с развитой ИИ-инфраструктурой. Для малого и среднего бизнеса модель пока остаётся вне досягаемости. Это важный момент: технология уже готова, но её применение ограничено техническими и финансовыми барьерами.
Что скрывается за лицензией и инструментами
ERNIE 4.5 распространяется под лицензией Apache 2.0, а для настройки под корпоративные данные компания предоставляет ERNIEKit. Это позволяет компаниям не только использовать модель, но и адаптировать её под свои нужды. В бизнесе это ключевой фактор: готовые решения быстро устаревают, а возможность настройки — даёт долгосрочный эффект.
Однако, лицензия не гарантирует, что модель будет работать одинаково в разных условиях. Настройка под конкретные данные требует времени, экспертизы и тестирования. Это означает, что первыми её преимуществами воспользуются компании с уже сформированными ИИ-командами. Для остальных — переход будет медленным.
Перспективы внедрения и конкуренция
ERNIE 4.5 не единственная модель, способная работать с визуальными данными. Например, Alibaba представила мультимодальную модель Qwen3-Omni, которая также обрабатывает текст, изображения, аудио и видео [!]. Её архитектура включает компоненты «Thinker» и «Talker», обеспечивающие генерацию текста и речи с низкой задержкой. Такие решения снижают затраты на управление несколькими специализированными моделями, что важно для бизнеса.
Кроме того, в России Яндекс обновил модель YandexGPT 5.1 Pro, которая лучше справляется с корпоративными задачами, чем предыдущая версия. Это делает внедрение ИИ-решений более доступным для российского бизнеса [!]. Улучшения в скорости, точности и стоимости позволяют автоматизировать такие задачи, как заполнение отчетов, переписывание текстов и извлечение данных из документов.
Заключение
ERNIE 4.5 — это шаг в сторону более глубокой интеграции ИИ в бизнес-процессы. Она не только улучшает обработку данных, но и открывает путь к созданию ИИ-агентов, способных не только видеть, но и действовать. Это особенно важно для отраслей, где визуальная информация играет ключевую роль. Однако, для полноценного внедрения модели, бизнесу необходимо учитывать как технические, так и финансовые барьеры.
Источник: AINews