Октябрь 2025 | Обзор события | 7

Google представил ИИ, который управляет браузером как пользователь

Google представила ИИ-модель Gemini 2.5 Computer Use, способную взаимодействовать с веб-браузером, анализировать запросы и выполнять действия, такие как заполнение и отправка форм. Модель доступна разработчикам через Google AI Studio и Vertex AI, а также представлена в виде демонстраций на платформе Browserbase.

Содержание

Обзор

Конкурентная обстановка на рынке ИИ-агентов

Доступность и демонстрации

Как ИИ-агенты меняют правила взаимодействия с цифровым миром
- Сдвиг в пользовательском опыте
- Технологическая гонка и стратегии игроков
- Долгосрочные последствия для рынка

ИСХОДНЫЙ НАРРАТИВ

По данным, представленным Google, компания представила новый ИИ-модель Gemini 2.5 Computer Use, которая способна взаимодействовать с веб-браузером и выполнять задачи, предназначенные для пользователей, а не для автоматизированных систем. Модель использует визуальное понимание и логические рассуждения для анализа запроса и выполнения действий, например, заполнения и отправки форм.

Технология может применяться для тестирования пользовательских интерфейсов, особенно тех, где нет API или других прямых методов подключения. Ранние версии этой модели уже использовались в AI Mode и проекте Mariner, где ИИ-агенты выполняли задачи в браузере, например, добавляли товары в корзину на основе списка ингредиентов.

Конкурентная обстановка на рынке ИИ-агентов

Анонс Google последовал за объявлением OpenAI о новых приложениях для ChatGPT, включая улучшенный функционал ChatGPT Agent. Anthropic также представил версию Claude с возможностью «использования компьютера» ещё в прошлом году.

Google опубликовала демонстрационные видео, где показаны действия модели, ускоренные в 3 раза. Компания подчеркнула, что её модель «превосходит ведущих альтернатив на нескольких веб- и мобильных тестах». В отличие от ChatGPT Agent и инструмента Anthropic, Gemini 2.5 Computer Use имеет доступ только к браузеру, а не ко всему компьютерному окружению. Google отмечает, что модель пока не оптимизирована для контроля над операционной системой и поддерживает 13 действий, включая открытие браузера, ввод текста и перетаскивание элементов.

Концептуальное изображение

Доступность и демонстрации

Модель Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI. Также существует демонстрационная версия на платформе Browserbase, где можно наблюдать за выполнением задач, таких как «Играть в 2048» или «Просмотреть популярные дебаты на Hacker News».

АНАЛИТИЧЕСКИЙ РАЗБОР

Как ИИ-агенты меняют правила взаимодействия с цифровым миром

Сдвиг в пользовательском опыте

ИИ-агенты, способные работать с браузером, ставят под сомнение традиционную грань между человеком и машиной. До сих пор пользовательский интерфейс был барьером, который ИИ мог лишь анализировать, но не преодолевать. Теперь, когда модель может кликать, вводить текст и перетаскивать элементы, она становится полноценным пользователем — хотя и виртуальным.

Такой подход не только упрощает выполнение рутинных задач, но и открывает путь к автоматизации процессов, где отсутствуют API. Это особенно важно для российских компаний, где значительная часть сервисов построена на устаревших или неструктурированных интерфейсах. Теперь ИИ может обходить эти ограничения, не требуя глобальных перепроектировок.

Важный нюанс: Возможность тестирования интерфейсов без участия человека ускоряет разработку и снижает затраты на QA. Это особенно актуально для стартапов и малого бизнеса, где ресурсы ограничены.

Технологическая гонка и стратегии игроков

Разработка Gemini 2.5 Computer Use — это не только шаг Google в сторону более мощных агентов, а попытка установить новый стандарт. В отличие от ChatGPT Agent и Claude, модель ограничена браузером, что снижает риски, связанные с полным доступом к системе. Однако это же ограничивает и возможности. Google, таким образом, идет по пути осторожного, но масштабного внедрения.

Такая стратегия снижает вероятность ошибок и утечек данных, что особенно важно для российских организаций, где вопросы безопасности и регулирования ИИ становятся все более актуальными. Ограниченный доступ может стать эталоном для внедрения в локальных системах, где полный контроль над ОС пока невозможен.

Компании, которые первыми внедрят ИИ-агентов в тестирование и автоматизацию, получат конкурентное преимущество в скорости и точности выполнения задач. Это особенно касается SaaS-продуктов и онлайн-торговли.

Важный нюанс: В то же время OpenAI уже интегрировала ChatGPT с платформами для одноразовых покупок, что делает её функционально ближе к конечному пользователю. Это указывает на более амбициозную стратегию OpenAI, где ИИ-агенты могут инициировать сделки, что Google пока не реализовала. Такие интеграции с Shopify, Etsy и Stripe демонстрируют переход от пассивного поиска к активному участию AI в процессе покупки.

Долгосрочные последствия для рынка

С появлением ИИ-агентов, способных работать с интерфейсами, меняется сама природа взаимодействия с цифровыми сервисами. В будущем пользователю может понадобиться лишь дать задание, а ИИ выполнит его, минуя промежуточные шаги. Это может привести к сокращению спроса на простые интерфейсы и увеличению потребности в сложных, но «дружелюбных» для автоматизации системах.

Российские разработчики и бизнес-аналитики должны начать адаптировать продукты под «агента-пользователя». Это включает в себя пересмотр UX-стратегий, где важно не только удобство для человека, но и предсказуемость для ИИ.

В ближайшие 2–3 года можно ожидать роста спроса на ИИ-интеграции в тестировании, автоматизации и даже в поддержке клиентов, где агенты будут «ходить» по сайтам, находить ошибки или помогать пользователям.

Контакты Асектор ✉

Коротко о главном

Модель поддерживает 13 действий, включая открытие браузера, ввод текста и перетаскивание элементов

В отличие от альтернатив, она не имеет доступа ко всей операционной системе, а только к браузеру. Это ограничивает её возможности по сравнению с ChatGPT Agent и инструментом от Anthropic.

Google опубликовала демонстрационные видео с ускорением действий в 3 раза

Видео показывают выполнение задач, таких как добавление товаров в корзину или прохождение игры 2048. Компания заявила о превосходстве модели над ведущими альтернативами на веб- и мобильных тестах.

Ранние версии модели использовались в AI Mode и проекте Mariner

В этих проектах ИИ-агенты выполняли задачи в браузере, например, добавляли продукты в корзину на основе списка ингредиентов. Это стало основой для дальнейшего развития Gemini 2.5 Computer Use.

Модель доступна разработчикам через Google AI Studio и Vertex AI

Также существует демонстрационная версия на платформе Browserbase, где можно наблюдать за выполнением задач. Это позволяет тестировать возможности модели без необходимости разработки собственных решений.

Анонс Google последовал за обновлениями от OpenAI и Anthropic

OpenAI представила ChatGPT Agent с расширенным функционалом, а Anthropic ранее анонсировал Claude с возможностью «использования компьютера». Рынок ИИ-агентов становится всё более конкурентным.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Разработка ПО; Бизнес; Цифровизация и технологии

Темы: Автоматическое выполнение задач; Искусственный интеллект; Технологии пользовательского интерфейса;

Оценка значимости: 7 из 10

Анонс Google о новой ИИ-модели, способной взаимодействовать с веб-браузером, представляет собой значимое развитие в области искусственного интеллекта, которое может коснуться как внутреннего, так и международного технологического рынка. Хотя событие зарубежное, оно касается передовых ИИ-технологий, что важно для России, где наблюдается рост интереса к развитию собственных решений в этой сфере. Масштаб аудитории — регионально-национальный, так как технологии могут повлиять на отрасли ИТ и автоматизации. Воздействие — среднесрочное, затрагивает несколько сфер (технологии, бизнес, образование), а последствия — заметные, но обратимые.