Google представил ИИ, который управляет браузером как пользователь
Google представила ИИ-модель Gemini 2.5 Computer Use, способную взаимодействовать с веб-браузером, анализировать запросы и выполнять действия, такие как заполнение и отправка форм. Модель доступна разработчикам через Google AI Studio и Vertex AI, а также представлена в виде демонстраций на платформе Browserbase.
По данным, представленным Google, компания представила новый ИИ-модель Gemini 2.5 Computer Use, которая способна взаимодействовать с веб-браузером и выполнять задачи, предназначенные для пользователей, а не для автоматизированных систем. Модель использует визуальное понимание и логические рассуждения для анализа запроса и выполнения действий, например, заполнения и отправки форм.
Технология может применяться для тестирования пользовательских интерфейсов, особенно тех, где нет API или других прямых методов подключения. Ранние версии этой модели уже использовались в AI Mode и проекте Mariner, где ИИ-агенты выполняли задачи в браузере, например, добавляли товары в корзину на основе списка ингредиентов.
Конкурентная обстановка на рынке ИИ-агентов
Анонс Google последовал за объявлением OpenAI о новых приложениях для ChatGPT, включая улучшенный функционал ChatGPT Agent. Anthropic также представил версию Claude с возможностью «использования компьютера» ещё в прошлом году.
Google опубликовала демонстрационные видео, где показаны действия модели, ускоренные в 3 раза. Компания подчеркнула, что её модель «превосходит ведущих альтернатив на нескольких веб- и мобильных тестах». В отличие от ChatGPT Agent и инструмента Anthropic, Gemini 2.5 Computer Use имеет доступ только к браузеру, а не ко всему компьютерному окружению. Google отмечает, что модель пока не оптимизирована для контроля над операционной системой и поддерживает 13 действий, включая открытие браузера, ввод текста и перетаскивание элементов.

Доступность и демонстрации
Модель Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI. Также существует демонстрационная версия на платформе Browserbase, где можно наблюдать за выполнением задач, таких как «Играть в 2048» или «Просмотреть популярные дебаты на Hacker News».
Как ИИ-агенты меняют правила взаимодействия с цифровым миром
Сдвиг в пользовательском опыте
ИИ-агенты, способные работать с браузером, ставят под сомнение традиционную грань между человеком и машиной. До сих пор пользовательский интерфейс был барьером, который ИИ мог лишь анализировать, но не преодолевать. Теперь, когда модель может кликать, вводить текст и перетаскивать элементы, она становится полноценным пользователем — хотя и виртуальным.
Такой подход не только упрощает выполнение рутинных задач, но и открывает путь к автоматизации процессов, где отсутствуют API. Это особенно важно для российских компаний, где значительная часть сервисов построена на устаревших или неструктурированных интерфейсах. Теперь ИИ может обходить эти ограничения, не требуя глобальных перепроектировок.
Важный нюанс: Возможность тестирования интерфейсов без участия человека ускоряет разработку и снижает затраты на QA. Это особенно актуально для стартапов и малого бизнеса, где ресурсы ограничены.
Технологическая гонка и стратегии игроков
Разработка Gemini 2.5 Computer Use — это не только шаг Google в сторону более мощных агентов, а попытка установить новый стандарт. В отличие от ChatGPT Agent и Claude, модель ограничена браузером, что снижает риски, связанные с полным доступом к системе. Однако это же ограничивает и возможности. Google, таким образом, идет по пути осторожного, но масштабного внедрения.
Такая стратегия снижает вероятность ошибок и утечек данных, что особенно важно для российских организаций, где вопросы безопасности и регулирования ИИ становятся все более актуальными. Ограниченный доступ может стать эталоном для внедрения в локальных системах, где полный контроль над ОС пока невозможен.
Компании, которые первыми внедрят ИИ-агентов в тестирование и автоматизацию, получат конкурентное преимущество в скорости и точности выполнения задач. Это особенно касается SaaS-продуктов и онлайн-торговли.
Важный нюанс: В то же время OpenAI уже интегрировала ChatGPT с платформами для одноразовых покупок, что делает её функционально ближе к конечному пользователю. Это указывает на более амбициозную стратегию OpenAI, где ИИ-агенты могут инициировать сделки, что Google пока не реализовала. Такие интеграции с Shopify, Etsy и Stripe демонстрируют переход от пассивного поиска к активному участию AI в процессе покупки.
Долгосрочные последствия для рынка
С появлением ИИ-агентов, способных работать с интерфейсами, меняется сама природа взаимодействия с цифровыми сервисами. В будущем пользователю может понадобиться лишь дать задание, а ИИ выполнит его, минуя промежуточные шаги. Это может привести к сокращению спроса на простые интерфейсы и увеличению потребности в сложных, но «дружелюбных» для автоматизации системах.
Российские разработчики и бизнес-аналитики должны начать адаптировать продукты под «агента-пользователя». Это включает в себя пересмотр UX-стратегий, где важно не только удобство для человека, но и предсказуемость для ИИ.
В ближайшие 2–3 года можно ожидать роста спроса на ИИ-интеграции в тестировании, автоматизации и даже в поддержке клиентов, где агенты будут «ходить» по сайтам, находить ошибки или помогать пользователям.