Декабрь 2025 | Обзор события | 7

AI не видит шестой палец: почему ИИ ошибается в простых вещах

Эксперименты с визуальным восприятием ИИ показали, что современные модели не могут корректно определить количество пальцев на руке, если оно отличается от стандартного. Модели, такие как Nano Banana Pro и GPT-5.2, автоматически связывают изображение руки с пятью пальцами, игнорируя визуальные подсказки, из-за доминирования этого шаблона в обучающих данных.

Содержание

Обзор

Тестирование AI: стандартные шаблоны против реальности

Структура данных как ограничение

Пути решения

Когда ИИ видит то, чего не видит: проблема стереотипов в машинном восприятии
- Стереотипы в алгоритмах: как обучающие данные формируют восприятие
- Скрытые ограничения: когда ИИ не может быть точным
- Перспективы развития: от вероятностей к точности
- Тестирование ИИ: новые методы и вызовы
- Новые направления: от производства к разработке
- Риски и защита данных

ИСХОДНЫЙ НАРРАТИВ

По данным Ithome, эксперименты с искусственным интеллектом, направленные на оценку его способности к визуальному восприятию, выявили серьёзные ограничения современных моделей. Среди них — неспособность правильно определить количество пальцев на руке, особенно если оно отличается от стандартного.

Тестирование AI: стандартные шаблоны против реальности

В ходе тестов, пользователи предлагали ИИ-моделям, включая Nano Banana Pro и GPT-5.2, определить количество пальцев на изображении, где их было шесть. Несмотря на явную визуальную информацию, большинство моделей отвечали — пять. Причём, даже при наличии прямой подсказки о наличии шестого пальца, модели не могли переопределить своё суждение.

Эксперименты показали, что AI прибегает к упрощённой логике: если изображение соответствует шаблону «рука», то количество пальцев автоматически принимается за пять. Это связано с тем, что в обучающих данных такие образы доминируют, формируя у моделей устойчивую статистическую связь между «рука» и «пять пальцев».

Структура данных как ограничение

Современные ИИ-модели, основанные на архитектуре Transformer, обладают высокой способностью к обобщению, но сталкиваются с трудностями при работе с точными структурами. В случае с изображением руки с шестью пальцами, модель не может адекватно обработать информацию, поскольку её система восприятия работает на основе вероятностного подхода, а не точной геометрии.

Это ограничение проявляется в том, что AI не может одновременно учитывать и визуальные детали, и структурные особенности объекта. В отличие от человека, который способен синтезировать оба типа информации, модель действует по упрощённой логике: если объект похож на руку, то он должен иметь пять пальцев.

Пути решения

Для устранения подобных проблем, специалисты рассматривают возможность внедрения смешанных архитектур, где визуальные модели дополняются символическими структурами. Например, можно использовать 3D-сетки или геометрические ограничения, чтобы усилить способность AI к точному восприятию.

Также предлагаются улучшения в архитектуре моделей, включая локальные механизмы внимания и введение специализированных слоёв для обработки структурированных объектов. Это позволит системе лучше справляться с задачами, где важна точность и консистентность.

Интересно: Какие архитектурные изменения позволят AI корректно воспринимать визуальные структуры, отличные от обучающих данных, без потери производительности?

Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ видит то, чего не видит: проблема стереотипов в машинном восприятии

Стереотипы в алгоритмах: как обучающие данные формируют восприятие

Искусственный интеллект, как и люди, учится на примерах. Но в отличие от человека, у которого есть возможность задавать вопросы и пересматривать свои убеждения, ИИ формирует свои представления на основе статистики, извлеченной из обучающих данных. В случае с визуальным восприятием — это миллиарды изображений, на которых руки, как правило, имеют пять пальцев.

Когда ИИ сталкивается с изображением, где пальцев шесть, он не может только «увидеть» это как человек. Его модель восприятия работает по принципу: «если объект похож на руку, значит, он имеет пять пальцев». Это не ошибка в алгоритме, а следствие того, как он устроен. Модель опирается на вероятности, а не на точные геометрические правила.

Важный нюанс: Современные ИИ-модели, основанные на архитектуре Transformer, не обладают способностью к «исключению» или «переосмыслению» — они предсказывают, исходя из того, что чаще всего встречается в данных [!].

Скрытые ограничения: когда ИИ не может быть точным

Проблема не в том, что ИИ не способен различать пальцы. Проблема в том, что он не может адекватно обработать информацию, которая выходит за рамки его обучающих данных. Это ограничение проявляется не только в визуальных задачах, но и во многих других сферах — например, в медицине, где модель может «видеть» типичную картину болезни, но пропустить редкие формы.

Такой подход работает хорошо, когда данные однородны. Но как только появляются аномалии, ИИ начинает «думать» по шаблону. Это похоже на человека, который видит необычное явление, но пытается объяснить его через привычные рамки. Модель же делает это механически, без возможности сомневаться или пересматривать своё мнение.

Важный нюанс: ИИ не обладает интуицией. Он не может «почувствовать», что что-то не так — только вычислив наиболее вероятный результат на основе статистики.

Перспективы развития: от вероятностей к точности

Для решения этой проблемы специалисты рассматривают архитектурные изменения, которые позволят ИИ лучше справляться с задачами, где важна точность. Например, использование геометрических ограничений или 3D-сеток может помочь системе учитывать структуру объекта, а не только его внешний вид. Также рассматриваются локальные механизмы внимания, которые позволят модели фокусироваться на деталях, а не только на общем образе.

Для российского бизнеса это особенно важно: внедрение ИИ в сферы, где требуется высокая точность — например, в промышленности или здравоохранении, — требует не только мощных алгоритмов, но и понимания их ограничений. Внедрение решений, основанных на вероятностном подходе, без учёта специфики задачи, может привести к ошибкам, которые сложно выявить и исправить.

Важный нюанс: Внедрение ИИ в критически важные процессы требует не только выбора правильной модели, но и адаптации её под специфику задачи — включая учёт возможных аномалий и отклонений от стандартных шаблонов.

Тестирование ИИ: новые методы и вызовы

Пока ИИ не может адекватно обрабатывать нестандартные входные данные, это становится важным фактором при оценке его применимости. Google недавно представила тест FACTS Benchmark Suite, который оценивает точность ИИ-ассистентов в четырёх сценариях. Лучшая модель, Gemini 3 Pro, показала 69% правильных ответов, но ни одна из тестируемых не превысила порог в 70%. Особенно слабыми оказались многомодальные задачи, где точность не превышала 50%. Это подчёркивает необходимость человеческого контроля, особенно в ответственных сферах, таких как финансы, здравоохранение и юриспруденция [!].

Новые направления: от производства к разработке

Тренды в использовании ИИ выходят за рамки чат-ботов и визуального анализа. Например, Volkswagen Group закрывает дрезденскую автомобильную фабрику и переориентирует её на исследования в области искусственного интеллекта, робототехники и чипов. В сотрудничестве с Техническим университетом Дрездена компания планирует инвестировать 5000 млн евро в этот проект в течение семи лет. Это решение связано с необходимостью адаптации к новым технологическим трендам и перераспределением производственных мощностей [!].

Риски и защита данных

Рост популярности ИИ-инструментов в повседневной работе увеличивает риски утечки личной и конфиденциальной информации. Публичные модели могут сохранять и использовать введённые данные для обучения, что делает их уязвимыми для утечки. Если пользователь вводит личные сведения, такие как медицинские данные, адреса или номера кредитных карт, модель может случайно вернуть их другому пользователю или стать целью взлома. Риск усиливается, когда сотрудники обсуждают незапатентованные разработки с публичными чат-ботами. Чтобы снизить угрозу, рекомендуется использовать корпоративные ИИ-инструменты, такие как Gemini, и регулярно удалять историю общения [!].

Вывод: Современные ИИ-модели демонстрируют высокую степень обобщения, но сталкиваются с трудностями при работе с точными структурами. Это ограничение проявляется в задачах визуального восприятия, медицинской диагностики, финансового анализа и других областях. Развитие смешанных архитектур, включающих геометрические ограничения и локальные механизмы внимания, может стать ключом к повышению точности ИИ. Для российского бизнеса важно не только внедрять ИИ, но и адаптировать его под специфику задач, учитывая риски и особенности применения.

Источник: IT Home

Контакты Асектор ✉

Коротко о главном

Какие модели участвовали в тестировании?

В экспериментах участвовали модели Nano Banana Pro и GPT-5.2, которые не смогли переопределить своё суждение даже при наличии прямой подсказки о наличии шестого пальца.

Почему AI придерживается упрощённой логики при определении количества пальцев?

Это связано с тем, что современные ИИ-модели, основанные на архитектуре Transformer, работают на основе вероятностного подхода, а не точной геометрии, что мешает им учитывать структурные особенности объекта.

Какие пути решения предлагаются для улучшения восприятия ИИ?

Специалисты рассматривают внедрение смешанных архитектур, включающих 3D-сетки и геометрические ограничения, чтобы усилить способность AI к точному восприятию структурированных объектов.

Какие архитектурные изменения предлагаются для устранения ограничений?

Предлагаются локальные механизмы внимания и специализированные слои для обработки структурированных объектов, что поможет системе лучше справляться с задачами, требующими точности.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Аналитика и исследования; Передовые технологии

Темы: Вероятностный подход; Визуальное восприятие ИИ; Структура данных;

Оценка значимости: 7 из 10

Событие может заинтересовать широкую аудиторию в России, поскольку затрагивает развитие искусственного интеллекта — одну из ключевых технологических и экономических сфер. Ограничения в визуальном восприятии ИИ поднимают вопросы о его надёжности и применимости в реальных условиях, что может повлиять на доверие к технологиям в будущем. Хотя влияние на Россию косвенное, тема технологических вызовов имеет национальный интерес.

Материалы по теме

Google разработал тест для проверки точности ИИ-ассистентов — результаты удивили

Данные о тесте FACTS Benchmark Suite и результате Gemini 3 Pro (69% правильных ответов) используются для подтверждения тезиса о том, что современные ИИ-модели не гарантируют достоверность информации. Особенно важны цифры по многомодальным задачам (не более 50% точности), которые усиливают аргумент о необходимости человеческого контроля в ответственных сферах, таких как финансы и здравоохранение.

Подробнее →

Volkswagen Group закрывает дрезденскую фабрику и перестраивает инвестиции

Информация о закрытии дрезденской фабрики Volkswagen и её переориентации на исследования в области ИИ, робототехники и чипов служит примером масштабных изменений в промышленности под влиянием ИИ. Упоминание инвестиций в размере 5000 млн евро и сроков в семь лет подчеркивает значимость технологического сдвига и важность адаптации ИИ под конкретные задачи.

Подробнее →

Как защитить данные в ИИ-инструментах, если они запоминают всё

Данные о рисках утечки личных данных через публичные ИИ-модели, такие как случайное возвращение конфиденциальной информации другим пользователям или уязвимость к взлому, служат основой для обсуждения безопасности. Примеры ввода медицинских данных, адресов и номеров кредитных карт усиливают тезис о необходимости использовать корпоративные ИИ-инструменты и удалять историю общения.

Подробнее →