Октябрь 2025   |   Обзор события   | 6

Claude столкнулся с тремя сбоями в инфраструктуре — как это повлияло на пользователей

Пользователи сервиса Claude в августе и начале сентября 2025 года столкнулись с ухудшением качества генерации ответов из-за трёх независимых, но пересекающихся ошибок в инфраструктуре, затрагивающих логику маршрутизации, настройку API и компиляцию кода. Компания признала, что проблемы проявлялись по-разному на разных аппаратных платформах, что осложняло их диагностику, и сообщила о внесении изменений в процессы для предотвращения подобных сбоев в будущем.

ИСХОДНЫЙ НАРРАТИВ

По данным блога компании «Энтропик» (Anthropic), в августе и начале сентября 2025 года пользователи сервиса Claude столкнулись с сокращением качества генерации ответов. Причиной стало возникновение трех независимых, но пересекающихся ошибок в инфраструктуре, а не с перегрузкой серверов или увеличением нагрузки. Компания подчеркивает, что качество вывода модели не снижалось из-за времени суток или объема запросов.

Каждая из проблем проявлялась по-разному на разных аппаратных платформах — AWS Trainium, NVIDIA GPU и Google TPU — что затрудняло диагностику. Ошибки касались логики маршрутизации, конфигурации API и компиляции кода. Среди наиболее значимых последствий:

  • Ошибка маршрутизации контекста в момент пиковой нагрузки 31 августа затронула 16% запросов на модель Sonnet 4.
  • Неправильная настройка API TPU вызвала сбои в генерации токенов, повлияв на Opus 4.1 и Opus 4 (25–28 августа) и Sonnet 4 (25 августа – 2 сентября).
  • Ошибка компиляции XLA для TPU из-за скрытого дефекта компилятора действовала почти две недели, затрагивая модель Claude Haiku 3.5.

Компания объясняет, что все три проблемы возникли на разных этапах инфраструктуры, что привело к разнонаправленным жалобам пользователей. «Энтропик» уже внесла изменения в процессы и обещает внедрить более чувствительные тесты, а также улучшить инструменты для анализа обратной связи от сообщества.

В сообществе высказались представители других крупных компаний. Клифф Чан, инженер из OpenAI, отметил, что инфраструктура машинного обучения — сложная задача, и команде «Энтропик» удалось качественно провести диагностику. Филипп Шмид, инженер по связям с сообществом в Google DeepMind, подчеркнул, что поддержание строгой эквивалентности моделей на трех разных платформах требует значительных усилий. Он также задался вопросом, стоит ли оно того, учитывая влияние на скорость разработки и пользовательский опыт.

В сообществе Hacker News Майк Хирн обратил внимание на отсутствие полноценных юнит-тестов для одного из сбоев. По его мнению, текущая практика тестирования больше напоминает воспроизведение ошибки, чем полноценное тестирование в автоматизированном режиме.

Интересно: Каковы реальные риски для пользователей при масштабной работе с несколькими аппаратными платформами? Может ли это стать стандартом в будущем или останется уделом отдельных лидеров рынка?

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ зависит от железа: три ошибки, три платформы, один риск

Как три независимых сбоя создали системный кризис

Работа ИИ-моделей, особенно на уровне, достигнутом у Claude, требует синхронизации нескольких слоев: от алгоритмов до железа. Однако недавний инцидент показывает, что даже при отсутствии перегрузки или человеческой ошибки, три технические проблемы, возникшие на разных этапах инфраструктуры, могут создать каскад последствий. Ошибки в маршрутизации контекста, настройке API и компиляции кода для TPU не только снизили качество вывода, но и подняли важный вопрос: насколько устойчивы текущие ИИ-платформы перед масштабным использованием?

Ключевой момент: проблема не в одной платформе — она в том, что ИИ-компании стремятся поддерживать эквивалентность моделей на нескольких, часто несовместимых, системах. Это требует не просто технической гибкости, но и глубокого контроля над всем стеком.

Почему это важно для бизнеса и ИИ-разработки

Ситуация с Claude подчеркивает, что масштабирование ИИ — это не только вопрос данных и алгоритмов, но и вопрос инфраструктуры. Когда модель распределяется между AWS, NVIDIA и Google TPU, это создает сложную экосистему, где каждая платформа имеет свои особенности, и каждая ошибка может проявиться по-разному. Для бизнеса это означает:

  • Риск нестабильности при критических задачах, таких как автоматизация юридических документов, медицинских диагнозов или финансовых прогнозов.
  • Зависимость от вендоров — если одна из платформ выйдет из строя, это может повлиять на весь стек.
  • Сложность мониторинга — три разных платформы, три разных симптома ошибки, три разных логов. Это требует от команд не просто технических навыков, но и системного мышления.

К чему это ведет? Масштабирование ИИ через несколько вендоров — это не только техническая задача, но и стратегическая. Компаниям нужно либо инвестировать в собственную инфраструктуру, либо рисковать устойчивостью продукта.

Когда ИИ становится системой, а не инструментом

Современные ИИ-модели уже не просто «умные алгоритмы» — они становятся частью критически важных систем, где их отказ влияет на бизнес-процессы. В таких условиях становится очевидным, что надежность ИИ — это не качество модели, а качество инфраструктуры.

Внутри компании, столкнувшейся с сбоями, возникла необходимость пересмотреть процессы тестирования, особенно автоматизацию. Отсутствие полноценных юнит-тестов, как отмечено в сообществе, привело к тому, что проблема осталась незамеченной почти две недели. Это показывает, что текущие практики тестирования ИИ-моделей не отвечают требованиям критических систем.

Тренд: В будущем, когда ИИ будет использоваться в авиации, медицине или энергетике, такие сбои могут быть не просто техническими, но и этическими или даже юридическими проблемами.

Галлюцинации ИИ: проблема, которую нельзя игнорировать

Недавнее исследование показало, что крупные языковые модели, включая ChatGPT, неизбежно генерируют ложную информацию — галлюцинации — из-за фундаментальных математических ограничений. Эти ошибки не устраняются даже при идеальной подготовке данных и связаны с эпистемической неопределённостью, архитектурными ограничениями и вычислительной сложностью.

Важно: текущие бенчмарки поощряют уверенность в ответах, даже если они ошибочны, что усугубляет проблему. Это требует от бизнеса новых подходов к управлению рисками, включая усиление участия человека, прозрачность и калиброванные оценки уверенности.

Контекст: исследования OpenAI показывают, что галлюцинации — это не техническая упущенная возможность, а неизбежная черта современных ИИ-моделей. Это подчеркивает необходимость пересмотра подходов к их применению в критических системах.

Платформенные стратегии и будущее AI-суверенитета

Современные ИИ-компании всё чаще выстраивают стратегии, ориентированные на платформенную независимость и суверенитет. Например, Cohere заключила стратегическое соглашение с AMD, позволяющее её моделям работать на GPU Instinct, что снижает зависимость от NVIDIA. Это указывает на растущую тенденцию к расширению экосистем, где разработчики стремятся минимизировать риски, связанные с вендор-локом.

Ключевой вывод: разнообразие вендоров не только снижает риски, но и способствует развитию более устойчивых ИИ-систем. Однако это требует дополнительных усилий по интеграции, тестированию и адаптации моделей к разным архитектурам.

Коротко о главном

Ошибка маршрутизации контекста затронула 16% запросов на Sonnet 4

Проблема проявилась в пиковые часы 31 августа и продолжала влиять на пользователей в течение нескольких дней.

Неправильная настройка API TPU повлияла на три модели Claude

Сбои в генерации токенов наблюдались у моделей Opus 4.1, Opus 4 и Sonnet 4 в период с 25 августа по 2 сентября.

Ошибка компиляции XLA для TPU действовала почти две недели

Дефект компилятора затрагивал модель Claude Haiku 3.5 и был обнаружен только после длительного периода.

Проблемы возникли на разных этапах инфраструктуры

Это привело к различным симптомам, что усложняло диагностику и объясняло разнонаправленные жалобы пользователей.

Компания обещает улучшить тестирование и анализ обратной связи

В «Энтропик» заявили, что внесли изменения в процессы и планируют внедрить более чувствительные тесты.

Сообщество отметило сложность поддержания эквивалентности моделей

Филипп Шмид из Google DeepMind подчеркнул, что работа с тремя аппаратными платформами требует значительных усилий и может сказываться на скорости разработки.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность

Оценка значимости: 6 из 10

Событие затрагивает зарубежную компанию и инфраструктуру, не имея прямого влияния на российских пользователей. Оно касается технических сбоев в работе AI-сервиса, что ограничивает сферу влияния одной областью — технологиями. Время воздействия — среднесрочное, так как проблемы длились от нескольких дней до двух недель. Хотя событие получило отклик в профессиональном сообществе, его связь с Россией минимальна, что снижает уровень интереса для местной аудитории.

Материалы по теме