Claude столкнулся с тремя сбоями в инфраструктуре — как это повлияло на пользователей
Пользователи сервиса Claude в августе и начале сентября 2025 года столкнулись с ухудшением качества генерации ответов из-за трёх независимых, но пересекающихся ошибок в инфраструктуре, затрагивающих логику маршрутизации, настройку API и компиляцию кода. Компания признала, что проблемы проявлялись по-разному на разных аппаратных платформах, что осложняло их диагностику, и сообщила о внесении изменений в процессы для предотвращения подобных сбоев в будущем.
По данным блога компании «Энтропик» (Anthropic), в августе и начале сентября 2025 года пользователи сервиса Claude столкнулись с сокращением качества генерации ответов. Причиной стало возникновение трех независимых, но пересекающихся ошибок в инфраструктуре, а не с перегрузкой серверов или увеличением нагрузки. Компания подчеркивает, что качество вывода модели не снижалось из-за времени суток или объема запросов.
Каждая из проблем проявлялась по-разному на разных аппаратных платформах — AWS Trainium, NVIDIA GPU и Google TPU — что затрудняло диагностику. Ошибки касались логики маршрутизации, конфигурации API и компиляции кода. Среди наиболее значимых последствий:
- Ошибка маршрутизации контекста в момент пиковой нагрузки 31 августа затронула 16% запросов на модель Sonnet 4.
- Неправильная настройка API TPU вызвала сбои в генерации токенов, повлияв на Opus 4.1 и Opus 4 (25–28 августа) и Sonnet 4 (25 августа – 2 сентября).
- Ошибка компиляции XLA для TPU из-за скрытого дефекта компилятора действовала почти две недели, затрагивая модель Claude Haiku 3.5.
Компания объясняет, что все три проблемы возникли на разных этапах инфраструктуры, что привело к разнонаправленным жалобам пользователей. «Энтропик» уже внесла изменения в процессы и обещает внедрить более чувствительные тесты, а также улучшить инструменты для анализа обратной связи от сообщества.
В сообществе высказались представители других крупных компаний. Клифф Чан, инженер из OpenAI, отметил, что инфраструктура машинного обучения — сложная задача, и команде «Энтропик» удалось качественно провести диагностику. Филипп Шмид, инженер по связям с сообществом в Google DeepMind, подчеркнул, что поддержание строгой эквивалентности моделей на трех разных платформах требует значительных усилий. Он также задался вопросом, стоит ли оно того, учитывая влияние на скорость разработки и пользовательский опыт.
В сообществе Hacker News Майк Хирн обратил внимание на отсутствие полноценных юнит-тестов для одного из сбоев. По его мнению, текущая практика тестирования больше напоминает воспроизведение ошибки, чем полноценное тестирование в автоматизированном режиме.
Интересно: Каковы реальные риски для пользователей при масштабной работе с несколькими аппаратными платформами? Может ли это стать стандартом в будущем или останется уделом отдельных лидеров рынка?
Когда ИИ зависит от железа: три ошибки, три платформы, один риск
Как три независимых сбоя создали системный кризис
Работа ИИ-моделей, особенно на уровне, достигнутом у Claude, требует синхронизации нескольких слоев: от алгоритмов до железа. Однако недавний инцидент показывает, что даже при отсутствии перегрузки или человеческой ошибки, три технические проблемы, возникшие на разных этапах инфраструктуры, могут создать каскад последствий. Ошибки в маршрутизации контекста, настройке API и компиляции кода для TPU не только снизили качество вывода, но и подняли важный вопрос: насколько устойчивы текущие ИИ-платформы перед масштабным использованием?
Ключевой момент: проблема не в одной платформе — она в том, что ИИ-компании стремятся поддерживать эквивалентность моделей на нескольких, часто несовместимых, системах. Это требует не просто технической гибкости, но и глубокого контроля над всем стеком.
Почему это важно для бизнеса и ИИ-разработки
Ситуация с Claude подчеркивает, что масштабирование ИИ — это не только вопрос данных и алгоритмов, но и вопрос инфраструктуры. Когда модель распределяется между AWS, NVIDIA и Google TPU, это создает сложную экосистему, где каждая платформа имеет свои особенности, и каждая ошибка может проявиться по-разному. Для бизнеса это означает:
- Риск нестабильности при критических задачах, таких как автоматизация юридических документов, медицинских диагнозов или финансовых прогнозов.
- Зависимость от вендоров — если одна из платформ выйдет из строя, это может повлиять на весь стек.
- Сложность мониторинга — три разных платформы, три разных симптома ошибки, три разных логов. Это требует от команд не просто технических навыков, но и системного мышления.
К чему это ведет? Масштабирование ИИ через несколько вендоров — это не только техническая задача, но и стратегическая. Компаниям нужно либо инвестировать в собственную инфраструктуру, либо рисковать устойчивостью продукта.
Когда ИИ становится системой, а не инструментом
Современные ИИ-модели уже не просто «умные алгоритмы» — они становятся частью критически важных систем, где их отказ влияет на бизнес-процессы. В таких условиях становится очевидным, что надежность ИИ — это не качество модели, а качество инфраструктуры.
Внутри компании, столкнувшейся с сбоями, возникла необходимость пересмотреть процессы тестирования, особенно автоматизацию. Отсутствие полноценных юнит-тестов, как отмечено в сообществе, привело к тому, что проблема осталась незамеченной почти две недели. Это показывает, что текущие практики тестирования ИИ-моделей не отвечают требованиям критических систем.
Тренд: В будущем, когда ИИ будет использоваться в авиации, медицине или энергетике, такие сбои могут быть не просто техническими, но и этическими или даже юридическими проблемами.
Галлюцинации ИИ: проблема, которую нельзя игнорировать
Недавнее исследование показало, что крупные языковые модели, включая ChatGPT, неизбежно генерируют ложную информацию — галлюцинации — из-за фундаментальных математических ограничений. Эти ошибки не устраняются даже при идеальной подготовке данных и связаны с эпистемической неопределённостью, архитектурными ограничениями и вычислительной сложностью.
Важно: текущие бенчмарки поощряют уверенность в ответах, даже если они ошибочны, что усугубляет проблему. Это требует от бизнеса новых подходов к управлению рисками, включая усиление участия человека, прозрачность и калиброванные оценки уверенности.
Контекст: исследования OpenAI показывают, что галлюцинации — это не техническая упущенная возможность, а неизбежная черта современных ИИ-моделей. Это подчеркивает необходимость пересмотра подходов к их применению в критических системах.
Платформенные стратегии и будущее AI-суверенитета
Современные ИИ-компании всё чаще выстраивают стратегии, ориентированные на платформенную независимость и суверенитет. Например, Cohere заключила стратегическое соглашение с AMD, позволяющее её моделям работать на GPU Instinct, что снижает зависимость от NVIDIA. Это указывает на растущую тенденцию к расширению экосистем, где разработчики стремятся минимизировать риски, связанные с вендор-локом.
Ключевой вывод: разнообразие вендоров не только снижает риски, но и способствует развитию более устойчивых ИИ-систем. Однако это требует дополнительных усилий по интеграции, тестированию и адаптации моделей к разным архитектурам.