FabricaONE.AI обеспечила банку доступность 99,99% и простои до 52 минут в год
Внедрение автономного контура для критичных микросервисов одного из ведущих банков России сократило допустимый простой системы до 52 минут в год. Автоматическое переключение за секунды и репликация бизнес-транзакций превратили защиту от сбоев и ошибок персонала в гарантированную часть архитектуры, а не опциональную функцию.
Компания Bell Integrator FabricaONE.AI (акционер – ГК Softline) реализовала проект по обеспечению доступности критичных микросервисов одного из ведущих банков России на уровне 99,99%. Это достижение сократило допустимое время простоя системы в год до 52 минут и исключило необходимость остановки сервисов при проведении плановых обновлений. Переход от простой резервной копии к полноценному независимому контуру с автоматическим переключением за секунды меняет стандарты надежности в финансовом секторе, делая защиту от сбоев и ошибок персонала гарантированной частью архитектуры, а не опциональной функцией.
Архитектура отказоустойчивости и автоматизация
Проект решал проблему единого контура, где любой сбой инфраструктуры или ошибка администратора баз данных приводила к полной недоступности сервиса. Новая архитектура построена на двух ключевых компонентах, работающих в связке:
- Служебный сервис «Прикладной журнал»: Управляет репликацией данных на уровне бизнес-логики, а не сырых записей базы данных. Это гарантирует, что в резервном контуре хранятся только логически завершенные транзакции, обеспечивая их целостность.
- DR-оркестратор: Обеспечивает автоматическое переключение на резервный контур при аварии. Процесс происходит без участия человека и занимает секунды, что критично для непрерывности бизнес-процессов.
Важный нюанс: Ключевое отличие решения — репликация именно бизнес-транзакций, а не «сырых» данных. Это исключает риск рассинхронизации и потери смысла операций при восстановлении системы.
Операционные преимущества для бизнеса
Внедренный паттерн позволяет банку проводить технологические работы без влияния на клиентов. Обновления и регламентные процедуры выполняются на одном контуре, пока второй обслуживает трафик в штатном режиме. Для бизнеса это означает:
- Защита от человеческого фактора: Некорректные действия при администрировании баз данных больше не ведут к критическим последствиям благодаря наличию независимого резерва.
- Гибкое управление ресурсами: Возможность выбирать объем дублируемых данных позволяет оптимизировать затраты на инфраструктуру без потери надежности.
- Мгновенный откат версий: При проблемах с обновленным ПО система может вернуться к предыдущей стабильной версии без длительного простоя.
- Масштабируемость: Разработанный подход является типовым и может быть тиражирован на десятки и сотни других критичных сервисов банка.
Стоит учесть: Переход к автономному резервному контуру трансформирует подход к обновлениям ПО. Теперь риск простоя при внедрении новых функций сведен к минимуму, что ускоряет цикл выпуска продуктов для клиентов.
Операционные последствия и скрытые риски
На основе фактов реализации проекта можно выделить следующие практические выводы для ИТ-инфраструктуры финансового сектора:
- Снижение зависимости от квалификации персонала: Автоматизация переключения и защита от ошибок администраторов баз данных снижают операционные риски, связанные с человеческим фактором, что особенно актуально в условиях дефицита высококвалифицированных специалистов.
- Изменение модели обслуживания: Возможность проведения работ без остановки сервиса требует пересмотра графиков техобслуживания и процедур тестирования, так как теперь они могут выполняться в режиме реального времени на одном из контуров.
- Рост требований к синхронизации: Работа на уровне прикладной логики повышает требования к качеству разработки микросервисов, так как ошибка в коде транзакции может быть реплицирована в резервный контур, если не будет корректно обработана на уровне журнала.
На фоне этого: Успех проекта демонстрирует, что для критичных систем приоритетом становится не просто наличие бэкапа, а создание полностью автономной среды, способной мгновенно взять на себя нагрузку при любых сценариях сбоя.
Источник: softline.ru