Традиционные кредитные скоринговые модели опираются на исторические данные бюро, но для сегментов населения без кредитной истории эти методы малоэффективны. В 2024 году региональная финтех-платформа реализовала гибридный конвейер оценки рисков, где LLM-агенты анализировали неструктурированные данные — выписки по счетам, платёжное поведение, текстовые поля заявок — параллельно с классическими статистическими моделями. Проект продемонстрировал, как оркестрация нескольких моделей, строгие guardrails и человеческий надзор позволяют расширить охват клиентов, сохраняя приемлемый уровень дефолтов. Данный кейс иллюстрирует практические аспекты внедрения AI-автоматизации в высокорегулируемой среде, включая управление ошибками, мониторинг смещений и интеграцию с legacy-системами.
Ключевые выводы
- Гибридная архитектура (классический скоринг + LLM-агенты для неструктурированных данных) повысила покрытие на 23% без роста дефолтов
- Обязательный human-in-the-loop для решений с confidence score ниже 0,82 снизил ложноположительные отказы на 18%
- Непрерывный мониторинг drift и fairness метрик выявил смещение модели через 6 недель, что потребовало переобучения
- Vendor-neutral оркестрация (open-source frameworks) обеспечила гибкость при смене провайдеров LLM
Контекст и бизнес-задача
Компания работала с микрокредитами для клиентов, не имеющих традиционной кредитной истории в бюро. Классическая FICO-модель отклоняла до 40% потенциально платёжеспособных заявителей из-за отсутствия данных. Бизнес-цель: увеличить approve rate, удерживая уровень дефолтов ниже 4,2%. Команда решила дополнить статистическую модель анализом альтернативных источников: истории транзакций по дебетовым картам, данных мобильных операторов (с согласия клиента), текстовых полей анкет. Ключевое ограничение — регуляторные требования объяснимости решений и запрет на использование защищённых атрибутов (этничность, религия). Архитектура должна была обеспечить audit trail для каждого решения, включая версии моделей, входные данные и confidence scores. Проект стартовал с пилота на 5% трафика, постепенно масштабируясь до 100% за 4 месяца. Инфраструктура развёрнута on-premise из-за требований к локализации данных.
Архитектура агентного конвейера
Конвейер состоял из пяти последовательных этапов. (1) Ingestion: унификация данных из CRM, банковских API, бюро, мобильных операторов в единую схему. (2) Feature engineering: классический пайплайн извлекал 47 числовых признаков (debt-to-income, payment velocity и т.д.). (3) LLM-агент: анализировал текстовые поля заявок и транзакционные описания, генерируя embeddings и structured outputs (категории расходов, стабильность дохода). Использовался fine-tuned энкодер на внутренних данных плюс zero-shot LLM для edge cases. (4) Ensemble scoring: взвешенная комбинация логистической регрессии (вес 0,6), градиентного бустинга (0,25) и LLM-derived score (0,15). (5) Decision gate: если итоговый confidence < 0,82, заявка направлялась андеррайтеру. Оркестрация реализована через open-source workflow engine с retry logic, circuit breakers и fallback на базовую модель при недоступности LLM. Все промежуточные результаты логировались в аудит-базу для последующего анализа и регуляторных проверок.

- Ingestion & normalization: API-коннекторы к 4 внешним источникам, схема валидации входных данных, обработка missing values
- Dual-track feature extraction: Параллельный запуск классического feature engineering и LLM-анализа для минимизации задержки
- Ensemble & confidence calibration: Калибровка вероятностей через isotonic regression, динамическая настройка порогов на основе бизнес-метрик
- Human-in-the-loop routing: Автоматическая эскалация пограничных случаев, dashboard для андеррайтеров с объяснениями модели
Guardrails и управление рисками
Команда внедрила многоуровневую систему guardrails. Input validation: проверка форматов, диапазонов, детекция аномалий (например, заявленный доход в 50 раз выше медианы). Fairness monitoring: ежедневный расчёт demographic parity и equalized odds по возрастным группам и регионам; алерты при отклонении метрик более чем на 3%. Model drift detection: сравнение распределений входных признаков и предсказаний с baseline через Kolmogorov-Smirnov тест; на 6-й неделе система зафиксировала drift в категории транзакций, связанный с сезонными изменениями поведения, что инициировало переобучение. Explainability: для каждого решения генерировались SHAP-значения топ-5 признаков и текстовое резюме от LLM (например, 'стабильный месячный доход, низкая волатильность расходов'). Adversarial testing: регулярные инъекции синтетических заявок с известными метками для проверки устойчивости. Все guardrails логировались и визуализировались в реальном времени для дежурной команды.
Результаты и операционные метрики
За первые 90 дней пилота конвейер обработал 14 700 заявок. Approve rate вырос с 58% (baseline, только классическая модель) до 71,3% при гибридном подходе — прирост 23%. Уровень дефолтов в когорте составил 4,1%, что укладывалось в целевой коридор. Медианная latency полного конвейера — 340 мс, p95 — 890 мс (SLA 1200 мс). Uptime агентного пайплайна — 97,4%; простои связаны с плановыми обновлениями и одним инцидентом с провайдером LLM API (митигирован fallback на кешированную модель). Human review потребовался для 19% заявок; из них 62% были одобрены андеррайтерами, что указывает на консервативность автоматической модели. Ложноположительные отказы (клиенты, отклонённые моделью, но одобренные вручную и не допустившие дефолт) снизились на 18% относительно baseline. Команда зафиксировала экономию 1,8 FTE андеррайтеров при одновременном росте качества решений. Операционные издержки на LLM API составили ~12% от сэкономленных затрат на персонал.

Уроки и рекомендации для внедрения
Ключевой урок: начинайте с малого трафика и строгих confidence thresholds, постепенно расширяя автоматизацию по мере накопления данных о производительности. Vendor lock-in минимизировали через абстракции: LLM-вызовы обёрнуты в единый интерфейс, позволяющий переключаться между провайдерами без изменения бизнес-логики. Регуляторный аудит прошёл успешно благодаря полному логированию и explainability; инспекторы запросили детали по 50 случайным заявкам, система предоставила audit trail за минуты. Неожиданная проблема: LLM иногда генерировал корректные embeddings, но текстовые объяснения содержали галлюцинации; решение — отделить numerical outputs (используемые в скоринге) от natural language summaries (только для андеррайтеров) и добавить fact-checking слой. Рекомендуется выделить 15-20% бюджета на continuous monitoring и retraining — модели деградируют быстрее в динамичных доменах. Документируйте все архитектурные решения и trade-offs для будущих итераций и знаний команды.
Заключение
Данный кейс демонстрирует, что гибридные AI-конвейеры могут расширить возможности традиционных скоринговых систем, сохраняя управляемость рисков. Ключевые факторы успеха: строгие guardrails, непрерывный мониторинг drift и fairness, обязательный human oversight для пограничных случаев, vendor-neutral архитектура. Проект подтвердил, что LLM-агенты эффективны для анализа неструктурированных данных, но требуют тщательной калибровки и интеграции с проверенными статистическими методами. Операционные метрики (latency, uptime, human review rate) должны отслеживаться наравне с бизнес-KPI. Регуляторная среда требует полной объяснимости и audit trail — инвестируйте в логирование и observability с первого дня. Следующие итерации команда планирует посвятить автоматической оптимизации весов ensemble и расширению альтернативных источников данных.