Все системы работают
14 января 2025 г. read 9 мин lang RU
Dplaxoravoramenthix Вернуться на главную
Кейс-стади

Кредитный скоринг за пределами FICO: реальный кейс

Елена Борисова / 9 мин / 14 января 2025 г.
Кредитный скоринг за пределами FICO: реальный кейс
Кредитный скоринг за пределами FICO: реальный кейс

Традиционные кредитные скоринговые модели опираются на исторические данные бюро, но для сегментов населения без кредитной истории эти методы малоэффективны. В 2024 году региональная финтех-платформа реализовала гибридный конвейер оценки рисков, где LLM-агенты анализировали неструктурированные данные — выписки по счетам, платёжное поведение, текстовые поля заявок — параллельно с классическими статистическими моделями. Проект продемонстрировал, как оркестрация нескольких моделей, строгие guardrails и человеческий надзор позволяют расширить охват клиентов, сохраняя приемлемый уровень дефолтов. Данный кейс иллюстрирует практические аспекты внедрения AI-автоматизации в высокорегулируемой среде, включая управление ошибками, мониторинг смещений и интеграцию с legacy-системами.

Ключевые выводы

  • Гибридная архитектура (классический скоринг + LLM-агенты для неструктурированных данных) повысила покрытие на 23% без роста дефолтов
  • Обязательный human-in-the-loop для решений с confidence score ниже 0,82 снизил ложноположительные отказы на 18%
  • Непрерывный мониторинг drift и fairness метрик выявил смещение модели через 6 недель, что потребовало переобучения
  • Vendor-neutral оркестрация (open-source frameworks) обеспечила гибкость при смене провайдеров LLM
23%
рост одобренных заявок без кредитной истории
340 мс
медианная задержка конвейера скоринга (p95: 890 мс)
97,4%
uptime агентного пайплайна за первые 90 дней

Контекст и бизнес-задача

Компания работала с микрокредитами для клиентов, не имеющих традиционной кредитной истории в бюро. Классическая FICO-модель отклоняла до 40% потенциально платёжеспособных заявителей из-за отсутствия данных. Бизнес-цель: увеличить approve rate, удерживая уровень дефолтов ниже 4,2%. Команда решила дополнить статистическую модель анализом альтернативных источников: истории транзакций по дебетовым картам, данных мобильных операторов (с согласия клиента), текстовых полей анкет. Ключевое ограничение — регуляторные требования объяснимости решений и запрет на использование защищённых атрибутов (этничность, религия). Архитектура должна была обеспечить audit trail для каждого решения, включая версии моделей, входные данные и confidence scores. Проект стартовал с пилота на 5% трафика, постепенно масштабируясь до 100% за 4 месяца. Инфраструктура развёрнута on-premise из-за требований к локализации данных.

Архитектура агентного конвейера

Конвейер состоял из пяти последовательных этапов. (1) Ingestion: унификация данных из CRM, банковских API, бюро, мобильных операторов в единую схему. (2) Feature engineering: классический пайплайн извлекал 47 числовых признаков (debt-to-income, payment velocity и т.д.). (3) LLM-агент: анализировал текстовые поля заявок и транзакционные описания, генерируя embeddings и structured outputs (категории расходов, стабильность дохода). Использовался fine-tuned энкодер на внутренних данных плюс zero-shot LLM для edge cases. (4) Ensemble scoring: взвешенная комбинация логистической регрессии (вес 0,6), градиентного бустинга (0,25) и LLM-derived score (0,15). (5) Decision gate: если итоговый confidence < 0,82, заявка направлялась андеррайтеру. Оркестрация реализована через open-source workflow engine с retry logic, circuit breakers и fallback на базовую модель при недоступности LLM. Все промежуточные результаты логировались в аудит-базу для последующего анализа и регуляторных проверок.

Архитектура агентного конвейера
Архитектура агентного конвейера

Guardrails и управление рисками

Команда внедрила многоуровневую систему guardrails. Input validation: проверка форматов, диапазонов, детекция аномалий (например, заявленный доход в 50 раз выше медианы). Fairness monitoring: ежедневный расчёт demographic parity и equalized odds по возрастным группам и регионам; алерты при отклонении метрик более чем на 3%. Model drift detection: сравнение распределений входных признаков и предсказаний с baseline через Kolmogorov-Smirnov тест; на 6-й неделе система зафиксировала drift в категории транзакций, связанный с сезонными изменениями поведения, что инициировало переобучение. Explainability: для каждого решения генерировались SHAP-значения топ-5 признаков и текстовое резюме от LLM (например, 'стабильный месячный доход, низкая волатильность расходов'). Adversarial testing: регулярные инъекции синтетических заявок с известными метками для проверки устойчивости. Все guardrails логировались и визуализировались в реальном времени для дежурной команды.

Результаты и операционные метрики

За первые 90 дней пилота конвейер обработал 14 700 заявок. Approve rate вырос с 58% (baseline, только классическая модель) до 71,3% при гибридном подходе — прирост 23%. Уровень дефолтов в когорте составил 4,1%, что укладывалось в целевой коридор. Медианная latency полного конвейера — 340 мс, p95 — 890 мс (SLA 1200 мс). Uptime агентного пайплайна — 97,4%; простои связаны с плановыми обновлениями и одним инцидентом с провайдером LLM API (митигирован fallback на кешированную модель). Human review потребовался для 19% заявок; из них 62% были одобрены андеррайтерами, что указывает на консервативность автоматической модели. Ложноположительные отказы (клиенты, отклонённые моделью, но одобренные вручную и не допустившие дефолт) снизились на 18% относительно baseline. Команда зафиксировала экономию 1,8 FTE андеррайтеров при одновременном росте качества решений. Операционные издержки на LLM API составили ~12% от сэкономленных затрат на персонал.

Результаты и операционные метрики

Уроки и рекомендации для внедрения

Ключевой урок: начинайте с малого трафика и строгих confidence thresholds, постепенно расширяя автоматизацию по мере накопления данных о производительности. Vendor lock-in минимизировали через абстракции: LLM-вызовы обёрнуты в единый интерфейс, позволяющий переключаться между провайдерами без изменения бизнес-логики. Регуляторный аудит прошёл успешно благодаря полному логированию и explainability; инспекторы запросили детали по 50 случайным заявкам, система предоставила audit trail за минуты. Неожиданная проблема: LLM иногда генерировал корректные embeddings, но текстовые объяснения содержали галлюцинации; решение — отделить numerical outputs (используемые в скоринге) от natural language summaries (только для андеррайтеров) и добавить fact-checking слой. Рекомендуется выделить 15-20% бюджета на continuous monitoring и retraining — модели деградируют быстрее в динамичных доменах. Документируйте все архитектурные решения и trade-offs для будущих итераций и знаний команды.

Заключение

Данный кейс демонстрирует, что гибридные AI-конвейеры могут расширить возможности традиционных скоринговых систем, сохраняя управляемость рисков. Ключевые факторы успеха: строгие guardrails, непрерывный мониторинг drift и fairness, обязательный human oversight для пограничных случаев, vendor-neutral архитектура. Проект подтвердил, что LLM-агенты эффективны для анализа неструктурированных данных, но требуют тщательной калибровки и интеграции с проверенными статистическими методами. Операционные метрики (latency, uptime, human review rate) должны отслеживаться наравне с бизнес-KPI. Регуляторная среда требует полной объяснимости и audit trail — инвестируйте в логирование и observability с первого дня. Следующие итерации команда планирует посвятить автоматической оптимизации весов ensemble и расширению альтернативных источников данных.

Отказ от ответственности Данная статья носит исключительно образовательный характер и не является рекомендацией к внедрению конкретных технологий или архитектур. Результаты AI-систем требуют валидации человеком и зависят от качества данных, инфраструктуры, регуляторного контекста. Автор и издание не гарантируют достижения описанных метрик в других условиях. Перед внедрением проконсультируйтесь с юристами и профильными специалистами.
Мы используем файлы cookie для улучшения вашего опыта. Политика cookies