惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cisco Talos Blog
Cisco Talos Blog
S
Securelist
C
Cisco Blogs
D
DataBreaches.Net
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
Vulnerabilities – Threatpost
Latest news
Latest news
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
S
SegmentFault 最新的问题
罗磊的独立博客
I
Intezer
雷峰网
雷峰网
T
Threatpost
博客园 - 叶小钗
阮一峰的网络日志
阮一峰的网络日志
A
About on SuperTechFans
AWS News Blog
AWS News Blog
A
Arctic Wolf
P
Privacy International News Feed
The Register - Security
The Register - Security
Vercel News
Vercel News
L
LangChain Blog
S
Schneier on Security
D
Docker
J
Java Code Geeks
L
LINUX DO - 热门话题
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
M
MIT News - Artificial intelligence
Spread Privacy
Spread Privacy
MyScale Blog
MyScale Blog
量子位
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
K
Kaspersky official blog
C
CERT Recently Published Vulnerability Notes
Know Your Adversary
Know Your Adversary
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Recorded Future
Recorded Future
C
Cyber Attacks, Cyber Crime and Cyber Security
Scott Helme
Scott Helme
Security Latest
Security Latest
人人都是产品经理
人人都是产品经理
T
Threat Research - Cisco Blogs
Cyberwarzone
Cyberwarzone
F
Full Disclosure
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Jina AI
Jina AI
NISL@THU
NISL@THU
P
Proofpoint News Feed
T
The Blog of Author Tim Ferriss

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Графовые нейросети для прогноза дефолта физических лиц
Даниэль · 2026-06-24 · via Все публикации подряд на Хабре

Графовые нейросети для прогноза дефолта физических лиц

Средний

7 мин

9

Всем привет! С вами снова команда прикладных исследований Альфа-банка. В этой статье мы продолжим рассказ про наши подходы к моделированию вероятности дефолта (PD) физических лиц и расскажем об экспериментах с графовыми нейронными сетями на социальных связях клиентов.

Интересующийся читатель может также предварительно прочитать про нейросетевые подходы к построению PD-моделей на последовательных данных.

Описание данных

Коротко напомним про постановку проблемы. Суть кредитного скоринга заключается в оценке рисков банка при выдаче кредита заемщику. Для этого вводится понятие вероятности дефолта (далее — PD). Классическое определение дефолта — наличие просроченной задолженности в течение более 90 дней подряд на горизонте года от даты скоринга.

Раньше мы всегда рассматривали каждого клиента банка индивидуально, но это представление является неполным. Клиенты банка образуют множество разнообразных связей как друг с другом, так и с неклиентами, информация о чём может быть очень полезной для предсказания того, выйдет ли тот или иной клиент в дефолт или нет.

Информация о таких связях естественным образом образует граф. Полученный нами граф имеет примерно 50 млн вершин и 500 млн узлов.

Эти данные можно обрабатывать двумя способами:

Способ №1. На основе информации о вершинах и ребрах графа создать витрину табличных признаков.

Классический подход, требующий довольно длительного времени для генерации и тестирования признаков, а также на вывод готовых витрин с признаками в промышленную эксплуатацию. Далее полученные табличные признаки подаются в градиентный бустинг или логистическую регрессию в качестве одного из доменов. В качестве плюсов такого подхода можно отметить то, что он может быть легко имплементирован в классические алгоритмы машинного обучения. Главным минусом является то, что неявная информация о характеристиках связей теряется, в результате чего теряется контекст.

№2. Можно построить графовую нейронную сеть. Такой способ является довольно требовательным к вычислительным ресурсам и объему данных, однако имеет ряд неоспоримых преимуществ перед классическими подходами. В частности, он позволяет учесть топологию графа связей, учесть характеристики не только вершин, но и ребер графа, а также способен делать прогноз даже при отсутствии части информации о связях и узлах графа, восстанавливая информацию из контекста.

Мы не будем подробно останавливаться на теоретическом описании графовых нейросетей. При желании читатель может легко найти много хороших теоретических разборов алгоритмов их работы.

Архитектура решения

Для построения социального графа мы использовали 6 типов связей:

  • переводы между счетами,

  • переводы по СБП,

  • реферальная программа,  

  • общие карты,

  • совместные займы,

  • связи по адресу.

В нашей команде уже было «табличное» решение, которое собирало контекст вокруг клиента — его ближайшее окружение. Мы брали несколько источников связей и по каждому независимо строили одношаговое окружение (one-hop): список лиц, с которыми у клиента есть связь. При этом в окружение попадали только те соседи, для которых доступен скор вторичной модели (риск-модели, которую обучают отдельно от нашей).

Дальше мы агрегировали (усредняли) скор по окружению. Для транзакционных связей использовали взвешенное среднее: чем больше сумма переводов и/или количество операций между клиентом и контрагентом, тем больше вклад этого контрагента в итоговый скор.  

Для остальных источников применяли обычное среднее.

Ограничения подхода

Подход в целом работал и давал эффект, но у него были заметные ограничения:

  1. Нет взаимодействия между источниками: каждый канал связи учитывается отдельно и «перекрёстные» эффекты теряются.  

  2. Слишком простая зависимость важности от переводов: вес контрагента растёт монотонно только с суммой/числом транзакций без учёта более сложных паттернов.  

  3. Теряется часть полезных деталей: в агрегировании пропадает явная информация о размерах и количестве переводов, а также о частоте и давности связей (особенно по нетранзакционным источникам) для каждого соседа конкретно.  

  4. Отбрасываем часть соседей: если по контрагенту нет скора вторичной модели, он исключается из окружения, даже если по нему можно собрать признаки и он потенциально важен.

Поэтому мы решили агрегировать больше информации об окружении клиентов с помощью графовой нейросети.

Признаками ребер нашего графа являются следующие характеристики:

  1. Количество и размер транзакций по внутренним переводам.

  2. Стандартное отклонение размера транзакций.

  3. Количество связей и дней с последней связи по реферальной программе.

  4. Количество связей и дней с последней связи по общим картам.

  5. Количество связей и дней с последней связи по общим заявкам на потребкредит.

  6. Флаг наличия общего мобильного устройства.

  7. Количество и размер транзакций по переводам СБП.

  8. Стандартное отклонение размера транзакций по СБП.

  9. Количество связей и дней с последней связи по общим заявкам на ипотеку.

  10. Максимальная степень близости из указанных в заявках на ипотеку.

Дальше перед нами встал вопрос о том, какие признаки отнести к вершинам.

В Альфа-банке есть довольно большой Feature store с десятками тысяч признаков, однако в силу ограниченности во времени и специфики задачи мы решили взять готовые эмбеддинги нейросетевой модели на данных БКИ, описанные в предыдущей статье.

Это решение имеет и логическое обоснование: при предположении, что дефолтные заемщики образуют в графе кластеры, их эмбеддинги должны отражать эту структуру и помогать выявлять такие группы. Однако в дальнейшем при развитии описываемого подхода мы протестируем эффект от добавления табличных фичей различной природы на ноды графа.

В качестве ядра модели была выбрана архитектура GATv2. 

GATv2 архитектура

Все числовые признаки мы кодировали с помощью Piecewise-Linear Embeddings (PLE) из yandex-research. Инициализацию бинов выполняли через квантили — их удобно и стабильно считать даже на больших объёмах данных. PLE применялись как к признакам вершин, так и к признакам рёбер: такой подход позволяет модели «видеть» числовые фичи в контексте всего распределения, а не привязываться к отдельным абсолютным значениям.

В построении модели на базе GATv2Conv можно выделить два характерных паттерна.

№1. Классический message passing. Графовые свёртки идут последовательно, а между ними используются нелинейности и (опционально) нормализация.

№2. Трансформероподобный вариант. Между слоями GATv2Conv добавляются FFN-блоки, которые помогают аккумулировать информацию и «подготовить» представления вершин к следующему обмену сообщениями.

Важно учитывать, что графовая свёртка в первую очередь отвечает за передачу информации между соседями, но сама по себе добавляет меньше нелинейности, чем MLP и функции активации. Нелинейная выразительность в таких архитектурах в значительной степени обеспечивается именно MLP-блоками.

По нашим экспериментам, если графовые свёртки используются строго последовательно (1 пункт), то более эффективно не усложнять readout-слои (MLP блок который обрабатывает эмбеддинги от Gat слоев и выдает логит) в конце, а усиливать MLP-блок перед первым GAT-слоем для признаков вершин. Интуитивно это выглядит так: модель сначала приводит представления вершин в «удобное» пространство, и уже затем максимально эффективно использует обмен сообщениями.

Тем не менее, лучшим по качеству оказался вариант с FFN между GAT-слоями (2 пункт) — он обошёл обе вариации классического message passing, описанные выше.

Обратные рёбра

Заметный прирост качества дала работа с обратными рёбрами. Наш граф в целом двунаправленный, так как, например, транзакции могут идти в обе стороны между клиентами, но не все связи имеют пару в обратную сторону (например, клиент A получал перевод от B, но B не получал переводов от A).

Мы последовательно внедрили два улучшения:

  1. Добавили семплирование обратных рёбер при построении подграфа.  

  2. Начали искусственно добавлять обратные рёбра, если их нет.

Оба изменения дали аплифт к исходным метрикам.

При искусственном добавлении обратных рёбер мы рассмотрели два способа формирования атрибутов нового ребра:

  1. Копировать признаки исходного ребра.  

  2. Выставлять значения, соответствующие отсутствию связи (условный «no‑edge» / «missing relation» паттерн), например, устанавливаем размер переводов между клиентами равным 0, что соответствует отсутствию связи.

Оба варианта дали сопоставимый результат (в пределах погрешности), поэтому предпочтительнее второй — у него более прозрачная и интуитивная интерпретация.

Мы остановились на 2-hop окружении, как на наиболее удачном компромиссе между информативностью и вычислительными затратами. Количество соседей ограничили числом 100 на первом hop-е и 200 на втором hop-е, что покрывает 99.8% и 99.9% распределения соседей соответственно.

Для ускорения экспериментов нам также помогла статья «Small batch size training for language models: when vanilla sgd works, and why gradient accumulation is wasteful». В данной статье явно показано, как при уменьшении batch_size расширяется пространство гиперпараметров, где трансформерные модели сходятся. Несмотря на рост времени одного цикла обучения модели из-за уменьшения batch size, суммарно мы выиграли время за счёт более быстрого и стабильного подбора гиперпараметров (меньше итераций «впустую» в поисках устойчивой сходимости).

Что еще попробовали? Hyper Connections показали хороший результат, однако в финальный пайплайн они не вошли из‑за необходимости дальнейшей оптимизации и заметного роста потребления памяти.

Из простых аугментаций, которые легко встраиваются в пайплайн, мы протестировали DropEdge и DropNode, но в нашем случае они не улучшили обобщающую способность модели.

Итоговый эффект

Совокупность описанных приёмов дала аплифт к модели на последовательностях БКИ (эмбеддинги которой использовались как признаки вершин) примерно на +5 п. Gini. Схожий прирост подтвердился и в эксперименте, где мы смешивали графовые эмбеддинги и эмбеддинги БКИ-модели.

Финальная архитектура модели выглядит следующим образом:

Она включает в себя 4 трансформер-блока с вниманием, реализованным через Gatv2Conv и простой FFN с GeLU в качестве функции активации. 

Что планируем пробовать дальше

№1. Сейчас все GAT-слои используют одинаковые edge-атрибуты (полученные через Linear и LayerNorm от PLE-эмбеддингов). Планируем добавить небольшой MLP перед подачей edge_attr в GAT, чтобы внести нелинейность и дать модели возможность лучше «подстроить» признаки рёбер.

№2. Заменить LayerNorm на DyT. Ожидаем потенциальное ускорение обучения без деградации качества.

№3. Заменить FFN на FFN из MoE, что увеличит число обучаемых параметров без заметного роста вычислительных затрат.

№4. Вернуться к Hyper Connections, но для этого потребуется оптимизация вычислений на CUDA, чтобы удержать потребление памяти и время обучения в разумных пределах.

№5. Переход к гетерогенным графам, например, добавление вершин магазинов, где совершают покупки клиенты юрлиц, являющихся работодателем клиентов и.т.п.

В целом наше предположение о том, что добавление информации о связях заёмщиков приводит к повышению качества прогноза дефолта, полностью подтвердилось. Совместно с бизнес-заказчиком было решено внедрить графовую нейронную сеть в качестве модуля в общую PD-модель для физических лиц.

В дальнейших планах мы хотим попробовать применить графовые нейросети в других задачах, где информация о связях может быть важной, например в задачах антифрода и задаче прогнозирования дохода клиента.