Почему +0.3% к ROC‑AUC почти всегда шум, и как это проверить

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

artem · 2026-06-17 · via Все публикации подряд на Хабре

Средний

6 мин

Вы поменяли набор признаков, прогнали кросс‑валидацию, ROC‑AUC вырос с 0.871 до 0.874. Изменение уезжает в продакшен как улучшение, в чате ставят плюсы, через месяц на свежих данных «улучшенная» модель работает не лучше прежней, а иногда хуже. Прирост на третьем знаке утонул в шуме самой процедуры валидации, и отличить его от настоящего сдвига по одному числу было нельзя с самого начала.

Корень в том, что метрика на отложенной выборке — это не свойство модели, а случайная величина: она зависит от того, какие объекты попали в тест, с каким зерном перемешались данные, как нарезались фолды. У этой величины есть разброс, и если прирост меньше разброса, никакого прироста нет. Разберём, откуда берётся шум, как его измерить и как сравнивать модели так, чтобы вывод был воспроизводимым.

Один прогон ничего не говорит о разнице

Одиночный train/test split или одна пятифолдовая кросс‑валидация дают одно число, и по нему невозможно понять, насколько оно устойчиво. Достаточно прогнать ту же модель на той же выборке с разными зёрнами разбиения, чтобы увидеть собственный разброс оценки:

from sklearn.model_selection import RepeatedStratifiedKFold, cross_val_score

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=0)
scores = cross_val_score(model, X, y, cv=cv, scoring="roc_auc")
scores.mean(), scores.std()      # например, 0.872 ± 0.009

Если стандартное отклонение оценки 0.009, то разница в 0.003 между двумя моделями лежит внутри собственного шума процедуры. Повторённая кросс‑валидация с несколькими разбиениями на разных зёрнах — минимальный способ увидеть этот разброс, а одиночный фолд его просто прячет, выдавая одно число с видимостью точности.

Сравнивать модели нужно на одних и тех же фолдах

Сравнивать средние двух независимых прогонов — ошибка: тогда в разницу попадает и разброс из‑за того, что фолды бывают разной сложности. Правильная величина — разность метрик двух моделей на одних и тех же фолдах. Сложность конкретного разбиения сокращается, и остаётся именно эффект модели:

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=0)
scores_a = cross_val_score(model_a, X, y, cv=cv, scoring="roc_auc")
scores_b = cross_val_score(model_b, X, y, cv=cv, scoring="roc_auc")

diff = scores_b - scores_a       # на тех же фолдах, поэлементно
diff.mean(), diff.std()

Одно и то же зерно cv гарантирует, что scores_a[i] и scores_b[i] посчитаны на идентичном разбиении, и поэлементное вычитание имеет смысл. Если средняя разность сопоставима со своим стандартным отклонением или меньше него — различия нет.

Здесь подстерегает тонкость со статистическими тестами. Парный t‑тест по фолдам кросс‑валидации соблазнительно применить к diff, но он антиконсервативен: фолды делят между собой обучающие данные, их оценки скоррелированы, а тест считает их независимыми, занижает дисперсию и выдаёт значимость там, где её нет.

Честнее использовать поправку Надо‑Бенжио на скоррелированность повторных прогонов или схему 5×2cv, либо вообще не полагаться на p‑значение, а смотреть на доверительный интервал разности и относиться к нему скептически.

Лотерея случайного зерна

У многих моделей результат зависит от случайности: инициализация весов, перемешивание данных, сабсэмплинг в бустинге, нарезка фолдов. Один и тот же пайплайн на разных зёрнах даёт распределение метрик, и если перебрать несколько зёрен и оставить лучшее, вы сообщаете не качество модели, а удачу конкретного запуска.

aucs = [run_pipeline(seed=s) for s in range(20)]
np.mean(aucs), np.std(aucs), np.max(aucs)   # отчитываться по среднему, не по max

Качество модели — это среднее и разброс по зёрнам, а не максимум. Соблазн взять лучший запуск особенно опасен при сравнении двух моделей: одной достаётся удачное зерно, другой нет, и разница оказывается полностью случайной. Зерно фиксируют ради воспроизводимости, но судят по распределению, а не по единственной удачной точке.

Чем больше вариантов вы перебрали, тем удачливее победитель

Если перебрать пятьдесят наборов признаков или конфигураций гиперпараметров и выбрать лучший по валидации, его метрика смещена вверх — это проклятие победителя. Даже когда все варианты по сути одинаковы, лучший из пятидесяти случайно обгонит бейзлайн просто потому, что вариантов было пятьдесят. Чем шире перебор, тем сильнее смещение и тем меньше валидационный максимум говорит о реальном качестве.

Защита — разделить выбор и оценку. Гиперпараметры и признаки подбираются на одних данных, а итоговое качество измеряется на финальном тесте, которого перебор не касался; в кросс‑валидации это вложенная схема, где подбор живёт во внутреннем цикле, а замер — во внешнем. Финальный отложенный кусок трогается ровно один раз, иначе он быстро превращается в ещё одну валидацию, по которой вы незаметно начинаете оптимизироваться.

Доверительный интервал вместо одного числа

Метрика на тесте — оценка по конечной выборке, и у неё есть доверительный интервал, зависящий от размера теста. Бутстрап даёт его без предположений о распределении: пересэмплируем тест с возвращением и пересчитываем метрику.

from sklearn.metrics import roc_auc_score

def bootstrap_auc_ci(y_true, y_score, n=2000, alpha=0.05):
    rng = np.random.default_rng(0)
    idx = np.arange(len(y_true))
    aucs = []
    for _ in range(n):
        b = rng.choice(idx, len(idx), replace=True)
        if len(np.unique(y_true[b])) < 2:   # бутстрап выбил один класс
            continue
        aucs.append(roc_auc_score(y_true[b], y_score[b]))
    return np.quantile(aucs, [alpha / 2, 1 - alpha / 2])

Одиночное значение 0.874 на тесте из тысячи объектов легко имеет интервал вроде [0.855, 0.892]. Две модели, чьи интервалы почти полностью перекрываются, на этих данных неразличимы, сколько бы ни отличался третий знак их точечных оценок. Доверительный интервал сразу показывает, есть ли вообще разрешающая способность у вашего теста: если он шире целого процента, спор о трёх десятых долях беспредметен.

Как сравнивать модели честно

Все приёмы сводятся к одному: метрика — случайная величина, и прирост меньше её шума приростом не считается. На практике это означает повторённую кросс‑валидацию вместо одного фолда, сравнение моделей по поэлементной разности на одних и тех же разбиениях, отчёт в виде среднего с разбросом или доверительным интервалом вместо голого числа, фиксацию зерна с оценкой по распределению, а не по лучшему запуску, и финальный тест, которого касаются один раз. Порог простой: прирост, который меньше стандартного отклонения вашей собственной процедуры, считают шумом, пока не доказано обратное.

Последний арбитр живёт вне офлайн‑валидации. Настоящее улучшение должно пережить переход на свежие данные из будущего и подтвердиться A/B‑тестом в проде, потому что именно там модель встречает распределение, которого не было ни в одном фолде. Офлайн‑сравнение лишь отсеивает заведомый шум, чтобы до прода доезжали только кандидаты, у которых эффект больше собственного разброса измерения.

Итого

Чтобы отличить улучшение от шума, сравнивайте модели на одних и тех же фолдах по поэлементной разности, измеряйте разброс повторённой кросс‑валидацией и бутстрап‑интервалом, не отчитывайтесь по лучшему зерну и лучшему из полусотни вариантов, держите финальный тест нетронутым.

Статистические тесты на фолдах применяйте с поправкой на их скоррелированность, а не вслепую. И помните, что единственное окончательное подтверждение — устойчивость эффекта на будущих данных и в A/B, потому что прирост, не переживший смену распределения, приростом не был.

Статьи по теме

Статьи по теме

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить — о нарезке документов, гибридном поиске, реранкинге и создании eval-датасета для проверки изменений.
Возвращение RAG в 2026 году — о развитии RAG-систем, многоэтапных пайплайнах и метриках, которые помогают оценивать качество поиска и ответов.

Когда метрика растёт, важно понимать, улучшилась ли модель или вам просто повезло с выборкой. Разобраться в поведении ML‑алгоритмов и научиться осмысленно оценивать результат помогут бесплатные открытые уроки OTUS.

На занятиях преподаватели‑практики покажут подходы на реальных задачах, познакомят с форматом обучения и ответят на вопросы.

1 июля в 18:00. «Градиентный бустинг — мощный алгоритм ансамблирования в ML».
_{как устроен бустинг, откуда берётся прирост качества и почему высокая метрика не всегда означает устойчивый результат.}
15 июля в 18:00. «Решаем задачу регрессии методами ML на Python».
^{как подготовить данные, обучить модель и проверить, насколько её выводам можно доверять.}

Полный список бесплатных уроков смотрите в дайджесте.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Один прогон ничего не говорит о разнице

Сравнивать модели нужно на одних и тех же фолдах

Лотерея случайного зерна

Чем больше вариантов вы перебрали, тем удачливее победитель

Доверительный интервал вместо одного числа

Как сравнивать модели честно

Итого