惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Webroot Blog
Webroot Blog
The Register - Security
The Register - Security
Last Week in AI
Last Week in AI
WordPress大学
WordPress大学
N
News and Events Feed by Topic
H
Heimdal Security Blog
小众软件
小众软件
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
C
CERT Recently Published Vulnerability Notes
博客园 - 司徒正美
Hugging Face - Blog
Hugging Face - Blog
S
Secure Thoughts
The Cloudflare Blog
大猫的无限游戏
大猫的无限游戏
Latest news
Latest news
Simon Willison's Weblog
Simon Willison's Weblog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
美团技术团队
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
S
SegmentFault 最新的问题
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Threatpost
Recent Commits to openclaw:main
Recent Commits to openclaw:main
罗磊的独立博客
J
Java Code Geeks
Jina AI
Jina AI
C
CXSECURITY Database RSS Feed - CXSecurity.com
Cloudbric
Cloudbric
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy & Cybersecurity Law Blog
L
LINUX DO - 最新话题
量子位
P
Palo Alto Networks Blog
O
OpenAI News
N
News | PayPal Newsroom
博客园_首页
C
Cyber Attacks, Cyber Crime and Cyber Security
有赞技术团队
有赞技术团队
人人都是产品经理
人人都是产品经理
Apple Machine Learning Research
Apple Machine Learning Research
V
V2EX
T
Tailwind CSS Blog
博客园 - Franky
AWS News Blog
AWS News Blog
V
Visual Studio Blog
L
Lohrmann on Cybersecurity
宝玉的分享
宝玉的分享
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
P
Privacy International News Feed

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Линеаризация. Увеличиваем мощность А/Б тестов с метрикой отношения
Николай Назаров · 2026-06-18 · via Все публикации подряд на Хабре

Линеаризация. Увеличиваем мощность А/Б тестов с метрикой отношения

7 мин

58

Хабр, привет! В одной из прошлых статей мы обсуждали метрики отношения и разбирали, как оценивать эксперименты с помощью дельта-метода и бутстрепа. Сегодня рассмотрим ещё один подход — линеаризацию.

Линеаризация переводит метрику отношения в обычную пользовательскую метрику и позволяет легко применять техники повышения чувствительности, например CUPED и стратификацию. Разберём пример оценки эксперимента с помощью линеаризации. Посмотрим, к чему приводит изменение распределения знаменателя. Покажем как применять линеаризацию с CUPED.

Меня зовут Коля, я работаю аналитиком данных в X5 Tech. Мы с Сашей продолжаем писать серию статей по А/Б тестированию. Предыдущие статьи можно найти в описании профиля.

Линеаризация

В ходе А/Б теста мы воздействуем на объекты, проводим измерения, вычисляем по ним метрику эксперимента и оцениваем значимость отличий. Метрики отношения возникают, когда с одного объекта мы получаем не строго одно измерение, а несколько. 

Например, проводим эксперимент в онлайн-магазине. Объекты — покупатели магазина, на которых мы воздействуем рассылкой push-уведомлений и выжидаем неделю. За это время одни покупатели ничего не купят, другие совершат одну покупку, третьи — несколько покупок. Метрика эксперимента — средний чек, то есть отношение суммы стоимостей покупок к их количеству:

\mathfrak{R} = \dfrac{X_1 + \ldots + X_N}{Y_1 + \ldots + Y_N}

где X_u— общая сумма покупок u-го покупателя, Y_u — количество его покупок, аN— количество покупателей в эксперименте.

Чтобы лучше почувствовать разницу, приведём пример обычной пользовательской метрики. Для неё с каждого объекта получаем одно измерение, считаем измерения независимыми и применяем к ним обычные статистические тесты. Например, можно посчитать среднюю сумму покупок пользователя за неделю:

\mathfrak{M} = \dfrac{X_1 + \ldots + X_N}{N}

Чтобы оценить эксперимент с метрикой отношения с помощью линеаризации, нужно выполнить следующие шаги:

  1. Вычисляем точечную оценку метрики отношения по данным контрольной группы:

\kappa = \mathfrak{R}_A = \frac{\sum_{u\in A} X_u}{\sum_{u\in A} Y_u}

гдеA— множество покупателей, попавших в контрольную группу.

  1. Для каждого объекта вычисляем линеаризованное значение:

L_u = X_u - \kappa Y_u

  1. Применяем t-тест к линеаризованным значениям метрики. Получаем p-value и точечное значение эффекта и принимаем решение согласно дизайну эксперимента.

Почему линеаризация работает с теоретической точки зрения, подробно разобрано в оригинальной статье Consistent Transformation of Ratio Metrics for Efficient Online Controlled Experiments.

Доверительный интервал

Описанный выше алгоритм проверяет гипотезу о равенстве средних линеаризованных метрик:

H_0: \mathfrak{L}_A = \mathfrak{L}_B,\ \text{ где }\ \mathfrak{L}_A = \frac{\sum_{u\in A} L_u}{N}\ \text{ и }\ \mathfrak{L}_B = \frac{\sum_{u\in B} L_u}{N}

Для приращения линеаризованной метрики \Delta \mathfrak{L} = \mathfrak{L}_B - \mathfrak{L}_A можно построить доверительный интервал [l, r] с уровнем значимости \alpha:

\mathbb{P}(l \le \Delta \mathfrak{L} \le r) = 1-\alpha

Покажем, что приращение линеаризованной метрики \Delta \mathfrak{L} и приращение исходной метрики отношения \Delta \mathfrak{R} линейно связаны. Обозначим средние значения пользовательских метрик контрольной и экспериментальных групп как \overline{X}_A, \overline{X}_B, \overline{Y}_A, \overline{Y}_B.

\begin{align}    \Delta\mathfrak{R} &= \mathfrak{R}_B-\mathfrak{R}_A= \frac{\overline{X}_B}{\overline{Y}_B} - \frac{\overline{X}_A}{\overline{Y}_A} \\    \Delta\mathfrak{L} &= \mathfrak{L}_B-\mathfrak{L}_A= \left(\overline{X}_B - \kappa \overline{Y}_B\right) - \left(\overline{X}_A - \kappa \overline{Y}_A\right) = \\         &= \overline{X}_B-\frac{\overline{X}_A}{\overline{Y}_A} \overline{Y}_B =  \overline{Y}_B\ \Delta\mathfrak{R}  \end{align}

Подставим получившееся выражение в формулу с границами доверительного интервала:

P(l \le \overline{Y}_B \cdot \Delta R \le r) = 1 - \alpha

Если \overline{Y}_B положительное, то, поделив на \overline{Y}_B все части неравенства, получим доверительный интервал для приращения исходной метрики отношения \Delta\mathfrak{R}: [l/\overline{Y}_B,\ r/\overline{Y}_B].

Пример применения линеаризации

Оценим эксперимент с метрикой отношения. Проверяем гипотезу о равенстве средних чеков. Сгенерируем данные двух групп по 100 покупателей. Для каждого покупателя случайно определим количество совершённых покупок от 1 до 5 и среднюю стоимость покупки в диапазоне от 600 до 1400. Добавив случайный шум со стандартным отклонением 200, получим стоимости покупок пользователей. После этого применим к данным описанный выше алгоритм линеаризации и получим p-value.

from collections import defaultdict
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

def generate_data(sample_size=100, y_min=1, y_max=5, mean_v=1000, range_v=400, noise_std=200):
    """Генерирует данные со стоимостью покупок.
    
    sample_size - размер групп
    y_min - минимальное количество покупок пользователя
    y_max - максимальное количество покупок пользователя
    mean_v - среднее значение среднего чека пользователей
    range_v - разброс среднего чека пользователей
    noise_std - разброс стоимости покупок

    return: матрица из двух столбцов с метриками X и Y. 
    """
    v_min, v_max = mean_v - range_v, mean_v + range_v
    base = np.random.uniform(v_min, v_max, (sample_size, 1))
    Y = np.random.randint(y_min, y_max+1, sample_size)
    noise = np.random.normal(0, noise_std, (sample_size, y_max))
    mX = (base + noise).astype(int)
    data = np.array([[x[:y].sum(), y] for x, y in zip(mX, Y)])
    return data

def check_linearization(a, b):
    """Проверяет гипотезу с помощью линеаризации.

    a, b - np.array матрицы из двух столбцов с метриками X и Y,
        содержащие данные контрольной и экспериментальной групп.

    return: pvalue
    """
    a_x, a_y = a.T
    b_x, b_y = b.T
    kappa = np.sum(a_x) / np.sum(a_y)
    a_lin = a_x - kappa * a_y
    b_lin = b_x - kappa * b_y
    _, pvalue = stats.ttest_ind(a_lin, b_lin)
    return pvalue

a = generate_data(mean_v=mean_v)
b = generate_data(mean_v=mean_v)
pvalue = check_linearization(a, b)
print(f'pvalue = {pvalue:0.3f}')
# pvalue = 0.823

Проверка корректности

Теперь проверим, что линеаризация работает корректно. Для этого проведём по 10000 синтетических А/А и А/Б экспериментов и построим распределения p-value.

Пример кода
def plot_pvalue_distribution(dict_pvalues):
    """Рисует графики распределения p-value."""
    X = np.linspace(0, 1, 1000)
    for key, pvalues in dict_pvalues.items():
        Y = [np.mean(pvalues < x) for x in X]
        plt.plot(X, Y, label=key)
    plt.plot([0, 1], [0, 1], '--k', alpha=0.8)
    plt.title('Оценка распределения p-value', size=16)
    plt.xlabel('p-value', size=12)
    plt.legend(fontsize=12)
    plt.grid()
    plt.show()

mean_v = 1000
effect = 60

dict_pvalues = defaultdict(list)
for _ in range(10000):
    a = generate_data(mean_v=mean_v)
    b = generate_data(mean_v=mean_v)
    pvalue = check_linearization(a, b)
    dict_pvalues['AA'].append(pvalue)
    b = generate_data(mean_v=mean_v+effect)
    pvalue = check_linearization(a, b)
    dict_pvalues['AB'].append(pvalue)

plot_pvalue_distribution(dict_pvalues)
Оценка распределения p-value

Оценка распределения p-value

Распределение p-value на А/А тестах близко к равномерному, а на А/Б тестах выпукло вверх. Критерий работает корректно.

Изменение распределения знаменателя

В теоретическом обосновании линеаризации есть ряд предположений. Одно из них состоит в том, что распределение знаменателя не должно сильно меняться.

Проверим, что будет, если нарушить условие. Изменим распределение количества покупок в группах. В контрольной группе покупатели совершают от 1 до 5 покупок, а в экспериментальной от 3 до 5. При этом средняя стоимость покупки остаётся одинаковой для обеих групп. В такой постановке средние чеки на самом деле равны, поэтому p-value должен быть распределён равномерно. Проверим это на синтетических A/A-экспериментах.

dict_pvalues = defaultdict(list)
for _ in range(10000):
    a = generate_data(y_min=1, y_max=5)
    b = generate_data(y_min=3, y_max=5)
    pvalue = check_linearization(a, b)
    dict_pvalues['change Y'].append(pvalue)
plot_pvalue_distribution(dict_pvalues)
Оценка распределения p-value

Оценка распределения p-value

На графике видно, что p-value распределено неравномерно. Хотя средние чеки в группах равны, критерий чаще получает маленькие p-value и чаще ошибочно находит эффект там, где его нет.

Получается, изменение распределения знаменателя ломает критерий. Это нужно учитывать при дизайне эксперимента.

CUPED

Основное преимущество линеаризации при оценке метрик отношения в том, что после неё можно удобно применять техники повышения чувствительности. Поэтому разберём, как оценить эксперимент с метрикой отношения, используя линеаризацию с CUPED. В качестве ковариаты для CUPED возьмём линеаризованные метрики пользователей, посчитанные на данных до эксперимента.

Алгоритм оценки выглядит так:

  1. Считаем линеаризованные значения метрик пользователей во время эксперимента и до эксперимента;

  2. Применяем CUPED, используя линеаризованные метрики до эксперимента в качестве ковариат;

  3. Получаем p-value и точечную оценку эффекта, после чего принимаем решение.

Алгоритм оценки с CUPED

Алгоритм оценки с CUPED

Часто возникает вопрос, какое значение параметра kappa использовать для вычисления линеаризованных метрик ковариаты. В линеаризации мы используем одно значение kappa для обеих групп, поэтому может показаться, что для ковариаты можно взять то же самое значение. Но kappa для линеаризации ковариаты нужно вычислять отдельно, по данным до эксперимента. Это позволяет не подглядывать в будущее и гарантировать независимость ковариаты от влияния эксперимента, как этого требует CUPED.

Проверим, что линеаризация с CUPED даёт бо́льшую мощность, чем линеаризация без CUPED. Для этого будем генерировать данные, в которых средний чек пользователя до эксперимента коррелирует со средним чеком во время эксперимента. Затем оцениваем эксперименты двумя способами. Сначала используем линеаризацию без CUPED, затем линеаризацию с CUPED. Проведём синтетические А/Б тесты и построим распределения p-value.

Пример кода с CUPED
def generate_data_2(
        sample_size=100,
        y_min=1,
        y_max=5,
        mean_v=1000,
        range_v=400,
        noise_std=200,
        effect=0
):
    """Генерирует данные со стоимостью покупок до и во время эксперимента.
    
    sample_size - размер групп
    y_min - минимальное количество покупок пользователя
    y_max - максимальное количество покупок пользователя
    mean_v - среднее значение среднего чека пользователей
    range_v - разброс среднего чека пользователей
    noise_std - разброс стоимости покупок
    effect - размер эффекта

    return: две матрицы с данными до и во время эксперимента.
        Каждая матрица состоит из двух столбцов с метриками X и Y. 
    """
    v_min, v_max = mean_v - range_v, mean_v + range_v
    base = np.random.uniform(v_min, v_max, (sample_size, 1))
    res = []
    for _ in range(2):
        Y = np.random.randint(y_min, y_max+1, sample_size)
        noise = np.random.normal(0, noise_std, (sample_size, y_max))
        if _ == 0:
            mX = (base + effect + noise).astype(int)
        else:
            mX = (base + noise).astype(int)
        data = np.array([[x[:y].sum(), y] for x, y in zip(mX, Y)])
        res.append(data)
    return res

def check_linearization_cuped(a, b, a_cov, b_cov):
    """Проверяет гипотезу с помощью линеаризации и CUPED.

    a, b - np.array матрицы из двух столбцов с метриками X и Y,
        содержащие данные контрольной и экспериментальной групп
        во время эксперимента.
    a_cov, b_cov - np.array матрицы из двух столбцов с метриками
        X и Y, содержащие данные контрольной и экспериментальной
        групп до эксперимента.

    return: pvalue
    """
    # линеаризуем метрику
    a_x, a_y = a.T
    b_x, b_y = b.T
    kappa = np.sum(a_x) / np.sum(a_y)
    a_lin = a_x - kappa * a_y
    b_lin = b_x - kappa * b_y
    
    # линеаризуем ковариату
    a_cov_x, a_cov_y = a_cov.T
    b_cov_x, b_cov_y = b_cov.T
    kappa_cov = np.sum(a_cov_x) / np.sum(a_cov_y)
    a_cov_lin = a_cov_x - kappa_cov * a_cov_y
    b_cov_lin = b_cov_x - kappa_cov * b_cov_y

    # cuped
    metric = np.hstack([a_lin, b_lin])
    cov = np.hstack([a_cov_lin, b_cov_lin])
    covariance = np.cov(metric, cov)[0, 1]
    variance = np.var(cov)
    theta = covariance / variance
    
    a_cuped = a_lin - theta * a_cov_lin
    b_cuped = b_lin - theta * b_cov_lin
    _, pvalue = stats.ttest_ind(a_cuped, b_cuped)
    return pvalue


effect = 60

dict_pvalues = defaultdict(list)
for _ in range(10000):
    a, a_cov = generate_data_2()
    b, b_cov = generate_data_2(effect=effect)

    pvalue = check_linearization(a, b)
    dict_pvalues['without cuped'].append(pvalue)
    pvalue = check_linearization_cuped(a, b, a_cov, b_cov)
    dict_pvalues['with cuped'].append(pvalue)

plot_pvalue_distribution(dict_pvalues)
Оценка распределения p-value

Оценка распределения p-value

Распределение p-value у линеаризации с CUPED выпукло вверх сильнее, чем у линеаризации без CUPED. CUPED позволяет увеличить мощность критерия.

Итоги

Линеаризация — это практичный способ оценки А/Б тестов с метрикой отношения, который позволяет легко применять техники повышения чувствительности. Мы рассмотрели, как работает линеаризация и как её применять вместе с CUPED.

Важно помнить, что метод имеет границы применимости. Одна из них — распределение знаменателя — не должно сильно изменяться. При сильном изменении распределения знаменателя вероятность ошибок увеличивается.

Также можно прочитать статьи о том, как честнее и быстрее оценивать эффекты в экспериментах:

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital
Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик