A/B-тестирование: стоимости правильных и ошибочных решений

Недавно, пока я разбирался с тем, какой размер минимально необходимой выборки должен быть набран при неравномерном сплите, я наткнулся на весьма интересную статью.

Дело в том, что когда мы запускаем A/B-тест, мы обычно попадаем в две крайности:
  • мы либо вообще не берем в расчет статистическую значимость результата
  • либо слепо равняемся на статистические догмы:
    • p.value < 0.05
    • confidence level = 95%
    • statistical power = 80%
С одной стороны, в использовании статистики нет ничего плохо. Она действительно позволяет нам уйти от субъективной оценки результата, быть уверенным в том, что результат воспроизводим и не является случайностью. 

С другой стороны, бизнес не существует в вакууме. И каждое принятое нами решение имеет два дополнительных параметра:
  • время
  • стоимость
Причем, как правило, чем больше стоимость решения, тем больше времени мы готовы ждать. А на количество времени, необходимого для получения надежного результата, напрямую влияет какой confidence level мы выбираем. 

95% confidence level это золотой стандарт, который говорит нам, что лишь в 5% случаев мы примем решение, что результат значим, в то время как это будет случайность.

Но, если стоимость ошибочного решения не слишком большая, можем ли мы себе позволить ошибаться чаще?

Так вот, автор статьи предлагает очень простой подход, который позволяет подобрать confidence level исходя из того, насколько стоимость ошибочного решения выше стоимости правильного решения.

Суть решения в том, что мы определяем для себя стоимости ошибочного и правильного решения, а затем смотрим на разницу количества правильных решения, взвешенную на стоимость правильного решения и количества ошибочных решений взвешенную на стоимость ошибочного решения. 

Количество тестов определяется исходя из того, на какой confidence level мы хотим выйти.

Так мы определяем некую выгоду (gain) по нашей стратегии проведения экспериментов.

Давайте смоделируем ситуацию, когда стоимость ошибочного решения в раз превышает стоимость правильно решения.
Bad / Good costs ratio = 8x.

В этом случае, confidence level на уровне 95% вполне оправдан с точки зрения возможной выгоды.

Например, при базовой конверсии в 2% и ожидаемом lift в 5% (и стандартном confidence level = 95%), нам потребуется столько трафика на каждый вариант:

Confidence level = 95%.

Теперь давайте смоделируем ситуацию, когда стоимость ошибочного решения в раза превышает стоимость правильно решения.

Bad / Good costs ration = 4x.

Как мы видим, при уменьшении стоимости ошибочных решений требование к confidence level несколько ослабло (confidence level = 90%). 

А этого значит, что A/B-тест может быть закончен уже несколько раньше:

Confidence level = 90%

Размер минимально необходимой выборки уменьшился с 310К до 244К, т.е. сократился на 21%.

И напоследок давайте смоделируем ситуацию, когда стоимость ошибочного решения всего в  раза превышает стоимость правильно решения.

Bad / Good costs ratio = 2x.

В этом случае требование к confidence level существенно ослабло, confidence level = 78%!

Давайте посмотрим насколько это ускорит наш A/B-тест:

Confidence level = 78%.

Размер минимально необходимой выборки сократился с 310К до 169К, т.е. на 45%!

РЕЗЮМЕ:

Понимание того, на каком этапе развития ваш бизнес находится и каковы стоимости правильных и ошибочных решений, вы можете двигаться не только намного быстрее, но и при этом гарантировать для себя оптимальную финансовую выгоду.

Comments

Unknown said…
Спасибо! Как оптимальней всего определить стоимость правильно/ошибочного решения?
Paul Levchuk said…
Здесь нет одного рецепта. Я бы начал с того, что постарался прикинуть сколько я могу потерять, если я ошибся.
Например, я делаю изменение и оно может ухудшить конверсию на 3%. Дальше считаю, как это изменяет доход новых когорт за 6 месяцев и затем принимаю решение.

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн