A/B-тестирование: понизить результат, чтобы двигаться вперёд

Итак, сегодня я хочу завершить цикл статей про A/B-тестирование, рассказав вам про новую статистическую схему тестирования. С этой схемой тестирования я познакомился совсем недавно, но очень хочу поделиться с вами, а заодно спросить, кто уже тестировал ее и какие получились результаты.

Итак, что же это за схема и чем она отличается от всего того, о чем я писал ранее?

Обычно, дизайн A/B-теста заключается в проверке гипотезы вида:
вариант В будет лучше варианта А на Х% 

Такой дизайн эксперимента называет superior test.

Мы помним, что при такой схеме тестирования, мы, как правило, закладываем false positive rate на уровне 5%. Главное, что нужно вынести из этой (классической) схемы тестирования  это то, что никакой A/B-тест не является 100% гарантией превосходного результата. И чем больше мы хотим сократить % ложных срабатываний, тем больше времени (читай - больший объем выборки) нам нужно.

Альтернативный дизайн A/B-теста заключается в проверке гипотезы вида:
вариант B будет хуже варианта A не более, чем на Y%

Такой вариант эксперимента называется non-inferior test.

Зачем нам вообще нужен такой дизайн эксперимента?

Вводная:

У вас на сайте есть форма, где клиент может оставить свой имейл. Форма использует стороннюю технологию (3rd party). Она работает медленно, технически с ней сложно работать, поверх нее нельзя наложить фирменный стиль.

Вы, как продакт-менеджер, приняли решение переписать ее на последней из доступных технологий. Программист все сделал. Теперь техническое решение легковесное, новая форма работает быстро и выглядит в фирменном стиле.

Но, есть одно но. Старая форма имела одно know-how, которое программист не смог воспроизвести и маркетинг заметил, что новая форма работает чуть-чуть менее результативно, чем старая форма.

Для таких случаев, когда строго ограниченные (небольшие) потери компенсируются другими, перевешивающими выгодами и существует non-inferior test.

Кейс:

Итак, изначальная ваша (superior) гипотеза была, что новая форма выиграет у старой:
  • Конверсия старой формы: 15%
  • Ожидаемый прирост: +15%
  • Количество трафика в день: 100 человек



Вносим вышеуказанные параметры в Booking Power Calculator и получаем ответ - сколько дней нам нужно проводить эксперимент.


Получив цифру мы немного расстраиваемся, т.к. ждать нам придется более 2,5 месяцев (84 дня).

Какие перспективы?
  • С одной стороны, мы можем решиться на эксперимент и ждать 84 дня. 
  • С другой стороны, новая форма может проиграть и тогда наши потери составят время на разработку/тест и недополученные имейлы.
Есть ли альтернатива?

Если мы видим выгоды вне теста и готовы к строго ограниченным потерям в самом тесте, то альтернатива есть.

Мы можем переформатировать эксперимент. Выбираем в Booking Power Calculator опцию Use non inferiority test, а затем выбираем размер возможного отставания.

Для примера я выбрал absolute impact per day = 3, т.е. отставание в сборе имейлов составит до 3-х имейлов в день.

Выбрав объем потерь Booking Power Calculator сделал новую конфигурацию теста:



Количество времени необходимого для оценки теста значительно уменьшилось: с 84 дней до 36 дней, т.е. времени надо на 60% меньше!

Запустив такой тест и выждав положенные 36 дней мы сможем с уверенностью сказать, что если тест и проигрывает, то риск потерь контролируем и они составят не более, чем на 108 имейлов за период проведения теста.

РЕЗЮМЕ:

Основной смысл схемы тестирования non-inferior test - строго ограничить возможные потери, при этом получив side-effect выгоды.

Для тех проектов, где в расчет берутся все затраты на эксперимент (разработка, время ожидания/упущенная выгода, пост-поддержка и т.д.) такая схема позволяет достичь намного более привлекательный ROI, чем при классическом superior A/B-тестирование.

Popular posts from this blog

RF-матрица как альтернатива для работы с LTV

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

LTV: классический подход прогнозирования Pareto/NBD