A/B-тестирование: понизить результат, чтобы двигаться вперёд
Итак, сегодня я хочу завершить цикл статей про A/B-тестирование, рассказав вам про новую статистическую схему тестирования. С этой схемой тестирования я познакомился совсем недавно, но очень хочу поделиться с вами, а заодно спросить, кто уже тестировал ее и какие получились результаты.
Итак, что же это за схема и чем она отличается от всего того, о чем я писал ранее?
Обычно, дизайн A/B-теста заключается в проверке гипотезы вида:
вариант В будет лучше варианта А на Х%
Такой дизайн эксперимента называет superior test.
Мы помним, что при такой схеме тестирования, мы, как правило, закладываем false positive rate на уровне 5%. Главное, что нужно вынести из этой (классической) схемы тестирования это то, что никакой A/B-тест не является 100% гарантией превосходного результата. И чем больше мы хотим сократить % ложных срабатываний, тем больше времени (читай - больший объем выборки) нам нужно.
Альтернативный дизайн A/B-теста заключается в проверке гипотезы вида:
вариант B будет хуже варианта A не более, чем на Y%
Такой вариант эксперимента называется non-inferior test.
Зачем нам вообще нужен такой дизайн эксперимента?
Вводная:
У вас на сайте есть форма, где клиент может оставить свой имейл. Форма использует стороннюю технологию (3rd party). Она работает медленно, технически с ней сложно работать, поверх нее нельзя наложить фирменный стиль.
Вы, как продакт-менеджер, приняли решение переписать ее на последней из доступных технологий. Программист все сделал. Теперь техническое решение легковесное, новая форма работает быстро и выглядит в фирменном стиле.
Но, есть одно но. Старая форма имела одно know-how, которое программист не смог воспроизвести и маркетинг заметил, что новая форма работает чуть-чуть менее результативно, чем старая форма.
Для таких случаев, когда строго ограниченные (небольшие) потери компенсируются другими, перевешивающими выгодами и существует non-inferior test.
Кейс:
Итак, изначальная ваша (superior) гипотеза была, что новая форма выиграет у старой:
Вносим вышеуказанные параметры в Booking Power Calculator и получаем ответ - сколько дней нам нужно проводить эксперимент.
Получив цифру мы немного расстраиваемся, т.к. ждать нам придется более 2,5 месяцев (84 дня).
Какие перспективы?
Если мы видим выгоды вне теста и готовы к строго ограниченным потерям в самом тесте, то альтернатива есть.
Мы можем переформатировать эксперимент. Выбираем в Booking Power Calculator опцию Use non inferiority test, а затем выбираем размер возможного отставания.
Для примера я выбрал absolute impact per day = 3, т.е. отставание в сборе имейлов составит до 3-х имейлов в день.
Выбрав объем потерь Booking Power Calculator сделал новую конфигурацию теста:
Количество времени необходимого для оценки теста значительно уменьшилось: с 84 дней до 36 дней, т.е. времени надо на 60% меньше!
Запустив такой тест и выждав положенные 36 дней мы сможем с уверенностью сказать, что если тест и проигрывает, то риск потерь контролируем и они составят не более, чем на 108 имейлов за период проведения теста.
РЕЗЮМЕ:
Основной смысл схемы тестирования non-inferior test - строго ограничить возможные потери, при этом получив side-effect выгоды.
Для тех проектов, где в расчет берутся все затраты на эксперимент (разработка, время ожидания/упущенная выгода, пост-поддержка и т.д.) такая схема позволяет достичь намного более привлекательный ROI, чем при классическом superior A/B-тестирование.
Итак, что же это за схема и чем она отличается от всего того, о чем я писал ранее?
Обычно, дизайн A/B-теста заключается в проверке гипотезы вида:
вариант В будет лучше варианта А на Х%
Такой дизайн эксперимента называет superior test.
Мы помним, что при такой схеме тестирования, мы, как правило, закладываем false positive rate на уровне 5%. Главное, что нужно вынести из этой (классической) схемы тестирования это то, что никакой A/B-тест не является 100% гарантией превосходного результата. И чем больше мы хотим сократить % ложных срабатываний, тем больше времени (читай - больший объем выборки) нам нужно.
Альтернативный дизайн A/B-теста заключается в проверке гипотезы вида:
вариант B будет хуже варианта A не более, чем на Y%
Такой вариант эксперимента называется non-inferior test.
Зачем нам вообще нужен такой дизайн эксперимента?
Вводная:
У вас на сайте есть форма, где клиент может оставить свой имейл. Форма использует стороннюю технологию (3rd party). Она работает медленно, технически с ней сложно работать, поверх нее нельзя наложить фирменный стиль.
Вы, как продакт-менеджер, приняли решение переписать ее на последней из доступных технологий. Программист все сделал. Теперь техническое решение легковесное, новая форма работает быстро и выглядит в фирменном стиле.
Но, есть одно но. Старая форма имела одно know-how, которое программист не смог воспроизвести и маркетинг заметил, что новая форма работает чуть-чуть менее результативно, чем старая форма.
Для таких случаев, когда строго ограниченные (небольшие) потери компенсируются другими, перевешивающими выгодами и существует non-inferior test.
Кейс:
Итак, изначальная ваша (superior) гипотеза была, что новая форма выиграет у старой:
- Конверсия старой формы: 15%
- Ожидаемый прирост: +15%
- Количество трафика в день: 100 человек
Вносим вышеуказанные параметры в Booking Power Calculator и получаем ответ - сколько дней нам нужно проводить эксперимент.
Получив цифру мы немного расстраиваемся, т.к. ждать нам придется более 2,5 месяцев (84 дня).
Какие перспективы?
- С одной стороны, мы можем решиться на эксперимент и ждать 84 дня.
- С другой стороны, новая форма может проиграть и тогда наши потери составят время на разработку/тест и недополученные имейлы.
Если мы видим выгоды вне теста и готовы к строго ограниченным потерям в самом тесте, то альтернатива есть.
Мы можем переформатировать эксперимент. Выбираем в Booking Power Calculator опцию Use non inferiority test, а затем выбираем размер возможного отставания.
Для примера я выбрал absolute impact per day = 3, т.е. отставание в сборе имейлов составит до 3-х имейлов в день.
Выбрав объем потерь Booking Power Calculator сделал новую конфигурацию теста:
Количество времени необходимого для оценки теста значительно уменьшилось: с 84 дней до 36 дней, т.е. времени надо на 60% меньше!
Запустив такой тест и выждав положенные 36 дней мы сможем с уверенностью сказать, что если тест и проигрывает, то риск потерь контролируем и они составят не более, чем на 108 имейлов за период проведения теста.
РЕЗЮМЕ:
Основной смысл схемы тестирования non-inferior test - строго ограничить возможные потери, при этом получив side-effect выгоды.
Для тех проектов, где в расчет берутся все затраты на эксперимент (разработка, время ожидания/упущенная выгода, пост-поддержка и т.д.) такая схема позволяет достичь намного более привлекательный ROI, чем при классическом superior A/B-тестирование.
Comments
Post a Comment