К основному контенту

A/B-тестирование: понизить результат, чтобы двигаться вперёд

Итак, сегодня я хочу завершить цикл статей про A/B-тестирование, рассказав вам про новую статистическую схему тестирования. С этой схемой тестирования я познакомился совсем недавно, но очень хочу поделиться с вами, а заодно спросить, кто уже тестировал ее и какие получились результаты.

Итак, что же это за схема и чем она отличается от всего того, о чем я писал ранее?

Обычно, дизайн A/B-теста заключается в проверке гипотезы вида:
вариант В будет лучше варианта А на Х% 

Такой дизайн эксперимента называет superior test.

Мы помним, что при такой схеме тестирования, мы, как правило, закладываем false positive rate на уровне 5%. Главное, что нужно вынести из этой (классической) схемы тестирования  это то, что никакой A/B-тест не является 100% гарантией превосходного результата. И чем больше мы хотим сократить % ложных срабатываний, тем больше времени (читай - больший объем выборки) нам нужно.

Альтернативный дизайн A/B-теста заключается в проверке гипотезы вида:
вариант B будет хуже варианта A не более, чем на Y%

Такой вариант эксперимента называется non-inferior test.

Зачем нам вообще нужен такой дизайн эксперимента?

Вводная:

У вас на сайте есть форма, где клиент может оставить свой имейл. Форма использует стороннюю технологию (3rd party). Она работает медленно, технически с ней сложно работать, поверх нее нельзя наложить фирменный стиль.

Вы, как продакт-менеджер, приняли решение переписать ее на последней из доступных технологий. Программист все сделал. Теперь техническое решение легковесное, новая форма работает быстро и выглядит в фирменном стиле.

Но, есть одно но. Старая форма имела одно know-how, которое программист не смог воспроизвести и маркетинг заметил, что новая форма работает чуть-чуть менее результативно, чем старая форма.

Для таких случаев, когда строго ограниченные (небольшие) потери компенсируются другими, перевешивающими выгодами и существует non-inferior test.

Кейс:

Итак, изначальная ваша (superior) гипотеза была, что новая форма выиграет у старой:
  • Конверсия старой формы: 15%
  • Ожидаемый прирост: +15%
  • Количество трафика в день: 100 человек



Вносим вышеуказанные параметры в Booking Power Calculator и получаем ответ - сколько дней нам нужно проводить эксперимент.


Получив цифру мы немного расстраиваемся, т.к. ждать нам придется более 2,5 месяцев (84 дня).

Какие перспективы?
  • С одной стороны, мы можем решиться на эксперимент и ждать 84 дня. 
  • С другой стороны, новая форма может проиграть и тогда наши потери составят время на разработку/тест и недополученные имейлы.
Есть ли альтернатива?

Если мы видим выгоды вне теста и готовы к строго ограниченным потерям в самом тесте, то альтернатива есть.

Мы можем переформатировать эксперимент. Выбираем в Booking Power Calculator опцию Use non inferiority test, а затем выбираем размер возможного отставания.

Для примера я выбрал absolute impact per day = 3, т.е. отставание в сборе имейлов составит до 3-х имейлов в день.

Выбрав объем потерь Booking Power Calculator сделал новую конфигурацию теста:



Количество времени необходимого для оценки теста значительно уменьшилось: с 84 дней до 36 дней, т.е. времени надо на 60% меньше!

Запустив такой тест и выждав положенные 36 дней мы сможем с уверенностью сказать, что если тест и проигрывает, то риск потерь контролируем и они составят не более, чем на 108 имейлов за период проведения теста.

РЕЗЮМЕ:

Основной смысл схемы тестирования non-inferior test - строго ограничить возможные потери, при этом получив side-effect выгоды.

Для тех проектов, где в расчет берутся все затраты на эксперимент (разработка, время ожидания/упущенная выгода, пост-поддержка и т.д.) такая схема позволяет достичь намного более привлекательный ROI, чем при классическом superior A/B-тестирование.

Популярные сообщения из этого блога

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Сегодня я хочу обсудить один важный момент в процессе анализа результатов A/B-тестов. И хотя это давно избитая тема, в ней есть много нюансов, которые могут изменить ваше решение о том, какой вариант выиграл.

Начнем с того, что до запуска теста, как правило, нужно определиться с целевой метрикой которую мы будем сравнивать между вариантами. Обычно такой метрикой выбирают конверсию.

Зачем это делать?

На то существуют две причины:
Прозаическая - понять, что вы способны посчитать эту метрику и сформировать свои ожидания.Практическая - определить минимальный объем выборки, на котором эти результаты будут статистически значимыми. Будучи, в первую очередь, маркетологом, и лишь затем data scientist, я стараюсь, по возможности, использовать внешние инструменты. Сегодня я покажу вам 3 внешних инструмента, на которые я полагаюсь при оценке A/B-тестов.
Итак, предположим, вы сейчас работаете над увеличением конверсии по добавлению товара в корзину. 
У вас есть гипотеза, что изменив Call-To-Action …

Дисконты, которые могут убить ваш бизнес

После поста "Несколько мыслей о дисконтах", мой друг data scientist Sergey Bryl, упомянул о своем опыте анализа клиентов, которые получали дисконты.

Смотрел churn rate на одном проекте в разрезе пришел клиент по демпинговой цене или близкой к обычной.По ритейл-клиентам около 2.5х разница на следующую покупку и на третью уже более 3х.По "оптовикам" это 6х... до третьей вообще почти никто не доходил.
Не долго думая, я решил посмотреть, а как будут обстоять дела с анализом, который я делал в прошлом посте, если я прежде промаркирую клиентов следующим образом:
клиенты, которые вообще не пользовались скидками (0)клиенты, у которых скидка была, как минимум, в первую покупку (1)клиенты, у которых скидка была, как минимум, со второй покупки (2+) Посмотрим вначале на доходность на клиента по 3-м группам:

На графике просматривается, что медиана у клиентов из группы (1) немного выше, чем у клиентов из группы (0). Т.е. скидка дающаяся на первую покупку все же подталкивает клиент…

Активация клиентов - мощный источник роста бизнеса

Для роста все бизнесы занимаются привлечением новых клиентов. Вы покупаете рекламу и получаете из нее новых клиентов. Это простая и понятная схема.

Однако, многие онлайн-сервисы часто предлагают клиенту зарегистрироваться.
Здесь, как правило, возможны два варианта:
покупка, где в фоном режиме клиента регистрируют в сервисерегистрация, только после которой можно совершить покупку Так вот шаг регистрации (с виду кажущийся незначительным) является важным дифференцирующим фактором, дающим возможность делать интересные исследования.
Мысль первая
Клиентов, которые зарегистрировались и готовы купить сразу (обычно в тот же день) очень не много.


Мы видим, что % клиентов, которые пришли, зарегистрировались и купили в тот же день (is_same_day_TRUE) - действительно мало. В примере выше, в зависимости от месяц привлечения, это, в среднем, около 5%.
Мысль вторая
Занимаясь улучшением привлечения через оптимизацию Landing Pages и Sign Up Forms мы можем улучшить эти показатели, однако, учитывая объемы кл…