Skip to main content

A/B-тестирование: понизить результат, чтобы двигаться вперёд

Итак, сегодня я хочу завершить цикл статей про A/B-тестирование, рассказав вам про новую статистическую схему тестирования. С этой схемой тестирования я познакомился совсем недавно, но очень хочу поделиться с вами, а заодно спросить, кто уже тестировал ее и какие получились результаты.

Итак, что же это за схема и чем она отличается от всего того, о чем я писал ранее?

Обычно, дизайн A/B-теста заключается в проверке гипотезы вида:
вариант В будет лучше варианта А на Х% 

Такой дизайн эксперимента называет superior test.

Мы помним, что при такой схеме тестирования, мы, как правило, закладываем false positive rate на уровне 5%. Главное, что нужно вынести из этой (классической) схемы тестирования  это то, что никакой A/B-тест не является 100% гарантией превосходного результата. И чем больше мы хотим сократить % ложных срабатываний, тем больше времени (читай - больший объем выборки) нам нужно.

Альтернативный дизайн A/B-теста заключается в проверке гипотезы вида:
вариант B будет хуже варианта A не более, чем на Y%

Такой вариант эксперимента называется non-inferior test.

Зачем нам вообще нужен такой дизайн эксперимента?

Вводная:

У вас на сайте есть форма, где клиент может оставить свой имейл. Форма использует стороннюю технологию (3rd party). Она работает медленно, технически с ней сложно работать, поверх нее нельзя наложить фирменный стиль.

Вы, как продакт-менеджер, приняли решение переписать ее на последней из доступных технологий. Программист все сделал. Теперь техническое решение легковесное, новая форма работает быстро и выглядит в фирменном стиле.

Но, есть одно но. Старая форма имела одно know-how, которое программист не смог воспроизвести и маркетинг заметил, что новая форма работает чуть-чуть менее результативно, чем старая форма.

Для таких случаев, когда строго ограниченные (небольшие) потери компенсируются другими, перевешивающими выгодами и существует non-inferior test.

Кейс:

Итак, изначальная ваша (superior) гипотеза была, что новая форма выиграет у старой:
  • Конверсия старой формы: 15%
  • Ожидаемый прирост: +15%
  • Количество трафика в день: 100 человек



Вносим вышеуказанные параметры в Booking Power Calculator и получаем ответ - сколько дней нам нужно проводить эксперимент.


Получив цифру мы немного расстраиваемся, т.к. ждать нам придется более 2,5 месяцев (84 дня).

Какие перспективы?
  • С одной стороны, мы можем решиться на эксперимент и ждать 84 дня. 
  • С другой стороны, новая форма может проиграть и тогда наши потери составят время на разработку/тест и недополученные имейлы.
Есть ли альтернатива?

Если мы видим выгоды вне теста и готовы к строго ограниченным потерям в самом тесте, то альтернатива есть.

Мы можем переформатировать эксперимент. Выбираем в Booking Power Calculator опцию Use non inferiority test, а затем выбираем размер возможного отставания.

Для примера я выбрал absolute impact per day = 3, т.е. отставание в сборе имейлов составит до 3-х имейлов в день.

Выбрав объем потерь Booking Power Calculator сделал новую конфигурацию теста:



Количество времени необходимого для оценки теста значительно уменьшилось: с 84 дней до 36 дней, т.е. времени надо на 60% меньше!

Запустив такой тест и выждав положенные 36 дней мы сможем с уверенностью сказать, что если тест и проигрывает, то риск потерь контролируем и они составят не более, чем на 108 имейлов за период проведения теста.

РЕЗЮМЕ:

Основной смысл схемы тестирования non-inferior test - строго ограничить возможные потери, при этом получив side-effect выгоды.

Для тех проектов, где в расчет берутся все затраты на эксперимент (разработка, время ожидания/упущенная выгода, пост-поддержка и т.д.) такая схема позволяет достичь намного более привлекательный ROI, чем при классическом superior A/B-тестирование.

Comments

Popular posts from this blog

RF-матрица как альтернатива для работы с LTV

Итак, в прошлом посте мы прошлись по основным шагам, которые нужны для грамотного расчета LTV используя классический подход Pareto/NBD.

Сегодня мы будем говорить об LTV в другом контексте - упрощенно-прикладном.

Итак, перед вам Life Cycle Grid.

Название и концепцию этой замечательной технике дал выдающий маркетолог Jim Novo. Обязательно перечитайте его блог, особенно ранние статьи.


По сути - LCG это RF(M) матрица:
По горизонтальной оси вы смотрите на Recency (недавность последней покупки);По вертикальной оси вы смотрите на Frequency (количество покупок);В каждой ячейке вы видите количество клиентов с определенными параметрами R и F. Построив такую матрицу мы можем сразу ответить на много вопросов, но нас сейчас интересует всего четыре: какие клиенты критически важны для бизнеса?
(правый верхний квадрант)каких клиентов реально развивать дальше?
(правый нижний квадрант)какие клиенты вероятно потеряны для бизнеса?
(левый верхний квадрант)какие клиенты не интересны для бизнеса? Уверен, пока вы…

LTV: классический подход прогнозирования Pareto/NBD

Прогнозирование LTV - задача весьма нетривиальная. Почему? Потому, что для прогноза LTV нам потребуются 3 отдельные (независимые) оценки:
распределение повторных покупокраспределение оттока клиентовраспределение среднего чека покупок Это сложные математические задачи и, очень здорово, что ученые мужи взялись за них и решили (причем давно, в 1987 году). Сегодня мы бегло пройдемся по классическому подходу прогнозирования LTV под названием Pareto/NBD.

Начну с того, что этот алгоритм применяется в ситуациях, где нет регулярных платежей (т.е. не контрактная форма оплаты как, например, в e-commerce).

Также отмечу, что примечателен этот подход тем, что для его реализации нам потребуется самый обычный лог транзакций.

Первое, что мы делаем так это формируем специальную таблицу. Называется она Customer-Centric-Statistic (CBS).


Не вдаваясь в подробности, могу сказать, что эта таблица формируется из RFM статистики (frequency - "x", recency - "t.x", monetary - "sales.x"…

Игры в модели атрибуции рекламных каналов (Last click, Markov chain, Shapley value)

Обычно, я не играю в игры с моделями атрибуций рекламных каналов.

В работе с сессиями я почти всегда пользуюсь данными из Google Analytics (GA). Это система хороша тем, что мне не нужно заботиться о том, где хранить данные о заходах на сайт, как определять продолжительность сессии и т.д. Все эти вопросы закрывает Google Analytics.

При заходе пользователя на сайт GA соотносит (атрибутирует) этого пользователя к одному из известных источников трафика.
Если GA может определить источник трафика, то она атрибутирует пользователя к этому источнику трафика.  Если GA не может определить источник трафика (зашел на сайт direct, в URL нет utm-меток и еще в ряде случаев), то она возьмет последний недавний источник трафика (не direct) из которого пришел пользователь. Эта модель атрибуции называется Last Non-Direct Click (LNDC). Она используется во всех отчетах GA кроме отчетов из секций Multi-Channel Funnel и Attribution.

Двумя побочными эффектами LNDC модели атрибуции являются:
повышение долгосрочн…