Posts

NPS - метрика без предиктивной силы

Image
Недавно я выступал на конференции про e-commerce в секции Лояльность. Т.к. меня давно интересовал NPS, я решился ознакомиться с открытыми источниками и исследованиями на тему NPS. Ниже я делюсь несколькими моментами, которые мне показались интересными.

Маркетологи часто ставят знак равенства между NPS и retention. Давайте посмотрим насколько NPS коррелирует с retention?


На чарте выше мы видим, что retention у компаний из нижнего и среднего NPS квартиля практически одинаковый. Только компании, которые в своей индустрии обладают самыми высокими показателями NPS имеют retention на 5-10% выше.

Теперь давайте зададим себе другой вопрос.

Является ли NPS вопросом, который помогает оценить удовлетворенность и т.о. спрогнозировать вероятность повторной покупки?


Из чарта выше видно, что информация о самой поездке имеет для AirBnb более сильную предиктивную силу, чем LTR (NPS). Более того, если добавить к этой информации NPS как дополнительный предиктор, то точность модели изменится очень незнач…

Атрибуция рекламных каналов: вариативность модели атрибуции Shapley value

Image
Сегодня я хочу поделиться опытом того, как я проверял насколько модель вектор Шепли чувствительна к вариативности данных.

Зачем мне это нужно?
Канал, с которого приходит клиент - случайная величина.Конверсия из канала Х может иметь (и как правило имеет) сильную вариативность от недели к неделе: запускаются новые компании, часть старых компаний оптимизируется, часть компаний просто выключается из-за отсутствия окупаемости. Исходя из этого возникает вопрос: будет ли модель вектор Шепли (которая учитывает влияние всех цепочек) оставаться относительно стабильной при сильной вариативности активных цепочек?

Давайте это проверим.

(1) Итак, как я писал в одном из предыдущих постов про атрибуцию, я сгенерировал около ~13k клиентских цепочек.


(2) Важно отметить, что если сделать агрегацию цепочек, то уникальных цепочек окажется намного меньше - всего 273(!) цепочки.


Такой размер выборки уже может наводить на мысль, что вполне могут найтись 2-3 ключевые цепочки, которые, если выбросить, могут сущ…

Атрибуция рекламных каналов: чувствительность к порядку каналов в цепочке для методов Markov chain и Shapley value

Image
Сегодня я продолжу тему атрибуции рекламных каналов. К сожалению, эта тема очень мало описана в маркетинговой литературе (нет никаких эмпирических правил и фундаментальных исследований), а потому понять как вариация каналов повлияет на атрибуцию, без симуляции - не представляется возможным.

Итак, в прошлый раз мы рассмотрели три вида атрибуции: last_click, markov_chain и shapley_value. Также из прошлого поста мы помним, что:
markov_chain (Цепи Маркова) - должны быть в достаточной степени чувствителны к изменению порядка каналов в цепочке;shapley_value (Вектор Шепли) - подход старается равномерно распределить ценность и для него порядок каналов в цепочке не играет роли. Сегодня мы проверим на практике насколько оба метода атрибуции чувствительны к изменению порядка каналов в цепочке.
Датасет я взял из прошлого поста. Ниже пример того, как в этом датасете выглядят цепочки каналов для некоторых пользователей:

Затем я просто реверсировал их и они начали выглядеть вот так:

Как мы видим на ч…

Игры в атрибуцию рекламных каналов (Last click, Markov chain, Shapley value)

Image
Обычно, я не играю в игры с атрибуцией рекламных каналов.

В работе с сессиями я почти всегда пользуюсь данными из Google Analytics (GA). Это система хороша тем, что мне не нужно заботиться о том, где хранить данные о заходах на сайт, как определять продолжительность сессии и т.д. Все эти вопросы закрывает Google Analytics.

При заходе пользователя на сайт GA соотносит (атрибутирует) этого пользователя к одному из известных источников трафика.
Если GA может определить источник трафика, то она атрибутирует пользователя к этому источнику трафика.  Если GA не может определить источник трафика (зашел на сайт direct, в URL нет utm-меток и еще в ряде случаев), то она возьмет последний недавний источник трафика (не direct) из которого пришел пользователь. Эта схема атрибуции называет Last Non-Direct Click (LNDC). Она используется во всех отчетах GA кроме отчетов из секций Multi-Channel Funnel и Attribution.

Двумя побочными эффектами LNDC атрибуции являются:
повышение долгосрочного эффекта запуще…

A/B-тестирование: последовательное семплирование как способ закончить A/B-тест раньше

Image
Итак, недавно в закрытом комьюнити reforge поднимался вопрос про A/B-тесты и доверительные интервалы. И там, Brian Balfour (бывший VP Growth @ HubSpot), упомянул, что помимо работы с p-value важно:
формировать сильные (читай - со значительными изменениями) гипотезы и стремиться закончить успешный A/B-тест как можно раньше. Сейчас мы не будем обсуждать первый аспект - как формировать сильные гипотезы. Обычно, в каждом конкретном случае, нужно оценивать нужды каждой группы пользователей и отдавать себе отчет в реальной ценности, которую продукт дает клиентам на этом этапе, а также насколько эта ценность четко коммуницируется.

Но второй аспект - время на завершение теста - более универсален и часто может прорабатываться без такого глубокого погружения в контекст продукта.

Начну с того, что позволю себе напомнить с чего начинается запуск A/B-теста:
взять цифру базовой конверсииоценить ожидаемый прирост конверсии (лифт)рассчитать размер минимально необходимой выборки Здесь важно отметить два…

Клиент: непредсказуемая предсказуемость

Image
Итак, какое-то время назад я читал исследование о том, что происходит с клиентами, которые сделали одну покупку (one-time buyers). Основной тезис исследования заключался в том, что таких клиентов, как правило, очень много (~60%) и чтобы улучшить их активацию на вторую покупку их надо как-то сегментировать и делать персонализированные офера.

Для того, чтобы персонализировать офер, важно понять, что мы знаем о клиентах, которые сделали следующие шаги (2+ покупки) и пытаться применить эти знания к one-time buyers.

Найденных в исследовании инсайтов было три:
день недели в котором была совершена 1-я покупка имеет больше шансов быть следующим днем покупки, чем все остальные дни недели;период дня в котором была совершена 1-я покупка имеет больше шансов быть следующим периодом дня для покупки, чем все остальные периоды;сумма 1-й покупки имеет больше шансов быть следующей суммой покупки, чем все остальные суммы. Недолго думая, я решил взять один e-commerce датасет с нерегулярными покупками и по…

LTV: вероятность совершения повторной покупки

Image
Я думаю, вы уже пришли к выводу, что в работе с LTV главное рассчитывать вероятность совершения повторной покупки и быстро реагировать на ее снижение.

Существуют разные подходы к ее оценке, но все они так или иначе связаны с поведенческими характеристиками, причем практически всегда характеристика #1 это Recency.

Сегодня я покажу вам 3 подхода к оценке вероятности совершения повторной покупки (от менее точного к более точному):
на основе Recency и Latencyна основе Recency,Lifetime, Frequencyна основе модели Pareto/NBD Прелесть каждого из подходов в том, что мы рассчитываем вероятность совершения повторной покупки для каждого клиента индивидуально (не на основе когорты).

Оценка вероятности на основе Recency и Latency
Начну с того, что бегло напомню вам разницу между Recency и Latency.
Recency - время, которое прошло с момента совершения последней покупки до сейчас. R = today() - last_order_date
Latency - среднее время между покупками. L = ( last_order_date - first_order_date ) / ( Frequenc…

RF-матрица как альтернатива для работы с LTV

Image
Итак, в прошлом посте мы прошлись по основным шагам, которые нужны для грамотного расчета LTV используя классический подход Pareto/NBD.

Сегодня мы будем говорить об LTV в другом контексте - упрощенно-прикладном.

Итак, перед вам Life Cycle Grid.

Название и концепцию этой замечательной технике дал выдающий маркетолог Jim Novo. Обязательно перечитайте его блог, особенно ранние статьи.


По сути - LCG это RF(M) матрица:
По горизонтальной оси вы смотрите на Recency (недавность последней покупки);По вертикальной оси вы смотрите на Frequency (количество покупок);В каждой ячейке вы видите количество клиентов с определенными параметрами R и F. Построив такую матрицу мы можем сразу ответить на много вопросов, но нас сейчас интересует всего четыре: какие клиенты критически важны для бизнеса?
(правый верхний квадрант)каких клиентов реально развивать дальше?
(правый нижний квадрант)какие клиенты вероятно потеряны для бизнеса?
(левый верхний квадрант)какие клиенты не интересны для бизнеса? Уверен, пока вы…

LTV: классический подход прогнозирования Pareto/NBD

Image
Прогнозирование LTV - задача весьма нетривиальная. Почему? Потому, что для прогноза LTV нам потребуются 3 отдельные (независимые) оценки:
распределение повторных покупокраспределение оттока клиентовраспределение среднего чека покупок Это сложные математические задачи и, очень здорово, что ученые мужи взялись за них и решили (причем давно, в 1987 году). Сегодня мы бегло пройдемся по классическому подходу прогнозирования LTV под названием Pareto/NBD.

Начну с того, что этот алгоритм применяется в ситуациях, где нет регулярных платежей (т.е. не контрактная форма оплаты как, например, в e-commerce).

Также отмечу, что примечателен этот подход тем, что для его реализации нам потребуется самый обычный лог транзакций.

Первое, что мы делаем так это формируем специальную таблицу. Называется она Customer-Centric-Statistic (CBS).


Не вдаваясь в подробности, могу сказать, что эта таблица формируется из RFM статистики (frequency - "x", recency - "t.x", monetary - "sales.x"…

A/B-тестирование: понизить результат, чтобы двигаться вперёд

Image
Итак, сегодня я хочу завершить цикл статей про A/B-тестирование, рассказав вам про новую статистическую схему тестирования. С этой схемой тестирования я познакомился совсем недавно, но очень хочу поделиться с вами, а заодно спросить, кто уже тестировал ее и какие получились результаты.

Итак, что же это за схема и чем она отличается от всего того, о чем я писал ранее?

Обычно, дизайн A/B-теста заключается в проверке гипотезы вида:
вариант В будет лучше варианта А на Х% 

Такой дизайн эксперимента называет superior test.

Мы помним, что при такой схеме тестирования, мы, как правило, закладываем false positive rate на уровне 5%. Главное, что нужно вынести из этой (классической) схемы тестирования  это то, что никакой A/B-тест не является 100% гарантией превосходного результата. И чем больше мы хотим сократить % ложных срабатываний, тем больше времени (читай - больший объем выборки) нам нужно.

Альтернативный дизайн A/B-теста заключается в проверке гипотезы вида:
вариант B будет хуже варианта Aн…