A-ha моменты в продукте: системный подход к поиску
Два года назад, пройдя курс по retention на Reforge, я решил написать пост, где показал как можно расчитать a-ha момент используя Venn-диаграммы.
Хотя сам способ Venn-диаграмм простой и понятный, мне он не сильно нравился из-за своей громоздкости:
- нужны были данные на уровне отдельного клиента
- нужны были данные по тем, кто Не сделал целевое действие, но был удержан
Справедливости ради стоит отметить, что у аналитика, как правило, всегда есть доступ к сырым данным и п.2 не вызывает особых проблем.
В прошлом посте я рассказывал про IV / WOE как способ первичного знакомства с данными и сигналами в них. Этот способ позволяет не только быстро отранжировать сигналы (отобрать самые сильные), но также позволяет узнать как именно каждый сигнал влияет на результат.
Сегодня я бегло покажу как можно было бы использовать IV / WOE для поиска и расчета a-ha моментов в продукте.
В блоге Mode Analytics я нашел статью с синтетическим примером данных для расчетов a-ha моментов. Это как раз то, что нужно для демонстрации подхода IV / WOE и сравнения его с подходом Venn-диаграмм.
Итак, у нас есть гипотетический продукт и в нем мы трекаем такие события:
- messages
- searches
- home_page_visits
Разные клиенты пользуются продуктом по-разному и разное количество событий по-разному влияет на удержание:
Событие `messages`:
![]() |
`messages` event ~ venn diagram. |
Событие `home_page_visits`:
![]() |
`home_page_visits` event ~ venn diagram. |
Событие `searches`:
![]() |
`searches` event ~ venn diagram. |
- action_X: количество событий, которые сделали клиенты;
- did action & retained: совершили событие и удержаны;
- did action & not retained: совершили событие, но не удержаны;
- did action: совершили событие;
- did NOT action & retained: не совершили событие, но удержаны.
Venn-диаграмма
Данных выше нам вполне достаточно, чтобы воспользоваться подходом Venn-диаграмм и рассчитать a-ha момент.
Напомню, что считается a-ha момент вот так:
Что мы получаем на выходе?
- для события `messages` самая большая a-ha доля достигается, когда пользователь отправил одно сообщение (18.8%).
- для события `home_page_visits` самая большая a-ha доля достигается, когда пользователь посетил домашнюю страницу дважды (18.9%).
- для события `searches` самая большая a-ha доля достигается, когда пользователь сделал один поиск (8.7%).
Рассчитать a-ha момент способом Venn-диаграмм оказалось несложно. А вот сравнивать между собой события уже не так очевидно.
IV / WOE
Суть расчета также простая. Количество действий внутри события это фактор, который мы оцениваем. Для каждого такого фактора мы рассчитываем WOE.
Рассчитав WOE для каждого фактора мы можем построить гистограмму и посмотреть, где WOE впервые становится положительным и нарастает. Это и есть наш a-ha момент!
Событие `messages`:
![]() |
`messages` event ~ WOE. |
Событие `home_page_visits`:
![]() |
`home_page_visits` event ~ WOE. |
Событие `searches`:
![]() |
`searches` event ~ WOE. |
Таким образом мы смогли быстро определить минимальное количество событий, после которого больший % клиентов будет удержан (нежели не удержан).
В отличие от Venn-диаграмм, WOE подход даёт нам возможность сразу задать и ответить на следующие важные вопросы:
- узнать как быстро нарастают шансы быть удержанным с ростом количества событий и где мы выходим на плато;
- визуализировать, если у нас отрицательная корреляция (например, на скриншоте выше видно, что когда клиент делает больше 5 поисков, то % удержания не растет, а наоборот начинает падать).
WOE обычно идет в связке с расчетом IV. IV как раз позволяет корректно сравнивать события между собой и формально рассчитать сколько информации по отношению к вопросу - будет удержан клиент или нет - содержится в каждом событии.
Давайте посмотрим сколько информации содержится в наших 3-х событиях (список отранжирован по уменьшению IV):
- событие `home_page_visits` (IV = 0.0715);
- событие `messages` (IV = 0.0450);
- событие `searches` (IV = 0.0091).
С учетом данных выше, команду роста стоит сфокусировать на том, чтобы в первое время клиент дважды зашел на домашнюю страничку.
P.S. Исходные данные не содержали в себе сроков за которые были совершены действия. В боевых расчетах эту информацию стоит также добавить в расчет IV / WOE.
Спасибо за статью.
ReplyDeleteПодскажите, пожалуйста, какие у вас впечатления остались от курса на Reforge? И как бы вы его оценили по соотношению цена/польза?
Мне курс Retention Deep Dive - понравился. Хорошо структурирует понимание того, как клиент продвигается в понимании продукта и как можно было бы сформировать контрольные точки, которые бы математически были бы связаны с ключевой метрикой - ретеншн. Цена не дешёвая, это правда. Но для компаний от 2-х лет, работающей на международном рынке более чем подъемная. Я рекомендую, который упомянул выше.
Delete"С учетом данных выше, команду роста стоит сфокусировать на том, чтобы в первое время клиент дважды зашел на домашнюю страничку. "
ReplyDeleteДа, IV для этого события максимальный. Но при двух посещениях домашней страницы - WOE отрицательный. Тут опечатка или я чего-то не понимаю?
WOE это показатель, который просто показывает доля вернушихся больше или меньше, чем доля ушедших. Если - да, WOE положительный. Если - нет, WOE отрицатльеный.
DeleteIV это показатель который перевзвешивает WOE на разницу долей и т.о. оценивает сколько информации содержит в себе каждый признак.
Почему вы используете сумму IV, чтобы понять сколько информации несет в себе событие? Почему не среднее или максимум? В случае когда регулярность события разная - сумма может исказить результат
ReplyDeletehttps://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Delete