A-ha моменты в продукте: системный подход к поиску

Два года назад, пройдя курс по retention на Reforge, я решил написать пост, где показал как можно расчитать a-ha момент используя Venn-диаграммы.

Хотя сам способ Venn-диаграмм простой и понятный, мне он не сильно нравился из-за своей громоздкости:

  1. нужны были данные на уровне отдельного клиента
  2. нужны были данные по тем, кто Не сделал целевое действие, но был удержан
Справедливости ради стоит отметить, что у аналитика, как правило, всегда есть доступ к сырым данным и п.2 не вызывает особых проблем.

В прошлом посте я рассказывал про IV / WOE как способ первичного знакомства с данными и сигналами в них. Этот способ позволяет не только быстро отранжировать сигналы (отобрать самые сильные), но также позволяет узнать как именно каждый сигнал влияет на результат.

Сегодня я бегло покажу как можно было бы использовать IV / WOE для поиска и расчета a-ha моментов в продукте. 

В блоге Mode Analytics я нашел статью с синтетическим примером данных для расчетов a-ha моментов. Это как раз то, что нужно для демонстрации подхода IV / WOE и сравнения его с подходом Venn-диаграмм.

Итак, у нас есть гипотетический продукт и в нем мы трекаем такие события: 
  • messages
  • searches
  • home_page_visits
Разные клиенты пользуются продуктом по-разному и разное количество событий по-разному влияет на удержание:

Событие `messages`:

`messages` event ~ venn diagram.

Событие `home_page_visits`:

`home_page_visits` event ~ venn diagram.

Событие `searches`:

`searches` event ~ venn diagram.

  • action_X: количество событий, которые сделали клиенты;
  • did action & retained: совершили событие и удержаны;
  • did action & not retained: совершили событие, но не удержаны;
  • did action: совершили событие;
  • did NOT action & retained: не совершили событие, но удержаны.

Venn-диаграмма

Данных выше нам вполне достаточно, чтобы воспользоваться подходом Venn-диаграмм и рассчитать a-ha момент.

Напомню, что считается a-ha момент вот так:


Что мы получаем на выходе?
  • для события `messages` самая большая a-ha доля достигается, когда пользователь отправил одно сообщение (18.8%).

  • для события `home_page_visits` самая большая a-ha доля достигается, когда пользователь посетил домашнюю страницу дважды (18.9%).

  • для события `searches` самая большая a-ha доля достигается, когда пользователь сделал один поиск (8.7%).
Рассчитать a-ha момент способом Venn-диаграмм оказалось несложно. А вот сравнивать между собой события уже не так очевидно. 

IV / WOE

Суть расчета также простая. Количество действий внутри события это фактор, который мы оцениваем. Для каждого такого фактора мы рассчитываем WOE.


Рассчитав WOE для каждого фактора мы можем построить гистограмму и посмотреть, где WOE впервые становится положительным и нарастает. Это и есть наш a-ha момент!

Событие `messages`:

`messages` event ~ WOE.

Событие `home_page_visits`:

`home_page_visits` event ~ WOE.

Событие `searches`:
`searches` event ~ WOE.

Таким образом мы смогли быстро определить минимальное количество событий, после которого больший % клиентов будет удержан (нежели не удержан).

В отличие от Venn-диаграмм, WOE подход даёт нам возможность сразу задать и ответить на следующие важные вопросы:
  • узнать как быстро нарастают шансы быть удержанным с ростом количества событий и где мы выходим на плато;

  • визуализировать, если у нас отрицательная корреляция (например, на скриншоте выше видно, что когда клиент делает больше 5 поисков, то % удержания не растет, а наоборот начинает падать).
WOE обычно идет в связке с расчетом IV. IV как раз позволяет корректно сравнивать события между собой и формально рассчитать сколько информации по отношению к вопросу - будет удержан клиент или нет - содержится в каждом событии.

Давайте посмотрим сколько информации содержится в наших 3-х событиях (список отранжирован по уменьшению IV):
  • событие `home_page_visits` (IV = 0.0715);
  • событие `messages` (IV = 0.0450);
  • событие `searches` (IV = 0.0091).
С учетом данных выше, команду роста стоит сфокусировать на том, чтобы в первое время клиент дважды зашел на домашнюю страничку. 

P.S. Исходные данные не содержали в себе сроков за которые были совершены действия. В боевых расчетах эту информацию стоит также добавить в расчет IV / WOE.

Comments

kirus said…
Спасибо за статью.

Подскажите, пожалуйста, какие у вас впечатления остались от курса на Reforge? И как бы вы его оценили по соотношению цена/польза?
Paul Levchuk said…
Мне курс Retention Deep Dive - понравился. Хорошо структурирует понимание того, как клиент продвигается в понимании продукта и как можно было бы сформировать контрольные точки, которые бы математически были бы связаны с ключевой метрикой - ретеншн. Цена не дешёвая, это правда. Но для компаний от 2-х лет, работающей на международном рынке более чем подъемная. Я рекомендую, который упомянул выше.
Unknown said…
"С учетом данных выше, команду роста стоит сфокусировать на том, чтобы в первое время клиент дважды зашел на домашнюю страничку. "

Да, IV для этого события максимальный. Но при двух посещениях домашней страницы - WOE отрицательный. Тут опечатка или я чего-то не понимаю?
Paul Levchuk said…
WOE это показатель, который просто показывает доля вернушихся больше или меньше, чем доля ушедших. Если - да, WOE положительный. Если - нет, WOE отрицатльеный.
IV это показатель который перевзвешивает WOE на разницу долей и т.о. оценивает сколько информации содержит в себе каждый признак.
Unknown said…
Почему вы используете сумму IV, чтобы понять сколько информации несет в себе событие? Почему не среднее или максимум? В случае когда регулярность события разная - сумма может исказить результат
Paul Levchuk said…
https://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн