Drill-down: или как найти перспективную точку роста?

Аналитика - это постоянный поиск сигналов. Часто аналитику приходится делать десятки срезов, прежде чем какой-то один из них окажется перспективным или хотя бы любопытным. А значит неплохо было бы найти способ, когда такой поиск можно сделать более управляемым, а в идеале - оптимальным.

Недавно я наткнулся на одну статью, где описывался простой, быстрый способ находить перспективные срезы. Более того, при желании, такой подход можно автоматизировать.

Любой бизнес так или иначе работает с воронками. Например, у вас есть лэндинг с формой регистрации и такой конверсией:

Overall Conversion Rate.

Сама по себе конверсия уже может нам что-то рассказать. Например, используя свой опыт или benchmarks мы можем сказать - мала она или велика. Также мы могли бы сравнить конверсию этого лэндинга с конверсиями других наших лэндингов. 

Но, если мы хотим улучшить конверсию, нам определенно нужна другая (дополнительная) информация. 

Подумав с минутку, можно прийти к мысли, что внутри этого лэндинга вполне могут быть сегменты пользователей, которые ведут себя сильно иначе, чем среднестатистический пользователь.

Например, мы могли бы разделить наш трафик на лэндинге по таким измерениям как: 
  • гео (country/city)
  • тип трафика (paid, organic, referral), 
  • тип устройства (mobile, desktop) 
  • и т.д. 
Определенно, не все срезы по измерениям выше одинаково перспективны: где-то конверсия может слегка отличаться от средневзвешенной, а где-то конверсия может отличается сильно, но сегмент очень маленький.

Что же нам делать? Ответ можно подсмотреть в классической линейной регрессии. 

После построения линейной регрессии, обычно смотрят на коэффициент r2. Суть r2 - оценить какой % вариативности данных может объяснить наша (регрессионная) модель. Чем ближе r2 к единице, тем лучше модель объясняет вариативность данных относительного среднего.

К сожалению, конверсия это величина нелинейная, а значит линейная регрессия не подойдет. Может подойти логистическая регрессия, но для неё коэффициента r2 нет, но... есть коэффициент псевдо-r2

Для расчета псевдо-r2 нам нужно будет рассчитать Log-Likelihood (LL) для двух моделей: 
  • общей конверсии (null model)
  • конверсии для группы сегментов (segments model)
Сама формула расчёта псевдо-r2 выглядит просто:

псевдо-r2 = 1 - (LL segments model / LL null model)

Расчёт LL также достаточно прост: 

LL formulae.

Пришло время перейти к нескольким примерам. 

Итак, мы берем конверсию лэндинга из примера выше. И допустим у нас есть возможность нарезать отчет по типу устройств (mobile/desktop). Есть у такого среза перспектива?

Пример 1 - конверсия из mobile и конверсия из desktop примерно одинаковая.

Case1: almost equal conversions.

Рассчитав псевдо-r2 (pR2) мы видим, что разница между нулевой моделью и моделью на базе среза по типам устройств ~ 0%. 

Это значит, что в данном случае нет никакого смысла разбивать трафик на типы устройств и копать дальше в эту сторону.

Пример 2 - конверсии из mobile и desktop сильно отличаются (размеры групп одинаковые).

Case2: unequal conversions.

Рассчитав pR2 мы видим, что разница между нулевой моделью и моделью на базе среза по типам устройств уже 6%. 

Если под рукой нет других срезов (с большим псевдо-r2), то имеет смысл углубиться в этом направлении.

Пример 3 - конверсии из desktop сильно выше, но сегмент маленький.

Case 3: high conversion, small segment size.

Часто бывает, что внутри есть небольшой, но высоко-конверсионный сегмент. 

Перебрать все имеющиеся у вас измерения, посмотреть глазами, найти такие высоко-конверсионные сегменты - м.б. сильно затратно по времени. 

Автоматический расчет псевдо-r2 по всем возможным измерениям и их сортировка по уменьшению pR2 позволит аналитику быстро сделать разумную приоритезацию. 

Пример 4 - конверсии из mobile нулевая, и при этом у сегмента львиная доля.
 
Case 4: zero conversion, large segment size.

Иногда у вас могут возникнуть технические проблемы из-за которых создастся такой перекос в конверсиях: все конверсии записываются в один сегмент. 

Расчет псевдо-r2 очень хорошо схватывает такую ситуацию.

РЕЗЮМЕ:
  • Псевдо-r2 неплохой способ поискать в автоматическом режиме интересные измерения, по котором можно было сделать доп. анализ.

  • Псевдо-r2 учитывает и размер сегмента и его конверсию.

  • Чем выше псевдо-r2 (сильные сигналы от 0.2), тем "интереснее" (требует большего внимания) ситуация с конверсией. 

Comments

Unknown said…
"Пример 3 - конверсии из mobile сильно выше, но сегмент маленький"
- имелось ввиду из desktop?
Paul Levchuk said…
Да, опечатался я. Спасибо. Уже поправил.

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн