Drill-down: или как найти перспективную точку роста?
Аналитика - это постоянный поиск сигналов. Часто аналитику приходится делать десятки срезов, прежде чем какой-то один из них окажется перспективным или хотя бы любопытным. А значит неплохо было бы найти способ, когда такой поиск можно сделать более управляемым, а в идеале - оптимальным.
Недавно я наткнулся на одну статью, где описывался простой, быстрый способ находить перспективные срезы. Более того, при желании, такой подход можно автоматизировать.
Любой бизнес так или иначе работает с воронками. Например, у вас есть лэндинг с формой регистрации и такой конверсией:
![]() |
Overall Conversion Rate. |
Сама по себе конверсия уже может нам что-то рассказать. Например, используя свой опыт или benchmarks мы можем сказать - мала она или велика. Также мы могли бы сравнить конверсию этого лэндинга с конверсиями других наших лэндингов.
Но, если мы хотим улучшить конверсию, нам определенно нужна другая (дополнительная) информация.
Подумав с минутку, можно прийти к мысли, что внутри этого лэндинга вполне могут быть сегменты пользователей, которые ведут себя сильно иначе, чем среднестатистический пользователь.
Расчёт LL также достаточно прост:
Например, мы могли бы разделить наш трафик на лэндинге по таким измерениям как:
- гео (country/city)
- тип трафика (paid, organic, referral),
- тип устройства (mobile, desktop)
- и т.д.
Определенно, не все срезы по измерениям выше одинаково перспективны: где-то конверсия может слегка отличаться от средневзвешенной, а где-то конверсия может отличается сильно, но сегмент очень маленький.
Что же нам делать? Ответ можно подсмотреть в классической линейной регрессии.
После построения линейной регрессии, обычно смотрят на коэффициент r2. Суть r2 - оценить какой % вариативности данных может объяснить наша (регрессионная) модель. Чем ближе r2 к единице, тем лучше модель объясняет вариативность данных относительного среднего.
К сожалению, конверсия это величина нелинейная, а значит линейная регрессия не подойдет. Может подойти логистическая регрессия, но для неё коэффициента r2 нет, но... есть коэффициент псевдо-r2.
Для расчета псевдо-r2 нам нужно будет рассчитать Log-Likelihood (LL) для двух моделей:
- общей конверсии (null model)
- конверсии для группы сегментов (segments model)
Сама формула расчёта псевдо-r2 выглядит просто:
псевдо-r2 = 1 - (LL segments model / LL null model)
![]() |
LL formulae. |
Пришло время перейти к нескольким примерам.
Итак, мы берем конверсию лэндинга из примера выше. И допустим у нас есть возможность нарезать отчет по типу устройств (mobile/desktop). Есть у такого среза перспектива?
Пример 1 - конверсия из mobile и конверсия из desktop примерно одинаковая.
![]() |
Case1: almost equal conversions. |
Рассчитав псевдо-r2 (pR2) мы видим, что разница между нулевой моделью и моделью на базе среза по типам устройств ~ 0%.
Это значит, что в данном случае нет никакого смысла разбивать трафик на типы устройств и копать дальше в эту сторону.
Пример 2 - конверсии из mobile и desktop сильно отличаются (размеры групп одинаковые).
![]() |
Case2: unequal conversions. |
Рассчитав pR2 мы видим, что разница между нулевой моделью и моделью на базе среза по типам устройств уже 6%.
Если под рукой нет других срезов (с большим псевдо-r2), то имеет смысл углубиться в этом направлении.
Пример 3 - конверсии из desktop сильно выше, но сегмент маленький.
![]() |
Case 3: high conversion, small segment size. |
Часто бывает, что внутри есть небольшой, но высоко-конверсионный сегмент.
Перебрать все имеющиеся у вас измерения, посмотреть глазами, найти такие высоко-конверсионные сегменты - м.б. сильно затратно по времени.
Автоматический расчет псевдо-r2 по всем возможным измерениям и их сортировка по уменьшению pR2 позволит аналитику быстро сделать разумную приоритезацию.
Пример 4 - конверсии из mobile нулевая, и при этом у сегмента львиная доля.
![]() |
Case 4: zero conversion, large segment size. |
Иногда у вас могут возникнуть технические проблемы из-за которых создастся такой перекос в конверсиях: все конверсии записываются в один сегмент.
Расчет псевдо-r2 очень хорошо схватывает такую ситуацию.
РЕЗЮМЕ:
- Псевдо-r2 неплохой способ поискать в автоматическом режиме интересные измерения, по котором можно было сделать доп. анализ.
- Псевдо-r2 учитывает и размер сегмента и его конверсию.
- Чем выше псевдо-r2 (сильные сигналы от 0.2), тем "интереснее" (требует большего внимания) ситуация с конверсией.
"Пример 3 - конверсии из mobile сильно выше, но сегмент маленький"
ReplyDelete- имелось ввиду из desktop?
Да, опечатался я. Спасибо. Уже поправил.
Delete