Drill-down: или как найти перспективную точку роста?

September 17, 2021

Аналитика - это постоянный поиск сигналов. Часто аналитику приходится делать десятки срезов, прежде чем какой-то один из них окажется перспективным или хотя бы любопытным. А значит неплохо было бы найти способ, когда такой поиск можно сделать более управляемым, а в идеале - оптимальным.

Недавно я наткнулся на одну статью, где описывался простой, быстрый способ находить перспективные срезы. Более того, при желании, такой подход можно автоматизировать.

Любой бизнес так или иначе работает с воронками. Например, у вас есть лэндинг с формой регистрации и такой конверсией:

Overall Conversion Rate.

Сама по себе конверсия уже может нам что-то рассказать. Например, используя свой опыт или benchmarks мы можем сказать - мала она или велика. Также мы могли бы сравнить конверсию этого лэндинга с конверсиями других наших лэндингов.

Но, если мы хотим улучшить конверсию, нам определенно нужна другая (дополнительная) информация.

Подумав с минутку, можно прийти к мысли, что внутри этого лэндинга вполне могут быть сегменты пользователей, которые ведут себя сильно иначе, чем среднестатистический пользователь.

Например, мы могли бы разделить наш трафик на лэндинге по таким измерениям как:

гео (country/city)
тип трафика (paid, organic, referral),
тип устройства (mobile, desktop)
и т.д.

Определенно, не все срезы по измерениям выше одинаково перспективны: где-то конверсия может слегка отличаться от средневзвешенной, а где-то конверсия может отличается сильно, но сегмент очень маленький.

Что же нам делать? Ответ можно подсмотреть в классической линейной регрессии.

После построения линейной регрессии, обычно смотрят на коэффициент r2. Суть r2 - оценить какой % вариативности данных может объяснить наша (регрессионная) модель. Чем ближе r2 к единице, тем лучше модель объясняет вариативность данных относительного среднего.

К сожалению, конверсия это величина нелинейная, а значит линейная регрессия не подойдет. Может подойти логистическая регрессия, но для неё коэффициента r2 нет, но... есть коэффициент псевдо-r2.

Для расчета псевдо-r2 нам нужно будет рассчитать Log-Likelihood (LL) для двух моделей:

общей конверсии (null model)
конверсии для группы сегментов (segments model)

Сама формула расчёта псевдо-r2 выглядит просто:

псевдо-r2 = 1 - (LL segments model / LL null model)

Расчёт LL также достаточно прост:

LL formulae.

Пришло время перейти к нескольким примерам.

Итак, мы берем конверсию лэндинга из примера выше. И допустим у нас есть возможность нарезать отчет по типу устройств (mobile/desktop). Есть у такого среза перспектива?

Пример 1 - конверсия из mobile и конверсия из desktop примерно одинаковая.

Case1: almost equal conversions.

Рассчитав псевдо-r2 (pR2) мы видим, что разница между нулевой моделью и моделью на базе среза по типам устройств ~ 0%.

Это значит, что в данном случае нет никакого смысла разбивать трафик на типы устройств и копать дальше в эту сторону.

Пример 2 - конверсии из mobile и desktop сильно отличаются (размеры групп одинаковые).

Case2: unequal conversions.

Рассчитав pR2 мы видим, что разница между нулевой моделью и моделью на базе среза по типам устройств уже 6%.

Если под рукой нет других срезов (с большим псевдо-r2), то имеет смысл углубиться в этом направлении.

Пример 3 - конверсии из desktop сильно выше, но сегмент маленький.

Case 3: high conversion, small segment size.

Часто бывает, что внутри есть небольшой, но высоко-конверсионный сегмент.

Перебрать все имеющиеся у вас измерения, посмотреть глазами, найти такие высоко-конверсионные сегменты - м.б. сильно затратно по времени.

Автоматический расчет псевдо-r2 по всем возможным измерениям и их сортировка по уменьшению pR2 позволит аналитику быстро сделать разумную приоритезацию.

Пример 4 - конверсии из mobile нулевая, и при этом у сегмента львиная доля.

Case 4: zero conversion, large segment size.

Иногда у вас могут возникнуть технические проблемы из-за которых создастся такой перекос в конверсиях: все конверсии записываются в один сегмент.

Расчет псевдо-r2 очень хорошо схватывает такую ситуацию.

РЕЗЮМЕ:

Псевдо-r2 неплохой способ поискать в автоматическом режиме интересные измерения, по котором можно было сделать доп. анализ.
Псевдо-r2 учитывает и размер сегмента и его конверсию.
Чем выше псевдо-r2 (сильные сигналы от 0.2), тем "интереснее" (требует большего внимания) ситуация с конверсией.

Comments

Unknown9/20/2021
"Пример 3 - конверсии из mobile сильно выше, но сегмент маленький"
- имелось ввиду из desktop?
ReplyDelete
Replies

Add comment

Блог про аналитику

Drill-down: или как найти перспективную точку роста?

Comments

Post a Comment

Popular posts from this blog

Продуктовая аналитика: влияние продуктовых фич на ретеншн

IV/WOE - хороший способ понять какой информацией вы обладаете

Продуктовая аналитика: Матрица Интенсивности