Продуктовая аналитика: кластеризация интенсивности использования продукта

Итак, в прошлом посте мы с вами построили Матрицу Интенсивности по двум измерениям: ежедневная повторяемость и дневная интенсивность использования. 

Сегодня мы попробуем усилить этот анализ двумя способами. 

Первый способ - это происпользовать персентили. Из моего опыта персентили могут быть очень мощным инструментом отделения выдающегося поведения от обыденного.

И хотя Amplitude имеет опции деления матрицы по среднему или по медиане, я рекомендую делать несколько иначе. 

Вы можете разбить ваше пространство фичей по измерениям интенсивности на 9 "квадрантов" по следующей логике:

  • ключевые фичи (Core): все, что выше 80-й персентиля по обоим измерениям
  • продвинутые фичи (Power): все, что от 50-го до 80-го персентиля по одному измерению и выше 80-й персентиля по второму измерению 
  • казуальные фичи (Casual): все, что от 50-го до 80-го персентиля хотя бы по одному измерению

Intensity Matrix with 50/80 percentiles
(кликните, чтобы увеличить картинку)

Второе, о чем хотелось бы упомянуть сегодня это то, что когда у вас есть 2+ характеристики вы легко можете воспользоваться кластеризацией. Ключевой вопрос здесь, на каком уровне мы будем считать метрики:

  • на уровне клиента
  • на уровне фичи
Здесь нет одного правильного ответа, это всегда зависит от цели анализа. 

Так как сейчас нас интересует ответ на вопрос - как фичи отличаются между собой - мы выберем кластеризацию на уровне фичи.

Ниже пример кластеризации с использованием алгоритма k-means по признакам:
  • avg_hits_per_day
  • avg_days_cnt
  • avg_user_cnt
  • IV

Intensity Matrix with clusters
(кликните, чтобы увеличить картинку)

С одной стороны, мы видим, что наши кластера достаточно неплохо вписались в схему 50/80. 

С другой стороны, мы видим, что некоторые "квадранты" можно склеить не переживая за то, что мы объединим непохожие по поведению фичи. 

Поэтому:

  • если у вас есть возможность сделать кластеризацию - делайте кластеризацию. 
  • если возможности сделать кластеризацию у вас нет - схема 50/80 это хороший старт.  

Что можно сказать о наших кластерах фичей?

IM - clusters details
(кликните, чтобы увеличить картинку)

Мы видим несколько важных моментов:

  • Other группа (Cluster3) состоит из огромного количества фичей с одновременно низкой дневной интенсивностью и низкой ежедневной повторяемостью. Это самый емкий кластер. Туда вошли фичи из разных инструментов.

  • Core группа состоит из 3-х кластеров:
    • Cluster4 с одной фичей - message_send_text
    • Cluster2 с одной фичей - posts_vote 
    • Cluster5 с набором фичей для ведения задач - tasks_add, tasks_edit, tasks_filter_apply, tasks_view 

  • Power группа выделилась только по направлению ежедневной повторяемости:
    • Cluster6 с набором фичей для коммуникаций - messages_delete, messages_edit, posts_comment_add, posts_like, posts_open

  • Casual группа (Cluster1) состоит из набора фичей для работы с постами и более сложным управлением задачами.
В следующем - завершающем посте - мы обсудим подробнее, как ранжировать фичи по их вкладу в ретеншн (IV) и ответим на два главных вопроса
  1. Как учитывать вклад фичей в ретеншн клиентов?
  2. Что важнее для ретеншн клиента: дневная интенсивность (avg_hits_per_day) или ежедневная повторяемость (avg_days_cnt)? 

Comments

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн