Как построить профили клиента?

Итак, сегодня мы разберем две простые техники, объединив которые вы можете создавать профайлы клиентов.

Обычно, когда вы работаете с клиентами, вы сохраняете в Базу Данных их характеристики. Для примера я взял датасет, в котором по каждому клиенту есть такие характеристики:

  • Age
  • Income
  • Subscribe

С характеристиками Age и Income все понятно. Это возраст и сумма дохода. Есть также третья, целевая характеристика - Subscribe - есть ли у клиента платная подписка.

Так вот, будучи маркетологами, наша с вами задача состоит в том, что понять какие профайлы клиентов в клиентской базе у нас есть.

Для этого мы воспользуемся двумя простыми подходами:
  1. Information Value (IV)
  2. Logistic Regression (glm)
Первый подход (IV) позволит проанализировать отдельно каждую из характеристик и выделить группы в которых доля платных подписок будет преобладать над долей тех, кто не подписался. 

Второй подход (glm) позволит изучить датасет и спрогнозировать вероятность платной подписки.

Так вот, объединив оба подхода мы сможем получить 2^(Количество Характеристик) профилей.

Давайте возьмем датасет и последовательно применим оба подхода.

Information Value

Первое, что мы хотим и можем узнать это то, какая характеристика сильнее влияет на платную подписку.

Information Value Stats

Мы видим, что характеристика Income содержит в себе почти в 2х раза больше информации о том, купит ли клиент платную подписку.

Второе, что мы хотим посмотреть это то, как внутри каждой из характеристик происходит распределение тех, кто купил платную подписку или тех, кто этого не сделал.

Income

Income WOE

Мы видим, что начиная с Income >= 117 доля тех, кто купил платную подписку преобладает над теми, кто не купил подписку.

Age

Age_WOE

Мы видим, что начиная с Age >= 51 доля тех, кто купил платную подписку преобладает над теми, кто не купил подписку.

Итак, используя подход IV мы смогли отранжировать характеристики клиентов по важности влияния по покупку платной подписки. 

Также мы смогли понять начиная с какого порогового значения (threshold) мы получаем профиль, где доля клиентов с целевой характеристикой (платная подписка) преобладает.

Logistic Regression

Теперь пришло время применить логистическую регрессию и спрогнозировать вероятность покупки платной подписки для каждого клиента.

Применив логистическую регрессию мы построили модель машинного обучения. Сейчас нам не нужно углубляться в анализ коэффициентов логистической регрессии.  

Мы просто применяем эту модель к нашему датасету, чтобы по каждому клиенту спрогнозировать его вероятность покупки платной подписки.

Dataset with probabilities

Как мы видим, для разных комбинаций Age и Income вероятности покупки платной подписки разные.
 
Теперь давайте построим чарт и посмотрим, где какие вероятности у нас расположились на графике.

Age Income probabilities

Итак, рассчитав вероятности из логистической регрессии (glm) и добавив линии с пороговыми значениями (IV) мы фактически получили 4 профиля клиента, которые учитывают как характеристики клиента, так и целевую характеристику - купил/не купил платную подписку.

Давайте сделаем сводную табличку и формально опишем наши профили: общее количество клиентов в каждом профиле и средняя вероятность покупки платной подписки.

Profiles

Получив такие профиля, мы можем:
  • внести правки в продукт для того, чтобы создавать доп. возможности монетизации для некоторых профилей
  • определить уровень клиентской поддержки для каждого профиля
  • скорректировать платное привлечение, чтобы таргетироваться на определенные профиля

Comments

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн