Posts

R - прекрасный язык для Data Science

Image
Обычно, когда я пишу очередной пост в своем блоге, я не вставляю туда код, потому как исхожу из того, что аналитикам и маркетологам важнее новые идеи и возможные инсайты.

И вот недавно крутой маркетолог и аналитик Alexey Kulichevsky сделал большую и интересную шпаргалку для аналитиков про Python. Я зачитывался блогом Леши еще в далеком 2013 году и могу с уверенностью сказать, что он один из немногих, на кого я равнялся.

Леша, проделал отличную работу показывая основные конструкции на Python, которыми аналитик будет оперировать на ежедневной основе. И мне пришла в голову идея показать, как задачи описанные Лешей, можно было решить на R.

Прежде, чем мы начнем я сразу скажу, что фактически существует два мира R:
классическийсовременный, который строится на философии и наборе библиотек tidyverse Я никогда не писал на классическом R, так как мне он НЕ кажется выразительным, компактным и быстрым. 
Также я отмечу, что намного удобнее работать с R не в командной строке, а в среде разработки RS…

Aha-момент или как понять, что клиент готов быть регулярным пользователем вашего продукта

Image
Итак мы продолжаем тему продуктовой аналитики. Сегодня мы будем говорить о другом аспекте построения продукта - об активации клиента или об aha-моменте.

Из прошлого поста мы уже выяснили, что регулярное действие намного более перспективно с точки зрения удержания.

Но все равно остается один открытый вопрос:

сколько регулярных действий нужно совершить клиенту, чтобы мы были уверены, что клиент будет удержан?

Предположим, мы узнали, что это 3 совершенных действия.

Достаточно ли нам этой информации для запуска маркетинговой кампании, корректирующей поведение "отстающих" клиентов? Ответ очевиден - нет.

Ведь эти 3 действия можно совершить за период в 7 дней, можно за 30 дней, а можно и за 180 дней. В тоже время эффективный маркетинг ВСЕГДА строится на временных рамках (thresholds).

Поэтому возникает второй открытый вопрос:

за какой промежуток времени нужно совершить Х регулярных действий клиенту, чтобы мы были уверены, что клиент будет удержан?

Нахождение ответа на 2 выше озвученн…

Ключевые действия пользователя определяющие его retention

Image
Итак, мы продолжаем тему продуктовой аналитики. И сегодня мы будем говорить о целевых действиях, которые пользователь может совершить в вашем продукте.

Начну с того, что я выделяю 3 вида пользовательских действий в продукте:
системные (регистрация, логин, восстановление пароля и т.д.)платежные (оформление заказа, осуществление оплаты)целевые (лишь малая часть из них value-образующие, т.е. ключевые действия) В разных продуктах конфигурация и количество этих 3-х типов действий - разные. 
Важно отметить, что хотя продукт и создается для генерации дохода, тем не менее, с точки зрения пользователя, осуществление оплаты не является ключевым действием. В первую очередь клиент выбирает ваш продукт для решения своих потребительских задач.
Поэтому, хотя я и начал свою серию постов с определения точки, после которой нужно реактивировать клиента на повторную оплату, очевидно, реактивация клиента на оплату это все же несколько запоздалое действие.
Чтобы решиться на повторную оплату клиент должен то…

У меня плохие когорты - что мне делать?

Image
Сегодняшним постом я начинаю серию заметок о продуктовой аналитике. Сегодня мы поговорим о том, что делать, когда общая картина ваших когорт выглядит не очень, но не совсем понятно, что с этим делать.

Итак, вы продуктовая компания. У вас, как и в любом бизнесе, есть этап привлечения клиентов. Обычно этому этапу компания посвящает больше всего времени. Так происходит потому, что на этом этапе компания явно и активно тратит деньги в маркетинг, а потому ТОП-менеджмент хочет четко понимать, есть ли там ожидаемый прирост дохода и положительный ROI.

Но, после привлечения клиентов работа маркетолога-продуктолога не заканчивается, а только начинается. Почему?

Ниже перед вами чарт с когортами клиентов.


Мы видим, что привлеченные когорты вяло переходят в следующий период. Так, в среднем, с нулевого периода в первый переходит только 34% всех привлеченных клиентов. И хотя некоторые клиенты могут активироваться просто позже (например сделать свою повторную покупку, скажем, в пятом периоде) это все…

NPS - метрика без предиктивной силы

Image
Недавно я выступал на конференции про e-commerce в секции Лояльность. Т.к. меня давно интересовал NPS, я решился ознакомиться с открытыми источниками и исследованиями на тему NPS. Ниже я делюсь несколькими моментами, которые мне показались интересными.

Маркетологи часто ставят знак равенства между NPS и retention. Давайте посмотрим насколько NPS коррелирует с retention?


На чарте выше мы видим, что retention у компаний из нижнего и среднего NPS квартиля практически одинаковый. Только компании, которые в своей индустрии обладают самыми высокими показателями NPS имеют retention на 5-10% выше.

Теперь давайте зададим себе другой вопрос.

Является ли NPS вопросом, который помогает оценить удовлетворенность и т.о. спрогнозировать вероятность повторной покупки?


Из чарта выше видно, что информация о самой поездке имеет для AirBnb более сильную предиктивную силу, чем LTR (NPS). Более того, если добавить к этой информации NPS как дополнительный предиктор, то точность модели изменится очень незнач…

Атрибуция рекламных каналов: вариативность модели атрибуции Shapley value

Image
Сегодня я хочу поделиться опытом того, как я проверял насколько модель вектор Шепли чувствительна к вариативности данных.

Зачем мне это нужно?
Канал, с которого приходит клиент - случайная величина.Конверсия из канала Х может иметь (и как правило имеет) сильную вариативность от недели к неделе: запускаются новые компании, часть старых компаний оптимизируется, часть компаний просто выключается из-за отсутствия окупаемости. Исходя из этого возникает вопрос: будет ли модель вектор Шепли (которая учитывает влияние всех цепочек) оставаться относительно стабильной при сильной вариативности активных цепочек?

Давайте это проверим.

(1) Итак, как я писал в одном из предыдущих постов про атрибуцию, я сгенерировал около ~13k клиентских цепочек.


(2) Важно отметить, что если сделать агрегацию цепочек, то уникальных цепочек окажется намного меньше - всего 273(!) цепочки.


Такой размер выборки уже может наводить на мысль, что вполне могут найтись 2-3 ключевые цепочки, которые, если выбросить, могут сущ…

Атрибуция рекламных каналов: чувствительность к порядку каналов в цепочке для методов Markov chain и Shapley value

Image
Сегодня я продолжу тему атрибуции рекламных каналов. К сожалению, эта тема очень мало описана в маркетинговой литературе (нет никаких эмпирических правил и фундаментальных исследований), а потому понять как вариация каналов повлияет на атрибуцию, без симуляции - не представляется возможным.

Итак, в прошлый раз мы рассмотрели три вида атрибуции: last_click, markov_chain и shapley_value. Также из прошлого поста мы помним, что:
markov_chain (Цепи Маркова) - должны быть в достаточной степени чувствителны к изменению порядка каналов в цепочке;shapley_value (Вектор Шепли) - подход старается равномерно распределить ценность и для него порядок каналов в цепочке не играет роли. Сегодня мы проверим на практике насколько оба метода атрибуции чувствительны к изменению порядка каналов в цепочке.
Датасет я взял из прошлого поста. Ниже пример того, как в этом датасете выглядят цепочки каналов для некоторых пользователей:

Затем я просто реверсировал их и они начали выглядеть вот так:

Как мы видим на ч…

Игры в модели атрибуции рекламных каналов (Last click, Markov chain, Shapley value)

Image
Обычно, я не играю в игры с моделями атрибуций рекламных каналов.

В работе с сессиями я почти всегда пользуюсь данными из Google Analytics (GA). Это система хороша тем, что мне не нужно заботиться о том, где хранить данные о заходах на сайт, как определять продолжительность сессии и т.д. Все эти вопросы закрывает Google Analytics.

При заходе пользователя на сайт GA соотносит (атрибутирует) этого пользователя к одному из известных источников трафика.
Если GA может определить источник трафика, то она атрибутирует пользователя к этому источнику трафика.  Если GA не может определить источник трафика (зашел на сайт direct, в URL нет utm-меток и еще в ряде случаев), то она возьмет последний недавний источник трафика (не direct) из которого пришел пользователь. Эта модель атрибуции называется Last Non-Direct Click (LNDC). Она используется во всех отчетах GA кроме отчетов из секций Multi-Channel Funnel и Attribution.

Двумя побочными эффектами LNDC модели атрибуции являются:
повышение долгосрочн…