Posts

h2o - лучший друг маркетолога в машинном обучении

Image
Часто маркетологи сталкиваются с неопределенностью: им нужно оценить вероятность какого-то события, имея под рукой набор признаков относящихся к этому событию. Такая задача обычно сводится в бинарной классификации т.е. прогнозированию одного из двух возможных исходов: да или нет (1 или 0). Сегодня мы рассмотрим платформу машинного обучения  h2o . Для меня эта платформа давно уже стала эталоном того, как с минимальными усилиями (как по предобработке данных так и по моделированию и пост оценке) можно быстро делать качественное прогнозирование на данных любого масштаба. Итак, у нас есть датасет клиентов со следующими характеристиками:  Age (Возраст) Income (Доход) Subscribe (флаг: 1 - подписан, 0- не подписан) Сырые данные выглядят вот так: raw data И мы хотим построить модель машинного обучения, которая позволит: предсказать флаг Подписки, а также  оценить качество такой модели машинного обучения. 1. Что такое h2o? Это Java-платформа и веб-интерфейс для работы с задачами машинного обучен

A/B-тестирование: 3 важных принципа

Image
A/B-тестирование это мощный инструмент для роста бизнеса. Но, как и любой инструмент, в нем есть свои нюансы. Сегодня поговорим о 3-х фундаментальных принципах, которые стоит держать в уме, когда вы планируете запустить очередной эксперимент. Большие vs малые цели В вашей команде всегда есть разные идеи (гипотезы) о том, что можно было бы улучшить. Очевидно, что ресурс у вас ограничен. Вы не сможете протестировать ни одномоментно, а часто даже последовательно, все идеи вашей команды. А значит стоит подумать с чего начать.  Давайте внимательно посмотрим на картинку выше. По виду кривой нам становится понятно, что практически в любом А/B-тесте мы оперируем двумя важными понятиями: вдумчивость (когда мы хорошенько думаем и затем выбираем цель) размер выборки Если у вас малый размер выборки - тщательно обдумываете, что вы хотите протестировать.  И наоборот, если у вас очень большая выборка, то вы могли бы себе позволить тестировать какие-то мелочи.  Например, Google в свое время тестировал

Как построить профили клиента?

Image
Итак, сегодня мы разберем две простые техники, объединив которые вы можете создавать профайлы клиентов. Обычно, когда вы работаете с клиентами, вы сохраняете в Базу Данных их характеристики. Для примера я взял датасет, в котором по каждому клиенту есть такие характеристики: Age Income Subscribe С характеристиками Age и Income все понятно. Это возраст и сумма дохода. Есть также третья, целевая характеристика - Subscribe - есть ли у клиента платная подписка. Так вот, будучи маркетологами, наша с вами задача состоит в том, что понять какие профайлы клиентов в клиентской базе у нас есть. Для этого мы воспользуемся двумя простыми подходами: Information Value (IV) Logistic Regression (glm) Первый подход (IV) позволит проанализировать отдельно каждую из характеристик и выделить группы в которых доля платных подписок будет преобладать над долей тех, кто не подписался.  Второй подход (glm) позволит изучить датасет и спрогнозировать вероятность платной подписки. Так вот, объединив оба подхода

A/B-тестирование: как быстро проверить сплитер?

Image
Прежде, чем начать A/B-тестирование, мы обычно формируем гипотезу и определяем сколько тестовых групп у нас будет. В классических экспериментах групп обычно две: группа A и группа B . Дальше мы используем либо внешний инструмент (например, Google Optimize) либо просим программиста разделить входящий поток пользователей на эти группы. Программисты используют программную функцию, которая, грубо говоря, подбрасывает монетку и по результату подбрасывания присоединяет пользователя к той или иной группе.  С виду все хорошо, однако подбрасывание монетки это случайный процесс и в нем шансы встретить ситуацию, когда в каждой группе будет ровно по 50% пользователей, возможно, но маловероятно . И вот вы запустили A/B-тест и пользователи начали маршрутизироваться в разные группы.  Допустим, в день у вас приходит ~20 000 пользователей в каждую группу.  При таком наборе пользователей и их равномерном распределении по группам, за 3 дня картинка должна была бы быть близкой к следующей: группа A: 60

A-ha моменты в продукте: системный подход к поиску

Image
Два года назад, пройдя курс по retention на Reforge , я решил написать пост , где показал как можно расчитать a-ha момент используя Venn-диаграммы. Хотя сам способ Venn-диаграмм простой и понятный, мне он не сильно нравился из-за своей громоздкости: нужны были данные на уровне отдельного клиента нужны были данные по тем, кто Не сделал целевое действие, но был удержан Справедливости ради стоит отметить, что у аналитика, как правило, всегда есть доступ к сырым данным и п.2 не вызывает особых проблем. В прошлом посте я рассказывал про IV / WOE как способ первичного знакомства с данными и сигналами в них. Этот способ позволяет не только быстро отранжировать сигналы (отобрать самые сильные), но также позволяет узнать как именно каждый сигнал влияет на результат. Сегодня я бегло покажу как можно было бы использовать IV / WOE для поиска и расчета a-ha моментов в продукте.  В блоге Mode Analytics я нашел статью с синтетическим примером данных для расчетов a-ha моментов. Это как раз то, что н

IV/WOE - хороший способ понять какой информацией вы обладаете

Image
На мой взгляд, маркетологи чаще других решают задачи бинарной классификации : купит/не купит клиент, вернется на сайт или нет, высокодоходный ли это клиент и т.д.  Заранее никто из нас не знает какие сигналы из тех, что оставляет нам клиент, помогут нам предсказать к какой группе он относится. А потому маркетологи часто либо (1) сами собирают разные сигналы из систем аналитики (визиты, просмотры страниц, время на сайте и т.д.) либо (2) идут к разработчикам и просят их выгрузить информацию из баз данных о том, что известно о клиентах в продуктивных системах (дата регистрации, дата первой покупки и т.д.). Сигналов (фичей) становится достаточно много и понять, что из этого важно, а что шум - не так уж и просто. Хочется верить, что наш опыт и интуиция сработают, но есть ли какие-то альтернативы понадежнее? В целом, существует два подхода к прогнозированию.  Первый подход заключается в том, что современные вычислительные возможности компьютеров таковы, что можно не разбираться в том, какую

Прогнозирование оттока клиентов в Excel

Image
В прошлом посте я показал как отток клиентов тихо убивает рост вашего бизнеса. Сегодня мы будем говорить о том, как сделать первые шаги к прогнозированию того, как будут размываться ваша когорта. Начнем с того, что возьмем одну когорту и построим график ее размытия. Сырые данные оттока одной когорты клиентов могут выглядеть вот так: Cohort as a table.  У нас есть две колонки: колонка t - это шкала времени (это м.б. 1 неделя, 1 месяц или даже 1 год); колонка S - это колонка описывает, какой % клиентов продолжил пользоваться вашим продуктом в соответствующий период времени t . В нашем примере период t = 1 месяц.  Например, в каком-то из месяцев мы привлекли X клиентов. Для нас это точка отсчета - наш период "0". В нем все 100% клиентов когорты с нами.  В следующий период (месяц) перешло 63% (=0.63) клиентов. Это значит, что 37% клиентов, которые были в предыдущем периоде, не продолжили пользоваться нашим продуктом. Они ушли в отток. Другое пред

Отток клиентов - как скорость, с которой вы теряете свой бизнес

Image
Я давно не возвращался к теме оттока клиентов. Но сейчас, когда большинство стран находятся в состоянии lockdown, отток клиентов в той или иной степени прочувствовали все типы бизнесов. Так вот, сегодня мне попалась на глаза статья ex-CPO Netflix. В начале статьи он упомянул, что: на раннем этапе ежемесячный отток клиентов в Netflix был на уровне 10%; уже в 2005 Netflix ежемесячный cancel rate был на уровне 4.5%; в наши дни (2019?) ежемесячный отток клиентов был немного меньше 2%. Чтобы говорить (или оценивать) отток клиентов, очевидно, его нужно как-то визуализировать. Когорты это самый простой и доступный способ изучать отток клиентов. Итак, я быстро построил когортную модель с такими вводными: каждый месяц компания привлекает 1,000 новых клиентов; в каждый последующий месяц после месяца привлечения компания теряет Х% своих клиентов (churn rate = X%); горизонт планирования 3 года. В идеальных условиях клиенты приходят навсегда (churn rate = 0%). Если бы это было так