Posts

Продуктовая аналитика: Матрица Вовлеченности

Image
Продуктовая аналитика это постоянный процесс поиска инсайтов о том, как и когда твой продукт приносит (или наоборот - не приносит) ценность клиенту. Но, оцифровать ценность это совсем нетривиальная задача и поэтому часто продуктовый анализ начинают с анализа использования продукта.  Для того, чтобы запустить в компании поведенческую аналитику очень важно собирать подходящую информацию о поведении клиентов. Здесь есть два возможных подхода: собирать сессионные данные (отслеживать визиты на страницы/экраны, отслеживать клики/нажатия) собирать событийные данные (генерировать события при пользовании функционалом продукта) Перечисленные выше подходы имеют как плюсы так и минусы, как с точки зрения скорости запуска отслеживания поведения, так и с точки зрения глубины возможных инсайтов.  Из того, что я вижу в последнее время - аналитические системы на основе событий доминируют в сегменте продуктовой аналитики (например, Amplitude, Heap). Итак, допустим вы работаете в продуктовой компании,

Drill-down: или как найти перспективную точку роста?

Image
Аналитика - это постоянный поиск сигналов. Часто аналитику приходится делать десятки срезов, прежде чем какой-то один из них окажется перспективным или хотя бы любопытным. А значит неплохо было бы найти способ, когда такой поиск можно сделать более управляемым, а в идеале - оптимальным. Недавно я наткнулся на одну статью , где описывался простой, быстрый способ находить перспективные срезы. Более того, при желании, такой подход можно автоматизировать. Любой бизнес так или иначе работает с воронками. Например, у вас есть лэндинг с формой регистрации и такой конверсией: Overall Conversion Rate. Сама по себе конверсия уже может нам что-то рассказать. Например, используя свой опыт или benchmarks мы можем сказать - мала она или велика. Также мы могли бы сравнить конверсию этого лэндинга с конверсиями других наших лэндингов.  Но, если мы хотим улучшить конверсию, нам определенно нужна другая (дополнительная) информация.  Подумав с минутку, можно прийти к мысли, что внутри этого лэндинга впол

BI-системы: ограничения или возможности?

Image
Недавно наткнулся в соц. сети на мнение (к слову весьма расхожее в последнее время), что: Python - это основной инструмент аналитика и что Аналитические системы - это негибкие инструменты На мой взгляд, чтобы разобраться в этих вопросах их стоит детализировать.  Python - основной инструмент аналитика? Python (как и R) это язык программирования. В нем есть набор функций, которые идут с дистрибутивом и есть механизм пакетов, который позволяет элегантно расширять возможности такого языка.  С этой точки зрения Python, R или любой другой язык программирования будет всегда давать больше возможностей, он априори будет более универсален.  Но, универсальность всегда имеет свою цену...  Конечный результат Для меня аналитика это процесс, который начинается всегда не с инженерии, а с описания боли заказчика, которую аналитик надеется решить. Как только заказчик озвучил свой вопрос, разумно перефразировать его своими словами, чтобы убедиться в том, что вы правильно поняли заказчика. Проделав такое

h2o - лучший друг маркетолога в машинном обучении

Image
Часто маркетологи сталкиваются с неопределенностью: им нужно оценить вероятность какого-то события, имея под рукой набор признаков относящихся к этому событию. Такая задача обычно сводится в бинарной классификации т.е. прогнозированию одного из двух возможных исходов: да или нет (1 или 0). Сегодня мы рассмотрим платформу машинного обучения  h2o . Для меня эта платформа давно уже стала эталоном того, как с минимальными усилиями (как по предобработке данных так и по моделированию и пост оценке) можно быстро делать качественное прогнозирование на данных любого масштаба. Итак, у нас есть датасет клиентов со следующими характеристиками:  Age (Возраст) Income (Доход) Subscribe (флаг: 1 - подписан, 0- не подписан) Сырые данные выглядят вот так: raw data И мы хотим построить модель машинного обучения, которая позволит: предсказать флаг Подписки, а также  оценить качество такой модели машинного обучения. 1. Что такое h2o? Это Java-платформа и веб-интерфейс для работы с задачами машинного обучен

A/B-тестирование: 3 важных принципа

Image
A/B-тестирование это мощный инструмент для роста бизнеса. Но, как и любой инструмент, в нем есть свои нюансы. Сегодня поговорим о 3-х фундаментальных принципах, которые стоит держать в уме, когда вы планируете запустить очередной эксперимент. Большие vs малые цели В вашей команде всегда есть разные идеи (гипотезы) о том, что можно было бы улучшить. Очевидно, что ресурс у вас ограничен. Вы не сможете протестировать ни одномоментно, а часто даже последовательно, все идеи вашей команды. А значит стоит подумать с чего начать.  Давайте внимательно посмотрим на картинку выше. По виду кривой нам становится понятно, что практически в любом А/B-тесте мы оперируем двумя важными понятиями: вдумчивость (когда мы хорошенько думаем и затем выбираем цель) размер выборки Если у вас малый размер выборки - тщательно обдумываете, что вы хотите протестировать.  И наоборот, если у вас очень большая выборка, то вы могли бы себе позволить тестировать какие-то мелочи.  Например, Google в свое время тестировал

Как построить профили клиента?

Image
Итак, сегодня мы разберем две простые техники, объединив которые вы можете создавать профайлы клиентов. Обычно, когда вы работаете с клиентами, вы сохраняете в Базу Данных их характеристики. Для примера я взял датасет, в котором по каждому клиенту есть такие характеристики: Age Income Subscribe С характеристиками Age и Income все понятно. Это возраст и сумма дохода. Есть также третья, целевая характеристика - Subscribe - есть ли у клиента платная подписка. Так вот, будучи маркетологами, наша с вами задача состоит в том, что понять какие профайлы клиентов в клиентской базе у нас есть. Для этого мы воспользуемся двумя простыми подходами: Information Value (IV) Logistic Regression (glm) Первый подход (IV) позволит проанализировать отдельно каждую из характеристик и выделить группы в которых доля платных подписок будет преобладать над долей тех, кто не подписался.  Второй подход (glm) позволит изучить датасет и спрогнозировать вероятность платной подписки. Так вот, объединив оба подхода

A/B-тестирование: как быстро проверить сплитер?

Image
Прежде, чем начать A/B-тестирование, мы обычно формируем гипотезу и определяем сколько тестовых групп у нас будет. В классических экспериментах групп обычно две: группа A и группа B . Дальше мы используем либо внешний инструмент (например, Google Optimize) либо просим программиста разделить входящий поток пользователей на эти группы. Программисты используют программную функцию, которая, грубо говоря, подбрасывает монетку и по результату подбрасывания присоединяет пользователя к той или иной группе.  С виду все хорошо, однако подбрасывание монетки это случайный процесс и в нем шансы встретить ситуацию, когда в каждой группе будет ровно по 50% пользователей, возможно, но маловероятно . И вот вы запустили A/B-тест и пользователи начали маршрутизироваться в разные группы.  Допустим, в день у вас приходит ~20 000 пользователей в каждую группу.  При таком наборе пользователей и их равномерном распределении по группам, за 3 дня картинка должна была бы быть близкой к следующей: группа A: 60

A-ha моменты в продукте: системный подход к поиску

Image
Два года назад, пройдя курс по retention на Reforge , я решил написать пост , где показал как можно расчитать a-ha момент используя Venn-диаграммы. Хотя сам способ Venn-диаграмм простой и понятный, мне он не сильно нравился из-за своей громоздкости: нужны были данные на уровне отдельного клиента нужны были данные по тем, кто Не сделал целевое действие, но был удержан Справедливости ради стоит отметить, что у аналитика, как правило, всегда есть доступ к сырым данным и п.2 не вызывает особых проблем. В прошлом посте я рассказывал про IV / WOE как способ первичного знакомства с данными и сигналами в них. Этот способ позволяет не только быстро отранжировать сигналы (отобрать самые сильные), но также позволяет узнать как именно каждый сигнал влияет на результат. Сегодня я бегло покажу как можно было бы использовать IV / WOE для поиска и расчета a-ha моментов в продукте.  В блоге Mode Analytics я нашел статью с синтетическим примером данных для расчетов a-ha моментов. Это как раз то, что н

IV/WOE - хороший способ понять какой информацией вы обладаете

Image
На мой взгляд, маркетологи чаще других решают задачи бинарной классификации : купит/не купит клиент, вернется на сайт или нет, высокодоходный ли это клиент и т.д.  Заранее никто из нас не знает какие сигналы из тех, что оставляет нам клиент, помогут нам предсказать к какой группе он относится. А потому маркетологи часто либо (1) сами собирают разные сигналы из систем аналитики (визиты, просмотры страниц, время на сайте и т.д.) либо (2) идут к разработчикам и просят их выгрузить информацию из баз данных о том, что известно о клиентах в продуктивных системах (дата регистрации, дата первой покупки и т.д.). Сигналов (фичей) становится достаточно много и понять, что из этого важно, а что шум - не так уж и просто. Хочется верить, что наш опыт и интуиция сработают, но есть ли какие-то альтернативы понадежнее? В целом, существует два подхода к прогнозированию.  Первый подход заключается в том, что современные вычислительные возможности компьютеров таковы, что можно не разбираться в том, какую