Posts

Showing posts from September, 2020

A-ha моменты в продукте: системный подход к поиску

Image
Два года назад, пройдя курс по retention на Reforge , я решил написать пост , где показал как можно расчитать a-ha момент используя Venn-диаграммы. Хотя сам способ Venn-диаграмм простой и понятный, мне он не сильно нравился из-за своей громоздкости: нужны были данные на уровне отдельного клиента нужны были данные по тем, кто Не сделал целевое действие, но был удержан Справедливости ради стоит отметить, что у аналитика, как правило, всегда есть доступ к сырым данным и п.2 не вызывает особых проблем. В прошлом посте я рассказывал про IV / WOE как способ первичного знакомства с данными и сигналами в них. Этот способ позволяет не только быстро отранжировать сигналы (отобрать самые сильные), но также позволяет узнать как именно каждый сигнал влияет на результат. Сегодня я бегло покажу как можно было бы использовать IV / WOE для поиска и расчета a-ha моментов в продукте.  В блоге Mode Analytics я нашел статью с синтетическим примером данных для расчетов a-ha моментов. Это как раз то, что н

IV/WOE - хороший способ понять какой информацией вы обладаете

Image
На мой взгляд, маркетологи чаще других решают задачи бинарной классификации : купит/не купит клиент, вернется на сайт или нет, высокодоходный ли это клиент и т.д.  Заранее никто из нас не знает какие сигналы из тех, что оставляет нам клиент, помогут нам предсказать к какой группе он относится. А потому маркетологи часто либо (1) сами собирают разные сигналы из систем аналитики (визиты, просмотры страниц, время на сайте и т.д.) либо (2) идут к разработчикам и просят их выгрузить информацию из баз данных о том, что известно о клиентах в продуктивных системах (дата регистрации, дата первой покупки и т.д.). Сигналов (фичей) становится достаточно много и понять, что из этого важно, а что шум - не так уж и просто. Хочется верить, что наш опыт и интуиция сработают, но есть ли какие-то альтернативы понадежнее? В целом, существует два подхода к прогнозированию.  Первый подход заключается в том, что современные вычислительные возможности компьютеров таковы, что можно не разбираться в том, какую