К основному контенту

Сообщения

Сообщения за Октябрь, 2017

Обратная сторона корреляции

Часто аналитики делают быстрые выводы исходя из корреляции. Так вот на днях мне попался отличный пример того, как корреляции может вводить в заблуждение.

Сегодня я хочу поделиться с вами этим примером. Итак, у нас есть вот такой простой датасет (см ниже).


В датасете есть 4 переменные Х и 4 переменные У.

Пары значений { xi, yi } подобраны так, что у них практически одинаковая корреляция (~0.816).

Так вот одинаковая корреляция еще не означает, что

-- между переменными зависимости однотипные

Как и высокий коэффициент корреляции еще не означает, что

-- между переменными есть линейная зависимость

-- там вообще есть зависимость

Давайте построим 4 графика и оценим эти зависимости.



В первой паре { x1, y1 } мы видим практически линейную зависимость.

Во второй паре { x2, y2 } мы видим криволинейную зависимость.

В третьей паре { x3, y3 } мы видим выброс, который несколько изменил траекторию зависимости.

В четвертой паре { x4, y4 } мы видим выброс, который фактически создал несуществующую зависим…

Outliers, anomalies и прочие выбросы в ваших данных

Часто в ваших данных попадаются выбросы. С точки зрения маркетолога выбросы - это такие данные, которые выходят за ожидаемый диапазон значений.

Как с этим работать - тема сегодняшнего поста.

Чтобы проще было понимать о чем дальше будет идти речь, я сгенерировал 2 тестовых датасета. Каждый датасет состоит из таких полей:
порядковый номер записи (idx), средний чек заказа (AOV), средний чек первого заказа (first_AOV).
Первый датасет состоит из 100 записей и в нем нет outliers (выбросов).

Второй датасет состоит из 30 записей и в нем точно есть outliers (я вручную задал 2 значения выше диапазонов случайных значений, которыми я параметризировал датасеты).

Outliers

Ожидаемый диапазон значений понятие субъективное (иногда вы можете оценить его адекватно, но чаще - нет). Поэтому здесь лучше опираться на математическую базу.

Одно из самых простых и в тоже время рабочих определений дал в свое время известный математик Tukey: outlier это значение, которое выходит за рамки диапазона ± 1.5 * IQR.


Когда …

Активация клиентов - мощный источник роста бизнеса

Для роста все бизнесы занимаются привлечением новых клиентов. Вы покупаете рекламу и получаете из нее новых клиентов. Это простая и понятная схема.

Однако, многие онлайн-сервисы часто предлагают клиенту зарегистрироваться.
Здесь, как правило, возможны два варианта:
покупка, где в фоном режиме клиента регистрируют в сервисерегистрация, только после которой можно совершить покупку Так вот шаг регистрации (с виду кажущийся незначительным) является важным дифференцирующим фактором, дающим возможность делать интересные исследования.
Мысль первая
Клиентов, которые зарегистрировались и готовы купить сразу (обычно в тот же день) очень не много.


Мы видим, что % клиентов, которые пришли, зарегистрировались и купили в тот же день (is_same_day_TRUE) - действительно мало. В примере выше, в зависимости от месяц привлечения, это, в среднем, около 5%.
Мысль вторая
Занимаясь улучшением привлечения через оптимизацию Landing Pages и Sign Up Forms мы можем улучшить эти показатели, однако, учитывая объемы кл…