h2o - лучший друг маркетолога в машинном обучении
Сегодня мы рассмотрим платформу машинного обучения h2o. Для меня эта платформа давно уже стала эталоном того, как с минимальными усилиями (как по предобработке данных так и по моделированию и пост оценке) можно быстро делать качественное прогнозирование на данных любого масштаба.
Итак, у нас есть датасет клиентов со следующими характеристиками:
- Age (Возраст)
- Income (Доход)
- Subscribe (флаг: 1 - подписан, 0- не подписан)
![]() |
raw data |
- предсказать флаг Подписки, а также
- оценить качество такой модели машинного обучения.
![]() |
h2o interface |
Загрузку данных в h2o можно осуществлять как через веб-интерфейс так и через R/Python.
Обычно я делаю очень небольшую обработку данных на R и затем загружаю эти данные в h2o.
![]() |
load data to h2o from R |
3. Exploratory Data Analysis (EDA)
Прежде чем делать модерирование, рекомендуется ознакомиться с данными.
Давайте посмотрим описательные статистики:
![]() |
descriptive statistics |
- только 42% клиентов подписаны.
- Возраст клиентов находится в диапазоне от 25 до 75 лет. Среднее 58.
- Доход клиентов находится в диапазоне от 50 до 200. Среднее 188.
Если у нас есть подозрения, что данные смещены (как например в случае с переменной Доход), мы можем быстро построить график и посмотреть распределение такой переменной.
![]() |
Income distribution |
- 50% клиентов имеют Доход до 107
- клиентов с Доходом от 150 меньше 10%
![]() |
GLM model |
- responce_column
тренирую модель предсказывать колонку Subscribe - nfolds = 5
использую кросс-валидация, чтобы модель была более устойчивой к новым данным - seed = 03040
инициализирую модель неслучайным числом, чтобы легко воспроизводить полученный результат
![]() |
GLM model diagnostics |
- мы можем предсказать подписавшихся с точностью 80% (ошибка в 20%)
- мы можем предсказать НЕ подписавшихся с точностью 40% (ошибка в 60%)
- Доход более важен, чем Возраст для предсказания флага Подписки.
![]() |
Gain/Lift table |
- максимальную выгоду от предсказания можно получить, если сделать предсказание вероятности, отсортировать по убыванию вероятности и отобрать первые 4% клиентов.
- выгода от предсказания сохраняется, если сделать предсказание вероятности, отсортировать по убыванию вероятности и отобрать первые 30% клиентов.
Дякую вам! Кортить попробувати це рішення на практиці.
ReplyDeleteПаша, не нашел где полайкать, потому пишу спасибо тут :)
ReplyDelete