Google Analytics - можно ли доверять данным оттуда?

В последнее время я все реже и реже смотрю в Google Analytics. Возможно вы удивитесь и даже спросите у меня почему?

А все потому, что Google Analytics с версии V5 ввел такой механизм как Sampling. Идея его проста - зачем переберать весь объем данных, когда можно взять часть данных (подмножество) и с сопоставимой точностью выдать тренды и метрики для всего множества.

И хотя мне эта идея понятна, все же я не доволен таким подходом от Google. И вот недавно я нашел статью-исследование, которая подтвердила мои ощущения. Называется она: Can You Trust Your Google Analytics Data?

Ниже, я вкратце изложу основные моменты исследования, которое сделали ребята из Blastam (которые и написали вышеупомянутую статью).

Начну с хорошей и пожалуй единственно хорошей новости.

Google Analytics Standard Reports
Большинство стандартных отчетов Google Analytics идут pre-aggregated. Это значит, что данные в этих отчетах аггрегируются в процессе их загрузки в GA и поэтому Sampling на них не распространяется. Для кого-то это плюс, но не для меня. В стандартные отчеты я практически никогда не смотрел. Взял когда-то 3 Custom Reports с блога Kaushik (евангелист Google), настроил под себя и мне их хватало в 95% случаев.

Теперь о плохих новостях и возможных решениях.

Первое, о чем хотелось бы сказать, так это о том, когда включается Sampling.

500К Visits и/или Advanced Segments
Судя из названия вы уже обо всем догадались. Да, если объем трафика за период более 500К визитов, то включается Sampling. Также, если вы используете Advanced Segments, то очевидно пре-аггрегированные данные уже не подойдут. Начнется пересчет сырых данных и включится Sampling.

Отсюда 1-я рекомендация: сузьте период, скажем с 30 дней до 3-х или еще меньше и посмотрите, выключился ли Sampling. Сразу же оговорюсь, что т.к. это существенно уменьшает объем просматриваемого трафика, то это часто срабатывает. Часто, но не всегда.

Прежде чем я перейду к результатам, я хочу уточнить, что есть еще два несколько решений этого вопроса.

Второй вариант решения проблемы Sampling - это покупка Google Analytics Premium аккаунт. В этом случае верхний порог для включения Sampling в отчетах вырастает с 500К visits до 3М. Также, в Google Analytics Premium вы всегда можете экспортировать Unsampled Report, т.е. полные данные. Здесь стоит отметить, что Экспорт доступен и Google Analytics Standard, но скаченные данные будут из Sampling.

Отсюда 2-я рекомендация: если у вас есть лишних 150К USD в год, то решить проблему Sampling легко, купив Google Analytics Premium аккаунт.

Третий вариант решения проблемы Sampling - это поставить отдельный трекинг-код Google Analytics на интересующую часть сайта и тогда, возможно, вы впишитесь в ограничение алгоритма Sampling.

UPDATED: Кроме того, есть сторонние решения (например, Analytics Canvas), которые позволяют разбивать период с Sampling на маленькие периоды где Sampling отсутствует, а потом объединять результаты. Подробнее cможет рассказать Рома Рыбальченко.

Второе, о чем хотелось бы сказать так это о точности Sampling.

Собственно ребята из Blastam имея Google Analytics Premium и Google Analytics Standard аккаунт, делали замеры одного и того же сайта, выгружали данные в Excel и делали свои выводы.

Итак, вот результаты 1-го теста:

Из скриншота видно какие сегменты трафика тестировали ребята и какой разнос в метриках они получили.

Самый маленький разнос по Visits. Это и понятно - ведь это основная метрика по которой делается Sampling. Но вот дальше, полная неожиданность.
Разнос по Transactions от -0,92% (что в целом ОК) до -11,86% (ненадежные данные)!
Разнос по Revenue тоже далек от идеала: от 2,92% до -16,09% (ненадежные данные)!
Разнос по Ecommerce Conversion Rate гуляет от -1,21% до -12,47% (ненадежные данные)!

Далее, ребята из Blastam сделали срез по ТОП-10 источников трафика (Source/Medium) отсортированных по метрике Revenue.
И это очень разумно, т.к. далеко не всегда ТОП-10 источников дохода = ТОП-10 источников трафика являются, в то время как Sampling делается по визитам.

Ниже результаты:

Разнос по Transactions от -1,33% до -9,11% (ненадежные данные)!
Разнос по Revenue тоже далек от идеала: от -2,93% до -14,56% (ненадежные данные)!
Разнос по Ecommerce Conversion Rate гуляет от -0,11% до -12,39% (ненадежные данные)!

И наконец, жемчужина исследования ребят из Blastam. Построчное сравнение Unsampled и Sampled данных на примере ТОП-10 источников трафика.

Разнос по Visits
Разнос по трафику среди ТОП-10 источников трафика в эксперименте построчно достигал уже +/-6%. Более того, для таких подсегментов как например 'msn / ppc' и 'District of Columbia' разнос достигал разительных показателей: +49.37% и -20.20% соответственно.

Разнос по Revenue
Разнос по доходу по каналу #1 по обороту при 50% Slider Sample Size отличался на -80,02%, а при 100% Slider Sample Size (максимальная точность Sampling) отличался на -11,52%.

После такой статьи я замерял Visits, Transactions и Revenue в своем текущем проекте и сделал выводы. А вы доверяете своим данным из Google Analytics?

Если вы хотите быстро освоить Google Analytics - посмотрите 3 моих первых поста.

Comments

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн