Обратная сторона корреляции

Часто аналитики делают быстрые выводы исходя из корреляции. Так вот на днях мне попался отличный пример того, как корреляции может вводить в заблуждение.

Сегодня я хочу поделиться с вами этим примером. Итак, у нас есть вот такой простой датасет (см ниже).


В датасете есть 4 переменные Х и 4 переменные У.

Пары значений { xi, yi } подобраны так, что у них практически одинаковая корреляция (~0.816).

Так вот одинаковая корреляция еще не означает, что

-- между переменными зависимости однотипные

Как и высокий коэффициент корреляции еще не означает, что

-- между переменными есть линейная зависимость

-- там вообще есть зависимость

Давайте построим 4 графика и оценим эти зависимости.



В первой паре { x1, y1 } мы видим практически линейную зависимость.

Во второй паре { x2, y2 } мы видим криволинейную зависимость.

В третьей паре { x3, y3 } мы видим выброс, который несколько изменил траекторию зависимости.

В четвертой паре { x4, y4 } мы видим выброс, который фактически создал несуществующую зависимость.

ВЫВОД:

Искать корреляцию полезно, но прежде, чем делать на ее основе выводы, весьма полезно эту корреляцию визуализировать.

В тоже время важно отметить, что найденная высокая корреляция это хороший кандидат для теста и проверки наличия причинно-следственной связи (которая далеко не всегда будет подтверждаться).

Comments

Popular posts from this blog

IV/WOE - хороший способ понять какой информацией вы обладаете

A/B-тестирование: смотреть на конверсию vs смотреть на продажи

Продуктовая аналитика: влияние продуктовых фич на ретеншн