Обратная сторона корреляции
Часто аналитики делают быстрые выводы исходя из корреляции. Так вот на днях мне попался отличный пример того, как корреляции может вводить в заблуждение.
Сегодня я хочу поделиться с вами этим примером. Итак, у нас есть вот такой простой датасет (см ниже).
В датасете есть 4 переменные Х и 4 переменные У.
Пары значений { xi, yi } подобраны так, что у них практически одинаковая корреляция (~0.816).
Так вот одинаковая корреляция еще не означает, что
-- между переменными зависимости однотипные
Как и высокий коэффициент корреляции еще не означает, что
-- между переменными есть линейная зависимость
-- там вообще есть зависимость
Давайте построим 4 графика и оценим эти зависимости.
В первой паре { x1, y1 } мы видим практически линейную зависимость.
Во второй паре { x2, y2 } мы видим криволинейную зависимость.
В третьей паре { x3, y3 } мы видим выброс, который несколько изменил траекторию зависимости.
ВЫВОД:
Искать корреляцию полезно, но прежде, чем делать на ее основе выводы, весьма полезно эту корреляцию визуализировать.
В тоже время важно отметить, что найденная высокая корреляция это хороший кандидат для теста и проверки наличия причинно-следственной связи (которая далеко не всегда будет подтверждаться).
Сегодня я хочу поделиться с вами этим примером. Итак, у нас есть вот такой простой датасет (см ниже).
В датасете есть 4 переменные Х и 4 переменные У.
Пары значений { xi, yi } подобраны так, что у них практически одинаковая корреляция (~0.816).
Так вот одинаковая корреляция еще не означает, что
-- между переменными зависимости однотипные
Как и высокий коэффициент корреляции еще не означает, что
-- между переменными есть линейная зависимость
-- там вообще есть зависимость
Давайте построим 4 графика и оценим эти зависимости.
В первой паре { x1, y1 } мы видим практически линейную зависимость.
Во второй паре { x2, y2 } мы видим криволинейную зависимость.
В четвертой паре { x4, y4 } мы видим выброс, который фактически создал несуществующую зависимость.
ВЫВОД:
Искать корреляцию полезно, но прежде, чем делать на ее основе выводы, весьма полезно эту корреляцию визуализировать.
В тоже время важно отметить, что найденная высокая корреляция это хороший кандидат для теста и проверки наличия причинно-следственной связи (которая далеко не всегда будет подтверждаться).
Comments
Post a Comment