Обратная сторона корреляции
Часто аналитики делают быстрые выводы исходя из корреляции. Так вот на днях мне попался отличный пример того, как корреляции может вводить в заблуждение. Сегодня я хочу поделиться с вами этим примером. Итак, у нас есть вот такой простой датасет (см ниже). В датасете есть 4 переменные Х и 4 переменные У. Пары значений { xi, yi } подобраны так, что у них практически одинаковая корреляция (~0.816). Так вот одинаковая корреляция еще не означает , что -- между переменными зависимости однотипные Как и высокий коэффициент корреляции еще не означает , что -- между переменными есть линейная зависимость -- там вообще есть зависимость Давайте построим 4 графика и оценим эти зависимости. В первой паре { x1, y1 } мы видим практически линейную зависимость. Во второй паре { x2, y2 } мы видим криволинейную зависимость. В третьей паре { x3, y3 } мы видим выброс, который несколько изменил траекторию зависимости. В четвертой паре { x4, y4 } мы видим выброс, которы