Коэффициент корреляции rij – это статистическая мера направления и степени линейной зависимости между двумя случайными переменными (меняется от –1 до +1). Для разных значений коэффициента корреляции на рис. 4.8 приведены соответствующие диаграммы рассеяния. При нулевой корреляции переменные X и Y никак не связаны – Y меняется полностью случайно, вне зависимости от изменений X. (Кстати, диаграмма построена с помощью генератора случайных чисел, поэтому распределение является заведомо случайным, хотя и не выглядит таковым – так и хочется добавить точек в пустые места. Наши представления о случайности зачастую сильно отличаются от действительности.)
Рис.4.8. Диаграммы рассеяния при различных значениях коэффициента корреляции.
При приближении абсолютной величины коэффициента корреляции к единице зависимость между переменными приобретает все более определенный характер, до тех пор, пока случайность полностью устраняется (диаграмма в правом верхнем углу). На диаграмме в левом нижнем углу рис. 4.8 коэффициент корреляции несколько выше по абсолютной величине, чем на диаграмме в правом нижнем углу – точки группируются ближе к линии регрессии.
Квадрат коэффициента корреляции (всегда обозначается как Rij2) называется коэффициентом детерминации. Этот коэффициент является мерой рассеяния данных относительно линии регрессии и показывает, какая доля изменения зависимой переменной Y определяется (детерминируется) изменением независимой переменной X.
А теперь для примера подсчитаем ковариацию и коэффициент корреляции доходности индекса РТС и акций РАО ЕЭС, ход расчета виден из нижеприведенной таблицы. Диаграмма рассеяния и линия тренда приведены на рис. 4.9, изменения в доходности индекса РТС объясняют примерно 93% изменений доходности РАО ЕЭС.
Рис.4.9. Корреляция годовой доходности индекса РТС и акций РАО ЕЭС в 1996-2001 гг.
В последней строке таблицы приведен коэффициент β – тангенс угла наклона линии регрессии к оси абсцисс, его значение будет пояснено в следующей главе.
Отметим, что при расчете по историческим данным вероятность каждой величины равна 1 / N, где N – просто число используемых данных (в нашем случае 6). Однако более правильным (по теории статистики) является использование величины 1 / (N-1), по числу степеней свободы системы (оно уменьшается на единицу, так как вначале рассчитываются средние значения). Поэтому при расчете как ковариации, так и дисперсий суммы делятся на N-1. Это замечание носит чисто теоретический характер – обычно при вычислении коэффициентов делители типа (N-1) сокращаются, так что на практике подсчитывают просто отношения соответствующих сумм столбцов таблицы (без вычисления собственно ковариаций и дисперсий).
Дата | Индекс РТС, пункты | Цена акции РАО ЕЭС, $ | Yi-Yср)(Xi-Xср) | (Yi-Yср)2 | (Xi-Xср)2 |
28.12.95 | 82,92 | 0,0309 | |||
31.12.96 | 200,50 | 0,0915 | 5908,5 | 6640,7 | 5257,0 |
30.12.97 | 396,41 | 0,3 | 3218,0 | 12823,9 | 807,5 |
31.12.98 | 58,93 | 0,0305 | 31574,6 | 41803,7 | 23848,5 |
31.12.99 | 177,71 | 0,12 | 23654,9 | 31975,3 | 17499,6 |
29.12.00 | 143,29 | 0,082 | 12970,7 | 21401,6 | 7861,1 |
29.12.01 | 260,05 | 0,1573 | -269,1 | 519,7 | 139,3 |
Сумма | 77048,9 | 115164,9 | 55421,3 | ||
COVyx | 15409,8 | ||||
σy2 | 151,8 | ||||
σx2 | 105,3 | ||||
ryx | 0,964 | ||||
Ryx2 | 0,930 | ||||
β | 1,39 |