Учебник+

2.1. Предварительные замечания

Нам будет удобно использовать следующее определение выборочной ковариации:

\(\widehat {\mathit{cov}}\left(x,y\right)=\frac 1 n\sum _{i=1}^n\left(x_i - \overline x\right)\left(y_i-\overline y\right),\) где \(\overline x=\frac{x_1+x_2+{\dots}+x_n} n\) и, аналогично, \(\overline y=\frac{y_1+y_2+{\dots}+y_n} n\)

Здесь и далее значок «крышки» над некоторой величиной будет означать, что эта величина посчитана по выборке. В данном случае, например, \(\widehat {\mathit{cov}}\left(x,y\right)\) — ковариация между двумя переменными, посчитанная по выборке из n наблюдений. Её не следует путать с теоретической ковариацией между двумя случайными величинами x и y, которую мы будем обозначать \(\mathit{cov}\left(x,y\right)\) и которая, напомним, определяется так:

\begin{equation*} \mathit{cov}\left(x,y\right)=E\left(\left(x-\mathit{Ex}\right)\left(y-\mathit{Ey}\right)\right). \end{equation*}

Принципиальное отличие между теоретической и выборочной ковариацией состоит, в частности, в том, что первая на практике почти никогда не известна и не может быть точно вычислена, в то время как вторая может быть посчитана для каждой конкретной выборки.

Выборочная ковариация обладает рядом удобных свойств, каждое из которых может быть доказано путем непосредственных вычислений:

  1. \(\widehat {\mathit{cov}}\left(x,b\right)=0,\)
  2. \(\widehat {\mathit{cov}}\left(x,\mathit{by}\right)=b{\ast}\widehat {\mathit{cov}}\left(x,y\right),\)
  3. \(\widehat {\mathit{cov}}\left(x,y+b\right)=\widehat {\mathit{cov}}\left(x,y\right),\)
  4. \(\widehat {\mathit{cov}}\left(x,y+z\right)=\widehat {\mathit{cov}}\left(x,y\right)+\widehat {\mathit{cov}}\left(x,z\right).\)

Здесь b — некоторая константа.

Кроме того, нам будет полезен альтернативный способ вычисления выборочной ковариации: \(\widehat {\mathit{cov}}\left(x,y\right)=\overline{\mathit{xy}}-\overline x{\ast}\overline y\).

Также нам пригодится выборочная дисперсия переменной, которую мы будем обозначать так:

\begin{equation*} \widehat {\mathit{var}}\left(x\right)=\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)^2=\overline{x^2}-\left(\overline x\right)^2 \end{equation*}

Свойства выборочной дисперсии, которые нам понадобятся:

  1. \(\widehat {\mathit{var}}\left(b\right)=0\)
  2. \(\widehat {\mathit{var}}\left(\mathit{bx}\right)=b^2{\ast}\widehat {\mathit{var}}\left(x\right)\)
  3. \(\widehat {\mathit{var}}\left(x+b\right)=\widehat {\mathit{var}}\left(x\right)\)
  4. \(\widehat {\mathit{var}}\left(x+y\right)=\widehat {\mathit{var}}\left(x\right)+\widehat {\mathit{var}}\left(y\right)+2\widehat {\mathit{cov}}\left(x,y\right)\)

Здесь b — снова некоторая константа.

Наконец, выборочный коэффициент корреляции договоримся обозначать следующим образом:

\begin{equation*} \widehat {\mathit{corr}}\left(x,y\right)=\frac{\widehat {\mathit{Cov}}\left(x,y\right)}{\sqrt{\widehat {\mathit{Var}}\left(x\right){\ast}\widehat {\mathit{Var}}\left(y\right)}} \end{equation*}