相関係数とその導出＜共分散・ピアソン・スピアマン・ケンドール＞【統計検定1級対策】

今回の記事ではピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数について、それぞれまとめて、式の導出と解釈を中心に説明します。

以前の記事と統合しつつ、追記しました。

相関係数①＜共分散～ピアソンの相関係数まで＞【統計検定1級対策】

相関係数②＜スピアマンの順位相関係数の導出をわかりやすく＞【統計検定1級対策】

目次：

相関係数とは何か？
共分散の定義と式変形
ピアソンの相関係数
- 標準偏差をnで割るか、n-1で割るか問題
スピアマンの順位相関係数
ケンドールの順位相関係数
- ケンドールの順位相関係数の分散
- スピアマンの順位相関係数とケンドールの順位相関係数の使い分け

相関係数とは何か？

そもそも、相関係数とは何なのか。相関係数は2つの確率変数どうしの関係性を示す数値です。

例えば、収縮期血圧と体重で考えるなら、色んな人から体重と収縮期血圧のデータの組み合わせをとってきます。そして、体重が増えるほど血圧が上がるのかどうかを、相関係数を使って調べます。（おそらく増えそうですね）

相関係数にはいろいろ種類がありますが、原則として

■相関係数＝0は無相関、相関がないことをしめす

■-1≦相関係数≦1の範囲におさまる

■相関係数が＋であれば正の相関（体重が増えれば血圧が増える）、-であれば負の相関（体重が減ると血圧が増える）を示す

といったことが挙げられます。

では、具体的な相関係数にはどういったものがあるか。ピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数の３つを紹介していきます。

とその前に、式を理解するうえでは必要な共分散について簡単に触れておきます。

共分散の定義と式変形

相関係数を出すのに必要な共分散について、まず見直してみます。

共分散の意味とかはコチラなどをみて頂いたほうが分かりやすいかと思います。

共分散の意味と簡単な求め方 | 高校数学の美しい物語

ある確率変数XとＹの共分散Cov(X,Y)は以下の式で定義されます。

これが定義式です。変形した形の方が使いやすいので、以下の形を使うことも多いです。後でまた出てきます。

\[ Cov(X, Y) = E[(X – E(X))(Y – E(Y))] \]

ちなみに上で述べたようにXとYが無相関である場合（全然関連がない）は、最後の式変形でみると

\[ E[XY] = E[X]E[Y] \]

となるので、Cov(X, Y) = 0となります。

ピアソンの相関係数

まずはピアソンの相関係数の式をみていきます。

ピアソンの相関係数とはパラメトリックな分布をとる（正規分布に従う）連続変数どうしの関連性を見る際に使われる相関係数です。ただ、「相関係数」と言う場合もこれを指します。

式としては分子に共分散、分母にそれぞれの標準偏差を持ってきます。

具体的な式として書くと

\[ r = \frac{Cov(X, Y)}{\sigma_x \sigma_y} = \frac{Cov(X, Y)}{\sqrt{\frac{1}{n}\sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}} \]

となります。

先ほど書いたように無相関のときはCov(X,Y)=0なので相関係数も0となることが分かります。

またコーシーシュワルツの式↓を使うと

\[ \sum_{i=1}^n (a_i b_i)^2 \leq \sum_{i=1}^n a_i^2 \sum_{i=1}^n b_i^2 \]

以下の関係式が導き出せます。

\[ Cov(X, Y) = \{E[(X – E(X))(Y – E(Y))]\}^2 \leq E[(X – E(X))^2] E[(Y – E(Y))^2] \]

よってピアソンの相関係数は常に（分子の2乗）≦（分母の2乗）となるので-1～1の範囲に収まることが分かります。

あとは蛇足ですが、統計検定の問題に関わる話なので、ここからは特に興味がない方は読み飛ばしてもらって良いです。

標準偏差をnで割るか、n-1で割るか問題

統計検定の問題を解くうえでの注意事項は、分子の標準偏差をnで割るかn-1で割るかということ。n-1で割る場合は不偏分散ですが、nで割る場合は標本分散です。

この式はnで割ったものを提示しています。というのも上記の式の共分散の定義は、期待値を用いている（期待値はnで割っている）ことから分かるように、標本分散と同様にnで割ったものだからです。

実際、分子分母間で統一されていれば、結局全部約分されるので、nでもn-1でもどちらでも同じです。ただ両方で統一しなければいけません。

スピアマンの順位相関係数

スピアマンの順位相関係数とは、ノンパラメトリックな２変数に対して、相関関係を示す場合に使われる相関係数です。

ピアソンの相関係数は \( Y = aX + b \) のような線形モデルに対しての相関に使えますが、非線形モデル（例えば \( Y = X^2 \)）でありつつも、相関のあるものに対してはスピアマンの相関係数が良いと言えます。

式としては \( n \) 組の \( (X,Y) \) のデータに対して

\[ \rho = 1 – \frac{6}{n(n^2 – 1)} \sum_{i=1}^n (X_i – Y_i)^2 \]

となります。

統計検定1級の教本では式まで触れられておらず、どこまで出るのか怪しいところですが、、、理解はしやすいものなので、式の導出を考えてみようと思います。

やっていることは単純で、まずは確率変数 \( X, Y \) を1位～ \( n \) 位まで順位データに変換します。具体的な例でみてみるとこのような変換をします。

あとは、実はこの順位データを直接ピアソンの相関係数の式にあてはめるだけなんですが、、、結構面倒です。

前回使ったピアソンの相関係数の式をみてみます。

\[ r = \frac{Cov(X, Y)}{\sigma_x \sigma_y} = \frac{Cov(X, Y)}{\sqrt{\frac{1}{n} \sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}} \]

このままだと代入しにくいので、もう少し分かりやすく変形してみます。

まず、分子は共分散の式を用いて

\[ Cov(X, Y) = E[XY] – E[X]E[Y] \]

となるので

\[ r = \frac{E[XY] – E[X]E[Y]}{\sqrt{\frac{1}{n} \sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}} = \frac{\sum X_i Y_i – n E[X] E[Y]}{\sqrt{\sum (X_i – E[X])^2 \sum (Y_i – E[Y])^2}} \quad \cdots (1) \]

と変形できます。

さて、次にこの中で求められる数値を準備します。

XやYの期待値は順位の総和を \( n \) で割れば得られるので

\[ E[X] = E[Y] = \frac{1}{n} \sum_{i=1}^n i = \frac{n+1}{2} \]

となります。

先ほどの具体的な順位データの例をみながら想像すると分かりやすいのですが

\(\sum X_i^2, \sum Y_i^2\) は1～nまでの二乗和になるので

\[ \sum X_i^2 = \sum Y_i^2 = \sum i^2 = \frac{1}{6} n (n + 1) (2n + 1) \]

となります。

スピアマンの相関係数の式をみてみると

\[ \sum (X_i – Y_i)^2 \]

という形があることがわかります。

なので、これをうまいこと作り出す準備をします。

\[ \sum (X_i – Y_i)^2 = \sum X_i^2 + \sum Y_i^2 – 2 \sum X_i Y_i \]

こう変形できます。

必要なものを再度まとめ直すと

① \( E[X] = E[Y] = \frac{1}{n} \sum_{i=1}^n i = \frac{n+1}{2} \)

② \(\sum X_i^2 = \sum Y_i^2 = \sum i^2 = \frac{1}{6} n (n+1)(2n+1) \)

③ \(\sum X_i Y_i = \frac{1}{2} \left( \sum X_i^2 + \sum Y_i^2 \right) – \frac{1}{2} \sum (X_i – Y_i)^2 \)

の3つです。

あとは①の式の分子と分母についてそれぞれ見ていきます。

まず分母については、展開をして

\[ \sqrt{\sum (X_i – E[X])^2 \sum (Y_i – E[Y])^2} = \sqrt{\sum (X_i^2 – E[X]^2) \sum (Y_i^2 – E[Y]^2)} = \sum (X_i^2 – E[X]^2) = \sum X_i^2 – n E[X]^2 = \frac{1}{6} n (n+1) (2n+1) – \frac{1}{4} n (n+1)^2 = \frac{1}{12}(n^3 – n) \]

となります。

続いて分子は

\[ \sum X_i Y_i – n E[X] E[Y] = \frac{1}{2} (\sum X_i^2 + \sum Y_i^2) – \frac{1}{2} \sum (X_i – Y_i)^2 – \frac{1}{4} n (n+1)^2 = \frac{1}{6} n (n+1) (2n+1) – \frac{1}{4} n (n+1)^2 – \frac{1}{2} \sum (X_i – Y_i)^2 = \frac{1}{12}(n^3 – n) – \frac{1}{2} \sum (X_i – Y_i)^2 \]

分母と分子を合体させると

\[ \frac{\frac{1}{12}(n^3 – n) – \frac{1}{2} \sum (X_i – Y_i)^2}{\frac{1}{12}(n^3 – n)} = 1 – \frac{6}{(n^3 – n)} \sum_{i=1}^n (X_i – Y_i)^2 \]

これで最初の式

\[ \rho = 1 – \frac{6}{n(n^2 – 1)} \sum_{i=1}^n (x_i – y_i)^2 \]

が得られました。

(2021.02.23式の変形を追記しました。途中の式どころか、相関係数の式まで間違って書いてありました、すみません。)