相関係数②＜スピアマンの順位相関係数の導出をわかりやすく＞【統計検定1級対策】

前回記事に引き続いて相関係数についての学習をやっていきます。

前回記事はこちら

相関係数①＜共分散～ピアソンの相関係数まで＞【統計検定1級対策】 – 脳内ライブラリアン

スピアマンの順位相関係数の導出

スピアマンの順位相関係数とは、ノンパラメトリックな２変数に対して、相関関係を示す場合に使われる相関係数です。

ピアソンの相関係数は \( Y = aX + b \) のような線形モデルに対しての相関に使えますが、非線形モデル（例えば \( Y = X^2 \) など）でありつつも、相関のあるものに対してはスピアマンの相関係数が良いと言えます。

式としては \( n \) 組の \( (X, Y) \) のデータに対して

\[
\rho = 1 – \frac{6}{n(n^2 – 1)} \sum_{i=1}^{n} (x_i – y_i)^2
\]

となります。

統計検定1級の教本では式まで触れられておらず、どこまで出るのか怪しいところですが、、、理解はしやすいものなので、式の導出を考えてみようと思います。

やっていることは単純で、まずは確率変数 \( X, Y \) を1位～ \( n \) 位まで順位データに変換します。具体的な例でみてみるとこのような変換をします。

あとは、実はこの順位データを直接ピアソンの相関係数の式にあてはめるだけなんです。

前回使ったピアソンの相関係数の式をみてみます。

\[
r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}
\]\[
= \frac{\mathrm{Cov}(X, Y)}{\sqrt{\frac{1}{n} \sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}}
\]

このままだと代入しにくいので、もう少し分かりやすく変形してみます。

まず、分子は共分散の式を用いて

\[
\mathrm{Cov}(X, Y) = E[XY] – E[X]E[Y]\]

となるので

\[
r = \frac{E[XY] – E[X]E[Y]}{\sqrt{\frac{1}{n} \sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}}
\]\[
= \frac{\sum X_i Y_i – nE[X]E[Y]}{\sqrt{\sum (X_i – E[X])^2 \sum (Y_i – E[Y])^2}} \quad \cdots (1)
\]

と変形できます。

さて、次にこの中で求められる数値を準備します。

XやYの期待値は順位の総和を \( n \) で割れば得られるので

\[
E[X] = E[Y] = \frac{1}{n} \sum_{i=1}^{n} i = \frac{n+1}{2}
\]

となります。

先ほどの具体的な順位データの例をみながら想像すると分かりやすいのですが

\(\sum X_i^2, \sum Y_i^2\) は1～nまでの二乗和になるので

\[
\sum X_i^2 = \sum Y_i^2 = \sum i^2 = \frac{1}{6} n (n+1) (2n+1)
\]

となります。

スピアマンの相関係数の式をみてみると

\[
\sum (X_i – Y_i)^2
\]

という形があることがわかります。