前回記事に引き続いて相関係数についての学習をやっていきます。
前回記事はこちら
相関係数①<共分散~ピアソンの相関係数まで>【統計検定1級対策】 – 脳内ライブラリアン
スピアマンの順位相関係数の導出
スピアマンの順位相関係数とは、ノンパラメトリックな2変数に対して、相関関係を示す場合に使われる相関係数です。
ピアソンの相関係数は \( Y = aX + b \) のような線形モデルに対しての相関に使えますが、非線形モデル(例えば \( Y = X^2 \) など)でありつつも、相関のあるものに対してはスピアマンの相関係数が良いと言えます。
式としては \( n \) 組の \( (X, Y) \) のデータに対して
\[
\rho = 1 – \frac{6}{n(n^2 – 1)} \sum_{i=1}^{n} (x_i – y_i)^2
\]
となります。
統計検定1級の教本では式まで触れられておらず、どこまで出るのか怪しいところですが、、、理解はしやすいものなので、式の導出を考えてみようと思います。
やっていることは単純で、まずは確率変数 \( X, Y \) を1位~ \( n \) 位まで順位データに変換します。具体的な例でみてみるとこのような変換をします。
あとは、実はこの順位データを直接ピアソンの相関係数の式にあてはめるだけなんです。
前回使ったピアソンの相関係数の式をみてみます。
\[
r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}
\]\[
= \frac{\mathrm{Cov}(X, Y)}{\sqrt{\frac{1}{n} \sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}}
\]
このままだと代入しにくいので、もう少し分かりやすく変形してみます。
まず、分子は共分散の式を用いて
\[
\mathrm{Cov}(X, Y) = E[XY] – E[X]E[Y]\]
となるので
\[
r = \frac{E[XY] – E[X]E[Y]}{\sqrt{\frac{1}{n} \sum (X_i – E[X])^2} \sqrt{\frac{1}{n} \sum (Y_i – E[Y])^2}}
\]\[
= \frac{\sum X_i Y_i – nE[X]E[Y]}{\sqrt{\sum (X_i – E[X])^2 \sum (Y_i – E[Y])^2}} \quad \cdots (1)
\]
と変形できます。
さて、次にこの中で求められる数値を準備します。
XやYの期待値は順位の総和を \( n \) で割れば得られるので
\[
E[X] = E[Y] = \frac{1}{n} \sum_{i=1}^{n} i = \frac{n+1}{2}
\]
となります。
先ほどの具体的な順位データの例をみながら想像すると分かりやすいのですが
\(\sum X_i^2, \sum Y_i^2\) は1~nまでの二乗和になるので
\[
\sum X_i^2 = \sum Y_i^2 = \sum i^2 = \frac{1}{6} n (n+1) (2n+1)
\]
となります。
スピアマンの相関係数の式をみてみると
\[
\sum (X_i – Y_i)^2
\]
という形があることがわかります。
なので、これをうまいこと作り出す準備をします。
\[
\sum (X_i – Y_i)^2 = \sum X_i^2 + \sum Y_i^2 – 2 \sum X_i Y_i
\]
\[
\sum X_i Y_i = \frac{1}{2} (\sum X_i^2 + \sum Y_i^2) – \frac{1}{2} \sum (X_i – Y_i)^2
\]
こう変形できます。
必要なものを再度まとめ直すと
① \(\sum X_i^2, \sum Y_i^2\)
② \(\sum X_i^2 = \sum Y_i^2 = \sum i^2 = \frac{1}{6} n (n+1) (2n+1)\)
③ \(\sum X_i Y_i = \frac{1}{2} (\sum X_i^2 + \sum Y_i^2) – \frac{1}{2} \sum (X_i – Y_i)^2\)
の3つです。
あとは①の式の分子と分母についてそれぞれ見ていきます。
まず分母については、展開をして
\(\sqrt{\sum (X_i – E[X])^2 \sum (Y_i – E[Y])^2}\)
\(= \sqrt{\sum (X_i^2 – E[X]^2) \sum (Y_i^2 – E[Y]^2)}\)
\(= \sum (X_i^2 – E[X]^2)\)
\(= \sum X_i^2 – n E[X]^2\)
\(= \frac{1}{6} n (n+1)(2n+1) – \frac{1}{4} n (n+1)^2\)
\(= \frac{1}{12}(n^3 – n)\)
となります。
続いて分子は
\(\sum X_i Y_i – n E[X] E[Y]\)
\[
= \frac{1}{2} (\sum X_i^2 + \sum Y_i^2) – \frac{1}{2} \sum (X_i – Y_i)^2 – \frac{1}{4} n (n + 1)^2
\]
\[
= \frac{1}{6} n (n + 1) (2n + 1) – \frac{1}{4} n (n + 1)^2 – \frac{1}{2} \sum (X_i – Y_i)^2
\]
\[
= \frac{1}{12} (n^3 – n) – \frac{1}{2} \sum (X_i – Y_i)^2
\]
分母と分子を合体させると
\[
\frac{\frac{1}{12}(n^3 – n) – \frac{1}{2} \sum (X_i – Y_i)^2}{\frac{1}{12}(n^3 – n)} = 1 – \frac{6}{(n^3 – n)} \sum_{i=1}^n (X_i – Y_i)^2
\]
これで最初の式
\[
\rho = 1 – \frac{6}{n(n^2 – 1)} \sum_{i=1}^n (x_i – y_i)^2
\]
が得られました。
スピアマンの順位相関係数の検定
スピアマンの順位相関係数は有意性の検定を行うこともできます。方法はいくつかあるようで、サンプル数がある程度ある場合(10以上くらい)t分布、正規分布などへの近似を使うことが多いようです。
ただ『統計検定1級対応 統計学』によると、サンプル数が少ない場合は正規分布への近似がイマイチなようで、そういう場合はケンドールの順位相関係数を使うようです。あまり細かな使い分けは一般的にはないとされています。
ケンドールの順位相関係数については、分散の導出なんかやってみたら結構大変だったので次の記事で書きます。
参考文献:
導出についてこちらのサイトを参考にさせていただきました。
コメントを残す