ケンドールの順位相関係数の有意性を仮説検定する際には、分散が必要となってきます。『統計検定1級対応 統計学』には分散は書いてありますが、導出はかいてありませんでした。
導出について書いてあるサイトもほぼなく、こちらに書いてあった文献(ケンドールの順位相関係数 | 高校数学の美しい物語)を辿って、分かりやすい導出をようやくみつけることができました(参考文献に載せます)。計算練習にもなるのでせっかくなので紹介します。結構長いので紙を用意していただいたほうが良いかもしれません(汗
相関係数の概要についてはまずこちらの記事をご覧ください。
相関係数とその導出<共分散・ピアソン・スピアマン・ケンドール>【統計検定1級対策】 – 脳内ライブラリアン
目次:
まずケンドールの順位相関係数の平均は0で、分散は
\[
Var(\tau) = \frac{2(2n + 5)}{9n(n – 1)}
\]
となります。
この結果の話はどこでも書いてあるんですが導出はあまりないので、以下の順番で証明してみます。結構長いです、、、。気長にお付き合いください。
①ケンドールの順位相関係数の式を変形する
まず、ケンドールの順位相関係数の式を計算しやすいように少し変形します。
(逆方向データ数)=Qとして、相関係数が-1~1の範囲をとるように組みなおしてみると、相関係数τの式は次のように表現できます。
\[
\tau = \frac{_nC_2 – 2Q}{_nC_2}
\]
順方向データ数と逆方向データ数(=Q)の総和は\(_nC_2\)となることから
\((順方向データ)=_nC_2 – Q\)なので
分子を変形すれば上記の式が成り立つのが分かると思います。
さて、ここからは具体的に考えたほうが分かりやすいので、こんな感じの確率変数X,Yの順位データで考えてみます。
②変数iを定義する
まず、X=jのときに、順位が逆転しているYの数を \( i_j \) として定義します。つまり、逆方向データの数です。具体例を出してみるとこんな感じです。
j=5のときは順位の逆転はないので \( i_5 = 0 \) となります。
これに対して次にj=4の場合をみてみます。
3つも逆転してますね。 \( i_4 = 3 \) ということになります。
さて、このように見ていくと、 \( i_j \) の総和が逆方向データ数 (=Q) になることが分かるかと思います。
つまり式にすると
\[
\sum_{j=1}^n i_j = Q
\] であり、 \[
0 \leq i_j \leq j-1
\]
となります。
ここまでで定義はできたので、あとはひたすら計算です。
③τの分散を導き出す
求めたいのは、以下のτの分散でした。
\[
\tau = \frac{_nC_2 – 2Q}{_nC_2}
\]
右辺の変数はQだけで、あとは定数なので実はQの分散が求まれば、τの分散も求められることが分かります。
分散の公式より
\[
Var(Q) = E[Q^2] – (E[Q])^2
\]
なので、あとはせっせと計算します。
①Qの期待値を求める
ちなみに、今回の分散を求める目的は仮説検定なので
【帰無仮説:τ=0で無相関である】
を前提にして、分散を考えていきます。
まず帰無仮説の下では、\( i_j \) は無相関のため、完全にランダムに形成されると考えられ、\( E[i_j] = \frac{j-1}{2} \) となります。
すると、まず \( E[Q] \) は
\[
E[Q] = E[\sum i_j] = \sum \frac{j-1}{2} = \frac{1}{2} _nC_2
\]
となります。
②Qの二乗の期待値を求める
次に \( E[Q^2] \) を考えると
\[
E[Q^2] = E[\sum_{j=1}^n \sum_{l=1}^n i_j i_l] = E[\sum_{j=1}^n i_j^2] + E[\sum_{j \neq l}^n i_j i_l]
\]
となります。
この第1項と第2項をわけて求めていきましょう。
②-1
まずは
\[
E[\sum_{j=1}^n i_j^2] = \sum_{j=1}^n E[i_j^2]
\]
から求めていきます。
ここで \( E[i_j^2] \) ですが、\( P(i_j) \) は0~\( j-1 \)までの範囲の離散型一様分布となるため
\( E[i_j^2] = \sum_{i_j=0}^{j-1} i_j^2 \cdot \frac{1}{j} = \frac{1}{6}(j-1)(2j-1) \)
となります。
よって
\[
E[\sum_{j=1}^n i_j^2] = \sum_{j=1}^n \frac{1}{6}(j-1)(2j-1)
\]
です。
②-2
次に
\( E[\sum_{j \neq l}^n i_j i_l] \) を考えます。
\( E[i_j] = \frac{j-1}{2} \) だったので
\[
E[\sum_{j \neq l}^n i_j i_l] = \sum_{j \neq l}^n E[i_j i_l] = \sum_{j \neq l} \frac{j-1}{2} \cdot \frac{l-1}{2}
\]
結局のところ、この二つの積の和は、全てを総当たりでやった期待値の二乗から、\( l = j \) の部分を引いたものになるので
\(\sum_{j \neq l}^n \frac{j-1}{2} \cdot \frac{l-1}{2} = \left\{\sum_{j=1}^n \frac{j-1}{2}\right\}^2 – \sum_{j=1}^n \frac{1}{4} (j-1)^2\)
となります。
よって、\( E[Q^2] \) は②-1と足し合わせて
\[
E[Q^2] = \sum_{j=1}^n \frac{1}{6}(j-1)(2j-1) + \left\{ \sum_{j=1}^n \frac{j-1}{2} \right\}^2 – \sum_{j=1}^n \frac{1}{4} (j-1)^2
\]
となります。
③結果をすべてまとめる
以上の結果から
\( Var(Q) = E[Q^2] – (E[Q])^2 \\
= \sum_{j=1}^n \frac{1}{6}(j-1)(2j-1) + \left\{ \sum_{j=1}^n \frac{j-1}{2} \right\}^2 – \sum_{j=1}^n \frac{1}{4} (j-1)^2 – \left\{ \sum_{j=1}^n \frac{j-1}{2} \right\}^2 \\
= \sum_{j=1}^n \left\{ \frac{1}{6}(j-1)(2j-1) – \frac{1}{4}(j-1)^2 \right\} = \frac{1}{72} n (n-1) (2n+5) \)
となります。
最後にこれを
\[
\tau = \frac{_nC_2 – 2Q}{_nC_2}
\]
に代入して考えます。
\[
Var(\tau) = \frac{4}{(_nC_2)^2} Var(Q) = \frac{2(2n+5)}{9n(n-1)}
\]
これでようやく導き出せました。
平均と分散さえ分かれば、皆大好き中心極限定理を使えるため、無事正規分布に近似することができ、仮説検定も行えます。
参考文献:
こちらのサイトに書いてあった文献を探して参考にしました(サイト自体からはリンク切れでした)
実際の参考の文献はこちら
コメントを残す