ここ最近の仮説検定の話から一旦離れますが、順序統計量の話をまとめます。
統計検定1級で時々出題されている内容ですが久々に解こうとすると、定理を忘れてしまってることが多くて困りました(汗
他の内容とそこまで強く関連しないので、どうしても内容が飛びやすいんですよね…。そこで簡単ですが図も交えて整理していこうと思います。
目次:
順序統計量とは
順序統計量とは、ある確率変数をその数値の大きさによって並べた時に得られる数値を扱うものです。
例えば、のn個のデータがあった場合、それを大きい順から並べていってという順序統計量の場合、得られた全ての確率変数の中から3番目に大きいものを指します。(()は区別するために、ついたりついてなかったり表記法は色々です)
そうなると知りたいのは、その何番目かに大きい確率変数が得られる確率はどうか?ということですよね。その求め方をこれから紹介していきます。
離散型確率変数の場合
まずはイメージしやすい離散型確率関数の例で考えてみます。
具体例として得られた確率変数Xの数が7つで、以上となる確率を求めたい場合を考えてみましょう。ぴったりとなる確率はこの後で導出します。
確率の式は
となります。
ここで以上となるxの個数をyとおいてみます。図で表すとこんなイメージです。
このときの確率は先ほどの確率と状況的には全く同じであるため、であることがわかります。
さらに確率とおきます。この確率を満たしたときに成功として+1, 外れた時は失敗として0となるようなベルヌーイ試行を考えると、先ほどのyはそれに従う二項分布であると考えられます。
よって
となります。
これを一般化してn個のデータからj番目の順序統計量が得られる確率を式にすると
となります。
最後にの場合を考えると、を計算すれば良いので
になります。
以上が離散型の場合でした。
連続型確率変数の場合
離散型の同じ例で、n個のデータからj番目の順序統計量が得られる確率を考えてみます。
これは先ほどの離散型の場合を連続型関数に置き換えるとについては簡単に分かります。
分布関数はこのように求まりますが、では確率密度関数はどうやるのでしょうか。
順序統計量を表す確率密度関数
結論から先に書くとこの式が順序統計量を表す確率密度関数です。
導出の方法として先ほどの分布関数を微分するのが、正統な方法ですが、結構式が複雑になるので割愛して、正確ではないですが、イメージで覚えやすい方法を紹介します。
の3つの事象をそれぞれ考えてみます。離散型の例と同じように、条件を満たすデータXの個数に注目してみます。確率密度関数を縦軸、xを横軸にとったグラフをもとに考えてみると以下のようなイメージになります。
するとこれは、の3つの確率の事象の三項分布と考えることができます。面積が確率を表しており、条件を満たすXの個数を用いると上記の式が導出できます。
個人的に疑問なのは、厳密にいうと3つの事象の確率を足し合わせても1にならないように見える(多項分布の確率の和は1にならないといけない)ことですが、f(x)は実際極限まで小さくなっているわけで面積は0として扱ってよいのかなと思ってます。
参考文献:
統計学をどんどん自分で学んで深めたい、という方へのおすすめ書籍をこちらのページの下部にまとめております。初心者向けのものから応用まで幅広く読んでいますので参考にどうぞ。
コメントを残す