順序統計量

提供: miniwiki
移動先:案内検索

順序統計量(じゅんじょとうけいりょう、: order statistic)は、統計において k 番目に小さい値である標本を求めることをいう。日本工業規格では、「標本のすべての観測値をその大きさの順に小さい方から並べたもの。また、より一般的にはこの並び替えの関数として求められる統計量すべてを指すこともある。」と定義している[1][2]

ランク統計量と共に順序統計量は、非パラメトリック統計学における最も基本的ツールとなっている。

順序統計量における重要な特殊例としては、標本の最小値最大値中央値分位などがある。

連続確率分布での無作為標本の順序統計量を確率論的に分析する場合、一様分布の順序統計量ならば累積分布関数によって分析を簡略化できる。

表記法と例

例えば、4つの数が観測され記録されたとすると、標本の大きさは [math]n=4[/math] となる。各観測値は以下のようであったとする。

6, 9, 3, 8,

これを通常、次のように表記する。

[math]x_1=6; x_2=9; x_3=3; x_4=8[/math]

[math]x_i[/math] の添え字 i は記録上の順序を単に表し、通常は重要ではない。時系列では順序が重要となる。

順序統計量では次のように表記する。

[math]x_{(1)}=3; x_{(2)}=6; x_{(3)}=8; x_{(4)}=9[/math]

ここで括弧で囲まれた添え字 (i) が順序統計量での i 番目の値を表す。

順序統計において、第一順序統計量(または最小順序統計量)は最小値を表し、次のように表記される。

[math]X_{(1)}=\min \{X_1,\dots,X_n\}[/math]

ここで、確率変数を示す一般的な記法として大文字を使用している。小文字は具体的な観測値を指すのに使われる。

同様に大きさ n の標本でn 順序統計量(または最大順序統計量)は最大値を表し、次のように表記される。

[math]X_{(n)}=\max \{X_1,\dots,X_n \}.[/math]

より一般的に順序統計量は

[math]X_{(1)}\leq X_{(2)}\leq \dots \leq X_{(n)}[/math]

の関係で与えられる。

観測値の範囲は最大値と最小値の差である。これは明らかに順序統計量の関数となっている。

[math]\text{Range} \{X_1,\dots,X_n\} = X_{(n)}-X_{(1)}.[/math]

探索的データ解析での類似の重要な統計量である四分位数は順序統計量に関係している。

標本の中央値(第2四分位点)は順序統計量となる場合もあるし、そうでない場合もある。というのは、標本の大きさ [math]n[/math] が奇数であった場合だけ唯一の中央値が存在するからである。正確に言えば、[math]n=2m+1[/math] となる整数 [math]m[/math] があるとき、中央値 [math]X_{(m+1)}[/math] は順序統計量である。一方、[math]n[/math] が偶数の場合は [math]n=2m[/math] となるので、中央値の候補は [math]X_{(m)}[/math][math]X_{(m+1)}[/math] の2つとなり、中央値はこれらの関数(一般に平均)で表されるため、順序統計量とは言えない。同様の注意はあらゆる標本分位点を求める際にも必要となる。

確率的解析

ここでは、標本X1, X2,..., Xn無作為抽出での標本で連続確率分布に従うものとし、単純化のために確率密度関数があるものとする(つまり絶対連続である)。

順序統計量の分布(一般の場合)

いま X1, X2,..., Xn は 無作為抽出での標本であるとする。すなわち、同一分布に従い、互いに独立 である(i.i.d.)とする。さらに、これらは連続分布を持つ確率変数であり、f (x) がその確率密度関数F (x) が累積分布関数とする。また、これらを小さい順に並べた順序統計量をX(1), X(2),..., X(n) とする。この時、k 番目の順序統計量X(k)の累積分布関数は次で与えられる。

[math]F_{X_{(k)}}(x)=\sum_{j=k}^{n}\binom{n}{j} F(x)^{j} (1-F(x))^{n-j}[/math]

また、その確率密度関数は

[math]f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} F(x)^{k-1} (1-F(x))^{n-k} f(x)[/math]

となる。

特に最小値[math]X_{(1)}[/math]、最大値[math]X_{(n)}[/math]については、

[math]\begin{align} F_{X_{(1)}}(x) &= 1-\{1-F(x)\}^n \\ F_{X_{(n)}}(x) &= \{F(x)\}^n \end{align}[/math]

となる。

導出の詳細

累積分布関数 [math]F_{X_{(k)}}(x)=P\left(X_{(k)}\leq x\right)[/math] において、確率値P( ) 内の事象は『n 個中少なくとも k 個の Xix 以下』 = 『x 以下の値がn 回の試行中 k 回以上発生する』を意味することから

[math]\begin{align} F_{X_{(k)}}(x) &= \sum_{j=k}^n \binom{n}{j}P(X\leq x)^j(1-P(X\leq x))^{n-j} \\ &= \sum_{j=k}^n\binom{n}{j} F(x)^j (1-F(x))^{n-j} \end{align}[/math]

が成り立つ。

確率密度関数と累積分布関数の関係に注意すれば、

[math]\begin{align} f_{X_{(k)}}(x) &= \frac{d}{dx} F_{X_{(k)}}(x) \\ &= \frac{d}{dx} \sum_{j=k}^n\binom{n}{j} F(x)^j (1-F(x))^{n-j} \\ &= nf(x) \left( \sum_{j=k-1}^{n-1} \binom{n-1}{j} F(x)^j (1-F(x))^{(n-1)-j} - \sum_{j=k}^n \binom{n-1}{j} F(x)^j (1-F(x))^{(n-1)-j} \right) \end{align}[/math]

となる。上記の畳み込み級数の総和は、最初と最後の項以外は全て相殺されるため

[math] = nf(x) \left( \binom{n-1}{k-1} F(x)^{k-1} (1-F(x))^{(n-1)-(k-1)} - {n-1 \choose n} F(x)^n (1-F(x))^{(n-1)-n} \right)[/math]

となる。さらに第二項はゼロとなるから

[math]\begin{align} &= nf(x)\binom{n-1}{k-1} F(x)^{k-1} (1-F(x))^{(n-1)-(k-1)} \\ &= \frac{n!}{(k-1)!(n-k)!} F(x)^{k-1} (1-F(x))^{n-k} f(x). \end{align}[/math]

を得る。

順序統計量の分布(一様分布での例)

この節では、特に単位区間上の一様分布からの順序統計量を考え、それがベータ分布族に属する周辺分布を持つことを示す。また、任意個の順序統計量の同時分布を求め、累積分布関数を用いて任意の連続型分布のケースに一般化する簡単な方法を示す。

なお、 X1, X2,..., Xn が、累積分布関数 FX を持つ連続型分布から得られた無作為標本とすると、 Ui = FX(Xi) と置くことによって、標準一様分布にしたがう無作為標本 U1,..., Un が得られることに注意する。また、対応する順序統計量X(1), X(2),..., X(n)においても、U(i) = FX(X(i)) が成り立つことに注意する。

一様分布の順序統計量

標準一様分布からのk番目の順序統計量 U(k) が [u, u + du] の範囲に落ちる確率は

[math]{n!\over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}du+O(du^2)[/math]

に等しい。よって、 U(k)の確率密度関数は、

[math]f_{U_{(k)}}(u)={n!\over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}={1\over B(k,n-k+1)}u^{k-1}(1-u)^{n-k}[/math]

で与えられる。ここで、B (k, n-k+1 )はベータ関数を表す。したがって、U(k)ベータ分布に従う確率変数

[math]U_{(k)} \sim B(k,n+1-k) [/math]

となる。

導出の詳細

証明は以下の通り。U(k)uu + du の間にあるためには、標本中の k − 1 個の要素が u より小さく、かつ少なくとも 1 個の要素が uu + du の間にあることが必要である。複数の要素が後者の範囲にある確率は O (du2) となるため、求める確率は、k − 1 個の観測値が (0, u) に、1 個が (u , u +du) に、n − k 個が (u +du, 1) に落ちる場合に相当する。つまり、その確率は

[math]{n!\over (k-1)!1!(n-k)!}u^k\cdot du\cdot(1-u-du)^{n-k}[/math]

に等しい(詳しくは多項分布参照)。

一様分布での順序統計量の同時確率

同様に、i < j であるとき、2つの順序統計量 Ui < Uj の同時確率密度関数は次のようになることが示せる。

[math]f_{U_{(i)},U_{(j)}} (u,v) ~ du ~ dv = n! \frac{u^{i-1}}{(i-1)!} \frac{(v-u)^{j-i-1}}{(j-i-1)!} \frac{(1-v)^{n-j}}{(n-j)!} ~ du ~ dv[/math]

これは(O (du dv) までの項において)、区間 (0, u), (u, u + du), (u + du, v), (v, v + dv), (v + dv, 1) に落ちる標本要素の数が、各々 i − 1, 1, j − 1 − i, 1, n − j 個となる確率に等しい。

同様にして、より高次の同時分布も導くことができる。おそらく意外なことに、n 次の同時分布は次のような定数になる:

[math]f_{U_{(1)},U_{(2)},\dots,U_{(n)}}(u_{1},u_{2},\dots,u_{n}) ~ du_1 \dotsb du_n = n! ~ du_1 \dotsb du_n.[/math]

この一つの解釈として、「順序のない標本は確率密度 1 を持ち、同じ順序統計量の列に対応する n! 個の異なる順列を持つ標本が存在する」ことが考えられる。これは、領域 0< u1 < … < un < 1 の体積が 1 / n! に等しいことと関係がある。

一般の場合での順序統計量の同時確率

一様分布での結果の応用として、一般の分布の n 個の標本抽出における k 個目の順序統計量 X(k) の分布を考える。X(k) の累積分布関数 FX(k) に対し、 fX(k)が対応する確率密度関数とする。このとき、一様分布への変数変換

[math]U_{(k)}=F_{X(k)}(x) [/math]

を行い、fX(k) に前述の一様分布におけるfU(k) (u) の結果を代入すれば、次の確率密度関数が導かれる。

[math]f_{X_{(k)}}(x) ~ dx = \frac{n!}{(k-1)!(n-k)!} [F_X(x)]^{k-1}[1-F_X(x)]^{n-k}f_X(x) ~ dx[/math]

同様に2つの累積分布関数 FX(j)FX(k) に対し、 fX(j)fX(k)が対応する確率密度関数とする。このとき、一様分布への変数変換

[math]U_{(j)}=F_{X(j)}(x) , \quad U_{(k)}=F_{X(k)}(y) [/math]

を行い、fX(i),X(j)に先ほどの一様分布における同時確率分布fU(i),U(j)(u, v)の結果を代入すれば、次式を得る。

[math]f_{X_{(j)},X_{(k)}} (x,y) ~ dx ~ dy = n! \frac{[F_X(x)]^{j-1}}{(j-1)!} \frac{[F_X(y)-F_X(x)]^{k-1-j}}{(k-1-j)!} \frac{[1-F_X(y)]^{n-k}}{(n-k)!} f_X(x) f_X(y) ~ dx ~ dy[/math]

同様に高次の場合について考えれば、次式を得る。

[math]f_{X_{(1)},\dots,X_{(n)}}(x_1,\dots,x_n) ~ dx_1 \dotsb dx_n = n! f_X(x_1) \dotsb f_X(x_n) ~ dx_1 \dotsb dx_n[/math]

但し、x1 < x2 < … < xnとする。

応用: 分位の信頼区間

順序統計量に基づいて、その分布における分位を推定するという問題は興味深い。

中央値の推定

以下では、標本中央値によって母集団中央値がどの程度良く推定できるかを、最も単純なケースで考える。

小標本の例

例として、サイズ 6 の無作為標本を考える。この場合の標本中央値は、通常、3 番目と 4 番目の順序統計量で区切られた区間の中点として定義される。しかしこれまでの議論から、この区間が実際に母集団中央値を含む確率は次のようになる:

[math]{6\choose 3}2^{-6} = {5\over 16} \approx 31\%[/math]

標本中央値は、母集団中央値のおそらく分布に依存しない最良の点推定であるが、絶対的な意味で特に優れているわけではないことを、この例は表している。母集団中央値のより良い信頼区間は、この例の場合、2 番目と 5 番目の順序統計量で囲まれた区間であり、母集団中央値を含む確率は次のようになる:

[math]\left[{6\choose 2}+{6\choose 3}+{6\choose 4}\right]2^{-6} = {25\over 32} \approx 78\%[/math]

このように小さな標本サイズでは、もしも少なくとも 95% の信頼度が欲しければ、確率 31/32 つまり約 97% で 6 個の観測値の最小値と最大値の間にある、と表現することになってしまう。サイズ 6 は、最小値と最大値で決まる区間が、少なくとも 95% 信頼区間になるような最小の標本サイズである。

もしも分布が対称であることがわかっていて、分散が有限ならば(例えば正規分布のような場合)、母集団の平均値は中央値に等しく、標本平均値は標本中央値よりもかなり良い信頼区間を持つ。これは、分布に依存しない統計的方法の相対的弱点を表している。他方において、もしも間違った分布に立脚した方法を用いると、推定に大きな系統的誤差が生じてしまう可能性もある。

順序統計量の計算

数列からk番目に小さい(大きい)要素を選択する問題は選択問題と呼ばれ、その解法は選択アルゴリズムと呼ばれる。この問題は数列が巨大であればあるほど難しくなるが、要素の順序が完全に無作為であっても要素数に比例した時間内に答えを求めることができる洗練された選択アルゴリズムが知られている。

脚注

  1. JIS Z 8101-1 : 1999, 2.28 順序統計量.
  2. JIS Z 8101-1 : 2015, 1.9 順序統計量.

参考文献

関連項目

外部リンク