actions

分散 (確率論)

確率論および統計学において、分散(ぶんさん、: variance)は、確率変数の2次の中心化モーメントのこと。これは確率変数の分布期待値からどれだけ散らばっているかを示す非負の値である[1]

記述統計学においては標本標本平均からどれだけ散らばっているかを示す指標として標本分散(ひょうほんぶんさん、: sample variance)を、推測統計学においては不偏分散(ふへんぶんさん、: unbiased (sample) variance)を用いる。0 に近いほど散らばりは小さい。

日本工業規格では、「確率変数 X からその母平均を引いた変数の二乗の期待値σ2 = V(X) = E[XE(X)]2 である。」と定義している[2]

英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]

確率変数の分散

2乗可積分確率変数 X分散期待値E(·) で表すと

[math]V(X)=E\big((X-E(X))^{2}\big)[/math]

定義される。また式変形をして

[math]V(X)=E(X^{2})-(E(X))^{2}[/math]

とも書ける。また確率変数 X特性関数φX(t) = E(eitX) とおくと(i虚数単位)、これは 2 階連続的微分可能

[math]V(X) = -\varphi_X''(0) + (\varphi_X'(0))^2[/math]

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して、

[math]P(|X-E(X)|\gt \varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}[/math]

成り立つ。これは分散が小さくなる程に期待値の近くに変数分布することを示す大まかな評価である。

性質

X, X1, …, Xn確率変数a, b, a1, …, an定数とし、共分散Cov( · , · ) で表すと

  • [math]V(X) \ge 0 [/math](非負性)
  • [math]V(X + b) = V(X) [/math]位置母数English版に対する不変性)
  • [math]V(aX) = a^2 V(X) [/math]斉次性
  • [math]\textstyle V(\sum_i a_i X_i) = \sum_{i, j} a_i a_j \operatorname{Cov}(X_i, X_j)[/math]

を満たす。したがって、特に X1, …, Xn独立ならば、

[math] \operatorname{Cov}(X_i, X_j) = \begin{cases} V(X_i) & i = j \\ 0 & \text{otherwise} \end{cases} [/math]

より

[math]V(X_1 + \dotsb + X_n) = V(X_1) + \dotsb + V(X_n)[/math]

が成り立つ。

母分散

n 個のデータ x1, x2, ..., xn からなる母集団があって、μ をそのデータ相加平均とした時に、(xiμ)2相加平均

[math]{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^2[/math]

表されσ2母分散 (population variance) と言う[4]

標本分散

n 個のデータ x1, x2, ..., xn からなる標本があって、x をそのデータ相加平均とした時に、(xix)2相加平均

[math]s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^2[/math]

で定義される s2標本分散 (sample variance) と言う。s標準偏差と呼ばれる[4]。なお、不偏分散を標本分散と呼ぶ文献もある。 日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している[5]

定義より、

[math]s^{2}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-(\bar{x})^{2}=\overline{x^{2}}-(\bar{x})^{2}[/math]

となるから、標本分散は、2乗の相加平均相加平均の2乗との差に等しい。従って、このを用いて分散の計算を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムpairwise summationEnglish版のような手法により、誤差を小さくする工夫が為されることもある)。

不偏分散

標本分散は、一般にその期待値母分散よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの無作為標本に対して

[math] E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2 [/math]

が成り立つ。そこで推定量として

[math]\hat{\sigma}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i)^{2} - \frac{n}{n-1}\bar{x}^{2}[/math]

を用いると、期待値が母分散に等しくなる推定量が得られる。 これを母分散の不偏推定量であるとの意味で不偏分散 (unbiased (sample) variance) と呼ぶ[4]。定義から明らかに、標本数が大きくなるにつれて標本分散は不偏分散に近づく。

脚注

参考文献

関連項目