actions

二項分布

二項分布
確率質量関数
300px
累積分布関数
300px
色は上図と同じ
母数 [math]n \geq 0[/math] 試行回数(整数)
[math]0 \leq p \leq 1[/math] 成功確率(実数)
[math]k \in \{0,\dots,n\}\![/math]
確率質量関数 [math]{n\choose k} p^k (1-p)^{n-k} \![/math]
累積分布関数 [math]I_{1-p}(n-\lfloor k\rfloor, 1+\lfloor k\rfloor) \![/math]
期待値 [math]n\,p\![/math]
最頻値 [math]\lfloor (n+1)\,p\rfloor\![/math]
分散 [math]n\,p\,(1-p)\![/math]
歪度 [math]\frac{1-2\,p}{\sqrt{n\,p\,(1-p)}}\![/math]
尖度 [math]\frac{1-6\,p\,(1-p)}{n\,p\,(1-p)}\![/math]
モーメント母関数 [math](1-p + p\,e^t)^n \![/math]
特性関数 [math](1-p + p\,e^{i\,t})^n \![/math]
テンプレートを表示

数学において、二項分布(にこうぶんぷ、: binomial distribution)は、結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布である。各試行における成功確率 p は一定であり、このような試行をベルヌーイ試行と呼ぶ。二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。

二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。

500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、運が悪ければ、とても少ない確率で、選んだ500人の中にたまたま一人たりとも患者が含まれないような、真の分布とかけ離れた分布が得られる場合もある。直感的には、真の分布に近い分布が得られる確率 > 真の分布から遠い分布が得られる確率 だろう。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。 これを定量的に表すことの出来る分布が二項分布である。

抽出された集団の中に含まれる罹患者数を確率変数 X で表すとき、Xn = 500、p = 0.05 の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は Pr[X ≥ 30] である。

定義

パラメータp(ただし[math]0\leq p \leq 1[/math])ならび自然数のパラメータnに対して、自然数を値としてとる確率変数X

[math]P[X=k]={n\choose k}p^k(1-p)^{n-k}\quad\mbox{for}\ k=0,1,2,\dots,n [/math]

を満たすとき、確率変数Xはパラメータ np の二項分布B(n, p)に従うという。確率変数 X が二項分布 B(n, p)に従うとき、X ~ B(n, p) と表記する。

ここで、

[math]{n\choose k} = {}_n C_k =\frac{n!}{k!(n-k)!}[/math]

n 個から k 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。n = 1 の場合を特に、ベルヌーイ分布と呼ぶ。

この公式は、次のように解釈することができる。一回の試行において成功する確率がpであるとき、pk の項は k 回成功する確率を表し、(1 − p)nkの項 は nk 回失敗する確率を表している。ただし、k 回の成功は n 回の試行の中のどこかで発生したものであるから、C(n, k) 通りの発生順序がある。したがって、n 回の独立な試行を行ったときの成功回数がkとなる確率を意味する。

性質

期待値・分散

B(n, p)にしたがう確率変数X に対し、X期待値 E[X] は

[math]E[X]=np[/math]

であり、分散 Var[X] は

[math]\operatorname{Var}(X)=np(1-p)[/math]

となる。

X最頻値は、(n + 1)p 以下の最大の整数によって与えられる。ただし、m = (n + 1)p において m が整数である場合、m − 1 と m の双方が最頻値となる。

再生性

二項分布は再生性を有する。すなわち B(n, p) に従う確率変数 X と B(m, p)に従う確率変数 Y が互いに独立であるとき、確率変数の和 X + Y は二項分布 B(n + m, p) に従う。


近似

二項分布の近似として、次の2種類の分布が知られている。

正規分布

ファイル:De moivre-laplace.gif
二項分布が正規分布に近づく様子

期待値 np および分散 np(1 − p) が 5 よりも大きい場合、二項分布 B(n, p) に対する良好な近似として正規分布がある。但し、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、n が十分大きくかつ、期待値 np および 分散 np(1 − p) も十分大きい場合、期待値 np, 分散 np(1 − p) の正規分布 N(np,np(1 − p)) で近似することができ、期待値からの差 |knp| が標準偏差 (np(1 − p))1/2 と同程度となる k に対して

[math]P[X=k] \simeq \frac{1}{\sqrt{2 \pi np(1-p)}}\exp{ \left(- \frac{(k-np)^2}{2np(1-p)} \right)}[/math]

が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書 The Doctrine of Chances の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある[1] 。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布による近似を用いることにより、計算の労力を大きく削減することができる。

例えば、多数の住民の中から n 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。n 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 p とほぼ等しい平均を持ち、標準偏差 σ = (p(1 − p)/n)1/2 である正規分布に近似される。未知の変数 p は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 n は多い方が好ましい。

95%信頼区間ならば、正規分布で近似すると、その範囲は、

[math]p-2\sqrt{\frac{p(1-p)}{n}} \sim p+2\sqrt{\frac{p(1-p)}{n}}[/math]

となる。たとえば、p = 50%の場合、n = 100なら40%〜60%、n = 1,000ならば47%〜53%、n = 10,000ならば49%〜51%となる。n = 10の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる[2]

ポアソン分布

n が大きく p が十分小さい場合、np は適度な大きさとなるため、パラメータ λ = np であるポアソン分布が 二項分布B(n, p) の良好な近似を与える。すなわち、期待値λ = npを一定とし、nを十分大きくしたとき、

[math]P[X=k] \simeq \frac{\lambda^k e^{-\lambda}}{k!} [/math]


が成り立つ(詳細はポアソン分布の項を参照)。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書 Recherches sur la probabilite des jugements (Researches on the Probabilities) の中で与えており、ポアソンの極限定理と呼ばれる。

関連項目

参照

  1. 伏見康治確率論及統計論」第IV章 独立偶然量の和 27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
  2. prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 - Wolfram Alpha