正規分布

提供: miniwiki
2018/8/19/ (日) 17:41時点におけるAdmin (トーク | 投稿記録)による版 (1版 をインポートしました)
移動先:案内検索
正規分布
確率密度関数
ファイル:Normal Distribution PDF.svg
正規分布の確率密度関数:赤は標準正規分布
累積分布関数
ファイル:Normal Distribution CDF.svg
正規分布の分布関数:色は確率密度関数と同じ
母数 μ 位置(実数)
σ2 > 0 スケールの2乗(実数)
R = (−∞, ∞)
テンプレート:確率分布/リンク 密度 [math]\frac1{\sqrt{2\pi\sigma^{2} } }\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right)[/math]
累積分布関数 [math]\frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sqrt{2\sigma^{2} } }\right)[/math]
期待値 μ
中央値 μ
最頻値 μ
分散 σ2
歪度 0
尖度 0(定義によっては3)
エントロピー [math]\ln\left(\sigma\sqrt{2\,\pi\,e}\right)[/math]
モーメント母関数 [math]M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)[/math]
特性関数 [math]\phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)[/math]
テンプレートを表示

確率論統計学で用いられる正規分布(せいきぶんぷ、: normal distribution)またはガウス分布: Gaussian distribution)は、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことにより正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている。たとえば実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。

また、正規分布の確率密度関数フーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学物理の理論の体系において、正規分布は基本的な役割を果たしている。

確率変数 X が1次元正規分布に従う場合、[math]X \sim N(\mu, \sigma^{2}) [/math]、確率変数 Xn 次元正規分布に従う場合、[math]X \sim N_n(\mu, \mathit{\Sigma}) [/math] などと表記される。

概要

平均μ, 分散σ2 > 0 とする(1次元)正規分布とは、次の形の確率密度関数ガウス関数と呼ばれる)

[math]f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)\quad(x\in\mathbb{R})[/math]

を持つ確率分布のことである[1][2]。この分布を N(μ, σ2) と表す[1]。(N は「正規分布」を表す英語 "normal distribution" の頭文字から取られている)。

標準正規分布

特に μ = 0, σ2 = 1 のとき、この分布は(1次元)標準正規分布(または基準正規分布)と呼ばれる[3]。つまり標準正規分布 N(0, 1)

[math]f(x)=\frac{1}{\sqrt{2\pi}} \exp\!\left(-\frac{x^2}{2} \right)[/math]

なる確率密度関数を持つ確率分布として与えられる。

再生性

正規分布は再生性を持つ[4] —— つまり確率変数 X1, ..., Xn が独立にそれぞれ正規分布 N(μ1, σ12), ..., N(μn, σn2) に従うとき、線型結合 ΣaiXi は正規分布 Naiμi, Σai2σi2) に従う。

確率密度関数

正規分布の確率密度関数をグラフ化した正規分布曲線は左右対称なつりがね状の曲線であり、の形に似ている事からベル・カーブ(鐘形曲線)とも呼ばれる。直線 x = μ を軸に左右対称であり、x 軸が漸近線である。なお、曲線は σ の値が大きいほど扁平になる。

なお、中心極限定理により、巨大な n に対する二項分布とも考えることができる。

平均値の周辺の n中心化モーメントは、各次数 n に対して

[math]E[(X-\mu)^n] = \begin{cases} 0, & \text{if } n \text{ is odd} \\[1ex] (n - 1)!!\, \sigma^n, & \text{if } n \text{ is even} \end{cases} [/math]

となることが知られている[5]。ただし (2n − 1)!! テンプレート:Coloneqq (2n − 1) ⋅ (2n − 3) ⋅ ... ⋅ 3 ⋅ 1

多変量正規分布

また、多変量の統計として共分散まで込めた多次元の正規分布も定義され、平均 μ = (μ1, μ2, ..., μn)n 次元正規分布の同時密度関数は次の式で与えられる。

[math]f(x) = \frac{1}{(\sqrt{2\pi})^n \sqrt{\vert\mathit{\Sigma}\vert}}\exp\!\left(-\frac{1}{2}(x-\mu)^{\mathrm{T}}\, \mathit{\Sigma}^{-1}(x-\mu)\right)[/math]

ここで、Σ = (σij)分散共分散行列と呼ばれる正定値対称行列である。|Σ| は Σ の行列式。なお、A[x] は(対称)行列 A とベクトル x に対して二次形式 xTAx を意味するもの(ジーゲルの記号)とすると (xμ)TΣ−1(xμ) = Σ−1[xμ] と書くことも出来る。

この n 次元正規分布を Nn(μ, Σ) と表す[6]。特に1次元の場合、平均 (μ) と分散共分散行列 Σ = (σ2) は共に1次元の平均と分散を意味する1つの実数値であり、記号 N1((μ), Σ) = N1((μ), (σ2)) は単に N(μ, σ2) と書かれる(先に述べた1次元の場合の記号と同じものと理解してよい)。

歪正規分布

ファイル:Skew normal densities.svg.png
歪正規分布の確率密度関数

正規分布の拡張としては、上で示した多次元化を施した多変量正規分布の他に、歪正規分布 (Skew-Normal (SN) distribution) がある。これは三変数で表現され、そのうち1つの変数について[math]\alpha=0[/math]のときに正規分布となることから、分布を平均と分散の二変数で表現する正規分布の拡張であるといえる。 [math]\phi(x)[/math] を標準正規分布の確率密度関数とする。

[math]\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}[/math]

その確率密度関数は次で与えられる。

[math]\Phi(x) = \int_{-\infty}^{x} \phi(t)\ dt = \frac{1}{2} \left[ 1 + \operatorname{erf} \left(\frac{x}{\sqrt{2}}\right)\right][/math]

ここに "erf" は誤差関数(シグモイド関数)である。このとき、標準正規分布に対応する歪正規分布SN(0,1,α)の確率密度関数は次で与えられる。

[math]f(x) = 2\phi(x)\Phi(\alpha x) \,[/math]

これに平均のようなもの相当する変数と分散のようなものに相当する変数を加えるためにZ変換(標準化)の逆 [math]y=\xi+\omega x[/math]を施す。すると歪正規分布は一般の形になり、以下の関係が成り立つ。

[math]Y\sim SN(\xi, \omega^2, \alpha) \,[/math]

歴史

正規分布はアブラーム・ド・モアブルによって1733年に導入された[7]。この論文はド・モアブル自身による1738年出版の The Doctrine of Chances 第二版のなかで、高い次数に関する二項分布の近似の文脈において再掲されている。ド・モアブルの結果はピエール=シモン・ラプラスによる『確率論の解析理論』(1812年)において拡張され、いまではド・モアブル–ラプラスの定理と呼ばれている。

ラプラスは正規分布を実験の誤差の解析に用いた。その後アドリアン=マリ・ルジャンドルによって1805年最小二乗法が導入され[8]1809年カール・フリードリヒ・ガウスによる誤差論で詳細に論じられた(ガウスは1794年から最小二乗法を知っていたと主張していた)。

「ベル・カーブ」という名前は、1872年に2変数正規分布に対して「鐘形曲面」という言葉を用いた Esprit JouffretEnglish版 にさかのぼる。「正規分布」という言葉はチャールズ・サンダース・パースフランシス・ゴルトンヴィルヘルム・レキシスの3人によって1875年頃に独立に導入された。

統計的な意味

ファイル:Standard deviation diagram.svg
標準正規分布がもつ確率密度関数のグラフ

正規分布 N(μ, σ2) からの無作為標本 x を取ると、平均 μ からのずれが ±1σ 以下の範囲に x が含まれる確率は 68.27%、±2σ 以下だと 95.45%、更に ±3σ だと 99.73% となる。

正規分布は、t分布F分布といった種々の分布の考え方の基礎になっているだけでなく、実際の統計的推測においても、仮説検定区間推定など、様々な場面で利用される。

正規分布 N(μ, σ) に従う確率変数 X が与えられたとき Z = (Xμ)/σ標準化すれば確率変数 Z は標準正規分布に従う。大学レベルの統計入門のクラスでは必ず行われているが、 Z 値を求めることで標準正規分布表とよばれる変量に対応した確率をあらわす一覧表を用いて、コンピュータを使うことなく正規分布に従った事象の確率を求める事ができる。

不連続値をとる確率変数についての検定の場合でも、連続変数と同様の考え方で正規分布を近似的に用いることがある。これは標本の大きさ n が大きく、かつデータの階級幅が狭いほど、近似の精度が高い。

正規分布の適用

自然界の事象のなかには正規分布に従う数量の分布をとるものがあることが知られている[9]。また、そのままでは変数が正規分布に従わない場合もその対数をとると正規分布に従う場合がある。

正規分布が統計学上特別な地位を持つのは中心極限定理が存在するためである。中心極限定理は、「独立な同一の分布に従う確率変数の算術平均(確率変数の合計を変数の数で割ったもの)の分布は、もとの確率変数に標準偏差が存在するならば、もとの分布の形状に関係なく、変数の数が多数になったとき、正規分布に収束する」というものである。このため大標本の平均値の統計には、正規分布が仮定されることが非常に多い。

前述のごとく自然界の事象の中には、正規分布に従う数量の分布をとるものがあることが知られている。しかしそれは必ずしも多数派というわけではない。19世紀ではさながら「正規分布万能主義」といったものがまかり通っていたが、20世紀以降そういった考え方に修正が見られた。今日においては社会現象、生物集団の現象等々、種別から言えば、正規分布に従うものはむしろ少数派であることが確認されている。例えば、フラクタルな性質を持つ物は正規分布よりも、パレート分布になることが多い。人間は自然界の事象とはちがって自分の意思をもっているため、たとえば、子供の成績などは決して正規分布にはならない[9]。しかし、そもそも理論上、正規分布の x の値は負の無限大から正の無限大まで取れるのに対して、多くの事象は最小値(例えば比例尺度におけるゼロ)と最大値(例えばテストにおける100点満点)が予め定まっている場合があり、そのような事象が完全な正規分布に従うとするには無理がある(その際はcensoringつまり打ち切りを考慮したり、対数正規分布を用いたりするとより正確な確率を求めることが出来る場合がある)。また、ゼロ及び自然数しかとらない離散確率分布、例えばポアソン分布二項分布連続確率分布である正規分布で近似することも一般的に行われている。

検定

何らかの事象について法則性を捜したり理論を構築しようとしたりする際、その確率分布がまだ分かっていない場合にはそれが正規分布であると仮定して推論することは珍しくないが、誤った結論にたどりついてしまう可能性がある。標本データが正規分布に近似しているかどうを判断するためには、尖度歪度を調べる、ヒストグラムを見る、正規QQプロットをチェックする、或いはシャピロ–ウィルク検定コルモゴロフ–スミルノフ検定(正規分布)を利用する方法などが一般的に行われている。

点推定

平均や分散が未知の正規分布に従うデータから、母数 θ = (μ, σ2) を推定したいことがある。これには次の推定量 [math]\hat\theta = (\hat\mu, \hat\sigma^2)[/math] がよく用いられる。正規分布 N(μ, σ2) からの無作為標本 x1, ..., xn が与えられたとき、

[math] \begin{align} \hat\mu &= \frac{1}{n}\sum_{i=1}^n x_i \\ \hat\sigma^2 &= \frac{1}{n - 1} \sum_{i=1}^n (x_i - \hat\mu)^2 \end{align}[/math]

最小分散不偏推定量English版である[10]

区間推定

脚注

  1. 1.0 1.1 稲垣 1990, pp. 44–45.
  2. JIS Z 8101-1 : 1999, 1.25 正規分布.
  3. JIS Z 8101-1 : 1999, 1.26 標準正規分布 (standardized normal distribution, standardized Laplace–Gauss distribution).
  4. Cramér 1946, § 17.3.
  5. Cramér 1946, (17.2.3).
  6. 稲垣 1990, p. 86.
  7. Abraham de Moivre, "Approximatio ad Summam Terminorum Binomii (a + b)n in Seriem expansi" (1733年11月12日に私的な回覧用にロンドンで印刷された。)このパンフレットは以下に挙げる各書物に再掲されている: (1) Richard C. Archibald (1926) “A rare pamphlet of Moivre and some of his discoveries,” Isis, vol. 8, pages 671–683; (2) Helen M. Walker, “De Moivre on the law of normal probability” in David Eugene Smith, A Source Book in Mathematics [New York, New York: McGraw-Hill, 1929; reprinted: New York, New York: Dover, 1959], vol. 2, pages 566–575.; (3) Abraham De Moivre, The Doctrine of Chances (2nd ed.) [London: H. Woodfall, 1738; reprinted: London: Cass, 1967], pages 235-243; (3rd ed.) [London: A Millar, 1756; reprinted: New York, New York: Chelsea, 1967], pages 243–254; (4) Florence N. David, Games, Gods and Gambling: A History of Probability and Statistical Ideas [London: Griffin, 1962], Appendix 5, pages 254–267.
  8. Stigler 1986, Figure 1.5.
  9. 9.0 9.1 遠山啓 『数学入門(下)』 岩波書店岩波新書〉(原著1960-10-20)、初版、p. 87。アクセス日 2009-03-05
  10. 岩波数学辞典 2007, 付録 公式 23.

参考文献

関連項目

外部リンク