最尤推定

提供: miniwiki
2018/12/28/ (金) 19:25時点におけるAdmin (トーク | 投稿記録)による版 (1版 をインポートしました)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索

最尤推定(さいゆうすいてい、: maximum likelihood estimation、略してMLEともいう)や最尤法(さいゆうほう、: method of maximum likelihood)とは、統計学において、与えられたデータからそれが従う確率分布母数点推定する方法である。この方法はロナルド・フィッシャー1912年から1922年にかけて開発した。

生物学に於いて、塩基やアミノ酸配列のような分子データの置換に関する確率モデルに基づいて系統樹を作成する際に、一番尤もらしくデータを説明する樹形を選択するための有力な方法としても利用される。

基本的理論

確率分布関数 [math]f_D[/math] と分布の母数 [math]\theta[/math] のわかっている離散確率分布 [math]D[/math] が与えられたとして、そこから [math]n[/math] 個の標本 [math]X_1, X_2, ... X_n[/math] を取り出すことを考えよう。すると分布関数から、観察されたデータが得られる確率を次のように計算することができる:

[math]\mathbb{P}(x_1,x_2,\dots,x_n) = f_D(x_1,\dots,x_n \mid \theta)[/math]

しかし、データが分布 [math]D[/math] によることはわかっていても、母数 [math]\theta[/math] の値はわからないかもしれない。どうしたら [math]\theta[/math] を見積もれるか? [math]n[/math] 個の標本 [math]X_1, X_2, ... X_n[/math] があれば、この標本から [math]\theta[/math] の値を見積もることができる。最尤法は母数 [math]\theta[/math] の一番尤もらしい値を探す(つまり [math]\theta[/math] のすべての可能な値の中から、観察されたデータセットの尤度を最大にするものを探す)方法である。これは他の推定量を求める方法と対照的である。たとえば [math]\theta[/math]不偏推定量は、 [math]\theta[/math] を過大評価することも過小評価することもないが、必ずしも一番尤もらしい値を与えるとは限らない。 尤度関数を次のように定義する:

[math]L(\theta) = f_D(x_1,\dots,x_n \mid \theta)[/math]

この関数を母数 [math]\theta[/math] のすべての可能な値から見て最大になるようにする。そのような値 [math]\hat{\theta}[/math] を母数[math]\theta[/math] に対する最尤推定量(さいゆうすいていりょう、maximum likelihood estimator、これもMLEと略す)という。最尤推定量は(適当な仮定の下では)しばしば尤度方程式(ゆうどほうていしき、likelihood equation)

[math]\frac{\partial}{\partial\theta}\log L(\theta) = 0[/math]

の解として求められる。

注意

  • 尤度は [math]\theta[/math] を変数とし [math]x_1,x_2,\ldots,x_n[/math] を定数とする関数である。
  • 最尤推定量は唯一ではないこともあるし、存在しないことさえある[1]
  • [math]f_D[/math] を離散確率分布関数でなく確率密度関数として考えれば、上の定義は連続確率分布にも当てはまる。
  • 最尤法をベイジアンで解釈することも可能である.事前分布に一様分布を仮定し,事後分布のモードを計算することと同値である.詳しくは計量経済学ベイジアン計量経済学の項を参照されたい.

離散分布で、母数が離散的かつ有限の場合

以下、コインを投げて表・裏(あるいは成功・失敗:その確率は0.5とは限らない)のいずれが出るかを見る場合(ベルヌーイ試行)を例にとる。

箱の中に3つのコインがあるとしよう。見た目では全く区別がつかないが、表の出る確率[math]p[/math]が、それぞれ[math]p=1/3[/math][math]p=1/2[/math][math]p=2/3[/math] である。([math]p[/math] が、上で [math]\theta[/math] と書いた母数にあたる)。箱の中から適当に1つ選んだコインを80回投げ、[math]x_1=\mbox{H}[/math][math]x_2=\mbox{T} [/math][math]\ldots [/math][math]x_{80}=\mbox{T}[/math] のようにサンプリングし、表(H)の観察された回数を数えたところ、表(H)が49回、裏が31回であった。さて、投げたコインがどのコインであったと考えるのが一番尤もらしいか? 一番尤もらしいコイン(すなわち、一番尤もらしい[math]p[/math]の値)を推定するためには、次のように尤度を計算する:

[math] \begin{matrix} \mathbb{P}(\mbox{49H/80}\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} = 0.000 \\ &&\\ \mathbb{P}(\mbox{49H/80}\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} = 0.012 \\ &&\\ \mathbb{P}(\mbox{49H/80}\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} = 0.054 \\ \end{matrix} [/math]

こうして母数 [math]\hat{p}=2/3[/math] によって尤度が最大となることがわかり、これが [math]p[/math] に対する最尤推定量である。

離散分布で、母数が連続的な場合

こんどは上の例での箱に入っているコインの数は無限であると仮定する。それぞれがすべての可能な [math]0\leq p \leq 1[/math] の値をとるとする。するとすべての可能な [math]0\leq p \leq 1[/math] の値に対して次の尤度関数を最大化しなければならない:

[math] \begin{matrix} L(p) & = & f_D(\mbox{observe 49 HEADS out of 80}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\ \end{matrix} [/math]

この関数を最大化するには [math]p[/math] に関して微分しその値を0にすればよい:

[math] \begin{matrix} 0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\ & & \\ & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\ & & \\ & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\ \end{matrix} [/math]

これを解けば [math]p=0[/math][math]p=1[/math][math]p=49/80[/math] の3つの解が得られるが、そのうち尤度を最大化するのは明らかに [math]p=49/80[/math] である( [math]p=0[/math][math]p=1[/math] では尤度は0になってしまう)。こうして [math]p[/math] に対する最尤推定量は [math]\hat{p}=49/80[/math] と求められる。 この結果で、ベルヌーイ試行の成功数49を [math]t[/math] と置き、全回数80を [math]n[/math] と置けば一般化できる。 [math]n[/math] 回のベルヌーイ試行で [math]t[/math] 回成功した場合に対する母数 [math]p[/math] の最尤推定量は

[math]\hat{p}=\frac{t}{n}[/math]

となる[2]

分布、母数とも連続的な場合

よく出てくる連続確率分布に、次の正規分布がある:

[math]f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}[/math]

この分布に従う [math]n[/math] 個の独立なランダム変数標本の密度関数は:

[math]f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}[/math]

また計算しやすいように書き換えると:

[math]f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}}[/math]

この分布には平均 [math]\mu[/math]分散 [math]\sigma^2[/math] の2つの母数がある。上では1つの母数に対する最大化だけを議論したが、この場合も各母数に対して尤度 [math]L(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)[/math] を最大化すればよい。上の書き方なら [math]\theta=(\mu,\sigma^2)[/math] とする(このように母数が複数の場合は母数ベクトルとして扱う)。 尤度を最大にするのは、尤度の自然対数を最大にするのと同じである(自然対数は単調増加関数であるから)。このような計算法はいろいろな分野でよく利用され、対数尤度は情報エントロピーフィッシャー情報と密接な関係がある。

[math] \begin{matrix} 0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\ \end{matrix} [/math]

これを解くと [math]\hat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n [/math] となる。これはまさに関数の最大値、すなわち [math]\mu[/math] の唯一の極値で、2次微分は負となる。 同様に、 [math]\sigma[/math] に関して微分し0とおけば尤度の最大値 [math]\hat{\sigma}^2 = \sum_{i=1}^n(x_i-\hat{\mu})^2/n[/math] が得られる。 つまり、正規分布の母数 [math]\theta=(\mu,\sigma^2)[/math] に対する最尤推定量は

[math]\hat{\theta}=(\hat{\mu},\hat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n)[/math]

となる[2]

生物の系統推定への応用

最尤法は生物の分子系統推定(分子系統樹作成)にも応用される。塩基やアミノ酸配列の置換に関する確率モデルを仮定した上で、想定される樹形ごとに手持ちのデータ(配列の多重アラインメント)が得られる尤度を求め、最も尤度の高い樹形を採用する方法である。

脚注

参考文献

関連項目