判別分析

提供: miniwiki
移動先:案内検索

判別分析(はんべつぶんせき、: discriminant analysis)は、事前に与えられているデータが異なるグループに分かれる場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準(判別関数[1])を得るための正規分布を前提とした分類の手法。英語では線形判別分析[2]LDA二次判別分析[3]QDA混合判別分析[4]MDAと略す。1936年にロナルド・フィッシャーが線形判別分析を発表し[5][6]、1996年に Trevor Hastie, Robert Tibshirani が混合判別分析を発表した[7]

3つ以上のグループの判別は重判別分析[8]や正準判別分析と呼ばれる。

判別関数の種類

判別関数には以下の物などがある。

線形判別関数[9]
超平面・直線による判別。線形判別分析は等分散性が必要。
二次判別関数[10]
楕円など二次関数による判別。二次判別分析は等分散性が不要。
非線形判別関数[11]
超曲面・曲線などの非線形判別関数。

前提条件

線形判別分析は、以下の前提条件が成立する必要がある。

その上で、マハラノビス汎距離[13]が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。

各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立している場合は正しい結果になる。

線形判別分析において、グループ間の確率のロジットは線形関数となるが、ここで線形関数という仮定を残したまま、正規分布や等分散性の仮定を外すとロジスティック回帰や単純パーセプトロンになる[14]

さらに別な方法としては、線形判別関数を使用したい場合は、線形サポートベクターマシンで線形判別関数を求めるという方法もある。

線形判別分析

線形判別関数は以下の通り。これの正負で判断。[math]x[/math] は入力、[math]\mu[/math]平均[math]\mathbf{\Sigma}[/math]共分散行列[15]。この式は多変量正規分布の式より導出できる。

[math]\left(x - \frac{\mu_{\rm first} + \mu_{\rm second}}{2}\right)^T \mathbf{\Sigma}^{-1} (\mu_{\rm first} - \mu_{\rm second})[/math]

より細かく、線形判別関数 ([math]y=\sum_{i=1}^{n}a_ix_i+a_0[/math]) の求め方を以下に示す。

  1. 第一群、第二群についてそれぞれ積和を求める。
    [math]W_{ij}=\Sigma_{ij}(x_i-x)(x_j-x)[/math]
  2. 第一群と第二群の平方和・積和を、同じ2変数について足し、自由度 [math]N_{\rm first}+N_{\rm second}-2[/math] で除す。
    [math]S_{ij}=\frac{W_{ij} {\rm(first)}+W_{ij} \rm{(second)}}{N_{\rm first}+N_{\rm second}-2}[/math]
  3. [math]S_{ij}[/math] を、その [math]i[/math][math]j[/math]列に対応させて分散共分散行列[math]{\mathbf S}[/math]とし、各変数にかかる係数を[math]n[/math][math]1[/math]列に並べた行列を[math]{\mathbf A}[/math]、第一群の各変数の平均値から第二群の各変数を引いた数 [math]x_i {\rm (first)}-x_i {\rm (second)}[/math][math]n[/math][math]1[/math]列に並べた行列を[math]{\mathbf X}[/math]とすると以下の式が成り立つ。
    [math]{\mathbf S}{\mathbf A}={\mathbf X}[/math] ゆえに [math]{\mathbf A}={\mathbf S}^{-1}{\mathbf X}[/math]
  4. これにより各変数にかかる係数を求めることができる。
    定数項は、[math]a_0=-\frac{1}{2}\sum_{i=1}^na_i\left\{x_i {\rm (first average)}+x_i {\rm (second average)}\right\}[/math]
  5. 判別得点[math]y[/math]が正のとき第一群、負のとき第二群と判別される。
    変数が標準化されていれば、係数の大きさは、そのままその変数が判別に与える影響の大きさである。
    変数が定性的な場合は、ダミー変数を用いる。
    [math]y=\sum_{i=1}^n\left(a_i{\rm (first)}x_i{\rm (first)}+a_i{\rm (second)}x_i{\rm (second)}\right)+a_{0}[/math]
    ここに、[math]x_{ij}[/math]: [math]x_i[/math][math]j[/math]番目のカテゴリーに反応するとき[math]1[/math]、しないとき[math]0[/math]

二次判別分析

グループの平均を中心に回転・軸方向のスケーリングを行い共分散行列を揃え、線形判別分析を行えば良い。

混合判別分析

単一の正規分布ではなく、混合正規分布で表現した物を混合判別分析という。その場合でも共分散行列は共通の物を使う。混合正規分布を使うことにより複雑な分布も扱えるようになる。混合正規分布はEMアルゴリズムなどで求める。

脚注

  1. : discriminant function
  2. : linear discriminant analysis
  3. : quadratic discriminant analysis
  4. : mixture discriminant analysis
  5. FISHER, R. A. (September 1936). “The use of multiple measurements in taxonomic problems”. Annals of Eugenics 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. 
  6. Cohen et al. Applied Multiple Regression/Correlation Analysis for the Behavioural Sciences 3rd ed. (2003). Taylor & Francis Group.
  7. Trevor Hastie; Robert Tibshirani (1996). “Discriminant Analysis by Gaussian Mixtures”. Journal of the Royal Statistical Society, Series B 58 (1): 155-176. 
  8. : multiple discriminant analysis
  9. : linear discriminant function
  10. : quadratic discriminant function
  11. : nonlinear discriminant function
  12. : multivariate normal distribution
  13. : Mahalanobis' generalized distance
  14. Trevor Hastie, Robert Tibshirani, Jerome Friedman 『統計的学習の基礎 ―データマイニング・推論・予測―』 共立出版、2014-06-25。ISBN 978-4320123625。
  15. この文脈中には総和を表すシグマ記号「[math]\sum_{i=1}^n[/math]」もあるが、それとは異なるので注意。

関連項目