決定係数

提供: miniwiki
移動先:案内検索

決定係数(けっていけいすう、: coefficient of determination)は、独立変数(説明変数)が従属変数(被説明変数)のどれくらいを説明できるかを表す値である。寄与率と呼ばれることもある。標本値から求めた回帰方程式のあてはまりの良さの尺度として利用される。

定義

決定係数[math]R^2[/math]のはっきりと合意された定義は無い。Tarald O. Kvalsethによれば、8種類の定義があり注意が必要だとしている[1]。 しかし、以下の式を定義とするのが一般的なようである(標本値〈実測値、観測値〉を[math]y[/math]、回帰方程式による推定値を[math]f[/math]としている)。

[math]R^2 \equiv 1 - {\sum_i (y_i - f_i)^2 \over \sum_i (y_i-\bar{y})^2 }[/math]

すなわち、残差の二乗和を標本値の平均からの差の二乗和で割ったものを1から引いた値であり、1に近い程相対的な残差が少ないことを表す。最小二乗法はこの定義を最大にするようなパラメタの選択法ということに注意されたい。

なお、一般的な線形回帰の場合、以下の各式が等価であり、それらを定義式とすることもあるようである。

  • [math]{\sum_i (f_i - \bar{f}_i)^2 \over \sum_i (y_i-\bar{y})^2 }[/math] (推定値の分散を標本値の分散で割ったもの)
  • [math]{{( \sum_i (f_i - \bar{f}_i) \cdot (y_i - \bar{y}_i) )}^2 \over {\sum_i (f_i - \bar{f}_i)^2 \cdot \sum_i (y_i - \bar{y}_i)^2}}[/math](標本値と推定値との相関係数の2乗)

線形回帰以外の場合、原点を通ることを要求した場合、最小二乗法以外で回帰した場合はこれらの式は上の定義と等価になるとは限らないため、注意が必要である。

自由度調整済みの決定係数

上の決定係数の定義は説明変数を多くとるほど、良くなる傾向を持ってしまう。そのため、説明変数の数を[math]p[/math]、標本数を[math]N[/math]として、以下の自由度調整を行うことがあり、自由度調整済みの決定係数 (adjusted R2) と呼ぶ。

[math]R'^2 \equiv 1 - {{\sum_i (y_i - f_i)^2 / (N - p - 1) }\over {\sum_i (y_i-\bar{y})^2 / (N-1)}}[/math]

なお、「説明変数の数」としているが、線形回帰でない場合、たとえば、同じ説明変数に対し2乗の項や3乗の項も利用する場合は、その分の調整も必要になる。定数項をのぞいたパラメタの数といっても良い。

関連項目

脚注

  1. Tarald O. Kvalseth: "Cautionary Note about R2", The American Statistician Vol. 39, No. 4, Part 1 (Nov., 1985), pp. 279-285 (プレビュー