線形回帰
テンプレート:回帰分析 線形回帰(せんけいかいき、英: linear regression)とは、統計学における回帰分析の一種である。線形回帰は非線形回帰と対比される。
Contents
基本モデル
線形回帰モデルは、目的変数[注釈 1] Y と説明変数[注釈 1] Xi, i = 1, ..., p および擾乱項[注釈 2] ε の関係を以下のようにモデル化したものである。
- [math]Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots +\beta_p X_p + \varepsilon\,.[/math]
ここで β0 は切片(「定数」項)、βi は各々の説明変数の係数であり、p は説明変数の個数である。線形回帰においては、説明変数の係数および切片の組 {βi}i∈[0,p) をパラメタとするモデルを与える。また、擾乱項 ε は説明変数 X とは独立である。
ベクトル・行列記法を用いれば、線形回帰モデルは以下のように表せる。
- [math]Y = X\beta + \varepsilon\,. [/math]
線形回帰が「線形」であるのは、目的変数 Y が説明変数 X の係数 β に対して線形であるためである。たとえば
- [math]Y = \beta_0 + \beta_1 x + \beta_2 x^2 + \varepsilon[/math]
という回帰は x に対して明らかに線形ではないが、係数 β に対して線形であるから、線形回帰の問題に分類される。
単回帰の場合、説明変数は1つだけであり回帰パラメタは2つである。上式は以下のようになる。
[math]y = a+bx+\varepsilon.\, [/math]
同等な定式化に、線形回帰を条件付き期待値のモデルとして陽に表すものがある。
[math] \mbox{E}(y | x) = \alpha + \beta x \, [/math]
ここで、所与の x に対する y の条件付き確率分布は擾乱項の確率分布に一致する。
線形回帰の種類
最小二乗モデル
最小二乗法はカール・フリードリッヒ・ガウスが1820年代に発展させた。本方法は、擾乱項 εi の振る舞いに次のような仮定をする(ガウス=マルコフ仮定)。
- 擾乱 εi の期待値は 0 である
- [math]E[\varepsilon] = 0.[/math]
- 擾乱 εi は相互に無相関である(統計的な独立の仮定よりは弱い)
- [math]\operatorname{cov}(\varepsilon_i, \varepsilon_j) = 0, \qquad i \ne j.[/math]
- 擾乱 εi は等分散、すなわちみな等しい分散をもつ(ガウス=マルコフの定理も参照)
- [math]V[\varepsilon_i] = \sigma^2, \qquad \forall i \isin [n].[/math]
以上の仮定は、最小二乗法がある意味で最適なパラメタの推定量を与えることを意味する。
説明変数の個数が p 個のモデルを考えると、線形回帰によって決定すべきパラメタは係数 β1,..., βp と切片 ß0 の p + 1 個である。目的変数と説明変数の測定結果の組 (yk; xk1,...,xkp) を1つのデータとし、n 個のデータを用いた線形回帰は以下のように表すことができる。
- [math] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \dots & x_{np} \end{bmatrix} \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} [/math]
上記の連立方程式は、目的変数の観測値を n 成分の列ベクトル Y、説明変数の観測値および切片 β0 の係数 (=1) を n × (p + 1) 行列 X、回帰パラメタを (p + 1) 成分の列ベクトルβ、観測ごとの擾乱を n 成分の列ベクトル ε とすれば、行列の記法を用いて以下のように表せる。
- [math] Y = \mathbf{X}\beta + \varepsilon. [/math]
n = p の場合、回帰パラメタの標準誤差は算出できない。n が p より小さい場合、パラメタは算出できない。
回帰パラメタの推定量は、
[math]\widehat{\beta} =(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top {\vec y}[/math]
ガウス=マルコフの定理による仮定を用いると、結果を分析し、最小二乗法を用いて決定したモデルが有効かどうかを決定できる。 自由度は n − p − 1 で与えられる。
残差は、観測値とモデルによる予測値の差を表し、回帰結果を分析するときに必要となる。以下のように決定される。
[math]\hat\vec\varepsilon = \vec{y} - \mathbf{X} \hat\beta\,[/math]
モデルの標準偏差 [math]\hat \sigma [/math] は以下のように決定される。
[math] {\hat \sigma = \sqrt{ \frac {{\hat{\vec\varepsilon}}{\;}^\top \hat{\vec\varepsilon}} {n-p-1} } = \sqrt {\frac{ { {\vec{y} }{\,}^\top \vec{y} - {\hat{\vec\beta}}{\,}^\top \mathbf{X}^\top \vec{y} } } {{n - p - 1} } } }[/math]
[math]\hat\sigma^2 \sim \frac { \chi_{n-p-1}^2 \ \sigma^2 } {n-p-1}[/math]
母数の [math]100(1-\alpha)% [/math] 信頼区間である [math]\beta_i [/math] は以下のように算出される。
[math] {\widehat \beta_i \pm t_{\frac{\alpha }{2},n - p - 1} \hat \sigma \sqrt {(\mathbf{X}^\top \mathbf{X})_{ii}^{ - 1} } } [/math]
ここで t はt分布でその自由度は [math]n-p-1[/math] であり [math] (\mathbf{X}^\top \mathbf{X})_{ii}^{ - 1}[/math] は行列の第 [math]i^{th}[/math] 行および列の値を表す。
[math]100(1-\alpha)% [/math] 予測(補間または補外)応答の信頼区間は、値 [math]\vec{x} = \vec {x_d}[/math] に対して下式で表される。
[math] { \vec {x_0} \widehat\beta \pm t_{\frac{\alpha }{2},n - p - 1} \hat \sigma \sqrt { \vec {x_0} (\mathbf{X}^\top \mathbf{ X})_{}^{ - 1} \vec {x_0}^\top } } [/math]
ここで [math]\vec {x_0} = \langle 1, x_{2}, x_{3}, . . ., x_{p}\rangle [/math] である。
データに対する応答の信頼区間の予測は、[math]100(1-\alpha)% [/math] 以下のように与えられる。
[math] { \vec {x_0} \widehat\beta \pm t_{\frac{\alpha }{2},n - p - 1} \hat \sigma \sqrt {1 + \vec {x_0} (\mathbf{X}^\top \mathbf{X})_{}^{ - 1} \vec {x_0}^\top } } [/math]
回帰の二乗和 SSR は下式で与えられる。
[math] {\mathit{SSR} = \sum {\left( {\hat{y_i} - \bar y} \right)^2 } = {\hat\beta}^\top \mathbf{X}^\top \vec y - \frac{1}{n}\left( { {\vec y}^\top \vec u {\vec u}^\top \vec y} \right)} [/math]
ここで [math] \bar y = \frac{1}{n} \sum y_i[/math] であり [math] \vec u [/math] は n × 1 の1ベクトル(各要素が1)である。 項 [math]\frac{1}{n} y^\top u u^\top y[/math] は [math] \frac{1}{n} (\sum y_i)^2[/math] と等価である。
誤差の二乗和 ESS は下式で与えられる。
[math] {\mathit{ESS} = \sum {\left( {y_i - \hat{y_i} } \right)^2 } = {\vec y}^\top \vec y - {\hat\beta}^\top \mathbf{X}^\top \vec y}. [/math]
二乗和の全和 TSS' は下式で与えられる。
[math] {\mathit{TSS} = \sum {\left( {y_i - \bar y} \right)^2 } = \vec y^\top \vec y - \frac{1}{n}\left( { {\vec y}^\top \vec u {\vec u}^\top \vec y} \right) = \mathit{SSR}+ \mathit{ESS}}. [/math]
決定係数, R² は下式で与えられる。
[math] {R^2 = \frac{\mathit{SSR}}{{\mathit{TSS}}} = 1 - \frac{\mathit{ESS}}{\mathit{TSS}}}. [/math]
注釈
- ↑ 1.0 1.1 回帰分析の分野においては、目的変数をしばしば応答変数(おうとうへんすう、英: response variable)とも呼ぶ。説明変数(せつめいへんすう、explanatory variable)は他に様々な名称で呼ばれ、たとえば外生変数(がいせいへんすう、英: exogenous variable)、入力変数(にゅうりょくへんすう、英: input variable)、予測変数(よそくへんすう、英: predictor variable)とも呼ばれる。また、目的変数を従属変数(じゅうぞくへんすう、英: dependent variable)、説明変数を独立変数(どくりつへんすう、英: independent variable)と対で呼ぶこともあるが、従属/独立といった言葉は数学において多義的に使われがちであるため、使用には注意が必要である。
- ↑ 擾乱項(じょうらんこう、英: disturbance term)は雑音項(ざつおんこう、英: noise term)、あるいは誤差項(ごさこう、英: error term)とも呼ばれる。この「誤差」は回帰モデルの誤差ではなく、測定に伴う誤差を指している。