スチューデント化残差

提供: miniwiki
移動先:案内検索

テンプレート:回帰分析 スチューデント化残差(スチューデントかざんさ、: studentized residual)とは、統計学において、残差をその標準偏差推定量で割って補正したものである。スチューデント化は「外れ値」の検出にあたり重要な技法である。

「スチューデント化」の名称はウィリアム・ゴセットの筆名「スチューデント」にちなむ。

誤差と残差

誤差と残差の違いを理解することは非常に重要である。簡単な線形回帰モデル

[math]Y_i=\alpha_0+\alpha_1 x_i+\varepsilon_i,[/math]

を考えよう。ここで「誤差」 εi , i = 1, ... , n は統計的に独立 ですべて同じ分散 σ2 をもつものとする。

残差は真でなく観測もできない誤差ではなく、観測可能なデータに基く誤差の推定値である。最小二乗法で α0 と α1を推定したとき、(誤差と異なり)残差は、独立ではありえない。なぜなら残差は以下の 2 つの拘束条件を満たすからである。

[math]\sum_{i=1}^n \widehat{\varepsilon}_i=0,\qquad \sum_{i=1}^n \widehat{\varepsilon}_i x_i=0[/math]

ここで [math]\varepsilon_i[/math]i 番目の誤差、 [math]\widehat{\varepsilon}_i[/math]i 番目の残差を表す。

さらに、誤差と異なり残差は、同じ分散を持たない。分散は対応する x-値が x-値の平均から遠ざかるにつれ減少する。これは回帰分析の予測値が、説明変数の分布する領域の端の方であるほどより影響を受けることと、データの回帰係数に及ぼす影響力が高いほど変わりやすいということによるものである。これは説明変数の分布の端の方のデータにおける残差はまた傾きの推定値によって大きく影響を受けるが、説明変数の分布の平均辺りのデータにおける残差は傾きによる影響をあまり受けないということによっても確認できる。真の誤差の分散がすべて等しいにもかかわらず残差の分散が異なるという事実は、スチューデント化が必要な主要な理由である。これは単に母集団パラメータ(平均と標準偏差)が未知であるという問題ではなく、一変量分布についての点推定のように同じ残差分布をデータが共有するのとは異なり、回帰分析するということが異なるデータポイントに対して異なる残差分布を生み出してしまうということである。

スチューデント化の手順

この簡単なモデルでは、計画行列

[math]X=\left[\begin{matrix}1 & x_1 \\ \vdots & \vdots \\ 1 & x_n \end{matrix}\right][/math]

であり、「ハット行列」(hat matrix) H は計画行列の列空間への直交射影である。

[math]H=X(X^T X)^{-1}X^T.[/math]

「てこ値」(てこち、leverage、レバレッジ)hii はハット行列の第 i 対角要素である。i 番目の残差の分散は

[math]\mbox{var}(\widehat{\varepsilon}_i)=\sigma^2(1-h_{ii})[/math]

で、対応する「スチューデント化残差」は

[math]{\widehat{\varepsilon}_i\over \widehat{\sigma} \sqrt{1-h_{ii}\ }}[/math]

である。ここで [math]\widehat{\sigma}[/math] は適当な σ の推定量である。

内部スチューデント化と外部スチューデント化

σ2 の推定量は

[math]\widehat{\sigma}^2={1 \over n-m}\sum_{j=1}^n \widehat{\varepsilon}_j^2[/math]

で表される。ここで m はモデルの母数の個数 (この例では 2)である。

i 番のデータが「外れ値」かどうかを検討する時には、i番の観測を分散の推定には用いないことが望ましい。結局、以下の推定量が用いられる。

[math]\widehat{\sigma}_{(i)}^2={1 \over n-m-1}\sum_{\begin{smallmatrix}j = 1\\j \ne i\end{smallmatrix}}^n \widehat{\varepsilon}_j^2,[/math]

ここで総和記号Σは i 番の観測を除くすべての観測に基づく和である。後者の推定量を用いる場合、i 番の観測は「除外された」ので、「外部スチューデント化残差」 (externally studentized residual)または「削除後スチューデント残差」 (deleted studentized residual) という。前者を用いる場合、i 番の観測を「含んだ」ので、「内部スチューデント化残差」 (internally studentized residual) という。

誤差が独立で、期待値 0 で 分散 σ2正規分布に従う場合、i 番の外部スチューデント化残差の確率分布はスチューデントのt分布となる。その自由度nm − 1 であり、値域は (-∞, +∞) である。

一方、内部スチューデント化残差の値域は [math]0 \pm \sqrt{\mathrm{r.d.f.}}[/math] である。ここで自由度は残差の自由度すなわち n − m である。"i.s.r" で内部スチューデント化残差を表し、誤差は独立同一正規分布 (independent identically distributed Gaussian) 変数と仮定すると、

[math]\mathrm{i.s.r.}^2 = \mathrm{r.d.f.}{t^2 \over t^2+\mathrm{r.d.f.}-1}[/math]

ここで tt分布でその自由度は r.d.f. − 1 である。実は、上式は i.s.r.2/r.d.f. がベータ分布に従うことを示す。r.d.f. = 3 のとき、内部スチューデント化残差は [math]-\sqrt{3}[/math] and [math]+\sqrt{3}[/math]一様分布する。

自由度が 1 しかない場合、内部スチューデント化残差を表す上式は適用できない。この場合、内部スチューデント化残差は +1 か -1 のどちらかにそれぞれ 50 パーセントの確率で分布する。

参考文献

英語版元記事に掲げられていたものである。

  • Residuals and Influence in Regression, R. Dennis Cook, New York : Chapman and Hall, 1982.

関連項目