リッジ回帰におけるSVDとGCV

最終更新日: 2020年10月27日

今回は、リッジ回帰と特異値分解 (Singular Value Decomposition, SVD) の関係に加え、パラメーター最適化における一般化交差確認 (Generalized Cross-Validation, GCV) についてまとめました。間違いなどありましたら、ご指摘いただけると幸いです。

最小二乗線形回帰 (OLS) とリッジ回帰

例えば、説明変数 $X \in \R^{n \times p}$ から目的変数 $\boldsymbol{y} \in \R^{n}$ を予測する線形モデルは式 (1) のようになります。ただし、回帰係数 $\boldsymbol{\beta} \in \R^{p}$ 、誤差項 $\boldsymbol{\varepsilon} \in \R^{n} \sim \mathcal{N}(0,\sigma^2 I)$ とします。

\boldsymbol{y} = X \boldsymbol{\beta} + \boldsymbol{\varepsilon} \quad (1)

この回帰係数の最小二乗推定量 $\hat{\boldsymbol{\beta}}$ は、正規方程式で求められます。

\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{y} \quad (2)

しかし、 $X$ がランク落ちしていた場合、 $X^\top X$ はいくつかの固有値がゼロとなって、逆行列を計算することができなくなります。したがって、対角要素に ridge を追加すると、全ての固有値が $\lambda$ だけ増加して逆行列の計算が可能となります。

\hat{\boldsymbol{\beta}}_{\lambda} = (X^\top X + \lambda I)^{-1} X^\top \boldsymbol{y} \quad (3)

(3) 式が、Hoerl and Kennard, 1970 によって提案されたリッジ回帰の方法です。これを最適化問題として書くと次のようになります。

\underset{\boldsymbol{\beta}}{\text{argmin }} \| \boldsymbol{y}-X\boldsymbol{\beta} \|_2^2 + \lambda \|\boldsymbol{\beta}\|_2^2

ここで、 $\|\|_2^2$ は $\ell_2$ ノルム（ユークリッド距離）を指しています。そのため、リッジ回帰は $\ell_2$ -正則化とも呼ばれます（ $\lambda \|\boldsymbol{\beta}\|_2^2$ は罰則項と呼ばれています）。この目的関数を $\boldsymbol{\beta}$ で微分してゼロになる点は、次のようにリッジ回帰推定量 $\hat{\boldsymbol{\beta}}_{\lambda}$ と一致しています。

\begin{aligned} -2X^\top(\boldsymbol{y}-X\hat{\boldsymbol{\beta}}) + 2\lambda \hat{\boldsymbol{\beta}} &= 0 \\ (X^\top X + \lambda I)\hat{\boldsymbol{\beta}} &= X^\top \boldsymbol{y} \\ \hat{\boldsymbol{\beta}} &= (X^\top X + \lambda I)^{-1} X^\top \boldsymbol{y} \end{aligned}

$\lambda$ の選択

ハイパーパラメーターとなる $\lambda$ には、どんな値を使えばよいのでしょうか？数値計算的には、 $\lambda=0.001$ や最大固有値の逆数を利用すれば良いとされています¹。 $\lambda$ を最適化する方法には、次のようなものがあります。

Validation dataset で各 $\lambda$ に対する性能を測る。
Training dataset 内で Cross-validation をして各 $\lambda$ に対する性能を測る。
$C_p$ 規準や情報量規準を利用する。

ここでは、 $\lambda$ の効果を見るためにSVDを利用しようと思います。そのために、リッジ回帰とSVDの関係を始めに考えます。

リッジ回帰とSVD

$X$ の特異値分解 (SVD) を $X = UDV^\top$ とします。ただし、直交行列 $U = (\boldsymbol{u}_1, \dots, \boldsymbol{u}_n) \in \R^{n \times n},$ $V = (\boldsymbol{v}_1, \dots, \boldsymbol{v}_n) \in \R^{p \times p}$ 、対角行列 $D \in \R^{n \times p}$ であり、対角要素は大きい順に $d_1, \dots, d_{m}\ (m=\min(n,p))$ とします。

これを式 (3) に代入すると、リッジ回帰推定量 $\hat{\boldsymbol{\beta}}_{\lambda}$ を特異値分解の表現で書き直せます。

\begin{aligned} \hat{\boldsymbol{\beta}}_{\lambda} &= (X^\top X + \lambda I)^{-1} X^\top \boldsymbol{y} \\ &= ((UDV^\top)^\top UDV^\top + \lambda I )^{-1} (UDV^\top)^\top \boldsymbol{y} \\ &= (VD^\top U^\top UDV^\top + \lambda V V^\top)^{-1} VD^\top U^\top \boldsymbol{y} \\ &= V (D^\top D + \lambda I )^{-1} D^\top U^\top \boldsymbol{y} \\ &= V \begin{pmatrix} \frac{d_1}{d_1^2 + \lambda} & & O \\ & \ddots & \\ O & & \frac{d_{m}}{d_{m}^2 + \lambda} \end{pmatrix} U^\top \boldsymbol{y} \\ &= \sum_{d_j \gt 0} \boldsymbol{v}_j \frac{d_j}{d_j^2 + \lambda} \langle \boldsymbol{u}_j, \boldsymbol{y} \rangle \end{aligned}

ただし、 $\langle\cdot,\cdot\rangle$ は内積を示しています。この表現を利用して、予測 $\hat{\boldsymbol{y}}_\lambda$ は次のように書けます。

\begin{aligned} \hat{\boldsymbol{y}}_\lambda &= X \hat{\boldsymbol{\beta}}_{\lambda} = (UDV^\top) \hat{\boldsymbol{\beta}}_{\lambda} \\ &= U D (D^\top D + \lambda I )^{-1} D^\top U^\top \boldsymbol{y} \\ &= \sum_{d_j \gt 0} \boldsymbol{u}_j \frac{d_j^2}{d_j^2 + \lambda} \langle \boldsymbol{u}_j, \boldsymbol{y} \rangle \end{aligned}

$\lambda$ とバイアス・バリアンスのトレードオフ

リッジ回帰の係数は、 $\lambda$ によって原点に向かって縮小されています。 $X$ が $n \gt p$ でフルランクであるとすると、リッジ回帰推定量 $\hat{\boldsymbol{\beta}}_{\lambda}$ のバイアスは、

\begin{aligned} \text{Bias}(\hat{\boldsymbol{\beta}}_{\lambda}) &= \mathbb{E}[\hat{\boldsymbol{\beta}}_{\lambda}]-\boldsymbol{\beta} \\ &= \mathbb{E}[(X^\top X + \lambda I)^{-1} X^\top \boldsymbol{y}]-\boldsymbol{\beta} \\ &= (X^\top X + \lambda I)^{-1} X^\top \mathbb{E}[\boldsymbol{y}]-\boldsymbol{\beta} \\ &= (X^\top X + \lambda I)^{-1} X^\top X \boldsymbol{\beta}-\boldsymbol{\beta} \\ &= \boldsymbol{\beta} - \lambda (X^\top X + \lambda I)^{-1} \boldsymbol{\beta}-\boldsymbol{\beta} \\ &= \lambda V (D^\top D + \lambda I )^{-1} V^\top \boldsymbol{y} \\ &= \sum_{j=1}^p \boldsymbol{v}_j \frac{\lambda}{d_j^2 + \lambda} \langle \boldsymbol{v}_j, \boldsymbol{y} \rangle \end{aligned}

となって、 $\lambda \gt 0$ では不偏推定量（バイアスがゼロ）とならず、そのバイアスは $\lambda$ の増加に伴って大きくなります（縮小推定量となる）。これは、 $n \lt p$ のときも同様です²。

一方、 $W_\lambda=(X^\top X + \lambda I)^{-1} X^\top X$ とおくとリッジ回帰推定量 $\hat{\boldsymbol{\beta}}_{\lambda}$ のバリアンスは、

\begin{aligned} \text{Var}[\hat{\boldsymbol{\beta}}_{\lambda}] &= \text{Var}[W_\lambda \hat{\boldsymbol{\beta}}] = W_\lambda \text{Var}[\hat{\boldsymbol{\beta}}] W_\lambda^\top \\ &= W_\lambda\sigma^2 (X^\top X)^{-1} W_\lambda^\top \\ &= \sigma^2 \{(X^\top X + \lambda I)^{-1} X^\top X\} (X^\top X)^{-1}\{(X^\top X + \lambda I)^{-1} X^\top X\}^\top \\ &= \sigma^2 (X^\top X + \lambda I)^{-1} X^\top X \{(X^\top X + \lambda I)^{-1}\}^\top \\ &= \sigma^2 \sum_{j=1}^p \frac{d_j^2}{(d_j^2 + \lambda)^2} \boldsymbol{v}_j \boldsymbol{v}_j^\top \end{aligned}

と誤差の分散 $\sigma^2$ を用いて計算できます。したがって、 $\lambda$ の増加に伴ってバリアンスは小さくなるとわかります。そして、これらがバイアス・バリアンスのトレードオフに繋がります。

すなわち、 $\lambda$ を大きくすると、バイアス（モデルの適合度）が大きくなるが、バリアンス（モデルの複雑さ）が小さくなるため、両方を共に小さくすることが難しくなります。

補足：最小二乗推定量のバリアンス

\begin{aligned} \text{Var}[\hat{\boldsymbol{\beta}}] &= \text{Var}[\{\hat{\boldsymbol{\beta}}-\mathbb{E}[\boldsymbol{\beta}]\}\{\hat{\boldsymbol{\beta}}-\mathbb{E}[\boldsymbol{\beta}]\}^\top]\\ &= \mathbb{E}[\{(X^\top X)^{-1} X^\top \boldsymbol{y} -\boldsymbol{\beta}\}\{(X^\top X)^{-1} X^\top \boldsymbol{y} -\boldsymbol{\beta}\}^\top]\\ &= (X^\top X)^{-1} X^\top \mathbb{E}[YY^\top] X (X^\top X)^{-1} - \boldsymbol{\beta}\boldsymbol{\beta}^\top \\ &= (X^\top X)^{-1} X^\top \{X\boldsymbol{\beta}\boldsymbol{\beta}^\top X^\top + \text{Var}(\varepsilon_i)I\} X (X^\top X)^{-1} - \boldsymbol{\beta}\boldsymbol{\beta}^\top\\ &= \boldsymbol{\beta}\boldsymbol{\beta}^\top + \sigma^2 (X^\top X)^{-1} - \boldsymbol{\beta}\boldsymbol{\beta}^\top \\ &= \sigma^2 (X^\top X)^{-1} \end{aligned}

Cross-Validation の効率的な計算

$\lambda$ を適切に調節することで、バイアス・バリアンスのバランスを調節できます。各 $\lambda$ に対する汎化誤差を推定する方法の1つに、Cross-Validation の利用があります。一般には、k-fold Cross-Validation を利用して分割した $k$ 個の平均予測誤差を計算します。また、非凸の罰則に対しては、 $C_p$ 規準や情報量規準を利用するときに問題が指摘されており、Cross-Validation の利用が提案されています³。

n-fold Cross-Validation (= Leave One Out Cross-Validation, LOOCV) の誤差 $\text{LOO}_\lambda$ を求めるときには、次のように計算を効率化できます⁴。ただし、各 $n$ サンプルについて明示的に $X=(\boldsymbol{x}_1, \dots, \boldsymbol{x}_n)^{\top},$ $\ \boldsymbol{y}=(y_1, \dots, y_n)$ と表現することにします。

\begin{aligned} \text{LOO}_\lambda &= \sum_{i=1}^n (y_i - \boldsymbol{x}_i^\top \hat{\boldsymbol{\beta}}_{\lambda}^{(-i)})^2 \\ &= \sum_{i=1}^n \frac{(y_i - \boldsymbol{x}_i^\top \hat{\boldsymbol{\beta}}_{\lambda})^2}{(1-R_{ii}^\lambda)^2} \quad (4) \end{aligned}

ここで、 $\hat{\boldsymbol{\beta}}_{\lambda}^{(-i)}$ は $i$ 番目の fold 以外で推定した推定量であり、 $R^\lambda$ は次のようなリッジ演算子行列です。

R^\lambda = X(X^\top X + \lambda I)^{-1}X^\top

したがって、 $\text{LOO}_\lambda$ の計算において、回帰係数 $\hat{\boldsymbol{\beta}}_{\lambda}$ の推定は1回で十分ということになります。さらに、 $R^\lambda$ はSVDを利用して効率的に求めることができます。

\begin{aligned} R^\lambda &= V (D^\top D + \lambda I )^{-1} D^\top U^\top \\ &= U \begin{pmatrix} \frac{d_1^2}{d_1^2 + \lambda} & & O \\ & \ddots & \\ O & & \frac{d_{r}}{d_{r}^2 + \lambda} \end{pmatrix} U^\top = U S_\lambda U \end{aligned}

Generalized Cross-Validation

(4) 式で、 $\text{tr}[R^\lambda]=\sum_{i=1}^n R^\lambda_{ii}$ において平均を用いた

R^\lambda_{ii} \simeq \frac{1}{n}\text{tr}[R^\lambda]

という近似を利用すると、誤差 $\text{GCV}_\lambda$ は次のようになります。この誤差を利用する方法は、Generalized Cross-Validation と呼ばれています。

\text{GCV}_\lambda = \sum_{i=1}^n \frac{(y_i - \boldsymbol{x}_i^\top \hat{\boldsymbol{\beta}}_{\lambda})^2}{(1-\frac{1}{n}\text{tr}[R^\lambda])^2} \quad (5)

この方法は、個々の対角要素 $R^\lambda_{ii}$ よりもトレース $\text{tr}[R^\lambda]$ で計算が容易となる場合に有用です。また、Li, 1986 によって $\text{GCV}_\lambda$ を最小化する $\lambda$ が漸近的に最適であると示されています⁵。

Reference

Trevor, T. (2020). Ridge Regularization: An Essential Concept in Data Science. Technometrics. 62:4. 426-433. url
Hastie, T. (2020). Ridge Regularizaton: an Essential Concept in Data Science. arXiv preprint arXiv:2006.00371. url
van Wieringen, W. N. (2015). Lecture notes on ridge regression. arXiv preprint arXiv:1509.09169. url
Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55-67. url
Li, K. C. (1986). Asymptotic optimality of $C_L$ and generalized cross-validation in ridge regression with application to spline smoothing. The Annals of Statistics, 14(3), 1101-1112. url
荒木孝治 2013 罰則付き回帰とデータ解析環境R 公益社団法人日本オペレーションズ・リサーチ学会 url
読了：Hastie (2020) リッジ正則化についてこれでもかこれでもかと語り倒す url

Hastie, 2020 の Chapter 1 より。↩
Hastie, 2020 の Chapter 3 より。↩
荒木孝治 2013 の 4章より。↩
PRESS統計量と呼ばれています。↩
van Wieringen, 2015 の Chapter 1.8 より。この良い性質から、GCVはリッジ回帰のソフトウェアでデフォルトの設定となっていることがあります。↩