スパース回帰とは?

定義

行列$A \in \mathbb{R}^{m \times n}$とベクトル$\mathbf{b} \in \mathbb{R}^{m}$に関する行列方程式が以下のように与えられているとする。 $$ A \mathbf{x} = \mathbf{b} $$ スパース回帰^{sparse regression}とは、上記のような行列方程式などが与えられた際に、その解あるいは最小二乗解などを求め、$\mathbf{x}$のスパース性^sparsityを最大化する、つまり$\mathbf{x}$で$0$でない要素を可能な限り少なくする方法を指す。解$\mathbf{x}$が正確に$K$個の$0$でない成分を持っている場合、$\mathbf{x}$は**$A$で$K$-スパース**^{$K$-sparse in $A$}と言われ¹、スパース回帰^{sparse regression}は回帰問題でこの$K$を最小化することである。

詳細

古典統計学の回帰分析が行列代数的なツールを使用して回帰直線を見つけることに由来しているのは事実だが、データサイエンスが発展し、「回帰問題」自体が与えられたデータ$\mathbf{X} \in X$を通じて$\mathbf{y} \in \mathbb{R}$を説明する関数 $$ \mathbf{y} = f \left( \mathbf{X} \right) $$ を見つけることに拡張されたように、「スパース回帰」も特定のメソッド^methodを指すというよりは、「$0$が多い解を見つける方法」全体を指すと考えると良い。

オッカムの剃刀 ²

オッカムの剃刀^{ocham’s Razor}: “可能な説明の中で、最も単純な正しいモデルがおそらく真実である。”

オッカムの剃刀は通常、科学哲学などでよく接する言葉であり、節約の原理^{principle of Parsimony}とも呼ばれる。簡単に言えば、ある現象を適切に説明する様々な仮説がある場合、その中で最も単純なものが最良であるということであり、本質的な内容以外の無駄な説明は剃刀で削ぎ落とそうということである。³

この意味で$K$-スパースな解で$K$を小さくすることは、オッカムの言う節約の原理に従うことを意味し、必ずしも工学的な利益があるわけではなくても、一般的に追求すべき価値の一つとしての共感が有益である。具体的に$K$を小さくする例を見てみよう。

統計学：最適部分集合選択

モデルの単純化と要約できる。

基本的に統計学で最終的に得たい「モデル」とは、単にパフォーマンスで評価するだけでなく、直感的な常識や学界の主流意見などの専門知識、科学的事実、社会的通念との一致も気にする。21世紀はそもそもビッグデータ^bigDataが普及した時代であり、非線形回帰分析のように様々な派生変数を「作り出せる」状況で、データに適合するだけのモデルはその価値が低下する。何十万もの変数を使用して予測が上手くいくのも良いが、それをシンプルで人が理解できる形に単純化するのはまた別の問題である。

最良部分集合選択^{best Subset Selection}: 古典統計学では、縮小モデル^{reduced model}の探索は目的に合致する変数選択基準を見ながら少しずつ独立変数を追加または削除することで行われ、これは別のアルゴリズムを繰り返すことで、該当変数の回帰係数を$0$に固定または解放することとも見ることができる。全変数に対して回帰分析を繰り返すのが「NPハード」な問題であるため、ナイーブにグリーディアルゴリズムでアプローチするレベルだが、これがスパース回帰に当てはまるかと聞かれれば、否定もできない。

機械学習：ラッソ回帰

次元削減^{dimension Reduction}と要約できる。

一般的に機械学習で次元を削減するとは、データを人間が理解しやすくするという思考方法とはかけ離れており、意味のある情報を少なく失いつつ変数を減らすこと自体に意味を置く。依存変数$y$が$x_{0}, x_{1} , \cdots , x_{p}$たちの線形結合で表されるとすると、ある変数の係数が$0$であるということは、それによって依存変数が説明されないということであり、データをよく説明する範囲で$0$である係数が最も多い解を見つけることは、実質的に次元削減と同じである。

ラッソ回帰^{LASSO regression}: ラッソ回帰は、一般的な回帰分析のように $$ Y = X \beta $$ といった形の問題を解くが、そこに$\left\| \beta \right\|_{1}$も同時に最小化することを望む。このような要求を加えると、一般的な回帰分析を通じて得られた$\beta$よりもデータをうまく説明できないかもしれないが、そのパフォーマンスを少し犠牲にしてでも「本当に重要な変数が何か」を把握しようとする意図があると見ることができる。

信号解析：圧縮センシング

ノイズキャンセリングおよび圧縮^compressionと要約できる。

与えられた信号に対して高速フーリエ変換を行うと、タイムドメイン^{time Domain}からフリークエンシードメイン^{frequency Domain}へ移り、該当信号がサインとコサインの線形結合で表されるようになる。ここでそれほど重要でない、データによってはノイズと見なすことができる情報は、サイン、コサインの係数の中でその大きさが非常に小さい形で現れると考えられる。例えば、ある信号$y(t)$が $$ y(t) = 70 \cos ( t ) + 0.03 \cos ( 2 t ) + 0.0002 \cos ( 3 t ) + 24 \cos ( 4 t ) + \cdots $$ のように表される場合、$\cos ( 2 t )$と$\cos ( 3 t )$は正直あってもなくても良く、単に削除しても問題ないかもしれない。時にはこれをモード^modeでない、またはエネルギー^energyが低い周波数の信号を削除すると言うこともある。反対に、このように与えられた信号をいくつかのベーシスで復元できる場合、大部分の意味のないデータを捨てる圧縮と見ることもできる。

圧縮センシング^{compressed Sensing}: 圧縮センシングは、実際これまで説明したスパース回帰とは問題の設定が根本的に異なるが、基本的に$A \in \mathbb{R}^{m \times n}$で$m \ll n$の場合を仮定する。これは、このシステムが過少決定系であること、つまり無数に多くの解が存在する際に、その解の中で最もスパースな^sparsest解を見つけることが目的である。信号解析の文脈では、$\mathbf{x}$のいくつかの成分が$0$であることは無用なデータであることを意味し、圧縮、$0$でないことは必要なデータを感知したことを意味するため、圧縮センシングという命名は適切と言えるだろう。

Brunton. (2022). Data-Driven Science and Engineering : Machine Learning, Dynamical Systems, and Control(2nd Edition): p97. ↩︎
Brunton. (2022). Data-Driven Science and Engineering : Machine Learning, Dynamical Systems, and Control(2nd Edition): p114. ↩︎
オッカムは14世紀の人物であり、当時の剃刀は現在のように洗練されて安全な小道具ではなく、剃る際に人が死ぬこともあった。 ↩︎