最小二乗法
定義1
行列 $A \in \mathbb{C}^{m \times n}$ とベクトル $\mathbf{b} \in \mathbb{C}^{m}$ に関する線形システム $A\mathbf{x} = \mathbf{b}$ が過剰決定 あるいは 過少決定 であるとしよう。この場合、システムは解を持たないまたは無数に持つ。ここで、
$$ \left\| A \mathbf{x} - \mathbf{b} \right\|_{2} $$
の値を最小化する問題について考えてみよう。これを**最小二乗問題(LSP, Least Square Problem)と呼ぶ。この問題の解$\mathbf{x}_{\ast}$を最小二乗解(least square solution)**と呼ぶ。
$$ \mathbf{x}_{\ast} = \argmin \left\| A \mathbf{x} - \mathbf{b} \right\|_{2} $$
$A \mathbf{x} - \mathbf{b}$を最小二乗誤差ベクトル(least square error vector), $\left\| A \mathbf{x} - \mathbf{b} \right\|$ を**最小二乗誤差(least square error)**と呼ぶ。
説明
方程式の解が存在しないのは残念だが、だからといって解を求める努力を諦めるわけにはいかない。現実には、解決が難しい、学術の最前線で数学者たちの解法を待っている方程式が多く、そういう問題を、できるだけ近似的に解く方法を研究することは、間違いなく価値がある。その中でも、最小二乗法は、最も代表的な方法の一つだ。実用科学を問わず、活発に使用されており、特に、統計学においては、回帰分析を支える理論の根幹だ。 $\left\| \mathbf{b} - A \mathbf{x} \right\|_{2}$ の大きさが最小になるということは、$A \mathbf{x}$ と$\mathbf{b}$ の間の距離、つまり誤差が小さくなるということだ。直交影 $P : \mathbb{C}^{m} \to \mathcal{C} (A)$ について
$$ \mathbf{b} = P \mathbf{b} + (I -P) \mathbf{b} $$
$$ P \mathbf{b} \in \mathcal{C} (A) $$
であり、あるベクトル$\mathbf{x}_{\ast}$に対して$A \mathbf{x}_{\ast} = P \mathbf{b}$ である。これについて
$$ \left\| A \mathbf{x} - \mathbf{b} \right\|_{2} = \left\| A \mathbf{x} - P \mathbf{b} + P \mathbf{b} - \mathbf{b} \right\|_{2} $$
と表示してみると、$( A \mathbf{x} - P \mathbf{b} ) \in \mathcal{C} (A)$ と $(I -P )\mathbf{b} \in \mathcal{N}(A)$ が直交していることが分かる。ピタゴラスの定理によって
$$ \left\| \mathbf{b} - A \mathbf{x} \right\|_{2}^{2} = \left\| A \mathbf{x} - P \mathbf{b} \right\|_{2}^{2} + \left\| (I -P )\mathbf{b} \right\|_{2}^{2} $$
であり、$\left\| \mathbf{b} - A \mathbf{x} \right\|_{2}$ が最も小さくなるのは、$\mathbf{x} = \mathbf{x}_{\ast}$ の時だ。
また、影の性質から $A \in \mathcal{C} (A)$ であり、$(I - P) \mathbf{b} \in \mathcal{C} (A)^{\perp}$ ので、
$$ A^{\ast} (I - P) \mathbf{b} = A^{\ast} ( \mathbf{b} - A \mathbf{x}_{\ast} ) = 0 $$
結論として$A^{\ast} A \mathbf{x}_{\ast} = A^{\ast} \mathbf{b}$なので、最小二乗法とは、基本的に標準方程式 $A^{\ast} A \mathbf{x}_{\ast} = A^{\ast} \mathbf{b}$ を満たす解 $\mathbf{x}_{\ast}$ を見つけることである。
数式ではなく、図を通して直感的に理解するためには、次の例をみると役に立つだろう。
上のように平面上に置かれた点をすべて通る直線を引く問題を考えてみよう。当然ながら、この問題の解となる直線(解)は存在せず、できる限り近く通る直線(近似解)を探さなければならない。
緑と赤の線を比較すると、左の方が右よりも正確であることが一目でわかるだろう。青で描かれた線の長さは、各点が直線に射影されたときに離れた距離を示している。この問題での最小二乗解は、これらの距離の二乗の和が最小となるある直線である。
Howard Anton, Elementary Linear Algebra: Aplications Version (12番目版, 2019), p417-418 ↩︎