シンディアルゴリズムとは？ 📂統計的分析

シンディアルゴリズムとは？

アルゴリズム ¹

状態空間が $\mathbb{R}^{n}$ であるダイナミカルシステムが、次のようにスムース関数 $f : \mathbb{R}^{n} \to \mathbb{R}^{n}$ で与えられているとしよう。 $$ \dot{\mathbf{x}} = f \left( \mathbf{x} \right) $$ 簡単に $\mathbf{x} = \left( x_{1} , \cdots , x_{n} \right)$ そして$\dot{\mathbf{x}} = \left( \dot{x_{1}} , \cdots , \dot{x_{n}} \right)$ と示される場合、$m \in \mathbb{N}$ の時点 $\left\{ t_{k} \right\}_{k=1}^{m}$ について、次のようにデザインマトリックスを構築する。 $$ \begin{align*} X =& \begin{bmatrix} \mathbf{x}^{T} \left( t_{1} \right) \\ \mathbf{x}^{T} \left( t_{2} \right) \\ \vdots \\ \mathbf{x}^{T} \left( t_{m} \right) \end{bmatrix} = \begin{bmatrix} x_{1} \left( t_{1} \right) & x_{2} \left( t_{1} \right) & \cdots & x_{n} \left( t_{1} \right) \\ x_{1} \left( t_{2} \right) & x_{2} \left( t_{2} \right) & \cdots & x_{n} \left( t_{2} \right) \\ \vdots & \vdots & \ddots & \vdots \\ x_{1} \left( t_{m} \right) & x_{2} \left( t_{m} \right) & \cdots & x_{n} \left( t_{m} \right) \end{bmatrix} \\ \dot{X} =& \begin{bmatrix} \dot{\mathbf{x}}^{T} \left( t_{1} \right) \\ \dot{\mathbf{x}}^{T} \left( t_{2} \right) \\ \vdots \\ \dot{\mathbf{x}}^{T} \left( t_{m} \right) \end{bmatrix} = \begin{bmatrix} \dot{x}_{1} \left( t_{1} \right) & \dot{x}_{2} \left( t_{1} \right) & \cdots & \dot{x}_{n} \left( t_{1} \right) \\ \dot{x}_{1} \left( t_{2} \right) & \dot{x}_{2} \left( t_{2} \right) & \cdots & \dot{x}_{n} \left( t_{2} \right) \\ \vdots & \vdots & \ddots & \vdots \\ \dot{x}_{1} \left( t_{m} \right) & \dot{x}_{2} \left( t_{m} \right) & \cdots & \dot{x}_{n} \left( t_{m} \right) \end{bmatrix} \in \mathbb{R}^{m \times n} \end{align*} $$ $X$ の独立変数に、いくつかの非線形関数を適用して得られる派生変数で作られた行列 $\Theta \left( X \right) \in \mathbb{R}^{m \times p}$ を ライブラリと呼び、各カラムを基底^basisまたは候補^candidateとも呼ぶ。 $$ \dot{X} = \Theta \left( X \right) \Xi $$ 上の行列方程式にSTLSQを実施して、可能な限りスパースな$\Xi \in \mathbb{R}^{p \times n}$ を求めるスパース回帰を通じて、与えられたダイナミカルシステムの支配方程式^{governing equation}を見つけるアルゴリズムを シンディー^sINDy(Sparse Identification of Nonlinear Dynamical systems) アルゴリズムと呼ぶ。

説明

シンディーは、与えられたデータから可能な限りスパースな微分方程式を見つけ出し、データ駆動型モデル^{data-driven model}を見つける方法の一つとして、2011年にライ^{Ying-Chen Lai}教授らが提案した圧縮センシングに似ているが、過小決定系の代わりに過剰決定系を使用し、ノイズのあるデータに対する数値的なロバスト性を向上させたアルゴリズムである。

STLSQ

STLSQ: フルランクの行列 $X \in \mathbb{R}^{m \times p}$ と $Y \in \mathbb{R}^{m \times n}$ に対し、行列方程式 $$ Y = X B $$ が与えられた場合、できるだけスパースな $B \in \mathbb{R}^{p \times n}$ を探すスパース回帰問題を考える。STLSQ^{sequentially Thresholded Least-Squares Algorithm}は、シンディーアルゴリズムを提案したブラントン^bruntonの論文で使用されたメソッドで、その名の通り、最小二乗法を繰り返しながら、各成分の絶対値が与えられたスレッショルディング $\lambda$ 以下に落ちると $0$ として処理し、そのカラム(独立変数)を削除する方式で構成されている。

ダイナミカルシステムから得られたデータにSTLSQを使用することがシンディーアルゴリズムと言われているが、実際の関連を考えると、シンディーのために特別に設計された方法がSTLSQそのものである。 $$ \begin{align*} \text{STLSQ} \cdots& \text{SINDy} \\ Y =& \dot{X} \\ X =& \Theta (X) \\ B =& \Xi \end{align*} $$

ライブラリ

$$ \Theta (X) = \begin{bmatrix} 1 & x & y & z & x^{2} & xy & xz & y^{2} & \cdots & z^{5} \end{bmatrix} $$ ライブラリ$\Theta (X)$は、上のように多項関数で単に埋めることができる。かなりシンプルなスムースシステムであれば、十分に高い次数を使った場合、$X$の多項関数で$\dot{X}$を近似できることは、ストーン・ワイエルシュトラスの定理により数学的に保証されているし、三角関数 $\sin (kx)$ と $\cos (kx)$ は、フーリエ基底とも呼ばれることがある²。

上の図は、シンディーが実際にどのように機能するかを非常によく説明している。 $$ \begin{align*} {{dx} \over {dt}} =& - \sigma x + \sigma y \\ {{dy} \over {dt}} =& - xz + \rho x - y \\ {{dz} \over {dt}} =& xy - \beta z \end{align*} $$ ローレンツアトラクターと仮定した場合、その軌道からデータをサンプリングした後、上述した方法で行列方程式を立て、STLSQを使用して元の「微分方程式自体」を復元した。ローレンツアトラクターの微分方程式は、$x$、$y$、$xz$、$xy$ のように2次以下の多項式で構成されているため、成功裏に支配方程式を見つけることができる。

Brunton. (2016). Discovering governing equations from data by sparse identification of nonlinear dynamical systems: https://doi.org/10.1073/pnas.1517384113 ↩︎
https://docs.sciml.ai/DataDrivenDiffEq/stable/basis/ ↩︎