パーセプトロン収束定理
📂機械学習パーセプトロン収束定理
X+, X−が線形分離可能なトレーニングセットだとしよう。yを以下のラベルとする。
yi=±1 (xi∈X±)
トレーニングセット全体X=X+∪X−にN個のデータがあるとすると、以下の順序で入力値を代入するとする。
x(1),x(2),⋯x(N),x(1),x(2),⋯x(N),x(1),x(2),⋯
つまり、最後のデータまで学習プロセスが終わったら、初めから再開するということだ。
定理
予測に失敗した入力値が出たたびに、以下のようにするとしよう。
x1,x2,⋯,xn,⋯
重みの初期値をw1=0としよう。n回目に予測に失敗した入力データに対して、以下のように重みをアップデートするとする。
wn+1=wn+ynxn
すると、以下の式を満たすnoが存在する。
wno=wno+1=wno+2=⋯
{wnoTx>0wnoTx≤0if x∈X+if x∈X−
説明
上記の要約を一言でまとめると、「パーセプトロンは有限回の学習で完了する」ということだ。no以降では重みがアップデートされないということであり、これは全てのxに対してy=y^ということを意味する。
重みをアップデートする方式が単に間違ったデータを足すだけでよいという点と、有限回の回数で学習が終了することを数式的に示すことがポイントだ。
証明
入力データの予測に失敗した回数をnとすると、上記のように重みをアップデートする時nの上限があることを示す。
xnの予測に失敗したため、次のように重みをアップデートする。
wn+1=wn+ynxn
そして、X+とX−が分離可能であると仮定したので、次の式を満たすソリューションw∗が存在する。
{w∗Tx>0w∗Tx≤0if x∈X+if x∈X−and∥w∗∥=1
すると、次が成り立つ。
w∗Twn+1=w∗Twn+ynw∗Txn
そして、α>0を次のように定義する。
α:=x∈Xminyw∗Tx
すると、次の不等式が成立する。
w∗Twn+1≥w∗Twn+α
しかし、重みの初期値がw1=0だったので、次の式が成り立つ。
w∗Twn+1≥w∗Twn+α≥w∗Twn−1+2α⋯≥w∗Tw1+nα=nα
そして、コーシー・シュワルツの不等式によって、次の式が成り立つ。
∥wn+1∥2=∥w∗∥2∥wn+1∥2≥∣w∗Twn+1∣2
(eq1)と(eq2)によって、次の式が成り立つ。
∥wn+1∥2≥n2α2
再び(eq3)から下記の式を得る。
∥wn+1∥2=∥wn∥2+∥xn∥2+2ynwnTxn
しかしynwnTxn≤0であるため、次の不等式を得る。
∥wn+1∥2≤∥wn∥2+∥xn∥2≤∥wn∥2+β
この時、β=x∈Xmax∥x∥2である。すると、重みの初期値がw1=0だったので、次の式が成り立つ。
∥wn+1∥2≤∥wn∥2+β≤∥wn−1∥2+2β≤∥wn−2∥2+3β⋮≤∥w1∥2+nβ=nβ
二つの不等式(eq4),(eq5)を一緒にまとめると、次のようになる。
n2α2≤∥wn+1∥2≤nβ
nについて整理すると、次のようになる。
⟹n2α2n≤nβ≤α2β
したがって、次を得る。
nmax=α2β
これは、パーセプトロンが予測に失敗する回数が多くてもα2β回であり、その後は全てのトレーニングデータに対して予測を成功させるという意味である。
■