ランダムフォレストとは何ですか?
定義
ランダムフォレストrandom forestとは決定木にバギングを適用して性能を向上させる機械学習手法を指す。復元抽出でサンプリングした複数のデータセットから決定木を学習させ、多数決によって最終的な予測を決定するモデルを構成する。
説明
ランダムフォレストは主に分類問題でよく用いられる古典的な機械学習手法で、分類モデルが必要なときに常にまず検討すべき方法の一つだ。弱学習器weak modelとしての決定木は過学習が激しく、データの与え方によって性能が一貫しないため不安定な点があるが、バギングはそれ自体で交差検証を包含し、多数決を通じて決定木の鋭敏さを緩和する。
ただしランダムフォレストはアンサンブル化される時点で決定木が持つ解釈可能性interpretabilityが大きく低下し、根本的に新しいモデルではないためそれ以上の性能向上を期待しにくい。例えば、ランダムフォレストの集合をいくつも作ってアンサンブルを繰り返しても性能が著しく向上するとは期待しにくい。
なぜランダムか
バギングによって部分データセットが作られる際、復元抽出はランダム性を持ち、その結果として生成される決定木の形自体が千差万別にならざるを得ない。
なぜフォレストか
木(もく)木が複数あれば林(りん)林になるように、もともとグラフ理論では木グラフが複数ある場合、それをフォレストforestと呼ぶ。
