平均絶対百分率誤差 MAPE
定義 1
回帰問題で、データポイント $\left\{ x_{k} \right\}_{k=1}^{n}$ とその予測値 $\left\{ \widehat{x}_{k} \right\}_{k=1}^{n}$ に対して、平均絶対比誤差MAPE(Mean Absolute Percentage Error) を次のように定義する。 $$ \text{MAPE} = {{ 1 } \over { n }} \sum_{k=1}^{n} \left| {{ x_{k} - \widehat{x}_{k} } \over { x_{k} }} \right| $$
説明
長所
MAPEは簡単で単純な計算法とともに、予測値がどれほどデータをよく説明するかをパーセンテージで説明できるため、とても直感的な解釈を提供する長所がある。重回帰係数 $R^{2}$ と同様にデータのスケールと関係なく絶対的に評価できる指標である。
例えばあるモデルの MSE が $10^{-2}$ だとすると、これだけではこのモデルの性能を推測することは難しい。データのスケールが $10^{3}$ 程度であれば非常に正確かもしれないが、データのスケールが $10^{-6}$ 程度であればこのモデルはデータを全く説明できない。しかし、MAPEはそれに関係なく85%、99%のように誰でも理解できるパーセンテージで性能を示す。
短所
もし $x_{k} = 0$ が存在すると、MAPEは無限大に発散する。これは数学的な原罪に起因するが、どれくらい正しいか間違っているかに関係なく、数値的な欠陥の可能性を持っていることが評価指標として非常に大きな弱点になる。
当然ながら、実際には $x_{k} = 0$ だけを避ければ良いわけではない。必ずしも $0$ ではないが、$0$ に近い値、通常は $1$ より小さい値があれば、十分に問題を引き起こす可能性があると見なされる。
頻繁には言及されないが、実際に経験したMAPEのもう一つの短所は、実はMAPEが $[0,1]$ にバウンドされていないという点である。非現実的な予測値が入った場合、絶対比誤差が$1$を超える可能性がある:
- 符号が逆の場合:真値 $5$ に対して予測値が $-5$ であると、そのAPEは次のように $2 > 1$ になる。 $$ \text{APE} = \left| {\frac{ 5 - (-5) }{ 5 }} \right| = 2 $$
- あまりにも大きく誤る場合:真値 $10$ に対して予測値が $100$ であると、そのAPEは次のように $9 > 1$ になる。 $$ \text{APE} = \left| {\frac{ 10 - 100 }{ 10 }} \right| = 9 $$
関連項目
Kim, S., & Kim, H. (2016). A new metric of absolute percentage error for intermittent demand forecasts. International Journal of Forecasting, 32(3), 669-679. https://doi.org/10.1016/j.ijforecast.2015.12.003 ↩︎