logo

ヒープスの法則 📂アルゴリズム

ヒープスの法則

法則

コーパスでのユニークな単語の数を $M$、トークンの数を $T$ とすると $$ M = kT^{b} $$

説明

コーパスが英語の場合、通常、定数 $k,b$ は $10 \le k \le 100$ で、およそ $b = 0.5$ と言われている。ヒープスの法則は数学的な根拠に基づいて導かれたものではなく、経験的に得られた法則である。

式は一見とても複雑に見えるが、両辺に対数を取ることで $\log M = \log k + b \log T$ になり、次のように線形の関係があることを簡単に確認できる。$k$ は切片を、$b$ は傾きを表している。

20180509\_132932.png