logo

힙스의 법칙 📂알고리즘

힙스의 법칙

법칙

코퍼스에서 어휘의 갯수를 $M$, 토큰의 갯수를 $T$ 라고 하면 $$ M = kT^{b} $$

설명

코퍼스가 영어일 경우 보통 상수 $k,b$ 는 $10 \le k \le 100$, 그리고 $b = 0.5$ 정도로 나타난다고 한다. 힙스의 법칙은 수학적인 근거를 두고 유도된 것이 아니라 경험적으로 얻어진 법칙이다.

수식은 언뜻 굉장히 복잡해 보이지만 양변에 로그를 취하면 $\log M = \log k + b \log T$ 가 되고, 다음과 같이 선형적인 관계가 있음을 쉽게 확인할 수 있다. $k$ 는 절편, $b$ 는 기울기를 나타낸다.

20180509\_132932.png