logo

힙스의 법칙 📂알고리즘

힙스의 법칙

법칙

코퍼스에서 어휘의 갯수를 MM, 토큰의 갯수를 TT 라고 하면 M=kTb M = kT^{b}

설명

코퍼스가 영어일 경우 보통 상수 k,bk,b10k10010 \le k \le 100, 그리고 b=0.5b = 0.5 정도로 나타난다고 한다. 힙스의 법칙은 수학적인 근거를 두고 유도된 것이 아니라 경험적으로 얻어진 법칙이다.

수식은 언뜻 굉장히 복잡해 보이지만 양변에 로그를 취하면 logM=logk+blogT\log M = \log k + b \log T 가 되고, 다음과 같이 선형적인 관계가 있음을 쉽게 확인할 수 있다. kk 는 절편, bb 는 기울기를 나타낸다.

20180509\_132932.png