지프의 법칙

지프의 법칙

zipfs law

법칙

코퍼스에서 $k$ 번째로 자주 나타나는 단어의 상대빈도를 $f_{k}$ 라고 하면 $$ f_{k} = {{C} \over {k}} $$

설명

여기서 $C$ 는 $\displaystyle \sum_{k} f_{k} = 1$ 이 되도록하는 정규화계수다. 히스토그램으로 나타내보면 대략 위와 같은 모양이되 넓이의 합이 정확하게 $1$ 이 되도록 스케일을 조정해준 것이다.

LKfZK.png

오른쪽에 생기는 두꺼운 꼬리 모양을 롱테일이라고 부른다. 힙스의 법칙과 마찬가지로 경험적으로 얻어진 법칙인데, 잘 맞을 뿐만 아니라 무척 간결하다는 장점이 있다.

20180509\_152201.png

한편 양변에 로그를 취해보면 $\log f_{k} = \log C - \log k$ 로 선형관계를 가지는 듯 보인다. 하지만 이론과 달리 실제로는 자주 등장하지 않는 단어들에 대해 잘 성립하지 않을 수도 있으므로 주의해야한다.

댓글