지프의 법칙
법칙
코퍼스에서 번째로 자주 나타나는 단어의 상대빈도를 라고 하면
설명
여기서 는 이 되도록하는 정규화계수다. 히스토그램으로 나타내보면 대략 위와 같은 모양이되 넓이의 합이 정확하게 이 되도록 스케일을 조정해준 것이다.
오른쪽에 생기는 두꺼운 꼬리 모양을 롱테일이라고 부른다. 힙스의 법칙과 마찬가지로 경험적으로 얻어진 법칙인데, 잘 맞을 뿐만 아니라 무척 간결하다는 장점이 있다.
한편 양변에 로그를 취해보면 로 선형관계를 가지는 듯 보인다. 하지만 이론과 달리 실제로는 자주 등장하지 않는 단어들에 대해 잘 성립하지 않을 수도 있으므로 주의해야한다.