ジップの法則
法則
コーパスで$k$番目によく出現する単語の相対頻度を$f_{k}$とした場合 $$ f_{k} = {{C} \over {k}} $$
説明
ここで、$C$は$\displaystyle \sum_{k} f_{k} = 1$となるようにする正規化係数である。ヒストグラムで表示すると大体上記の形になり、面積の合計が正確に$1$となるようにスケールが調整されている。
右側に現れる太い尾をロングテールと呼ぶ。ヒープスの法則と同様、経験から得られた法則であり、良く当てはまるだけでなく非常に簡潔であるという利点がある。
一方、両辺にログを取ると$\log f_{k} = \log C - \log k$として線形の関係を持つように見える。しかし、理論と違い、現実ではあまり頻繁に登場しない単語についてはうまく成り立たないこともあるので注意が必要だ。