（前略）

単語長分布生成の仮定

パラメータ

聞き間違いバッファと同じ意味。理論上、単語空間 Xn には Sn だけの単語が登録できるが、実際には登録された単語と「近い」音のつづりは今後使われなくなると仮定する。

すなわち、単語は単語空間上において点として存在しているのではなく、いくらかの体積をもった存在としてそこに登録される。

単語長 n の単語の排除体積を v_n とすると、単語空間 Xn の充填率は

v_n * Nn / Sn

となる。単語空間 Xn に新たに単語を登録しようとしたときは、自身の体積と、この充填の様子によって「そもそも登録できるかどうか」がきまる。

単語空間の充填率とは全く関係なしに、つまり、今の単語を登録するのに十分すぎるくらい広い単語空間であったとしても、必ずそこに登録するとは限らない傾向を表現するパラメータ。

実際的な意味付けはできていないが、大きな単語空間では単語分布が幾何的に減衰していくことから、類推されたパラメータ。

夢をもっていえばエントロピーのようなもの。現実的にいえば、分布の分散と関わるパラメータ。

おそらく、形態論的制約、語形禁則によるドロップアウトも、このクオリティフィルターが担っている（語の質が保証できる確率、ということでクオリティフィルターと名付けている）。

単語空間 Xn に登録できる確率（厳密には、それ以前の単語空間では登録成功しなかった事象のもとでの条件付き確率）は、

単語空間（とその排除体積）的に登録可能であり、かつ、冗長嗜好にも打ち勝ったとき

の確率に等しい。

ふつう音韻的に、単語空間は指数関数的に増大していくので、ある程度の単語長（n=4でも十分）では排除体積はほとんど無視でき、採用確率は冗長嗜好に打ち勝つ確率となる（ゆえに、分布のテールは幾何分布的になる）

この分布生成法では、具体的な単語空間、音韻体系の設定を行わない。

必要なのは、各単語空間の広さ、単語の排除体積（その言語における単語同士の近さの忌避具合）、クオリティフィルターくらいであり、それ以上の構造を要請しない。

非常に簡単なモデルだが、「その程度の定量的パラメータだけで単語長分布が決定したら面白い」という目論見からはじまったので、さもありなん。