ゆくゆくは有へと

おかゆ/彼ノ∅有生 の雑記

単語長分布の発達的生成法による推定(メモ)

(前略)

単語長分布生成の仮定

  • 新しい単語は可能なら短いに越したことはない。
  • そのため、新しい単語を登録するために、登録者はまず小さい単語空間から順番に走査していく。

パラメータ

  • Xn : 単語長 n の単語空間
  • Sn : 単語長 n の単語空間の大きさ(音韻的にその単語長で理論上登録できる単語の総数)
  • Nn : 単語長 n の既存の単語数

単語長分布生成の方法

  1. はじめ、すべての単語空間に単語は存在しない。
  2. 単語長 1 の単語空間から順に見ていき、その単語を登録できるならば、そこに単語を埋め込む
  3. ダメなら、単語長 2 の単語空間で同じように試す
  4. 単語が登録できるまで順に大きな単語空間での試行を繰り返す。
  5. 次の単語の登録へ(2に戻る)

単語登録の成否に関わる2つのパラメータ

単語の排除体積(バッファ効果)

聞き間違いバッファと同じ意味。理論上、単語空間 Xn には Sn だけの単語が登録できるが、 実際には登録された単語と「近い」音のつづりは今後使われなくなると仮定する。

すなわち、単語は単語空間上において点として存在しているのではなく、いくらかの体積をもった存在としてそこに登録される。

単語長 n の単語の排除体積を v_n とすると、単語空間 Xn の充填率は

v_n * Nn / Sn

となる。単語空間 Xn に新たに単語を登録しようとしたときは、自身の体積と、この充填の様子によって「そもそも登録できるかどうか」がきまる。

クオリティフィルター(冗長嗜好)

単語空間の充填率とは全く関係なしに、つまり、今の単語を登録するのに十分すぎるくらい広い単語空間であったとしても、 必ずそこに登録するとは限らない傾向を表現するパラメータ。

実際的な意味付けはできていないが、大きな単語空間では単語分布が幾何的に減衰していくことから、類推されたパラメータ。

夢をもっていえばエントロピーのようなもの。現実的にいえば、分布の分散と関わるパラメータ。

おそらく、形態論的制約、語形禁則によるドロップアウトも、このクオリティフィルターが担っている(語の質が保証できる確率、ということでクオリティフィルターと名付けている)。

単語登録の成功確率

単語空間 Xn に登録できる確率(厳密には、それ以前の単語空間では登録成功しなかった事象のもとでの条件付き確率)は、

単語空間(とその排除体積)的に登録可能であり、かつ、冗長嗜好にも打ち勝ったとき

の確率に等しい。

ふつう音韻的に、単語空間は指数関数的に増大していくので、ある程度の単語長(n=4でも十分)では排除体積はほとんど無視でき、 採用確率は冗長嗜好に打ち勝つ確率となる(ゆえに、分布のテールは幾何分布的になる)

注意点

この分布生成法では、具体的な単語空間、音韻体系の設定を行わない

必要なのは、各単語空間の広さ、単語の排除体積(その言語における単語同士の近さの忌避具合)、クオリティフィルターくらいであり、それ以上の構造を要請しない。

非常に簡単なモデルだが、「その程度の定量的パラメータだけで単語長分布が決定したら面白い」という目論見からはじまったので、さもありなん。