ゆくゆくは有へと

おかゆ/彼ノ∅有生 の雑記

PJCG gimste における modified Evgeni シソーラスの利用

PJCGメーリスのほうでも言ってるのだけど、PJCG gimste Lv2 は Evgeni シソーラスを少し改変したものをベースにカテゴリ重視で拵えたいなということを考えている。

Lv 1 でのPJCGクラス(A, B, C, D) をスコアの素地として、各Evgeniシソーラスカテゴリに対して何らかの評価を与えたい。Aがたくさん入ってるものは率先して取り入れるべきだし、全く入ってないカテゴリはそもそも入れる必要がない。この論理は、PJCG gimste という一貫性を保つために必要だと考える。

いずれにせよ、PJCGクラスによる評価によって、Evgeniシソーラスカテゴリたちに序列を与えたい。

大前提の仮定として、modified Evgeni シソーラスは優秀であるとする。そのカテゴライズはちぐはぐでなく、いい感じに似た者同士をクラスタリングするのに成功していると仮定する。

すれば、これは大学のGPAと同じでいいね:

score := (4A + 3B + 2C + 1D) / 単語数

これで各カテゴリを計算してみると、次のような要約情報が得られた。

  • カテゴリ全てで 122 であり、そのうちPJCG gimste Lv1 に関与しないものは 25 (20.5%)
  • GPAが(0, 0.5)なるカテゴリは 21
  • GPAが[0.5, 1) なるカテゴリは 27
  • GPAが[1, 1.5)なるカテゴリは 17
  • GPAが[1.5, 2)なるカテゴリは 16
  • GPAが[2, 2.5)なるカテゴリは 8
  • GPAが[2.5, 3]なるカテゴリは 8
  • 最大GPAは 3

0.5ずつで区切れば、新5クラスに機械的に分けることはできる。

次にすることは、大前提の仮定を少し緩める作業。つまり、「実はまだ細分化すべきカテゴリが統合してしまっているものがある」とする。GPA=0のものたちは今の時点でおさらばだが、1未満の語群は「他にムダなものが多すぎた」という線が割と濃い。それを上手く省いてやれば、(分母が小さくなるので)1以上に昇格しうる。

Lv2の大きな改訂コンセプトは「統一感のあるカテゴリ」なので、語彙を大きく変えることはしたくない一方で、統一性をもたせるために語彙を変化させるという動機は大いにありうる。