2015年9月28日月曜日

形態素解析器のいらないキーワード抽出ツール(4)

今日もこれです。

過去記事のスクリプトは削除しました。

だいぶ速くなり、10000字の文書を1~2分で処理できるようになりました。


(ある文字列のスコア) = (出現回数)×(文字列の長さ)

と定め、

キーワードの集合から(文字列1)と(文字列2)を取り出し、

条件1 : (文字列1)&(文字列2)のスコア > (文字列1)のスコア

条件2 : (文字列1)&(文字列2)のスコア > (文字列2)のスコア

の二つを満たしたとき、

(文字列1)&(文字列2)を新たにキーワードの集合に加えます。


(文字列1) : 形態素
(文字列2) : 解析器
(文字列1)&(文字列2) : 形態素解析器

こんな感じです。


0 件のコメント:

コメントを投稿