今日もこれです。
過去記事のスクリプトは削除しました。
だいぶ速くなり、10000字の文書を1~2分で処理できるようになりました。
(ある文字列のスコア) = (出現回数)×(文字列の長さ)
と定め、
キーワードの集合から(文字列1)と(文字列2)を取り出し、
条件1 : (文字列1)&(文字列2)のスコア > (文字列1)のスコア
条件2 : (文字列1)&(文字列2)のスコア > (文字列2)のスコア
の二つを満たしたとき、
(文字列1)&(文字列2)を新たにキーワードの集合に加えます。
(文字列1) : 形態素
(文字列2) : 解析器
(文字列1)&(文字列2) : 形態素解析器
こんな感じです。
0 件のコメント:
コメントを投稿