2015年9月22日火曜日

有名女優さん同士の類似度


 今日はレコメンド関連にテーマを戻して活動しました。
 
 上表は有名な日本の女優さん7人の類似度を表しています。

 どのように計算したかといいますと、

 「女優A」でGoogle検索 → ヒット件数を x とする
 「女優B」でGoogle検索 → ヒット件数を y とする

 「女優A 女優B」でGoogle検索 → ヒット件数を z とする

 女優Aと女優Bの類似度 = z / (x * y) ^ (1/2)



 こんな感じです。簡単ですね。

 これ、実はコサイン類似度なんです。

 あるウェブサイトが「女優A」で、

  ヒットした     → 1
  ヒットしなかった → 0
 
 として、Googleで認識されている全てのウェブサイトを 1 または 0 で評価。

 すると「女優A」についてのベクトルができます。
 同様に「女優B」でもベクトルをつくります。

 それら二つのベクトルのコサイン類似度を計算すると、概ね上表と同じ数値を得るでしょう。

 なぜ概ねなのかというと、Googleの検索件数表示が概数で出るため。

 

 新垣結衣さんは、堀北真希さんと、よく一緒に記事にされる。
 
 新垣結衣さんは、有村佳純さんと、あまり一緒に記事にされない。

 などがわかりますね。

 こういう情報から女優さんのレコメンドとかできたら面白いかもしれません。
 

0 件のコメント:

コメントを投稿