2010年8月4日水曜日

YouTube Data APIの検索結果はかなりの重複が含まれる

YouTube Data APIを使ったビデオの検索結果を色々と見ていると、かなりの重複が含まれている場合があることがわかった。

今のところ、検索段階で重複を省く方法は見つかっていない。そもそもYouTubeのサイトでも検索結果の重複があることを認めている記述があるので、多分無いのだと思う。


しかし、重複を含む検索結果をそのままユーザーに提示するわけにはいかない。そこで、検索結果をビデオIDをキーにして重複を調べてアプリケーション側でフィルターする必要がある。

思えば、Googleの検索でも同様の文言をよく見るような気がする。きっとBigTable、もしかすると、もっと広くKVデータベースの弱点なのかもしれない。
BigTable - Wikipedia