新着情報

2015年07月17日

「Yahoo! 検索」の検索関連クエリデータが利用可能となりました。



ヤフー株式会社から、情報学研究の一層の推進 のために、NTCIRに検索関連クエリデータを ご提供いただくことになりました。

NTCIRでは、このデータを、NTCIR-12 IMine-2タスク、および、MobileClick-2タスクの参加者に、使用許諾の覚書を取り交わした上で、配布します。

検索関連クエリデータには、両タスクで利用されるクエリの「共クリッククエリ」、「共トピッククエリ」、「共セッションクエリ」、
および、それらのクエリの統計情報が含まれます:

  • 共クリッククエリ:

    あるクエリqが入力された際に検索結果中でクリックされたURLの集合と、別のクエリq'が入力された際にクリックされたURLの集合に共通部分があるとき、クエリq'をクエリqの共クリッククエリと呼びます。
    共クリッククエリにはクエリq, q'の関連度が付随し、関連度は条件付き確率P(q'|q)で与えられます。

  • 共トピッククエリ:

    あるクエリqの文字列をクエリq'の文字列が含むとき、クエリq'をクエリqの共トピッククエリと呼びます。
    共トピッククエリには、クエリqの全共トピッククエリの総出現回数に対する、クエリq'の総出現回数の比率が付随します。

  • 共セッションクエリ:

    あるクエリqを入力した後、5分以内に入力されたクエリq'をクエリqの共セッションクエリと呼びます。
    共セッションクエリには、クエリqの総出現回数に対する,クエリqを入力した後5分以内にクエリq'が入力された回数の比率が付随します。



本データは平成21年(2009年)7月から平成25年(2013年)6月の期間に「Yahoo! 検索」で検索されたクエリを集約して作成されており、検索エンジンを利用するユーザの傾向や意図などを推定するのに大変有用なデータとなっております。
一方、異なる数十人以上のユーザが検索に用いたクエリに限られているため、特定の個人と結びつくようなデータは含まれておりません。
特に日本では前例がなく、大変貴重なデータとなっておりますので、ぜひとも両タスクへのご参加を検討いただき、本データを活用いただければと思います。
なお、本データの使用許諾のための覚書については、別途、ご案内します。


【関連ページ】

Last Modified: 2015-07-17