
目的
くりかえし利用可能なテストコレクションを構築し、情報検索、言語横断検索
および自動要約などの研究を促進する
各種手法の効果に関する相互比較、研究上のアイディアの交換や意見交換などを
通じて相互にまなびあうための研究者フォーラムを形成する
正解文書の候補を網羅的に収集する。参加者からのフィードバックにより、テストコレクションの質の向上を図る
中国語検索タスク(中国語検索、英語・中国語言語横断検索)
Chinese Text Retrieval Tasks are selected from the Chinese
Information Retrieval Benchmark 1(CIRB-1)を使用します。
これは、(1) 検索対象文書(台湾の通信社5社から提供されたニュース記事
132,173件)、(2)検索課題50件、(3)正解文書リスト
中国語検索タスクの詳細はこちら
http://lips.lis.ntu.edu.tw/cirb/events-1.htm.
関連情報も同じWebサイトにあります。
http://lips.lis.ntu.edu.tw/cirb/index.htm
日本語・英語検索タスク (日本語検索、英語検索、英語・日本語言語横断検索)
訓練用データ:「テストコレクション1
(NTCIR-1)」を使用します。
これは、(1) 検索対象文書
(学会発表論文の著者抄録約33万件。
半数以上は、日本語・英語の対訳(文書レベルの対応),
日英の対応は既知で、システムの訓練に使用可。
(2) 検索課題83件とそれに対応する正解文書のリスト
評価用セット:NTCIR-1とNTCIR-2。NTCIR-2(予備版)の新しい文書と新しい検索課題
を配布します。NTCIR-2には、二つの文書サブファイルがあります。
(1)
科学研究費補助金成果報告の要旨約30万件(文書長は、NTCIR-1の
約3倍)。約25%は日英の対訳。
(2)
学会発表論文の著者抄録約10万件。
いずれも日英対訳(文書レベルの対応)の対応付けは検索結果提出までお知らせしません。
語分割データ:NTCIR-1とNTCIR-2中の日本語の文書と検索課題について
は、あらかじめ、語と語構成要素に分割したテキストも用意します。
このデータの使用は、必須ではありません。
自動要約タスク
毎日新聞(有料)の記事を用いる。これまで作成されてきた要約データは、
新聞記事、特に報道記事に限定されてきた傾向が強い。今回の要約データ
作成においては、そのような現状を鑑み、報道記事だけでなく、社説など
の論説記事も対象に要約データ作成を試みる。
参加申し込みは締め切りました
2000年8月10日: NTCIR-2のCD(文書約70万件、評価用検索課題50件)の配布(日本語・英語検索)
2000年8月31日:
CIRB-1のCD(文書132,172件、検索課題50件)の配布(中国語検索)
2000年9月18日: 検索結果の提出(日本語・英語検索)
2000年10月8日: ドライラン(自動要約タスク)
2000年10月20日: 検索結果の提出(中国語検索)
2000年11月: 評価(自動要約タスク)
2001年1月10日: 正解判定結果の通知(中国語検索、日本語・英語検索タスク)
2001年2月12日: 成果報告会用仮論文の原稿提出(全タスク)
2001年3月7-9日: 成果報告会(於: 東京。国立情報学研究所)
1日目: 一般公開、 2-3日目: 結果提出者のみ
2001年3月16日: 会議録用のカメラ・レディ原稿の提出(全タスク)
中国語検索タスク(Chinese IR task):
中国語の単言語検索、英語・中国語の言語横断検索。中国語の文書群に対
して、新しい英語または中国語の検索課題で検索を行い、その検索有効性
を調べる。
日本語・英語検索タスク (Japanese & English IR task):
日本語または英語の単言語検索、英語・日本語の言語横断検索。言語横断検
索では日本語または英語だけの文書群、もしくは日本語と英語の混ざった文
書群を、日本語または英語の検索課題で検索し、その検索有効性を調べる。
自動要約タスク (automatic text summarization task): 日本語文書の要約。タスク目的は2つある。(1)日本語テキストに
対する要約データの蓄積。新聞の各種記事を対象に、人手で作成した要約データ
を大規模に蓄積し、研究目的で利用に供したいと考える。(2)自動要約システムの
評価。extrinsicな評価方法。情報検索タスクに基づく要約の評価。
詳しくは、TSCホームページ(
http://galaga.jaist.ac.jp:8000/tsc/)をご覧ください。
A.通常;検索結果を提出し、システムについて詳しく報告する。チーム名、お
よび、チーム名と評価結果における略称(チームID)との対応付けを公表す
る。
B.匿名;検索結果は提出するが、システムの詳細については、差し障りがある
部分は報告しなくてもよい。チーム名は公表するが、チーム名と評価結果にお
ける略称(チームID)との対応付けは公表しない。企業研究所などからの参加
の場合で、結果の公開が難しい場合などにご利用ください。
いずれの場合でも参加者名のリストは公表します。ただし、結果はチーム IDのみを報告し、チームIDと参加チーム名との対応づけを公表するか どうかは、参加の種類によってきまります。A,Bのいずれの場合でも、 (1)会議録に収録する論文、(2)システム説明フォーム、 (3)NTCIRを使用した研究に関する発表論文のコピーと書誌事項を ご提出いただ くことになります。 なお、システム説明フォームは、特許等の関連で公開でき ない事項については 記入されなくても結構です。その他、個別の問題点について は、お気軽にご相談ください。
その他、ご質問、ご意見、賛同なども、お気軽に
ntc-admin
電子メイルでご連絡ください。
中国語検索タスクについてのご質問は、タスク座長のHsin-Hsi Chen
(hh_chen
要約タスクについてのご質問は、タスク座長の奥村学
(oku
参加資格:成果報告会の1日目は一般公開です。2日目と3日めは、上記タスク
のいずれかを遂行した研究グループおび主・共催機関の関係者が参加できます。
会議録: 成果報告会発表論文は、会議録(電子版と冊子体)として刊行します。
NTCIRテストコレクションを用いた研究成果を成果報告会以外での場の発表も
歓迎です。ただし、データ使用許諾に関する覚書の制約により、テストコレク
ションを用いたいかなる結果およびワークショップの成果を、商品の宣伝に用
いることはできません。詳しくは、覚書をご参照ください。
海外からの参加も歓迎いたします。昨年は6カ国からの参加がありました。ご
案内は、すべて、日本語と英語の二カ国語(中国語タスクは、英語)
でいたします。
会議録論文集と成果報告会の使用言語は、英語です。
日本語・英語検索タスクについては、著作権上の制約のため、国立情報学研究所の共同研
究の枠組みで行わせていただきます。共同研究に関わる義務や制約は特になく、
通常の、タスクの結果提出と会議録への論文提出だけです。