[Date Prev][Date Next][Date Index]
[ntcir:78] Reminder: CFP NTCIR WS3 (Japanese version)
- To: ntcir@xxxxxxxxx
- Subject: [ntcir:78] Reminder: CFP NTCIR WS3 (Japanese version)
- From: Noriko Kando <kando@xxxxxxxxx>
- Date: Mon, 24 Sep 2001 20:25:06 +0900
- Cc: ntc-clir-j@xxxxxxxxx, ntc-webj@xxxxxxxxx, qac-j@xxxxxxxxx, ntc-chair@xxxxxxxxx
重複して受け取った方は、ご容赦ください。
ご関心のある方や関連ML等に適宜、転送していただければ幸いです。
============================================================================
参加者募集
第3回NTCIRワークショップ (2001/2002)
情報検索、Q&A,テキスト自動要約の評価
主催:国立情報学研究所 情報学資源研究センター
成果報告会: 2002年10月8-10日, 東京、学術総合センター
URL: http://research.nii.ac.jp/ntcir/workshop/index-ja.html
問合せ: ntcadm@xxxxxxxxx
==============================================================================
情報検索、Q&A、テキスト自動要約技術の評価ワークショップを開催します。共
通のテストコレクションを用いてこれらの研究を行うことに関心のある研究グル
ープはどなたでも参加できます。奮ってご参加ください。
今回は、中日韓英の言語横断検索、特許検索、質問応答、テキスト自動要約、
Web検索の5つのタスクを取り上げました。また、特許検索とWeb検索では、参
加者が当該文書を用いたタスクを提案する「自由タスク」もあります。詳しく
は上記のURLのWebサイトをご覧ください
目的
* くりかえし利用可能なテストコレクションを構築し、情報検索、Q&Aおよび
自動要約などの研究を促進する
* 各種手法の効果に関する相互比較、研究上のアイディアの交換や意見交換
などを 通じて相互にまなびあうための研究者フォーラムを形成する
* 参加者からのフィードバックにより、テストコレクションの質の向上を図
る
タスク概要
参加者は、以下の1つ以上のタスクを遂行して結果を決められた期日まで
に提出します。1つのサブタスクだけの参加(たとえば言語横断検索タスクの
中の日本語単言語検索)も可能です。詳しくはWebサイトをご覧ください
1. 言語横断検索タスク (CLIR) [Image]参加申込
文書と検索課題は、それぞれ、4カ国語(中国語、韓国語、日本語、英語)
* 多言語言語横断検索 (MLIR): 2カ国語以上の文書集合を検索する。文書の
年代が異なるため、韓国語文書は除く
* 二カ国語言語横断検索(BLIR): 文書と異なる言語の検索課題で検索をす
る。英語の文書は除く
* 単言語検索(SLIR): 中国語、韓国語、日本語の文書のいずれかを、文書と
同じ言語の検索課題で検索する
使用文書:アジアで出版された新聞記事
* CIRB010(1998-1999):中国語(台湾)
* United Daily News(1998-1999):中国語(台湾)
* Korea Economic Daily(1994):韓国語
* 毎日新聞(1998-1999):日本語*
* Taiwan News and Chinese English News :英語(台湾)
* Mainichi Daily News(1998-1999):英語(日本)*
2.特許検索タスク (patent)
* 基本タスク
o 新聞記事に掲載された技術や商品に関連する特許を検索する(異種デ
ータ横断検索).入力となる新聞記事として,日本語,英語,中国語
(繁体字)の3種類を用意し,言語横断特許検索も行う.
o ある特許文書を入力し,類似する特許を検索する(類似文書検索)
o いずれの場合も,検索特許一覧と検索課題に関連するパッセージをあ
わせて提出する.
* 自由タスク
o 配布されるデータを用いて任意のタスクを行うことができる.以下に
例を挙げる.
+ 特許マップ作成、請求項の書き換え、請求項と実施例の対応付
け、特許抄録の自動作成、特許の自動分類など。
使用文書:* 公開特許公報全文: 1998-1999年
* Japio出願抄録: 1995-1999年
* 日本国英語特許出願抄録(Japio出願抄録の英訳): 1995-1999年
* パトリス標準検索課題(検索課題34件および正解判定)
* 新聞記事(日本語,英語,繁体中国語)
3.質問応答タスク (qac)
* [タスク1] システムは,与えられた質問(100件の質問文)に対して,
その回答と考えられるものひとつを優先順位をつけて5つ返す
* [タスク2] システムは,与えられた質問(100件の質問文)に対して,
その回答と考えられるもののリストをただひとつ返す.
* [タスク3] タスク2の形式で回答するシステムに対して, 複数の連続した
質問(枝問)に回答させる. 連続した質問の最初(先頭)のものは, タスク2
で用いられる質問と同じ
使用文書:毎日新聞(1998-1999):日本語*
4.テキスト自動要約タスク(tsc2)
* [課題A: single] 要約対象となるテキストと,要約の長さが与えられ,参
加者は,それを元に要約をplain textで作成し提出する.
* [課題B: multi] いくつかの種類のテキスト集合を対象とし,それらのテ
キスト集合の要約をplain textで作成し提出する.この際,テキスト集合
を用意するのに用いた情報(クエリ等)および要約の長さも合わせて,シス
テムに与える
使用文書:毎日新聞(1998-1999):日本語*
5.Web検索タスク
* [A. サーベイ検索] 従来の学術文書や新聞記事を対象としたAd Hoc型
検索に相当し,固定した文書集合に対して新たな検索課題で検索を行
う.精度と再現率の両方を重視した評価を実施する.従来の書式の検
索課題を用いた検索(「A1. 検索課題検索」)と,所与の適合文書を
利用した検索(「A2.類書検索」)の二つのサブタスクを実施する.ま
た,評価には,ページを単位とするものの,Webページは長さが不均質
であることを鑑みて根拠となるパッセージ(文書の一部分,提出は必
須でない)を単位とした補助的評価についても検討する
* [B. ターゲット検索] 求めている答が見付かればよいもの(例えばフ
ァクト型の検索,あるいはサイトのトップページの検索など)で,精
度が重視されるタスクである.検索結果は,根拠パッセージ(提出は
必須でない)付きで,上位10件を順位付きで提出する.数種の評価尺
度を検討する
* [C. 自由タスク] A,Bのサブタスクで使用する文書データに対して,
自由に研究課題を登録し,研究を進める.研究成果は,NTCIR-3 成果
報告会において論文/ポスターで発表を行なう.複数の参加者が得ら
れた場合,サブタスクとして取り上げ,詳細を検討する.「C1. 分類
出力タスク」,「C2. 音声入力タスク」はサブタスクとしての提案の
例である
使用文書:主として、jpドメインから収集したWeb文書。参加者は国立情報
究所内のオープンラボに用意した計算機資源を用いて索引付けなどのデ
ータ処理を行う
日程
2001-09-30 申込締切(タスク毎に多少異なる場合があります)
2001-10-01 文書の配布 (新聞記事)
2001-10/2002-01 Dry Run (タスク毎に時期が異なります)
ラウンドテーブルディスカッション
2001-12 オープンラボ開始
2001-12/2002-03 Formal Run (タスク毎に時期が異なります)
2002-02/2002-07 ラウンドテーブルディスカッション(タスク別)
2002-07-01 評価結果の配布
2002-08-20 成果報告会用論文締切り
2002-10-08/10 NTCIR Workshop 3 成果報告会
1-2日目:タスク参加者のみ
3日目:公開セッション
2002-12-01 正式版会議録用論文の締め切り
参加の種類
* A.通常;検索結果を提出し、システムについて詳しく報告する。チーム
名、および、チーム名と評価結果における略称(チームID)との対応付
けを公表
* B.匿名;検索結果は提出するが、システムの詳細については、差し障りが
ある部分は報告しなくてもよい。チーム名は公表するが、チーム名と評価
結果における略称(チームID)との対応付けは公表しない。企業研究所な
どからの参加の場合で、結果の公開が難しい場合などにご利用ください。
いずれの場合でも参加者名のリストは公表します。ただし、結果はチームIDの
みを報告し、チームIDと参加チーム名との対応づけを公表するか どうかは、参
加の種類によってきまります。A,Bのいずれの場合でも、 (1)会議録に収録する
論文、(2)システム説明フォーム、 (3)NTCIRを使用した研究に関する発表論文
のコピーと書誌事項を ご提出いただ くことになります。個別の問題点につい
ては、お気軽にご相談ください
参加申込み
http://research.nii.ac.jp/ntcir/workshop/application-ja.html
問合せ
* その他、ご質問、ご意見、賛同なども、お気軽にntcirプロジェクト
ntcadm@xxxxxxxxxに電子メイルでご連絡ください。
* 各タスクの詳細については、タスクオーガナイザにお問合せください。
新しい試み
* 言語横断検索
(1) 多言語の言語横断検索:中韓日英語の検索課題で、中国語+日本語
+
+英語の新聞記事、あるいは、韓国語新聞記事を探す
(2) 技術情報の言語横断検索:学術文献を用いたいままでのNTCIRの展開
と
して、日本語特許文書の検索と言語横断検索(検索課題は英中日)。
日英
対訳の特許抄録データを含む
* 自由タスク(特許検索、Web検索):NTCIRワークショップ3で使用するデ
ータを
用いて自由な研究テーマで研究できます。結果はかならずワークショッ
プ論文
集と成果報告会で報告してください。また、自由タスクが次回以降の新
しいタ
スクや評価方法へと導かれることも期待しています
* 類書・関連文書検索(特許検索、Web検索)
* パッセージ検索(QA, 特許検索、Web検索)答えとともに、その根拠と
なる
パッセージを抽出(必須ではない)
* 精度指向の評価(QA, Web検索)、多段階レレバンス判定(CLIR, 特
許、
Web)は従来どおり。新たな多段階判定用の評価尺度も導入
その他
* 成果報告会発表論文は、会議録(電子版と冊子体)として刊行します
* NTCIRテストコレクションを用いた研究成果を成果報告会以外での場の発
表も歓迎です。ただし、データ使用許諾に関する覚書の制約により、テス
トコレクションを用いたいかなる結果およびワークショップの成果を、商
品の宣伝に用いることはできません。詳しくは、覚書をご参照ください
* 海外からの参加も歓迎いたします。昨年は8カ国からの参加がありました。
ご案内は、すべて、日本語と英語の二カ国語でいたします
* 会議録論文集と成果報告会の使用言語は、英語です
* 使用する文書データの著作権上の制約のため、国立情報学研究所の共同研
究の枠組みで行わせていただきます。共同研究に関わる義務や制約は特に
なく、通常の、タスクの結果提出と会議録への論文提出だけです
* テストコレクションは、データの使用許諾に関する覚書を交わした参加者
に提供されます
* 毎日新聞記事データの使用期限* 毎日新聞のデータは、2001年9月1日から
2003年9月30日まで使用可能です。使用許可期間が終了した後は必ず、全文
書データを削除してください。期間終了後も継続してデータを使用する場
合は、毎日新聞社からデータを購入し、研究目的の使用許諾を得ることが
できます。データ使用期限はタスクによって異なる場合もあります
------------------------------------------------------------------------