|
学振「高度分散情報資源活用のためのユービーキタス情報システム」
「情報検索システム評価用 テストコレクション構築 (NTCIR)」プロジェクト [1]
プロジェクトの概要(プロジェクト提案書より)
[English]
- 概要
- プロジェクト提案書より(originally 1997.11, modified on 1998.03)
- 1.研究の背景
- 2.研究目的
- 3.期待される効果
- 4.手順
- プロジェクト・メンバー
- ノート:テストコレクションって何?
本プロジェクトは、情報検索システムの検索性能評価の基盤を強化し、研 究を促進するために、学術情報センターが構築してきたデータベースの一部を 利用して、日本語情報検索システム評価用の大規模 テストコレクション を構築します。背景として、以下の状況があります。
- 情報検索研究の基盤として大規模な標準的日本語テストコレクション構築は急務
情報検索研究では、新しく提案される検索手法 は大規模なテストコレクションを用いて検索性能を評価しない かぎり国際的な研究コミュニ ティに受け入れられることが困難です。また、情報検索は、言語に依存した処理を多 く含むため、日本語情報検索研究には、日本語の大規模テストコレクションが必 要です。 TRECコレクション をはじめ、欧米諸国語、中国語、韓国語の大規模テストコレクションがありますが、 日本語では、情報処理学会のBMIRワーキンググループが構築した新聞記事を用いたテストコレクションBMIR-J2のみで、 記事の種類、数量ともに一層の拡充が必要です。
- 情報検索研究の実用システムへの技術移転の促進
近年、電子文書の増大、インタネットの普及により情報検索技術の重要性が 高まっています。 実用化が可能な検索技術の研究開発と、研究成果の実用シス テムへの技術移転を促進するためには、 実用システムに匹敵する規模のデータベースを使用した、 大規模テストコレクションが必要です。
- 多言語検索、言語横断検索研究へ適用可能なコレクションが必要
国際的ネットワーク環境下では、多言語検索、および、検索システムへの問合せと異なる言語の文書も検索可能な「言語横断検索」の要請が強く [3] 、その研究に 資するテストコレクションが必要です。
- 対象文書の多様性、新聞記事以外のコレクションへの要請
我が国では、 新聞記事 データの研究目的の公開が進んでいますが、学術文書は、 情報検索における重要性にも関わらず、研究目的でデータを利用することが困 難でした。文書や用語の特性は対象文書の種類によって異なるため、学術文書 についても、大規模な実験用データベースが必要です。
- 自然言語処理技術の情報検索応用のための基礎的データへの要請
日本語は、欧米諸国語とは異なり、語と語のあいだに空白などの明示的な区切 りがないため、データベースと検索質問からの検索に適した語を抽出するには、自然言語 処理技術が必要であり、その研究を進めるための基礎的データが必要です。 [2,4]
- 情報処理学会BMIRワーキンググループの活動停止とテストコレクション拡 充の要請
情報処理学会BMIRワーキンググループは、1998年3月に新聞記事を用いた 日本語情報検索システム評価用テストコレクションBMIR-J2を公開しました。その 情報検索研究への貢献は多大なものがありますが、諸般の事情から活動の継続を断念 せざるを得ませんでした。日本語テストコレクションを拡充するには、新たな構築の担い手が必要で す。
[先頭に戻る]
以上の背景をふまえ、このプロジェクトでは、日英対訳データを含む大規 模な情報検索システム評価用の標準的テストコレクションを構築し、研究利用目 的に限定して情報検索研究者に公開します。その目的は以下のようにまとめられます。
- 大規模な日本語テストコレクションを構築する
- 日本語情報検索、日本語を含む多言語・言語横断検索に関する研究を促進し、 基礎的な研究成果を蓄積する
- 大規模なテストコレクションを効率よく構築する手順を確立する
- 会話型システムの評価にも利用できる詳細な検索課題の記述方式を確立する
[先頭に戻る]
このプロジェクトは、以下の効果が期待されます。
情報検索研究の基盤の提供
- 大規模なデータベースを用いた検索実験が可能になります
- 共通のテストコレクションを用いることにより、各手法の比較が可能になります
- 比較の共通基盤を提供することにより、日本語情報検索研究の成果を系統的、 効果的に蓄積することができるようになります。
- 情報検索研究の促進、研究の質の向上、国際的水準の研究を促進します
実用化が可能な、頑強な情報検索手法の研究開発の支援・促進
学術情報に関わる大規模なコーパスの提供
- 学術情報の検索およびその基盤となる自然言語処理研究の基盤を提供することによって、学術情報の検索に関する研究を促進します 。
自然言語処理研究の情報検索応用を支援・促進
- データベースの一部には、語の階層的な単位切りに基づく詳細な品詞タグが付与されます
検索要求の明確化手法、正解判定に影響を及ぼす因子の検討
- 検索課題は研究者から収集した現実的なもので、説明、検索の目的などの詳細なコメントを付けます。正解判定は、各文書が、検索要求を「満たす」、「部分的に満たす」、「無関係」の3段階で行ないます。
学術情報の流通と利用を促進・支援
- 学術情報に関する情報検索の研究を促進することにより、学術情報の検索システム の高度化と情報流通を促進します。
[先頭に戻る]
このプロジェクトは、以下の方法によって、大規模なテストコレクションを構築します。
予備版の作成
- プロジェクトチーム
- 学会発表データベースのデータの一部を使用(約30万件)
- 検索要求約30件
- 検索結果の統合(5検索方式×3索引方式)
- 人手による正解判定
- 構築手順の検討など
本格版の作成
- プロジェクトチーム
- データ提供学会への趣旨説明と承諾のお願い
- 学会発表データベース(約30万件)
- 検索質問100件×3分野
- 正解文書候補の網羅的収集(共同研究、または、ワークショップ)
- 人手による正解判定
- 本格版の予備的評価
本格版の公開
- 検討会設置 (外部有識者を含む)公正利用の検討、
- 利用対象:情報検索研究者
- 研究目的の使用に限定
- 各利用者と覚書き締結
- 本格版の評価
注
1. Kando, N. et al. "NTCIR : NACSIS Test Collection Project "[Poster] the 20th Annual Collquium of BCS-IRSG, March 25-27, 1997, Autrans, France [ps file][html file]
2. Kageura, K. et al. "NACSIS Corpus Project for IR and Terminological Research". Natural Language Processing Pacific Rim Symposium '97, 2-5 December, 1997 at Phuket, Thailand, p. 493-496. ( ps file)
3. Kando, N. "Cross-Linguistic Scholarly Information Transfer and Database Service in Japan". Panel on "Multilingual Database" at the 1997 Anuual Meeting of the American Society for Information Science, 1-5 November, 1997 at Washington,D.C, U.S.A.
4. Koyama, T. et al. "The Construction of a Lexically Motivated Corpus : The Problem with Defining Lexical Units." [to appear in] The First International Conference on Language Resources and Evaluation. May, 1998, Granada, Spain. (please see http://cerec.ugr.es/~rubio/elra.html)
NTCIRプロジェクトに関する文献リスト
プロジェクト・メンバー;研究開発部:
小山照夫、 大山敬三、 影浦峡、 神門典子、 吉岡真治、 野末俊比古、 栗山和子
参考- 学会発表データベース
- 全体 311,401件
- SER=0001 (第一系:電子・情報・制御,15学会,1987〜)158,302件
- SER=0002 (第二系:化学, 4学会,1988〜) 51,427件
- SER=0003 (第三系:建築・土木・造園, 4学会,1990〜) 75,903件
- SER=0004 (第四系:生物学・農学, 8学会,1990〜) 10,789件
- SER=0005 (第五系:理学, 8学会,1991〜) 3,211件
- SER=0006 (第六系:工学, 3学会,1990〜) 1,408件
- SER=0007 (第七系:医学・歯学, 4学会,1990〜 6,441件
- SER=0008 (第八系:人文・社会, 8学会,1990〜) 3,920件
|