NTCIR-1 & 2
-
テストコレクション1(NTCIR-1)には、JEコレクション、Jコレクション、Eコレクション
の3つの文書データがあります。 それぞれのコレクションが
「学会発表データベース」
から選択された文書を含んでいます。
第2回NTCIRワークショップでは、Jコレクション (mlir/ntc1-j1) とEコレクション
(clir/ntc1-e1) を 使用します。
-
テストコレクション2(NTCIR-2)には、JコレクションとEコレクション
の2つの文書データがあります。それぞれのコレクションが
「学会発表データベース」
と
「科学研究費補助金研究成果概要データベース」
から選択された文書を含んでいます。
-
Jコレクションは、日本語のタイトルと抄録を 含む文書から、日本語の項目だけを抽出したものです。
-
Eコレクションは、英語のタイトルと抄録を含む 文書から、英語の項目だけを抽出したものです。
-
語分割テキスト: 日本語文書レコードについては、あらかじめ、語に分割したテキストも
用意します。 テキストの分割には、 日本の実用の情報検索サービスで広く使用されている、商用の
日本語形態素解析エンジンを用いています。テキストは、語と語構成要素(語を構成する要素)
に分割されています。テキストの分割には、「ハードセグメンテーション」(強い区切り)と
「ソフトセグメンテーション」(弱い区切り)の2種類があり、 ハードセグメンテーション
の区切りは「 」(全角空白1個)、ソフトセグメンテーションの区切りは 「_」(全角アンダーバー1個)です。ハードセグメンテーションは、
語と語を区切るものであり、ソフトセグメンテーションは、語構成要素と 語構成要素を区切るものです。語構成要素だけでも索引語として使用する
ことが可能であり、「_」で区切られた複数の語構成要素を組合せた複合語 を索引語として使用することも可能です。また、英語などの半角文字を分割するために用いられている、半角スペースはそのままの形で残されています。(語分割の手順)