学会発表データベース
(NTCIR-1 & 2)
対象となる文書は国立情報学研究所の公開している
「学会発表データベース」
に
含まれる論文抄録から選択されたものです。
-
文書データは、国内65学会が主催する全国大会、研究会などで発表され
た論文の著者抄録です。
-
このコレクションの元になったデータベースの目的の一つは、学会発表
論文について、速報サービスをすることです。ですので、レコードは、
集められたまま、編集者や抄録作成者による変更なく、データベースに
はいっています。また、査読つきのものと査読なし(あるいは査読まえ)
のものがあります。
-
「エラーについてのお知らせ」 でお知らせしてきたように、データには、
入力ミスなどのエラーが含まれていることをご了承ください。「エラー」の
中には、元のデータに含まれていたもの、入力作業時に発生したもの、
国立情報学研究所でフォーマットを整える際に生じたもの、テストコレクション用に
データを抽出する際に生じたものなどが含まれている可能性があります
-
データは可能な限りオリジナルに近い形を保つという基本方針のため、また、
事実上、すべてのデータを手作業でチェックするのは不可能でもあるため
当方でのエラーのチェックは、内容の修正ではなく、開始タグと終了タグの対
応、ACCN、タイトルなどの必須項目が含まれているかなどの形式面に重点をお
いています。
文書レコードはSGML形式のタグが付与されたEUCのテキストデータです。
レコードの主要部分のタグと内容について簡単に説明します。
1つの文書レコードには、ACCN、タイトル、著者名、会議名、開催年月日、
著者抄録、幹事学会名、著者が付与したキーワードのリストが含まれうるが、すべて
のレコードにすべての要素が含まれている訳ではありません。ACCNとタイトルは
必ず、どのレコードにも含まれています。
-
日本語文書レコード・サンプル(Jコレクション)
[html]
[plain text]
-
英語文書レコード・サンプル(Eコレクション)
[html]
[plain text]
-
日本語文書レコード・サンプル(語分割テキスト)
[html]
[plain text]
-
日本語文書レコード中のタグのリスト
<REC> 1つの文書レコードの開始タグ
<ACCN> 文書ID;'gakkai-j-'と10桁の数字の組合せ </ACCN>
<TITL TYPE="kanji"> タイトル </TITL>
<AUPK TYPE="kanji"> 著者名;複数の著者が存在する場合には、「 / 」(半角空白1個、半角スラッシュ1個、半角空白1個)で区切られている
</AUPK>
<CONF TYPE="kanji"> 会議名 </CONF>
<CNFD> 開催年月日;形式は、yyyy.mm.ddまたは、yyyy.mm.dd - yyyy.mm.dd(ただし、yyyyは、西暦、mmは月、ddは日)</CNFD>
<ABST TYPE="kanji"> 著者抄録;段落ごとに <ABST.P>と</ABST.P>で囲まれている</ABST>
<KYWD TYPE="kanji"> キーワード・リスト;「 // 」(半角空白1個、半角スラッシュ2個、半角空白1個)で区切られている</KYWD>
<SOCN TYPE="kanji"> 幹事学会名;
データを提供してくださった学会のリスト
</SOCN>
</REC> 1つの文書レコードの終了タグ
-
'TYPE="kanji"'、'TYPE="alpha"'は、データのタイプを表します。"kanji"は、EUCの
2バイト・コード、"alpha"は、ascii文字です。
-
キーワードは著者が自由に付与した語で、これらのキーワードに
対応するシソーラスなどの統制語彙はありません。
-
特殊な文字列:エンティティと外字:
'&' で始まり、';'で終わる文字列
(たとえば、 >, <, °, Σ, など)
は、文書データ中に頻繁に出現します。
これは、エンティティといわれる意味のある文字列でエラーではありません。
これは、特殊記号、単位記号、ギリシア文字、キリル文字などを表すのに
SGML/XML環境で使用します。
-
また、元データに含まれていた外字は、すべて '*?'に置き換えてあります。