科学研究費補助金研究成果概要データベース
(NTCIR-2)
Last modified: Aug. 14, 2000
対象となる文書は国立情報学研究所の公開している
「科学研究費補助金研究成果概要データベース」
に
含まれる研究概要から選択されたものです。
-
文書データは、科学研究費補助金により行なわれた
研究の成果の概要を収録したデータベースです。
-
「エラーについてのお知らせ」 でお知らせしてきたように、データには、
入力ミスなどのエラーが含まれていることをご了承ください。「エラー」の
中には、元のデータに含まれていたもの、入力作業時に発生したもの、
国立情報学研究所でフォーマットを整える際に生じたもの、テストコレクション用に
データを抽出する際に生じたものなどが含まれている可能性があります
-
データは可能な限りオリジナルに近い形を保つという基本方針のため、また、
事実上、すべてのデータを手作業でチェックするのは不可能でもあるため
当方でのエラーのチェックは、内容の修正ではなく、開始タグと終了タグの対
応、ACCN、タイトル(研究課題名)などの必須項目が含まれているかなどの形式面に重点をお
いています。
文書レコードはSGML形式のタグが付与されたEUCのテキストデータです。
レコードの主要部分のタグと内容について簡単に説明します。
1つの文書レコードには、ACCN、報告年度、研究分野コード、タイトル(研究課題名)、要旨(研究概要)、図表の見出し、報告者が付与したキーワードのリストが含まれうるが、すべて
のレコードにすべての要素が含まれている訳ではありません。ACCNとタイトルは
必ず、どのレコードにも含まれています。
-
日本語文書レコード・サンプル(Jコレクション)
[html]
[plain text]
-
英語文書レコード・サンプル(Eコレクション)
[html]
[plain text]
-
日本語文書レコード・サンプル(語分割テキスト)
[html]
[plain text]
-
日本語文書レコード中のタグのリスト
<REC> 1つの文書レコードの開始タグ
<ACCN> 文書ID;'kaken-j-'と10桁の数字の組合せ </ACCN>
<YEAR> 報告年度;4桁の数字 </YEAR>
<SBJ1> 研究分野コード;3桁の数字と研究分野名;
1992年度以前のコードは「<SBJ1>」と「</SBJ1>」で、
1993年度以降のコードは「<SBJ2>」と「</SBJ2>」で囲まれている;
1992年度以前の研究分野コードのリスト(SBJ1)
と
1993年度以降の研究分野コードのリスト(SBJ2)</SBJ1>
<PJNM TYPE="kanji"> タイトル </PJNM>
<ABST TYPE="kanji"> 要旨;段落ごとに <ABST.P>と</ABST.P>で囲まれている</ABST>
<CAPT TYPE="alpha"> 図表の見出し;見出しが複数存在する場合には、
ひとつずつ別々にタグに囲まれている</CAPT>
<KYWD TYPE="kanji"> キーワード・リスト;「 / 」(半角空白1個、半角スラッシュ1個、半角空白1個)で区切られている</KYWD>
</REC> 1つの文書レコードの終了タグ
-
'<PJNM TYPE="kanji">'、'<PJNE TYPE="alpha">'は、
学会発表データベース中の '<TITL TYPE="kanji">'、'<TITE TYPE="alpha">'に
相当します。
-
'TYPE="kanji"'、'TYPE="alpha"'は、データのタイプを表します。"kanji"は、EUCの
2バイト・コード、"alpha"は、ascii文字です。
-
キーワードは報告者が自由に付与した語で、これらのキーワードに
対応するシソーラスなどの統制語彙はありません。
-
特殊な文字列:エンティティと外字:
'&' で始まり、';'で終わる文字列
(たとえば、 >, <, °, Σ, など)
は、文書データ中に頻繁に出現します。
これは、エンティティといわれる意味のある文字列でエラーではありません。
これは、特殊記号、単位記号、ギリシア文字、キリル文字などを表すのに
SGML/XML環境で使用します。
-
また、元データに含まれていた外字は、すべて '*?'に置き換えてあります。