NTCIR Project
NTCIR-10 SpokenDoc (音声ドキュメント検索)
データ利用手続き（研究目的用）

NTCIR-9 SpokenDoc(音声ドキュメント検索)

NTCIR-9 SpokenDocテストコレクションは、講演音声を対象とした音声ドキュメント検索の評価に使用することができます。このテストコレクションには、以下のデータが含まれます。

Spoken Term Detection (STD)タスク用　検索語　100件
Spoken Document Retrieval (SDR) タスク用　検索トピック　86件
Spoken Document Retrieval (SDR) タスク用　検索トピック86件に対する適合性判定データ
Spoken Document Retrieval (SDR) タスク用　採点データ

文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
->入手方法はこちら

Collection	Task	Target	タスクデータ
			質問		判定
			言語	#
NTCIR-9 SpokenDoc	STD	CORE	Japanese	検索語　50件	N/A (Automatically determined from the manual transcription)
		ALL		検索語　50件
	SDR	ALL		検索トピック　86件	Two-leval relevance judgment for arbitrary-length passages in the documents, including supporting passages.

「音声データ」および「人手による書き起こしデータ」

このテストコレクションで使用する文書データは、国立国語研究所が提供している『日本語話し言葉コーパス（The Corpus of Spontaneous Japanese (CSJ))』のサブセットです。　利用者は各自、データを購入する必要があります。
詳細は、『日本語話し言葉コーパス』のウェブサイトをご覧ください。

『日本語話し言葉コーパス』は、講演音声、モノローグ音声などの数種類の自発音声データを、人手による書き起こしデータとともに収録しています。このテストコレクションで文書データとして使用するのは、このうち、学会での講演および、与えられた論題に対する模擬講演の、2種類の講演音声で、総計2,702講演、時間にして約600時間です。

このテストコレクションでは、各タスクの検索対象として、次の2種類の文書を使用します。

ALL: 総計 2,702 講演 (約600時間)
CORE: 『日本語話し言葉コーパス』の中で定義された177講演分のサブセット(約 44 時間)

「参照用自動音声認識データ」

NTCIR-9 SpokenDoc (SpokenDoc-1)で使用された、文書データの参照用自動音声認識データは、こちらのページ：　Reference Automatic Transcriptions for SpokenDoc-1　から入手可能です。

2種類の自動音声認識データが用意されています。テキスト表現は、ラティスおよびコンフュージョン・ネットワーク表現に加え、二つのバックグラウンドASRシステムに依拠した単語または音節配列のN-bestリストです。　　

Word-based transcriptions obtained by using a word-based ASR system. In other words, a word n-gram model is used for the language model of the ASR system. With the textual representation, it also provides the vocabulary list used in the ASR.
Syllable-based transcription obtained by using a syllable-based ASR system. The syllable n-gram model is used for the language model, where the vocabulary is the all Japanese syllables.

検索語 (for STD task)

ALLとCORE、二つの検索語リストのセットを配布します。各セットは50件の検索語を含みます。各検索語は、1語あるいはそれ以上の単語からなります。検索語の長さは、4から14モーラの範囲内です。検索語リストのフォーマットは、以下の通りです。

TERM-ID term Japanese_katakana_sequence

サンプル

SpokenDoc1-STD-dry-ALL-0001 国立国語研究所コクリツコクゴケンキュージョ
SpokenDoc1-STD-dry-ALL-0002 統計数理研究所トーケイスーリケンキュージョ
SpokenDoc1-STD-dry-ALL-0003 大語彙音声認識ダイゴイオンセーニンシキ
SpokenDoc1-STD-dry-ALL-0004 談話セグメント境界ダンワセグメントキョーカイ
...

検索課題 (for SDR task)

各検索課題は、講演の中から様々な長さのパッセージを探すものです。検索課題は自然文による表現です。検索課題リストのフォーマットは、以下の通りです。

TOPIC-ID question

サンプル

SpokenDoc1-dry-0001 話者認識の学習データのサイズが知りたい
SpokenDoc1-dry-0002 オークションにおける自動入札戦略を知りたい
SpokenDoc1-dry-0003 日本語話し言葉コーパスを用いている研究を教えてください
SpokenDoc1-dry-0004 情報検索性能を評価するにはどのような方法があるか知りたい
...

Gold Standard

ファイルは、クエリに関係する情報を表現したブロックの配列で構成されます。各ブロックは、Quey Lineとその後に続く任意の長さのRelevance Judgment Lineからなります。これらのほか、＃で始まるComment Lineがあります。

<QueryLine> のフォーマットは、以下の通りです。

<QuerySentence> は、日本語EUCコードでエンコードされた文字列で、二重引用符（""）で囲まれています。 <LF> はラインフィード・コードです。

Relevance judgment line <RelLine> のフォーマットは、以下の通りです。

<Interval> および <Comment> は省略可能です。<DocuemntID> は『日本語話し言葉コーパス』の中で定められた各文書（講演）IDです。

<Interval> は、<DocumentID>によって指定された文書中の発話インターバルを示します。フォーマットは以下の通りです。

<IPU> は『日本語話し言葉コーパス』で定義されたInter Pausal UnitのIDです。

<Judgment> は、<DocumentID> および <Interval>により指定された発話インターバルに関する適合性判定結果示します。値は、 "R" (Relevant)、"P" (Partially Relevant)、"I"(Irrelevant)のいずれかです。.

<Judgment> ::= R | P | I

<Support> は適合性に関する支持情報を記述しています。フォーマットは以下の通りです。

<Support> ::= N | S | U | <Interval> { <Interval> }

各値の意味は、以下の通りです。

N: The interval needs no support.
S: The interval is supported somewhere in the document, but cannot be specified.
U: The interval is not supported. (Therefore, it is either partially relevant or irrelevant.)
<Interval>: The interval is supported by other interval <Interval> in the same document.

<Comment> は、判定に関するコメントを記述しています。その多くは日本語EUCコードでエンコードされています。

NIIから配布するものはいずれも無料です。

NTCIR-9 SpokenDocタスクデータは、NIIのIDRからダウンロードできます：
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html

参考書類　---

利用規程
NTCIR-9 SpokenDoc タスク統括論文
Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop

NTCIR-9 SpokenDoc タスクウェブサイト
http://www.cl.ics.tut.ac.jp/~sdpwg/index.php?ntcir9

お問い合わせ： ntc-secretariat

注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。

[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]
Updated on : 2015-07-24
ntc-admin

NTCIR Project NTCIR-10 SpokenDoc (音声ドキュメント検索) データ利用手続き （研究目的用）