NTCIR Project
NTCIR-10 SpokenDoc (音声ドキュメント検索)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-9 SpokenDoc(音声ドキュメント検索)



NTCIR-9 SpokenDocテストコレクションは、講演音声を対象とした音声ドキュメント検索の評価に使用することができます。このテストコレクションには、以下のデータが含まれます。

文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
->入手方法はこちら

Collection Task Target タスクデータ
質問 判定
言語 #
NTCIR-9 SpokenDoc STD CORE Japanese 検索語 50件 N/A
(Automatically determined from the manual transcription)
ALL 検索語 50件
SDR ALL 検索トピック 86件 Two-leval relevance judgment for arbitrary-length passages in the documents, including supporting passages.

文書データ, 検索課題および適合判定

文書データ

「音声データ」および「人手による書き起こしデータ」

このテストコレクションで使用する文書データは、国立国語研究所が提供している『日本語話し言葉コーパス(The Corpus of Spontaneous Japanese (CSJ))』のサブセットです。 利用者は各自、データを購入する必要があります。
詳細は、『日本語話し言葉コーパス』のウェブサイトをご覧ください。

『日本語話し言葉コーパス』は、講演音声、モノローグ音声などの数種類の自発音声データを、人手による書き起こしデータとともに収録しています。このテストコレクションで文書データとして使用するのは、このうち、学会での講演および、与えられた論題に対する模擬講演の、2種類の講演音声で、総計2,702講演、時間にして約600時間です。

このテストコレクションでは、各タスクの検索対象として、次の2種類の文書を使用します。

「参照用自動音声認識データ」

NTCIR-9 SpokenDoc (SpokenDoc-1)で使用された、文書データの参照用自動音声認識データは、こちらのページ: Reference Automatic Transcriptions for SpokenDoc-1 から入手可能です。

2種類の自動音声認識データが用意されています。テキスト表現は、ラティスおよびコンフュージョン・ネットワーク表現に加え、二つのバックグラウンドASRシステムに依拠した単語または音節配列のN-bestリストです。  


検索語 (for STD task)

ALLとCORE、二つの検索語リストのセットを配布します。各セットは50件の検索語を含みます。各検索語は、1語あるいはそれ以上の単語からなります。検索語の長さは、4から14モーラの範囲内です。検索語リストのフォーマットは、以下の通りです。

TERM-ID term Japanese_katakana_sequence

サンプル

SpokenDoc1-STD-dry-ALL-0001 国立国語研究所 コクリツコクゴケンキュージョ
SpokenDoc1-STD-dry-ALL-0002 統計数理研究所 トーケイスーリケンキュージョ
SpokenDoc1-STD-dry-ALL-0003 大語彙音声認識 ダイゴイオンセーニンシキ
SpokenDoc1-STD-dry-ALL-0004 談話セグメント境界 ダンワセグメントキョーカイ
...

検索課題 (for SDR task)

各検索課題は、講演の中から様々な長さのパッセージを探すものです。検索課題は自然文による表現です。検索課題リストのフォーマットは、以下の通りです。

TOPIC-ID question

サンプル

SpokenDoc1-dry-0001 話者認識の学習データのサイズが知りたい
SpokenDoc1-dry-0002 オークションにおける自動入札戦略を知りたい
SpokenDoc1-dry-0003 日本語話し言葉コーパスを用いている研究を教えてください
SpokenDoc1-dry-0004 情報検索性能を評価するにはどのような方法があるか知りたい
...

Gold Standard

ファイルは、クエリに関係する情報を表現したブロックの配列で構成されます。各ブロックは、Quey Lineとその後に続く任意の長さのRelevance Judgment Lineからなります。これらのほか、#で始まるComment Lineがあります。

<QueryLine> のフォーマットは、以下の通りです。

<QueryLine> ::= <Query-ID>: <QuerySentence> <LF>

<QuerySentence> は、日本語EUCコードでエンコードされた文字列で、二重引用符("")で囲まれています。 <LF> はラインフィード・コードです。

Relevance judgment line <RelLine> のフォーマットは、以下の通りです。

<RelLine> ::= <DocumentID> [<Interval>] <Judgement> <Support> [<Comment>] <LF>

<Interval> および <Comment> は省略可能です。<DocuemntID> は『日本語話し言葉コーパス』の中で定められた各文書(講演)IDです。

<Interval> は、<DocumentID>によって指定された文書中の発話インターバルを示します。フォーマットは以下の通りです。

<Interval> ::= <IPU>-<IPU> | <IPU>

<IPU> は『日本語話し言葉コーパス』で定義されたInter Pausal UnitのIDです。

<Judgment> は、<DocumentID> および <Interval>により指定された発話インターバルに関する適合性判定結果示します。値は、 "R" (Relevant)、"P" (Partially Relevant)、"I"(Irrelevant)のいずれかです。.

<Judgment> ::= R | P | I

<Support> は適合性に関する支持情報を記述しています。フォーマットは以下の通りです。

<Support> ::= N | S | U | <Interval> { <Interval> }

各値の意味は、以下の通りです。

<Comment> は、判定に関するコメントを記述しています。その多くは日本語EUCコードでエンコードされています。

 入手方法

NIIから配布するものはいずれも無料です。
参考書類 ---   
お問い合わせ: ntc-secretariat


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。