[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-9 SpokenDocテストコレクションは、講演音声を対象とした音声ドキュメント検索の評価に使用することができます。このテストコレクションには、以下のデータが含まれます。
文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
->入手方法はこちら
Collection | Task | Target | タスクデータ | ||
質問 | 判定 | ||||
言語 | # | ||||
NTCIR-9 SpokenDoc | STD | CORE | Japanese | 検索語 50件 | N/A (Automatically determined from the manual transcription) |
ALL | 検索語 50件 | ||||
SDR | ALL | 検索トピック 86件 | Two-leval relevance judgment for arbitrary-length passages in the documents, including supporting passages. |
このテストコレクションで使用する文書データは、国立国語研究所が提供している『日本語話し言葉コーパス(The Corpus of Spontaneous Japanese (CSJ))』のサブセットです。 利用者は各自、データを購入する必要があります。
詳細は、『日本語話し言葉コーパス』のウェブサイトをご覧ください。
『日本語話し言葉コーパス』は、講演音声、モノローグ音声などの数種類の自発音声データを、人手による書き起こしデータとともに収録しています。このテストコレクションで文書データとして使用するのは、このうち、学会での講演および、与えられた論題に対する模擬講演の、2種類の講演音声で、総計2,702講演、時間にして約600時間です。
このテストコレクションでは、各タスクの検索対象として、次の2種類の文書を使用します。
NTCIR-9 SpokenDoc (SpokenDoc-1)で使用された、文書データの参照用自動音声認識データは、こちらのページ: Reference Automatic Transcriptions for SpokenDoc-1 から入手可能です。
2種類の自動音声認識データが用意されています。テキスト表現は、ラティスおよびコンフュージョン・ネットワーク表現に加え、二つのバックグラウンドASRシステムに依拠した単語または音節配列のN-bestリストです。
ALLとCORE、二つの検索語リストのセットを配布します。各セットは50件の検索語を含みます。各検索語は、1語あるいはそれ以上の単語からなります。検索語の長さは、4から14モーラの範囲内です。検索語リストのフォーマットは、以下の通りです。
サンプル
各検索課題は、講演の中から様々な長さのパッセージを探すものです。検索課題は自然文による表現です。検索課題リストのフォーマットは、以下の通りです。
サンプル
ファイルは、クエリに関係する情報を表現したブロックの配列で構成されます。各ブロックは、Quey Lineとその後に続く任意の長さのRelevance Judgment Lineからなります。これらのほか、#で始まるComment Lineがあります。
<QueryLine> のフォーマットは、以下の通りです。
<QuerySentence> は、日本語EUCコードでエンコードされた文字列で、二重引用符("")で囲まれています。 <LF> はラインフィード・コードです。
Relevance judgment line <RelLine> のフォーマットは、以下の通りです。
<Interval> および <Comment> は省略可能です。<DocuemntID> は『日本語話し言葉コーパス』の中で定められた各文書(講演)IDです。
<Interval> は、<DocumentID>によって指定された文書中の発話インターバルを示します。フォーマットは以下の通りです。
<IPU> は『日本語話し言葉コーパス』で定義されたInter Pausal UnitのIDです。
<Judgment> は、<DocumentID> および <Interval>により指定された発話インターバルに関する適合性判定結果示します。値は、 "R" (Relevant)、"P" (Partially Relevant)、"I"(Irrelevant)のいずれかです。.
<Support> は適合性に関する支持情報を記述しています。フォーマットは以下の通りです。
各値の意味は、以下の通りです。
<Comment> は、判定に関するコメントを記述しています。その多くは日本語EUCコードでエンコードされています。
NIIから配布するものはいずれも無料です。
参考書類 ---
- NTCIR-9 SpokenDocタスクデータは、NIIのIDRからダウンロードできます:
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
- 利用規程
- NTCIR-9 SpokenDoc タスク統括論文
Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop- NTCIR-9 SpokenDoc タスクウェブサイト
http://www.cl.ics.tut.ac.jp/~sdpwg/index.php?ntcir9
お問い合わせ: ntc-secretariat
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。