NTCIR Project
NTCIR-10 SpokenDoc-2 (音声ドキュメント検索)
データ利用手続き（研究目的用）

NTCIR-10 SpokenDoc-2(音声ドキュメント検索)

NTCIR-10 SpokenDoc-2テストコレクションは、講演音声を対象とした音声ドキュメント検索 (SDR) の評価に使用することができます。このテストコレクションには、以下のデータが含まれます。

Spoken Term Detection (STD)大タスク用　検索語　100件
Spoken Term Detection (STD)中タスク用　検索語　100件 + 存在しないSpoken Term Detection (iSTD)タスク用ダミー検索語 100件
音声コンテンツ検索（SCR）講演検索タスク用検索トピック 120件
音声コンテンツ検索（SCR）会話検索タスク用検索トピック 120件
STD中タスク（検索語100件）に対するゴールド・スタンダード
STD大タスク（検索語100件）に対するゴールド・スタンダード
SCR講演検索タスク（検索トピック120件）に対するゴールド・スタンダード（適合性判定データ）
SCR会話検索タスク（検索トピック120件）に対するゴールド・スタンダード（適合性判定データ）
STDタスク、iSTDタスク用採点ツール
SCRタスク用採点ツール

文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
- 入手方法はこちら

Collection	Task	Target	タスクデータ
			質問		判定
			言語	#
NTCIR-10 SpokenDoc-2	STD large-size	CSJ	Japanese	検索語　100件	IPU (inter pausal unit) lists in which the query term appeared. (Automatically determined from the manual transcription)
	STD moderate-size, iSTD	SDPWS		検索語　100件 + ダミー検索語 100件
	SCR lecture retrieval	CSJ		検索トピック　120件	Relevance judgment at lecture level.
	SCR passage retrieval	SDPWS		検索トピック　120件	Two-leval relevance judgment for arbitrary-length passages in the documents, including supporting passages.

「音声データ」

このテストコレクションでは、２つの音声データセットを使用しています。STD大タスクとSCR講義検索タスクは、その文書データとして日本語話し言葉コーパス（CSJ）を使用します。他のタスク（STD中タスク、iSTDタスク、およびSCR講演検索タスク）では、音声ドキュメント処理ワークショップ（SDPWS）のコーパスを使用しています。

このテストコレクションで使用する文書データは、国立国語研究所が提供している『日本語話し言葉コーパス（The Corpus of Spontaneous Japanese (CSJ))』のサブセットです。　利用者は各自、データを購入する必要があります。
詳細は、『日本語話し言葉コーパス』のウェブサイトをご覧ください。

『日本語話し言葉コーパス』は、講演音声、モノローグ音声などの数種類の自発音声データを、人手による書き起こしデータとともに収録しています。このテストコレクションで文書データとして使用するのは、このうち、学会での講演および、与えられた論題に対する模擬講演の、2種類の講演音声で、総計2,702講演、時間にして約600時間です。

「音声ドキュメント処理ワークショップのコーパス（SDPWS）」

これは、第1回～第6回音声ドキュメント処理ワークショップの録音とその人手による書き起こしデータで構成されています。
情報処理学会SLP研究会（SIG-SLP）音声・音響クラウドワーキンググループから、研究目的で入手できます。

「参照用自動音声認識データ」

NTCIR-10 SpokenDoc-2評価のために使用されたこの文書データは、情報処理学会SLP研究会（SIG-SLP）音声・音響クラウドワーキンググループからも利用できます。

4種類の自動音声認識データが用意されています。テキスト表現は、ラティスおよびコンフュージョン・ネットワーク表現に加え、二つのバックグラウンドASRシステムに依拠した単語または音節配列のN-bestリストです。　　

Word-based transcriptions obtained by using a word-based ASR system. In other words, a word n-gram model is used for the language model of the ASR system. With the textual representation, it also provides the vocabulary list used in the ASR.
Syllable-based transcription obtained by using a syllable-based ASR system. The syllable n-gram model is used for the language model, where the vocabulary is the all Japanese syllables.

こららのトランスクリプションの取得には2種類の異なる言語モデルが用いられています。１つは講義テキストにマッチしたものでもう１つは不一致な新聞記事です。
したがって、4つのトランスクリプションがそれぞれのテストコレクションに用意されています：
word-based with high WER, word-based with low WER, syllable-based with high WER, and syllable-based with low WER

検索語 (for STD task)

検索語リストとして、CSJ（大型タスク）用のリストとSDPWSためのリスト（適度なサイズのタスクとISTDタスク）の２つを提供します。
各検索語は、1つまたは複数の単語から構成されています。検索語の長さは、3から14モーラ（大型タスク）と3から18モーラ（iSTDタスク）の範囲内です。検索語リストのフォーマットは、以下の通りです。

TERM-ID term Japanese_katakana_sequence

サンプル

SpokenDoc2-STD-formal-SDPWS-001 アーティキュレーションアーティキュレーション
SpokenDoc2-STD-formal-SDPWS-002 ＩＢＭアイビーエム
SpokenDoc2-STD-formal-SDPWS-003 アカデミックハラスメントアカデミックハラスメント
SpokenDoc2-STD-formal-SDPWS-004 Ａｄａｂｏｏｓｔアダブースト
...

検索課題 (for SDR task)

検索課題は自然文による表現です。検索課題リストのフォーマットは、以下の通りです。

TOPIC-ID question

サンプル

SpokenDoc1-dry-0001 話者認識の学習データのサイズが知りたい
SpokenDoc1-dry-0002 オークションにおける自動入札戦略を知りたい
SpokenDoc1-dry-0003 日本語話し言葉コーパスを用いている研究を教えてください
SpokenDoc1-dry-0004 情報検索性能を評価するにはどのような方法があるか知りたい
...

Gold Standard

ファイルは、整形式のXML文書です。これは、単一のroot levelのタグ<ROOT>を有します。ルート以下に、2つのMainタグ、<RUN>と<results>があります。

<RUN> タグは、タスク名を示し、以下のように書かれています。

# for the large-size task
<RUN>
<SUBTASK>STD</SUBTASK>
<TARGET>CSJ</TARGET>
</RUN>

# for the moderate-size and iSTD task
<RUN>
<SUBTASK>STD, iSTD</SUBTASK>
<TARGET>SDPWS</TARGET>
</RUN>

<RESULTS> タグは <QUERY> タグのリストが含まれています。

<QUERY> タグは以下の３つの属性を持っています。

id: 検索語ID
term: 検索語のテキスト
category: 検索語タイプを示します：out-of-vocabulary (OOV), in-vocabulary (IV) そして inexsitent query (iSTD)です。
The definition of OOV and IV queries is according to the reference ASR dictionary of the matched-conditioned word-based larguage model provided by the task organizers. The iSTD query terms are obviously NOT in any speech of SDPWS.

<QUERY> タグは <TERM> タグのリストも含みます。
<TERM> タグは関連する出現を示す属性を持っています。属性は以下の通りです。

document: 文書ID
ipu: Its value indicates the IPU of the correct occurence.

適度なサイズのタスクとISTDのタスクが同じクエリセットを使用することに注意してください。
クエリ用語の半分（100）は適度なサイズのタスクのために使用されます。したがって、ISTD問合せ語句のない<TERM>タグがありません。

適度なサイズのタスクにおける<results>セクションのフォーマット例は以下のとおりです。

The query set for the moderate-size task includes 53 OOV query terms and 47 IV query terms. The total numbers of IPUs including the OOV and IV terms are 480 and 458 in the SDPWS speeches, respectively.
On the other hand, the query set for the large-size task has 54 OOV and 46 IV query terms. The total numbers of IPUs of the OOV and IV terms are 844 and 953 in the CSJ speeches, respectively.

Gold Standard (for SCR task)

ファイルは、整形式のXML文書です。これは、単一のroot levelのタグ<ROOT>を有します。ルート以下に、2つのMainタグ、<RUN>と<results>があります。

<RUN> タグは、タスク名を示し、以下のように書かれています。

<RESULTS> タグは <QUERY> タグのリストが含まれています。

<QUERY> タグは対応する検索語を示す"id"属性を持ち、<CANDIDATE>タグのリストを含みます。<CANDIDATE>タグは関連するドキュメントまたは会話を特定するための属性セットを持ちます。属性は以下の通りです。

document: Its value indicates the docuemnt ID
ipu-from: Its value indicates the first IPU of the relevant passage. It is used only for the passage retrieval task.
ipu-to: Its value indicates the last IPU of the relevant passage. It is used only for the passage retrieval task.
relevancy: Its value indicates the relevancy level, which is either "R" (Relevant), "P" (Partially Relevant), or "I"(Irrelevant).

<RESULT> タグのフォーマット例は以下の通りです。

<RESULT>
<QUERY id="SpokenDoc2-SCR-formal-PAS-001">
<CANDIDATE document="07-01" ipu-from="0063" ipu-to="0071" relevancy="P" />
<CANDIDATE document="07-01" ipu-from="0090" ipu-to="0107" relevancy="R" />
...

NIIから配布するものはいずれも無料です。

NTCIR-10 SpokenDocタスクデータは、NIIのIDRからダウンロードできます：
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html

文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
-入手方法はこちら

参考書類　---

利用規程
NTCIR-10 SpokenDoc タスク統括論文

NTCIR-10 SpokenDoc タスクウェブサイト

お問い合わせ： ntc-secretariat

注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。

[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]
Updated on : 2013-08-30
ntc-admin

NTCIR Project NTCIR-10 SpokenDoc-2 (音声ドキュメント検索) データ利用手続き （研究目的用）