NTCIR Project
NTCIR-10 SpokenDoc-2 (音声ドキュメント検索)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-10 SpokenDoc-2(音声ドキュメント検索)



NTCIR-10 SpokenDoc-2テストコレクションは、講演音声を対象とした音声ドキュメント検索 (SDR) の評価に使用することができます。このテストコレクションには、以下のデータが含まれます。

文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
- 入手方法はこちら

Collection Task Target タスクデータ
質問 判定
言語 #
NTCIR-10 SpokenDoc-2 STD large-size CSJ Japanese 検索語 100件 IPU (inter pausal unit) lists in which the query term appeared. (Automatically determined from the manual transcription)
STD moderate-size,
iSTD 
SDPWS 検索語 100件 + ダミー検索語 100件
SCR lecture
retrieval
CSJ 検索トピック 120件 Relevance judgment at lecture level.
 SCR passage
retrieval
SDPWS 検索トピック 120件 Two-leval relevance judgment for arbitrary-length passages in the documents, including supporting passages.

文書データ, 検索課題および適合判定

文書データ

「音声データ」

このテストコレクションでは、2つの音声データセットを使用しています。STD大タスクとSCR講義検索タスクは、その文書データとして日本語話し言葉コーパス(CSJ)を使用します。他のタスク(STD中タスク、iSTDタスク、およびSCR講演検索タスク)では、音声ドキュメント処理ワークショップ(SDPWS)のコーパスを使用しています。

「日本語話し言葉コーパス(CSJ)」

このテストコレクションで使用する文書データは、国立国語研究所が提供している『日本語話し言葉コーパス(The Corpus of Spontaneous Japanese (CSJ))』のサブセットです。 利用者は各自、データを購入する必要があります。
詳細は、『日本語話し言葉コーパス』のウェブサイトをご覧ください。

『日本語話し言葉コーパス』は、講演音声、モノローグ音声などの数種類の自発音声データを、人手による書き起こしデータとともに収録しています。このテストコレクションで文書データとして使用するのは、このうち、学会での講演および、与えられた論題に対する模擬講演の、2種類の講演音声で、総計2,702講演、時間にして約600時間です。

「音声ドキュメント処理ワークショップのコーパス(SDPWS)」

これは、第1回〜第6回音声ドキュメント処理ワークショップの録音とその人手による書き起こしデータで構成されています。
情報処理学会SLP研究会(SIG-SLP)音声・音響クラウドワーキンググループから、研究目的で入手できます。

「参照用自動音声認識データ」

NTCIR-10 SpokenDoc-2評価のために使用されたこの文書データは、情報処理学会SLP研究会(SIG-SLP)音声・音響クラウドワーキンググループからも利用できます。

4種類の自動音声認識データが用意されています。テキスト表現は、ラティスおよびコンフュージョン・ネットワーク表現に加え、二つのバックグラウンドASRシステムに依拠した単語または音節配列のN-bestリストです。  

こららのトランスクリプションの取得には2種類の異なる言語モデルが用いられています。1つは講義テキストにマッチしたものでもう1つは不一致な新聞記事です。
したがって、4つのトランスクリプションがそれぞれのテストコレクションに用意されています:
word-based with high WER, word-based with low WER, syllable-based with high WER, and syllable-based with low WER


検索語 (for STD task)

検索語リストとして、CSJ(大型タスク)用のリストとSDPWSためのリスト(適度なサイズのタスクとISTDタスク)の2つを提供します。
各検索語は、1つまたは複数の単語から構成されています。検索語の長さは、3から14モーラ(大型タスク)と3から18モーラ(iSTDタスク)の範囲内です。検索語リストのフォーマットは、以下の通りです。

TERM-ID term Japanese_katakana_sequence

サンプル

SpokenDoc2-STD-formal-SDPWS-001 アーティキュレーション アーティキュレーション
SpokenDoc2-STD-formal-SDPWS-002 IBM アイビーエム
SpokenDoc2-STD-formal-SDPWS-003 アカデミックハラスメント アカデミックハラスメント
SpokenDoc2-STD-formal-SDPWS-004 Adaboost アダブースト
...

検索課題 (for SDR task)

検索課題は自然文による表現です。検索課題リストのフォーマットは、以下の通りです。

TOPIC-ID question

サンプル

SpokenDoc1-dry-0001 話者認識の学習データのサイズが知りたい
SpokenDoc1-dry-0002 オークションにおける自動入札戦略を知りたい
SpokenDoc1-dry-0003 日本語話し言葉コーパスを用いている研究を教えてください
SpokenDoc1-dry-0004 情報検索性能を評価するにはどのような方法があるか知りたい
...

Gold Standard

ファイルは、整形式のXML文書です。これは、単一のroot levelのタグ<ROOT>を有します。ルート以下に、2つのMainタグ、<RUN>と<results>があります。

<RUN> タグは、タスク名を示し、以下のように書かれています。

# for the large-size task
<RUN>
<SUBTASK>STD</SUBTASK>
<TARGET>CSJ</TARGET>
</RUN>

# for the moderate-size and iSTD task
<RUN>
<SUBTASK>STD, iSTD</SUBTASK>
<TARGET>SDPWS</TARGET>
</RUN>

<RESULTS> タグは <QUERY> タグのリストが含まれています。

<QUERY> タグは以下の3つの属性を持っています。

id
検索語ID
term
検索語のテキスト
category
検索語タイプを示します:out-of-vocabulary (OOV), in-vocabulary (IV) そして inexsitent query (iSTD)です。
The definition of OOV and IV queries is according to the reference ASR dictionary of the matched-conditioned word-based larguage model provided by the task organizers. The iSTD query terms are obviously NOT in any speech of SDPWS.

<QUERY> タグは <TERM> タグのリストも含みます。
<TERM> タグは関連する出現を示す属性を持っています。属性は以下の通りです。

document
文書ID
ipu
Its value indicates the IPU of the correct occurence.

適度なサイズのタスクとISTDのタスクが同じクエリセットを使用することに注意してください。
クエリ用語の半分(100)は適度なサイズのタスクのために使用されます。したがって、ISTD問合せ語句のない<TERM>タグがありません。

適度なサイズのタスクにおける<results>セクションのフォーマット例は以下のとおりです。

<RESULTS>
<QUERY id="SpokenDoc2-STD-formal-SDPWS-001" term="アーティキュレーション" category="OOV">
<TERM document="09-17" ipu="0189" />
<TERM document="09-17" ipu="0198" />
<TERM document="09-17" ipu="0212" />
...
</RESULTS>

The query set for the moderate-size task includes 53 OOV query terms and 47 IV query terms. The total numbers of IPUs including the OOV and IV terms are 480 and 458 in the SDPWS speeches, respectively.
On the other hand, the query set for the large-size task has 54 OOV and 46 IV query terms. The total numbers of IPUs of the OOV and IV terms are 844 and 953 in the CSJ speeches, respectively.

Gold Standard (for SCR task)

ファイルは、整形式のXML文書です。これは、単一のroot levelのタグ<ROOT>を有します。ルート以下に、2つのMainタグ、<RUN>と<results>があります。

<RUN> タグは、タスク名を示し、以下のように書かれています。

<RUN><SUBTASK>SCR</SUBTASK></RUN>

<RESULTS> タグは <QUERY> タグのリストが含まれています。

<QUERY> タグは対応する検索語を示す"id"属性を持ち、<CANDIDATE>タグのリストを含みます。<CANDIDATE>タグは関連するドキュメントまたは会話を特定するための属性セットを持ちます。属性は以下の通りです。

document
Its value indicates the docuemnt ID
ipu-from
Its value indicates the first IPU of the relevant passage. It is used only for the passage retrieval task.
ipu-to
Its value indicates the last IPU of the relevant passage. It is used only for the passage retrieval task.
relevancy
Its value indicates the relevancy level, which is either "R" (Relevant), "P" (Partially Relevant), or "I"(Irrelevant).
<RESULT> タグのフォーマット例は以下の通りです。
<RESULT>
<QUERY id="SpokenDoc2-SCR-formal-PAS-001">
<CANDIDATE document="07-01" ipu-from="0063" ipu-to="0071" relevancy="P" />
<CANDIDATE document="07-01" ipu-from="0090" ipu-to="0107" relevancy="R" />
...

 入手方法

NIIから配布するものはいずれも無料です。
参考書類 ---   
お問い合わせ: ntc-secretariat


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。