[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-10 SpokenDoc-2テストコレクションは、講演音声を対象とした音声ドキュメント検索 (SDR) の評価に使用することができます。このテストコレクションには、以下のデータが含まれます。
文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
- 入手方法はこちら
Collection | Task | Target | タスクデータ | ||
質問 | 判定 | ||||
言語 | # | ||||
NTCIR-10 SpokenDoc-2 | STD large-size | CSJ | Japanese | 検索語 100件 | IPU (inter pausal unit) lists in which the query term appeared. (Automatically determined from the manual transcription) |
STD moderate-size, iSTD |
SDPWS | 検索語 100件 + ダミー検索語 100件 | |||
SCR lecture retrieval |
CSJ | 検索トピック 120件 | Relevance judgment at lecture level. | ||
SCR passage retrieval |
SDPWS | 検索トピック 120件 | Two-leval relevance judgment for arbitrary-length passages in the documents, including supporting passages. |
このテストコレクションでは、2つの音声データセットを使用しています。STD大タスクとSCR講義検索タスクは、その文書データとして日本語話し言葉コーパス(CSJ)を使用します。他のタスク(STD中タスク、iSTDタスク、およびSCR講演検索タスク)では、音声ドキュメント処理ワークショップ(SDPWS)のコーパスを使用しています。
このテストコレクションで使用する文書データは、国立国語研究所が提供している『日本語話し言葉コーパス(The Corpus of Spontaneous Japanese (CSJ))』のサブセットです。 利用者は各自、データを購入する必要があります。
詳細は、『日本語話し言葉コーパス』のウェブサイトをご覧ください。
『日本語話し言葉コーパス』は、講演音声、モノローグ音声などの数種類の自発音声データを、人手による書き起こしデータとともに収録しています。このテストコレクションで文書データとして使用するのは、このうち、学会での講演および、与えられた論題に対する模擬講演の、2種類の講演音声で、総計2,702講演、時間にして約600時間です。
これは、第1回〜第6回音声ドキュメント処理ワークショップの録音とその人手による書き起こしデータで構成されています。
情報処理学会SLP研究会(SIG-SLP)音声・音響クラウドワーキンググループから、研究目的で入手できます。
NTCIR-10 SpokenDoc-2評価のために使用されたこの文書データは、情報処理学会SLP研究会(SIG-SLP)音声・音響クラウドワーキンググループからも利用できます。
4種類の自動音声認識データが用意されています。テキスト表現は、ラティスおよびコンフュージョン・ネットワーク表現に加え、二つのバックグラウンドASRシステムに依拠した単語または音節配列のN-bestリストです。
検索語リストとして、CSJ(大型タスク)用のリストとSDPWSためのリスト(適度なサイズのタスクとISTDタスク)の2つを提供します。
各検索語は、1つまたは複数の単語から構成されています。検索語の長さは、3から14モーラ(大型タスク)と3から18モーラ(iSTDタスク)の範囲内です。検索語リストのフォーマットは、以下の通りです。
サンプル
検索課題は自然文による表現です。検索課題リストのフォーマットは、以下の通りです。
サンプル
ファイルは、整形式のXML文書です。これは、単一のroot levelのタグ<ROOT>を有します。ルート以下に、2つのMainタグ、<RUN>と<results>があります。
<RUN> タグは、タスク名を示し、以下のように書かれています。
<RESULTS> タグは <QUERY> タグのリストが含まれています。
<QUERY> タグは以下の3つの属性を持っています。
<QUERY> タグは <TERM> タグのリストも含みます。
<TERM> タグは関連する出現を示す属性を持っています。属性は以下の通りです。
適度なサイズのタスクとISTDのタスクが同じクエリセットを使用することに注意してください。
クエリ用語の半分(100)は適度なサイズのタスクのために使用されます。したがって、ISTD問合せ語句のない<TERM>タグがありません。
適度なサイズのタスクにおける<results>セクションのフォーマット例は以下のとおりです。
The query set for the moderate-size task includes 53 OOV query terms and 47 IV query terms. The total numbers of IPUs including the OOV and IV terms are 480 and 458 in the SDPWS speeches, respectively.
On the other hand, the query set for the large-size task has 54 OOV and 46 IV query terms. The total numbers of IPUs of the OOV and IV terms are 844 and 953 in the CSJ speeches, respectively.
ファイルは、整形式のXML文書です。これは、単一のroot levelのタグ<ROOT>を有します。ルート以下に、2つのMainタグ、<RUN>と<results>があります。
<RUN> タグは、タスク名を示し、以下のように書かれています。
<RESULTS> タグは <QUERY> タグのリストが含まれています。
<QUERY> タグは対応する検索語を示す"id"属性を持ち、<CANDIDATE>タグのリストを含みます。<CANDIDATE>タグは関連するドキュメントまたは会話を特定するための属性セットを持ちます。属性は以下の通りです。
NIIから配布するものはいずれも無料です。
参考書類 ---
- NTCIR-10 SpokenDocタスクデータは、NIIのIDRからダウンロードできます:
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
- 文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
-入手方法はこちら
お問い合わせ: ntc-secretariat
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。