NTCIR Project
NTCIR-13 MedWeb
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-13 MedWeb (Medical Natural Language Processing for Web Document)

テストコレクションの概要

NTCIR-13 MedWeb では,任意のツイートに対して,8つの病気または症状(インフルエンザ,下痢/腹痛,花粉症,咳/喉の痛み,頭痛,熱,鼻水/鼻づまり,風邪)の罹患の有無を割り当てるマルチラベル分類タスクを実施いたしました.本タスクは,日本語サブタスク,英語サブタスク,中国語サブタスクの3つのサブタスクから構成されています.

NTCIR-13 MedWeb では,8つの病気または症状のマルチラベルが付与されたツイートテキストを配布しました.サブタスクに合わせて3つのコーパス(日本語コーパス,英語コーパス,中国語コーパス)を配布しています.各コーパスは,学習データ1,920 発言,テストデータ640 発言から構成されています. 詳細は下記のタスクデータやタスク統括論文(Overview of the NTCIR-13: MedWeb Task [PDF])をご参照ください.

References

本テストコレクションを利用される場合には,下記の論文を必ず参照してください.

Shoko Wakamiya, Mizuki Morita, Yoshinobu Kano, Tomoko Ohkuma and Eiji Aramaki: Overview of the NTCIR-13 MedWeb Task, In Proceedings of the 13th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-13), pp. 40-49, 2017. [PDF]

タスクデータ

NTCIR-13 MedWeb では,8つの病気または症状のマルチラベルが付与されたツイートテキストからなるコーパスを配布しました.サブタスクに合わせて3つのコーパス(日本語コーパス,英語コーパス,中国語コーパス)を用意しています.

ツイートテキスト

Twitterから収集したツイートデータの再配布が禁止されているため,クラウドソーシングにより模擬ツイートテキストを作成しました.まず,日本語のツイートテキストを作成し,英語と中国語に翻訳しました.各ツイートに付与されているIDは,日・英・中で対応しています.例えば,日本語ツイートIDが135jaの場合,そのツイートを英語に翻訳したツイートIDは135en,中国語に翻訳したツイートIDは135zhとなっています(下表).

ラベル

日本語ツイートに対して2名のアノテータが8つの病気または症状(インフルエンザ,下痢/腹痛,花粉症,咳/喉の痛み,頭痛,熱,鼻水/鼻づまり,風邪)について陽性 (Positive:p) または陰性 (Negative:n) のラベルを付与しました.なお,アノテーションの基準については,ガイドライン(日本語)[figshare] をご覧ください.英語ツイートおよび中国語ツイートのラベルには,対応する日本語ツイートのラベルを付与しています.表に例を示します.

コーパスサイズ

日本語コーパス,英語コーパス,そして中国語コーパスはそれぞれ,陽性 (Positive:p) または陰性 (Negative:n) のラベルが付与された2,560件のツイートテキストからなります. コーパスごとに,学習データはツイートテキスト 1,920 件(コーパスの75%),テストデータはツイートテキスト 640 件(コーパスの25%)から構成されています.

表.ラベル付きツイートテキストの例
ID Tweet Influenza Diarrhea Hayfever Cough Headache Fever Runnynose Cold
135ja 風邪で鼻づまりがやばい。 n n n n n n p p
135en I have a cold, which makes my nose stuffy like crazy. n n n n n n p p
135zh 感冒引起的鼻塞很烦人。 n n n n n n p p

入手方法

NIIから配布するものはいずれも無料です。

クリエイティブ・コモンズ・ライセンス (CC BY 4.0)
NTCIR-13 MedWebテストコレクション は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。

参考書類

お問い合わせ: ntc-secretariat


[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]