システム説明フォーム

日本語・英語検索タスク

[ENGLISH] [NTCIR Home] [ワークショップのホーム] [タスクの説明] [データのサンプル]
(last modified on June 26, 2000)

●記入の注意

1. 日本語・英語検索タスクに参加したチームは、各検索結果ごとに1通、
  このフォームに記入して、2000年9月18日までに送信して下さい。

   このフォームから送信できない場合のみ、テキスト版をダウンロードし
   て記入し、ftp://falcon.rd.nacsis.ac.jp (136.187.19.31)に提出し、
   メールでntc-admin宛にも送信して下さい。

2. 日本語・英語検索タスクで、複数の検索結果を提出する場合は、各検索
  結果の実行IDごとに、1つのシステム説明フォームを提出してください。

3. 参加の種類が 「A. 通常」のチームは、原則としてすべての項目に回答
   してください。該当するデータがない場合は、「該当データなし」と記
   述してください。

4. 参加の種類が、「B.匿名」のチームは、差し障りがある部分については、
   報告しなくても結構ですが、差し支えのない範囲でなるべく記入してく
   ださい。




(a)参加チームID
(b)実行ID
(c)タスク
J-J J-E J-JE E-E E-J E-JE

(d)提出した検索結果ファイル名
(e)検索語リストファイルの有無
yes no
(f)検索結果の優先順位
(g)使用した文書ファイル名
ntc1-j1.mod ntc2-j0g ntc2-j0k ntc1-e1.mod ntc2-e0g
ntc2-e0k ntc1-j1-wakachi ntc2-w0g ntc2-w0k
(h)使用した検索課題ファイル名
topics-j101-150 topics-e101-150 topic-w101-150
(i)使用した検索課題フィールド
TITLE DESCRIPTION NARRATIVE CONCEPT FIELD
(j)検索式の作成法
自動 対話型
※ NTCIR-1 = NACSISテストコレクション1, NTCIR-2 = NIIテストコレクション2


1 索引づけ

1.1 索引づけに用いた方法

(1)日本語の索引単位は何か?
uni-gram bi-gram その他のn-gram 単語 フレーズ 単語+フレーズ
その他

(2)英語の索引単位は何か?
n-gram 単語 フレーズ 単語+フレーズ
その他

(3)日本語文中の英語の索引単位は何か?
n-gram 単語 フレーズ 単語+フレーズ
その他

(4)どのような方法を用いて索引づけをしたか?
NTCIRの語分割データ 辞書 形態素解析
その他

(5)索引語の選択方法は何か?
ストップワード 字種 品詞
その他

(6)語彙(文字)の正規化を行なったか?
yes 具体的に
no

(7)ステミングアルゴリズムを用いたか?
yes 具体的に
no

(8)語の重みづけを用いたか?
yes 具体的に
no

(9)フレーズ単位で索引づけをしたか?
yes no
・フレーズの見つけ方は?
統計的 構文的 その他
・フレーズの作り方
具体的に

(10)構文解析は行なったか?
yes 具体的に
no

(11)シソーラスや用語集などを用いたか?
yes 具体的に
no

(12)語義の曖昧性解消は行なったか?
yes 具体的に
no

(13)誤字脱字やスペルのチェック(手動も含む)は行なったか?
yes 具体的に
no

(14)誤字脱字やスペルの修正は行なったか?
yes 具体的に
no

(15)固有名詞を識別したか?
yes 具体的に
no

(16)どのような方法で索引語を選択したか?
具体的に

(17)日本語のヨミを用いたか?
yes no

(18)ヨミを用いた場合、ヨミはどのように生成したか?
具体的に

(19)索引づけに用いたその他の方法(具体的に)
具体的に

1.2 NTCIR-1&2から構築された索引データの構造

(1)索引の構造の種類は何か?
転置索引 クラスタ シグネチャファイル Pat木 知識ベース
その他(具体的に)

(2)索引の概要
・索引の規模 [MB]
・構築に要した時間 [分]
・実行過程は自動化されているか?(自動化されていない場合には、手動での時間数)
yes no [分]
・語の出現位置(オフセット)は使用したか?
yes no

1.3 NTCIR-1&2以外の情報源から構築されたデータ

(1)独自に構築した補助ファイル
・ファイルの型
シソーラス 知識ベース 辞書 その他
・総記憶量 [MB]
・表現された概念数
・構築に要した計算機の稼動時間 [時間]
・手作業を行なったか?
yes no
・構築に要した手作業の時間 [時間]

(2)外部で構築された補助ファイル(商品含む)
具体的に

2 検索式の作成

2.1 自動的に作成した検索式

(1)検索式を作成するのに要した時間(1課題当たりの平均CPU時間)
[秒]

(2)検索式作成に使用した方法

・索引単位への分割
uni-gram bi-gram その他のn-gram 単語 フレーズ 単語+フレーズ
その他
・フレーズの抽出
yes 具体的に
no
・構文解析
yes 具体的に
no

・語義の曖昧性解消
yes 具体的に
no

・固有名詞の識別
yes 具体的に
no

・検索式の自動拡張
・ブール演算子や近接演算子などの自動的付与
yes 具体的に
no

・その他
具体的に

2.2 手動で作成した検索式

(1)検索式を作成するのに要した時間(1課題当たりの平均時間
[分]

(2)誰が検索式を作成したか?

・分野の専門家
yes no
・このシステムを開発したチームのメンバー
yes no
・計算機システムの専門家
yes no
・その他
yes 具体的に
no

(3)情報検索システムの使用経験
月に1回程度未満 月に1回以上 週に1回以上 毎日使う

(4)当該検索システムの機能の理解
よく理解している 理解している どちらともいえない やや理解していない まったく理解していない

(5)分野の専門家のアドバイスなどを受けた割合


(6)検索式作成に用いたツール

・語の出現頻度リスト
yes 具体的に
no
・知識ベース
yes 具体的に
no
・その他の辞書的ツール(シソーラスや辞書など)
yes 具体的に
no
(7)検索式作成に用いた方法

・語の重みづけ
yes 具体的に
no
・ブール演算子(AND, OR, NOT)
yes 具体的に
no
・近接演算子
yes 具体的に
no
・検索課題に含まれていない語の追加
yes no
・その他
yes 具体的に
no

2.3 対話的な検索式の作成

(1)最初の検索式の作成は自動的か手動か
自動 手動

(2)誰が検索を実行したか?

・分野の専門家
yes no
・このシステムを開発したチームのメンバー
yes no
・計算機システムの専門家
yes no
・その他
yes 具体的に
no

(3)情報検索システムの使用経験
月に1回程度未満 月に1回以上 週に1回以上 毎日使う

(4)当該検索システムの機能の理解
よく理解している 理解している どちらともいえない やや理解していない まったく理解していない

(5)分野の専門家のアドバイスなどを受けた割合


(6)検索を完了するまでの時間(1課題当たりの平均時間)
[分]

(7)検索を終了した理由は何か?
具体的に

(8)対話で使用される方法

・正解文書からの語の再重みづけを行なったか?(レレバンスフィードバック)
yes no
・正解文書からの検索式の展開を行なったか?(レレバンスフィードバック)
yes no
・手動での検索式の修正を行なったか?
yes no

3 検索

3.1 検索時間

(1)検索時間(1検索式に対する平均CPU時間[秒])
[秒]

3.2 検索モデル

(1)ベクトル空間型を用いたか?
yes 具体的に
no

(2)確率型を用いたか?
yes 具体的に
no

(3)その他
具体的に

3.3 ランクづけの要素

(1)TF(語の出現頻度)
yes no

(2)IDF
yes no

(3)その他の重みづけ
yes 具体的に
no

(4)意味の近さ
yes 具体的に
no

(5)文書中の位置
yes 具体的に
no

(6)構文的な手がかり
yes 具体的に
no

(7)語の近接(距離)
yes 具体的に
no

(8)文書の長さ
yes 具体的に
no

(9)その他
具体的に

3.4 計算機についての情報

(1)実験に使用した計算機

(2)その計算機は専用か共用か
専用 共有

(3)ハードディスクの総容量 [GB]

(4)RAMの総容量 [MB]

(5)CPUのクロック数 [MHz]

3.5 その他

(1)上の質問で回答していないシステムの特色(具体的に)


(2)その他(具体的に)


(3)チームの構成員に

・日本語のnative speakerがいる
yes no
・日本語のわかる人がいる
yes no


[J-E, E-J, J-EJ, E-JEの場合]

4 言語横断検索の全体的なアプローチ

(1)言語横断検索に用いた基本的なアプローチは何か?

・検索式の翻訳
yes no
・文書の翻訳
yes no
・コーパス型
yes 具体的に
no
・その他
yes 具体的に
no

(2)少しでも手動の操作が含まれる場合、検索者の日本語の能力はどの程度か?

・native speaker
yes no
・辞書を使用すれば、日本語の論文を書ける
yes no
・辞書を使用すれば、日本語の論文が読める
yes no
・日本語を3ヶ月以上学んだことがある
yes no
・全くできない
yes no
・その他
yes 具体的に
no

(3)少しでも手動の操作が含まれる場合、検索者の英語の能力はどの程度か?

・native speaker
yes no
・辞書を使用すれば、英語の論文を書ける
yes no
・辞書を使用すれば、英語の論文が読める
yes no
・英語を3ヶ月以上学んだことがある
yes no
・全くできない
yes no
・その他
yes 具体的に
no

(4)誤字脱字やスペルのチェック(手動も含む)は行なったか?
yes 具体的に
no

(5)誤字脱字やスペルの修正は行なったか?
yes 具体的に
no

(6)検索式の翻訳方式

6-1 多言語辞書

・既存のもの
yes no
・独自に構築
yes no

6-2 機械翻訳システム

・既存のもの
yes no
・独自に構築
yes no

6-3 その他
具体的に

6-4 翻訳に人手が介在したか
yes 具体的に
no

6-5 検索式の拡張を

・検索式を翻訳する前に行なった。
yes no
・検索式を翻訳した後に行なった。
yes no
・行なわなかった。
yes no

6-6 検索式拡張の方式
・レレバンスフィードバック
yes no
・自動レレバンスフィードバック(ローカル コンテクスト アナリシス)
yes no
・グローバル レレバンスフィードバック
yes no
・同義語辞書・シソーラスなど
yes no
・その他
yes 具体的に
no

6-7 翻訳語の選定にあたり、あいまい性を解消する工夫をした
yes 具体的に
no

5. コメント・質問



[ENGLISH] [NTCIR Home] [ワークショップのホーム] [タスクの説明] [データのサンプル] [このページの先頭]