本報告は基盤研究(C)19500135、「専門分野テキストコーパスからの体系化された用語抽出」の研究報告である。

専門分野テキストコーパスからの体系化された用語抽出

小山 照夫
国立情報学研究所
t_koyama@nii.ac.jp

    

竹内 孔一
岡山大学大学院自然科学研究科
koichi@cl.cs.okayama-u.ac.jp

概要

 用語は様々な研究分野において研究成果を記述するために用いられる言語記号である。研究成果の記述された文書を高度利用し、さらなる研究の発展を期する上で重要な役割を担っている。しかしながらこのような用語の重要性にもかかわらず、用語を網羅的に収集し、体系的に整理することは、必ずしも十分に行われているとは言えない現状がある。
 既存の研究文書群から用語となりうる文字列を効率的に抽出することができるなら、様々な分野の研究を推進する上で大きな助けとなることが期待される。本研究では、日本語の特性を考慮した用語候補の網羅的抽出方法を開発するとともに、抽出された用語間の関係を入れ子関係に基づいて整理し、また、用語候補を関連する研究部分テーマに関連付けることによって体系化する方法論を明らかにしている。

1. テキストの中に出現する用語

 用語は、学術研究を記述する上での重要な言語記号である。学術研究はその本来の目的からして、新しい概念を提案することが要請される。学術研究の成果を記述するためには、そこで提案される概念を表す言語記号が用いられなければならない。この役割を担うのが用語である。
 用語は基本的には文章内で名詞的機能を持つ言語記号と位置付けられるが、これらは、単位的記号(形態素)と複数の形態素からなる複合的構造を持つものに分類できる。さらに後者は、複合語、句構造、節構造などに分類することが可能である。ただし、これらの全てが用語として適切なものと考えられるわけではない。
 用語は概念記述の基本的な単位という側面も持っており、研究分野で取り上げられる概念を表すと同時に、一つのまとまりとして位置付けられることも要請される。影浦はこのあたりの事情をTermhoodおよびUnithoodとして提示しているが[1]、しかし、ある言語記号が用語として認められるかどうかは、多分に主観的な判定基準が入ってくる側面も存在する。
 したがってテキスト中に出現する用語を抽出するためには、まずテキストに出現する名詞概念を記述する文字列を判別し、それぞれについて分野において重要な概念を記述しているか、また、一つのまとまりとして感じることができるかを判断することが重要となる。

2. テキストからの用語抽出

 用語は当該研究分野のテキストの中で用いられる。人間は比較的容易にテキスト内に出現する用語を判断することができる。従来のテキストからの用語抽出は主として人間の判断に基づいて行われてきた。この方法は、作業者が十分な訓練を積んでいれば信頼性の高い方法であるが、実際に大量のテキストから用語を抽出する作業は大きな労力を要することとなる。そこで、用語となる候補文字列を機械的に抽出する方法が考えられないかが問題となる。用語を完全に自動的に抽出できるか、そうでなくても人間の作業を十分に支援できるならば、その効果は大きいと考えられる[2]。
 用語は専門分野テキストの中で名詞的機能を担う文字列として出現するから、テキストを構文解析することにより、名詞句がうまく同定できるなら、そこから機能語などを除いた名詞部分を取り出すなら、ある意味で用語候補が抽出できることになる。実際には構文解析やそれ以前の形態素解析が完全には信頼できないこと、また、テキストに出現するすべての名詞的文字列を用語候補とみなすことは不適切であることから、この方法が常にうまく行くわけではない。用語抽出に当たっては、出現する用語候補をできるだけ網羅的に、かつ余分なものを含まないような形で抽出が行われる必要がある。これはそれぞれ、情報検索などで評価指標として用いられる、再現率および適合率に相当すると考えてよい。
 構文解析の精度が必ずしも期待できない現状では、形態素解析結果から、名詞としてのまとまりを構成していると考えられる単独形態素ないしは形態素列を選び出すのが、名詞的文字列を網羅的に抽出する方法として有力な方法と考えられる。
 ただし、この方法によって抽出された文字列は、多くの非用語を含むことが予想される。したがって、抽出された文字列の中から用語として可能性の高いものを選び出す必要がある。

2.1. 統計的指標に基づく用語性評価

 名詞的文字列の中で、用語となる可能性の高いものを選択する基準として、一般的に考えられるのは、文字列がコーパス中に出現する頻度である[3]。また、例えば学会単位での文書を集めたコーパスでは、多くの文書に共通して出現するものは、むしろ用語となりにくいという事実もある。一般に学会などの単位で選択された文書では、文書ごとに注目する視点が異なっているのが普通であり、特定の研究テーマに限れば、そのテーマを扱う文書は全体からすると比較的少数に止まる傾向がある。同様の視点になるが、特定の用語を用いている文書が特定のテーマに関する問題を扱っているとするなら、そこで用いられている語彙の全体は、コーパス全体と比較して、ある程度偏ったものとなっていることが考えられるのであり、この特徴から特定の文字列の用語性を評価することも考えられる[4]。
 用語が特定の研究テーマに関連する議論の中で用いられることを考えれば、例えば最初にいくつかの重要な語が明らかになっている場合、これらの語との共起強度に基づいて用語性を判定することも考えられる[5]。
 以上の基準は、対象とする文字列が単一形態素であっても、また、複数の形態素からなる複合的な構造を持つものであっても共通に適用可能である。問題とする文字列が複合的な構造を持つ場合、また、別の基準を考えることもできる。複合的な構造を持つ名詞的文字列では、もしその文字列が一つのまとまりを構成すると考えられるなら、それは全体として単一形態素と比較すれば粒度の細かな概念を記述するものと考えられる。これは、それ自体用語として成立している可能性が高いことを示唆するものと考えられる。ここで複数の形態素の連続が一まとまりのものとして捉えられるかを判定する基準として、形態素相互の結合が強いかどうかを考えることができ[6-7]。結合の強い部分で文字列を切ることが考え難いのに対して結合の弱い部分ではむしろ積極的に文字列を分けることが自然な考え方となるであろう。
 問題は特定の形態素の間の結合傾向の強度をどのようにして評価するかであるが、もっとも単純には、コーパス全体の中で形態素同士が連接して出現する数が、それぞれの形態素の頻度に対して相対的に多いか少ないかで判断することが考えられる。また、指標のバリエーションとしては、個別の形態素ではなく形態素の分類で考える、あるいは一対一の関係ではなく前後数形態素の範囲で評価するなどが考えられる。
 文字列の頻度や特異性、あるいは形態素間の結合強度は、いずれも、対象とするコーパス内での特定パタンの出現に関する統計的なモデルを基本としている。それだけにこれらの方法では、類似のパタンが一定数以上コーパス内に出現していないと、信頼のおける評価が難しくなる。
 一方、実際の用語を考えるなら、そのコーパス内出現頻度は必ずしも高い場合ばかりではない。そもそも用語について考えるなら、例えば特定の学会における一部の興味対象を記述するために用いられるものが多いと考えられる。これは、コーパス全体の中では、その用語が出現する文書は必ずしも多くないことを意味する。既に述べた、用語が出現する文書の偏りというものはこのことを反映していると言うことができるであろう。さらに、研究文献では対象を記述する際に、様々な視点からの議論が行われるが、用語のいくつかは特定の対象に関連する特定の視点に限定して用いられるものもある。このことは、用語が出現する文脈をさらに限定することとなり、一部の用語がコーパス内に出現する頻度をさらに低いものとすることを示す。
 一つの例として、情報検索研究資源であるNTCIR-I学会発表コーパスの中で、情報処理学会研究発表抄録集について言うなら、このコーパスは平均約290文字の抄録26,815を含んでいるが、出現頻度が必ずしも高くない文字列であっても、用語と認められる可能性の高いものは決して少なくない。むしろ、用語候補の種類からすると、低頻度語の方が圧倒的に多いと言うことができる。対象とするコーパスに出現する自然言語処理関連のものからいくつか例を挙げるなら、

    頻度3: 品詞接続強度、対訳例文、形態素解析器
    頻度2: 構文多義、統制語彙、格支配構造
    頻度1: 表層格解析、不定詞句、用言辞書

などがある。これらの候補を文字列出現頻度に基づいて評価することは難しいと考えられるであろう。形態素接続強度を用いる方法では、もう少し問題が緩和される可能性はあるが、それでも形態素連接頻度の低いものについて評価することは、必ずしも容易ではない。

2.2. 外形的特徴に基づく用語性評価

 統計的指標に基づく評価では、多くの低頻度候補に対して適切な評価が難しいとするならば、候補の外形的特徴、すなわち形態素連接パタンに基づく評価によって用語性の判定ができないかが問題となる[8,9]。日本語では用語とみなせる文字列の大部分が複合名詞の形を取ると考えられることから、外形的特徴による評価が有力ではないかと考えられる。一方でヨーロッパ系の言語では、複合語化の傾向は見られるが、句構造や節構造に基づく名詞が用語となることも多い。それでは、これらの名詞的構造のすべてを用語候補とするならどうなるか。予想としては非用語として、一般の名詞が多量に入り込んで適合度を落とすように思われる。しかしDailleなどの研究[10]では、それほど適合度が低下するわけではないという報告もなされている。
 これは、一見直観と反するように見えるが、おそらくクラスとトークンの相違が効いているものと思われる。すなわち、用語では多様な概念を記述する必要から、トークンとしての頻度は低くても、クラスとしての種類は多数にのぼるといいう事情があると推定される。一般の名詞は、トークンとしての頻度は大きくても、クラスとしての種類はそれほど多くないので、結局様々な形の名詞を集めてみればそこに含まれる一般名詞の種類は、用語としての名詞の種類に対して少数に止まるものと考えられる。
 日本語の場合、句構造や節構造で表すことのできる名詞に対して多くの場合同等の複合語を考えることが可能であり、しかも類似の概念記述に際して、用語の場合は複合語型を用いるのに対して一般名詞の場合むしろ句構造や節構造を取る傾向があると言える。例えば「大規模構造物」という文字列では用語性が強く感じられるのに対して「大規模な構造物」という文字列では、Unithoodが低く感じられ、ひいては用語性の低い一般名詞と感じられる。
 以上のことから、日本語では専門分野コーパスから複合語名詞を抽出してやれば、そのほとんどが用語となることが期待できる。また、複合語でない複数形態素からなる名詞はほとんどの場合用語性がそれほど高くないと考えてよい所から、網羅性という観点からもそれほど悪くないと期待できる。
 もちろん一方で単一形態素のみからなる用語というものも考えられるのであり、これらについては複合語という外形的特徴によって抽出することはできない。ただ、単一の形態素は多くの場合出現頻度も高く、統計的指標を適用しやすい面がある。また、複合語用語と比較すると、一つには記述する概念粒度が大きいこと、また一つにはクラスとしての種類が比較的少ないこと、複合語の構成要素としてみた場合、複合語の構造から用語としての位置づけを推定できる可能性があることなどから、単一形態素用語の抽出に関しては別途様々な方式を考えることができると同時に、重要度や種類という観点から、抽出が不十分でも相対的に影響は小さいと考えられる。したがってこの種の用語の抽出については、別途方策を考えるのが妥当であろう。
 日本語では複合的構造を持つ用語の大部分が複合語としての構造を持つと考えられる。日本語では複合語は名詞的形態素の連接として出現するから、形態素の分類として、各種名詞、名詞形接頭辞及び接尾辞、動詞・形容詞語幹、動詞連用形に分類される形態素に加えて、形態素が解析辞書に登録されていない場合を考え、未定義語を加えたものが連接する形で構成される文字列を抽出すれば良いことになる。
 しかし、例えばipadicなど、現在広く用いられている形態素解析辞書の分類に従って文字列を抽出すると、しばしば用語として不適切な文字列が切り出される。実際に切り出された文字列の詳細を検討すると、その主な原因として、形態素解析誤りと、形態素分類に不十分なものがあることが分かる。形態素解析誤りは、専門分野文書で用いられる形態素が登録されていないこと、形態素境界解釈に多義性がある場合に境界を誤って判断すること、また同一文字列に対して分類多義性の存在する形態素について、解釈を誤る場合とがある。また、形態素分類の不十分さとしては、特に名詞系の形態素について、機能が相当程度異なるものが同一分類とされていることなどがある。用語として不適切な文字列の抽出を抑制するためには、これらの影響を軽減する方法を考える必要がある。

2.2.1. 形態素解析誤り

 必要な形態素が辞書に登録されていなかったり、形態素境界の判定を誤ったりする場合、本来の形態素とは異なる区切りで、異なる分類の形態素列が得られることになるここで、誤った形態素境界が、本来抽出すべき用語の境界に影響する場合、その修正を行うことは困難であると考えられる。一方、形態素境界が誤っていても、用語境界が形態素境界として解析されている場合には、少なくとも外見上は正しい用語文字列を抽出できる可能性がある。例えば文字列が漢字ないしカタカナで、誤って判定された形態素が名詞系と分類されている場合には、最終的に結合された結果は外見上は正しい用語候補となっている可能性がある。一方でひらがなを含む形態素の境界が誤って判定された場合には、しばしば問題を生じる。一方、分類多義のある形態素についての分類誤りは、名詞系同士の分類を誤る場合には、多くの場合外形的には正しい候補が得られることになる。
 これらの誤り自体を修正するためには、形態素辞書への新規形態素登録や、形態素解析に当たっての形態素判定基準を見直すことになるが、特に判定基準の見直しについては、影響が広範囲に渡る可能性があり、単純に特定ケースが正しく解釈されるように基準を修正すれば良いというわけではない。結局は形態素辞書については、不足している形態素の追加登録や、不適切な形態素の除去などをおこないつつ、形態素解析誤りの影響を可能な限り排除できる用語抽出アルゴリズムを考える必要がある。
 まず、誤ってひらがな形態素として出現するものについて、そもそもひらがなだけからなる形態素、特に名詞に分類される形態素は、複合語の要素とはなりにくい面がある。このことから、ひらがな一文字の形態素およびひらがなのみからなる名詞形態素を複合語の要素としては含めない方法が考えられる。さらに、これはむしろ形態素分類の不十分さと考えるべきであるが、日本語では例えば丁寧語を形成する「御」などの接頭詞などがあることを考えると、そもそも複合語の要素としては考えない形態素というものを設定することが考えられる。
 形態素解析誤りに関しては、また別の問題として、用語候補の境界を誤って判定する可能性がある。この問題は候補内部の形態だけから何らかの判定を行うことは困難な問題ではあるが、用語としての特徴を考えると、用語は少なくとも一度はコーパス中に「提題的」に出現するのではないかという仮定を設けることが考えられる。提題的とは、その用語に関する概念を独立して、記述上の主たる内容として記述することを指し、代表的にはたとえば文の主動詞に対する主要な格要素として独立した形で出現するなどを想定している。この場合、候補の前後には、比較的限定された形態素ないしは記述上の境界が来ることが想定され、候補の境界に関しても信頼性の高いことが期待できる。

2.2.2. 形態素分類の不備

 複合語構成の観点から見た現在の日本語形態素分類にはいくつかの不備があると考えられる。先に述べた、丁寧語構成のための接頭詞などが、名詞系の接頭詞と区別されていない点もその一つであるが、他の例としては、英語で前置詞相等の形態素(上、下など)が、名詞系の接尾辞として分類されていることが挙げられる。これらの接尾辞が末尾にくる文字列は、英語で前置詞が先頭にくる並びを通常複合語とはしないのと同様に、独立した複合語と考えることは適切でない場合がほとんどである。複合語構成の観点からは、これらの形態素は区別されたものとして扱うことが必要となる。
 また、必ずしも形態素分類の問題ではないが、動詞連用形や副詞可能名詞について、複合語構成における機能が特異なものが存在することにも注意する必要がある。日本語テキスト中には、動詞連用形や副詞可能名詞が一般名詞に接続する構造がしばしば現れるが、これらの形態素が名詞的機能を果たす可能性があることを考えるなら、これらの連接は複合語の一部となっているとみなすべきと考えられる。しかし実際にはこの形の連接には、動詞連用形が連用中止となっている場合や、副詞可能名詞が実際上副詞として後ろの動詞に係る場合が存在する。これらの場合にはこの連接を複合語の一部と考えることは適切ではない。
 一般的に言えば、これらの形態素が特定の文脈においてどちらの機能を担っているかを判定することは必ずしも容易ではない。例えば「偶然機会を得た」というテキストがあったとして、通常は「偶然」は「得た」に係る副詞であると判断されるが、特定の分野で(生物学の「突然変異」のように)「偶然機会」という文字列を用語として慣用する可能性を否定できない。
 しかし、形態素によっては、特に複合語の先頭と想定する場合に名詞として扱われることが極めてまれなものも存在する。動詞「する」や「できる」が動詞に分類され、その連用形「し」、「でき」が一般名詞に連接する場合、これらが複合語の一部となることはまずないと言ってよく、ほとんどの場合は連用中止となっている。同様に「以前」、「以後」のような時間関係を示す副詞可能名詞が名詞系形態素列の先頭に位置している場合のほとんどで、副詞として機能していると考えられる。
 これらの動詞連用形や副詞可能名詞については、複合語の先頭にならない傾向が特に著しいものを特殊な形態素と考え、複合語構成の上で特別な扱いをすることが考えられる。

2.2.3. その他の複合語外形上の制約

 以上、形態素解析誤りと形態素分類の不備について述べてきたが、この他にもいくつか複合語の外形的特徴に関して検討すべき事項が存在する。まず、単純な語構成の視点から、接尾辞から始まるものや接頭詞で終了するものは複合語として認められない。最終要素が数名詞または数接尾辞であるものは、全体として数量概念を表す複合語であると考えられるが、一部の領域を除いては数量が単独で用語を構成することは少ないと考えられる。これに関連して、2要素の複合語で、先頭要素が数名詞の場合、後続要素がたとえ数接尾辞と判定されていなくてもその大部分が実質上数接尾辞とみなせることが多いことから、この形を取るものを候補としないことも有力な考え方である。
 複合語として分野における実質的な概念を表す複合語は、少なくとも構成形態素の内の一つが、実質的な内容を担っていると期待することができる。逆に接頭詞や接尾辞などの実質内容に乏しい形態素のみからなる名詞系形態素列は、用語候補としない方が適切であると考えることができる。
 以上の検討結果から、実際に候補の外形的特徴のみを判定機順としてテキストから複合語用語候補を抽出する方法を以下で述べる。

3. 日本語複合語用語抽出

 日本語複合語用語抽出において基本となるのは名詞系形態素連接の抽出である。しかしながら、これまでに検討してきたいくつかの事実から、名詞系形態素のいくつかについて特別な扱いをする。この特別な扱いをする形態素は、規則として指定するか、あるいはリストの形で個別に指定を行う。
 今回考案した手法では、また、用語候補は最長の名詞系形態素連接として、提題的な前後関係の下にテキスト中に出現するという仮定も設けている。
 これらの仮定の下に次の特殊形態素指定を行う

1.複合語の構成要素とならないもの

    a.ひらがな一文字の形態素、
    b.ひらがなのみからなる名詞形態素、
    c.接尾辞がひらがなを含むとき、例外指定リストで指定されていないもの、
    d.リストで指定する動詞の連用形、
    e.リストで指定する接頭詞

2.複合語の末尾にくることを禁止するもの

    a.数詞および数接尾辞
    b.リストで指定する特定接尾辞

3.複合語の先頭にくることを禁止するもの

    a.リストで指定する特定の動詞連用形および副詞可能名詞

以上の特殊な扱いをする形態素を決定した上で、次の手順に従って用語候補を抽出、選択する

4.候補形態素列の抽出

 名詞系形態素から上記1.に該当するものを除いた上で、テキスト中に出現する最長の連接を取り出す。抽出するのは最長のものに限定し、最長連接が他の連接を入れ子の形で含んでいても、それは抽出対象としない。

5.候補列の先頭および末尾の形態素の制約

 上記2.または接頭詞が末尾にくる連接は対象としない、同様に上記3.または接尾辞が先頭にくる連接は対象としない。

6.候補列の前後への接続関係の制約

 テキスト中で候補列が出現する前後の形態素を調べる。連接の直後としては、

    a.文末、
    b.助詞または接続詞、
    c.「・」、「/」以外の区切り記号、
    d.連接の末尾要素が動詞でない場合に限り助動詞、

のいずれかに該当することを要求する。また、連接の直前としては、

    a.文頭であるかまたは、
    b.名詞、動詞連用形、「・」、「/」以外の形態素であること、

を要求する。

7.候補列が内容を示す形態素を含むことの確認

 候補列は少なくとも一つ、一般名詞、固有名詞、サ変名詞、形容動詞語幹、動詞連用形、未知語、のいずれかに分類される形態素を含んでいなければならない。

8.その他の全体構成に関わる制約

 候補末尾が動詞連用形の場合、その直前の要素がサ変名詞であってはならない。また、2要素からなる複合語で先頭要素が数名詞の場合には候補と判定しない。

以上の各項目を満足する形態素列を用語候補として抽出する。
参考のため、本報告の概要に現れる各文から用語候補を抽出した例を以下に示す。

    1. 研究分野 研究成果 言語記号
    2. 研究成果 高度利用
    3. 重要性
    4. 研究文書群 文字列
    5. 用語候補 網羅的抽出方法 入れ子関係 用語候補 研究部分テーマ 体系化 方法論

4. 用語抽出実験と結果の評価

 以上述べてきた方法を実際のテキストコーパスに適用することにより用語抽出を行った。NTCIR-I学会発表コーパス[11]に採録されている情報処理学会研究発表抄録コーパスには、タイトルを含めて平均文字数290文字、標準偏差74.7文字の抄録26,803件が収録されている。このコーパスに提案する手法を適用した結果、130,876が用語候補として抽出された。
 抽出結果を評価するために、抽出結果からランダムサンプルにより500件を選び出し、用語としての妥当性を検討した。結果として、対象分野に関連する概念を記述しているという、甘めの判定では、423候補(84.6%)が該当するという結果が得られた。
 用語、あるいは情報処理分野に関連する概念を記述するものではないと判定されたものの内訳を見ると、分野外の複合語(一般語または他分野の複合語)と考えられるものが40(8.0%)、複合語と認められない形態素列が37(7.4%)であると判定されている。現在の方法では、複合語として成立するものは分野外のものであっても抽出することは避けられない。複合語として不適切なものが抽出されるのは、形態素解析誤りの影響を完全にはカバーできていないことや、例外扱いする形態素の範囲が狭すぎたことによると考えられる。

5. 用語抽出に関する考察

 以上、候補の外形的特徴とテキスト内での候補出現位置を考慮することにより、比較的高い適合率で用語候補を抽出できることが示された。基本となる考え方は、第一に、日本語形態素をより詳細に分類することにより、用語を構成する形態素とその出現位置に制約を設けることであり、第二に、用語と認められる文字列は、テキストの中で提題的に示される可能性が高いという仮説に基づいて、独立した形で取り上げられている可能性の高い前後接続関係を持つものだけを検討することである。
 ところで、独立した形で用語が取り上げられるということは、その開始位置に関しては、それが文節先頭に位置しているということほぼ等価であると考えてよい。従って、もしも信頼性の高い構文解析が可能であるなら、用語候補の開始位置に関する基準は非常に明確なものとなる。残念ながら現状では文節区切りを高い信頼度で判定できる構文解析器は存在していない。
 文節先頭位置に関する判定を難しくしている要因として、動詞連用中止型と副詞可能名詞の問題が考えられる。次の二つの文例を考察してみよう。

    「観測する内に偶然 機会に恵まれた」
    「シャフトがすべり 軸受を貫通している」

「偶然」や「すべり」は、この後に文節区切りがあるかどうか、大変に曖昧な形となっている。「偶然」を副詞と考え、「恵まれる」に係ると考えるならここに文節区切りが入ることになるし、「偶然機会(accidental(/occasional)chance)」という複合語が成立していると考えるなら文節区切りとしてはいけないこととなる。同様に「すべり」が動詞連用中止形であると考えるならここには文節区切りがくるし、「すべり軸受」と呼ばれる特殊な軸受けが使われていると考えるなら文節区切りとはならない。これらについてどちらが正解であるかを、このテキスト小部分だけから判定することはまず不可能であろう。
 動詞連用形や副詞可能名詞については、しばしば類似の問題が生じることになる。これらの場合にも正確な解析を高い精度で行える構文解析器を実現することは、少なくとも日本語では大変に困難であると考えられる。
 一方、英語やフランス語など、西欧系の言語では、たとえ複合名詞を構成する場合であっても、多くの場合形態素を語幹のままで利用するのではなく、活用や派生を示す接辞とともに用いられており、その機能はある程度明確である。外形的特徴による複合語抽出は、むしろ西欧系の言語の方がやりやすいと考えることもできるであろう。
 複合語の語構成を考えるに当たって、語幹レベルでの結合が多い日本語ではさらにいくつかの問題が生じることが考えられる。同一形をとる形態素であっても、それが実際にどのような機能を果たすと考えられるかによって、複合語構成要素として適切かどうか、また、その複合語内での出現位置に制約が生じるかどうか、複合語の内容を提供するものと考えられるかどうかなどの特性が変化する可能性がある。
 今回の方法では、対象とする分野で特定の使われ方が多いという判断の下に例外扱いをする形態素のリストを決定しているが、同一分野であっても異なる機能を持つものとして利用されることがないわけではないし、また、分野が変われば利用される傾向も異なってくることが考えられる。リストで想定されている機能とは別の形で利用される場合には、当然ながら抽出結果の適合率や再現率に影響を及ぼすと考えなければならない。従ってリストを定義する場合には、分野の特徴を考慮しながら、また、適合率と再現率のどちらに重点を置くかを意識しながら定義を行う必要がある。

6. 用語体系化へのアプローチ

 今回提案する手法により、一定のテキストコーパスが用意されるなら、相当程度多数の用語候補が抽出できることが明らかとなった。しかし一方で抽出された用語の内容を見るなら、そこには多様なものが含まれていることがわかる。用語の重要さという観点からは多様なものが含まれているし、用語が使用される文脈についても実に多様なものがあると考えられる。また、いくつかの候補については、使用される文脈で解釈が異なってくるものもあると考えられる。
 実際に抽出された用語を活用するためには、用語の重要度を評価する指標を明かにするとともに、用語の使用される文脈を推定し、用語間の相互関係を整理するための方法を整備する必要がある。今回の研究では、複合語の入れ子関係を元にした用語候補相互の関係整理と、特定の形態素との共起情報に基づく用語の使用される文脈に関する検討を行った。

6.1. 複合語の入れ子関係に基づく用語間関係整理

 一つの複合語が別の複合語の部分として入れ子関係にある場合、二つの用語の間には一定の意味関係が存在すると考えられる。特に、入れ子を含む用語内での係り構造が入れ子として含まれる用語と整合的な関係にある場合、密接な意味関係が存在すると考えてよい[12]。
 厳密な意味での概念上の関係が存在するには、複合語内係り関係と入れ子構造とが整合している必要があると考えるのが自然ではあるのだが、実際にはやや複雑な関係が存在する。次の関係を考えてみよう

    信頼度計算 − ネットワーク信頼度計算

ここで後者の係り関係として[[ネットワーク 信頼度] 計算]という構造と、[ネットワーク [信頼度 計算]]のいずれが妥当と考えられるかが問題となる。一般には前者の、ネットワークの一つの属性として信頼度という指標があり、それを何らかの方法で計算するという解釈が正解と考えられる。しかしながらこの場合、信頼度計算という一つのGenreがあって、それをネットワークに適用したという解釈の下に、後者を前者の下位語としても特に問題があるとは考えられない。
 3つ以上の要素からなる複合語において正確な係り関係を推定することは必ずしも簡単ではないことを考えるならば、当面の検討を進める上で、入れ子となる並びが入れ子を含む並びの前半部分に一致する場合と、後半部分に一致する場合とについて、まず検討してみることが考えられる。
 この場合後半部分が一致していればそれはHeadが一致していることとなり、入れ子を含む並びは入れ子となる並びの下位語になっていると考えることができる。逆に前半部分が一致する場合には二つは相互に関連語になっていると考えられる。
 この様な考え方の下に入れ子関係によって抽出された用語を階層的に関連付けてみると次のようになる。

上位−下位語階層 関連語階層
 
信頼度 ソフトウェア信頼度
 ソフトウェア信頼度  ソフトウェア信頼度モデル
 ネットワーク信頼度  ソフトウェア信頼度選定方式
 高信頼度  
 
信頼度計算 信頼度
 ネットワーク信頼度計算  信頼度成長モデル
 信頼度成長曲線
 信頼度計算
 信頼度関数

一応想定していた関係が得られていると考えられるが、しかし修飾する要素によって同じ下位語でも様々なものが混在しているのが気になる点である。これは、シソーラスで言う様々なファセットが混在しているところに問題があると考えられる。試みに修飾部分をその品詞に従って並べ替えてみると次のようになる。

処理プログラム
 オンライン普通名詞
 リスト普通名詞
 事務普通名詞
 文字列普通名詞
 業務普通名詞
 
 データ入力サ変名詞
 並列サ変名詞
 帳票印刷サ変名詞
 通信サ変名詞
 
 プロトコル未定義語
 MMCP未定義語

ソートを行う前と比較するといくらかは見やすい関係になっていると分かるがそれでも十分ではない。ここでは修飾部分のより詳細な分類が必要とされていると考えられる。どのような分類の下に修飾部分を分類していけば良いかが今後の課題となる。

6.2. 用語候補と関連する研究分野

 用語は特定の研究分野において扱われる概念を記述する言語記号である。従ってその利用は一定の文脈に限定されていると言ってよい。しかしながら例えば一つの学会という観点から個別の用語を見るなら、そこではさらに詳細な研究分野を想定できることが一般的である。情報処理学会では、例えばデータ通信に関わる技術と知識処理に関わる知識は、相互にある程度関連を持ちながら、一方でそれぞれの分野で主として扱われる個別の概念を持っている。この間の事情は、いずれの学会においても取り扱うテーマごとに緩やかな分類が設けられていることにも現れている。
 用語整理と体系化という観点からは、特定の研究テーマに特に強く関連する用語をまとめた形で参照可能な関連付けを行っておくことにより、用語の参照と利用という面で大きな意義があると考えられる[13,14]。
 一つの学会の扱う研究テーマないしは部分研究領域は、これまで研究者にある程度共通する主観的な認識という形でまとめられてきた。これは一般にGenreと呼ばれる分類に属していると考えられる。ここで興味ある問題として、提案されているテーマないし部分研究領域は、学会全体としてのテキストコーパスから客観的に推定できるかどうか、また、何らかの形で研究領域が与えられたとして、その研究領域に関連する強く用語を取り出すことができるかどうかがある。

6.2.1. 部分研究領域の同定

 一つの学会の研究に関わる論文抄録を多数集めたテキストコーパスが存在するとき、コーパス中にはさまざまな研究テーマを扱う文書が含まれている。このコーパス中にどのような研究テーマが存在すると考えられるかを、人間の直感によらずに判定できるかどうかは興味ある問題である。一つの考え方として、研究分野が異なれば、そこで用いられる用語も異なると予想するなら、テキストごとの用語出現傾向からテーマの推定を行うことが考えられる。例えば文書ごとに出現する形態素から文書集合自体を分類して、共通集合とされた文書から部分領域を推定する方法等を考えることができる。ここではクラスタリングなどの手法によって、特別な前提を設定する事なしに分類を行う手法の適用が考えられる。
 ただし、この方法では、結果として得られるのは形態素出現傾向という視点から類似した文書集合であり、直接に研究テーマというものの分類ができるわけではない。そもそも研究テーマというものはテキスト表面に記述されているものではないから、ある程度は間接的に判断せざるを得ない面がある。文書分類では分類された一つのグループ内の文書に共通するテーマがあるかどうかを別途判断する必要がある。
 いずれこのような判断を必要とするのなら、文書集合よりは判断の容易な対象について分類ができないかが興味を持たれることとなる。例えば形態素その物が分類できるなら、形態素集合の方が文書集合よりは共通するテーマを見出しやすい可能性がある。
 本研究では、形態素を記述されるもの(名詞系)と記述のために用いられるもの(動詞系=サ変名詞)に分類した上で、文書単位での共起傾向を指標として用いることにより、名詞系形態素のクラスタリングを行う手法を試みた。この手法は以前により広い領域(自然科学)について試みて一定の成果が得られたものであり、同様の手法がより狭い領域(情報処理)においても有効かどうかを確認するものである。
 最初に、分類のために用いる名詞系、動詞系それぞれの形態素をある程度少数に分類する。基本的には統計的指標に基づく分類になるため、ある程度頻度の大きいものだけを選びたいという事情があり、また一方でテーマの差別化に有効なものを選ぶ必要があることから、とりあえずtf-idf値の大きいものを選択することが考えられる。情報処理学会コーパスから、一般名詞形態素40とサ変名詞形態素15を選択して、それぞれの名詞に対するサ変名詞の文書単位での共起傾向を計算した結果を、その名詞を特徴づける15次元ベクトルと考え、このベクトル空間上でクラスタ分析を行った。
 結果としては、解釈上の曖昧性はやや残るものの、

    1.音声・パタン処理、
    2.データベース、
    3.知識処理、
    4.メディア/画像処理、
    5.ソフトウェア開発、
    6.ソフトウエア実行効率、
という6つの分野に相当すると考えられる名詞の分類が得られている。

6.2.2. 部分領域に関連する用語の分類

 以上の結果から特定領域の用語が出現しやすい文脈を発見する方法が示唆された。クラスタリングの結果からは、文書に出現するサ変名詞から、当該文書に特定領域の用語が出現する傾向を計算することが可能となる。このことに基づいて、特定分野の用語が出現しやすい文書に多く出現し、そうでない文書には相対的に出現数の少ない用語は、問題とする分野に関連する用語ではないかと推定できる。用語の文書出現の偏りを計算してやれば、当該用語が特定の部分領域に関連する度合いを計算することができるであろう。
 実際に用語候補に対して計算を行ってみると、出現頻度が比較的大きいものについては、分野との関連性が高いことがわかる。
 問題が、特定文書がある部分領域の問題を扱っている可能性の問題と考えるなら、例えば想定している部分領域で代表的に出現する形態素に注目することも可能である。「知識」や「推論」は、知識処理を扱う文書に多く出現し、それ以外の文書にはそれほど多くは出現しないことが予想される。そこで、これらの形態素が出現する文書について、全体と比較して出現する傾向の高い用語を取り出すなら、知識処理に関連する用語が抽出されると期待される。
 実際にこの方法で用語に対して分野帰属性を計算してやると、分野に関連の深い用語を識別できることが分かる。
 このように文脈性に応じて用語を分類する方法は、有力な方法と考えられるが、問題は頻度の低い用語に対して判別性が確保できない点にある。用語候補抽出において、多くの用語は一つのコーパスにそれほど高い頻度で出現することはないという結果が得られている。出現頻度が低い用語について、共起傾向を判定基準に用いる場合、偶然的要素の影響を排除することは難しく、判定の誤差を大きくする傾向がある。このため、ある程度以上の信頼性を持って分類できるのはある程度以上出現頻度が高い用語に限定されることとなる。
 部分分野に関連する用語を調べると、その多くについて、特定の形態素を構成要素として持つことにより部分分野に関連付けられていることが分かる。このことから、問題とする対象分野に関連する形態素が判定できるなら、当該形態素を構成要素として持つ用語を選択することにより、目的とする部分分野に関連する用語を選び出せると期待できる。形態素の出現数は用語と比較するとはるかに多いため、より包括的に目的とする用語を選出できると考えられる。
 形態素と部分分野との関連を求める目的で、用語の場合と同様に、特定サ変名詞出現パタンないし、特定形態素出現との共起傾向を形態素総頻度で修飾したものを用いることが考えられるが、実際にこの方法で分野に関連する形態素の抽出を試みると、確かに目的分野に関連する形態素も抽出できる一方、形態素頻度の影響を受けてあまり分野に関連しない形態素もかなりの程度選択されてしまう。結果としてこのような評価基準に基づいて単純に上位形態素を選択する方法では、かなりの割合で不適切な形態素が選び出されることになる。この様な方法では自動的な形態素選択ではあまりうまく用語選択を行うことはできない。ただし、ある程度人手をかけても構わないという状況の下では、例えば上位100形態素の中から数十程度を人手で選択することにより、相当程度網羅的で、誤りの少ない分野関連用語の選択が可能となる。
 この方法をある程度自動化する手段として、選択の対象とする形態素を、問題とするコーパスに特有なものに制限する方法も考えられる。この場合、他の領域を扱うコーパスと比較することができれば、ある程度は特定の領域に特有の形態素を判定できると考えられる。
 NTCIR-Iコーパスで、学会ごとの比較により、情報処理に特有と推定される形態素を最初に判定し、その範囲内で形態素選択を行うことにより、知識処理及び画像処理という研究テーマに関連すると思われる形態素を判定し、これらの形態素を構成要素として含む用語候補の抽出を試みた。 結果を、知識処理および画像処理に示す。形態素によっては、文脈に依存して利用傾向の異なるものもあるため、ある程度はノイズも含まれているが、全体としてはそれほど悪くない適合度で用語の判定ができている。

7. 結論と今後の課題

 日本語では、用語の多くが複合語として構成されることから、専門文書からなるテキストコーパスに出現する複合語はそのほとんどが用語となっていると期待できる。ただし、現在一般的に利用されている日本語形態素辞書では、複合語解析に当たって分類的に十分ではないという問題がある。また、形態素解析にあたっての解析誤りが複合語用語抽出に悪影響を与えることになる。
 これらの問題を緩和する方法として、形態素解析誤りの可能性の高い形態素を複合語構成から排除するとともに、複合語構成にあたって問題のある形態素を種別毎にリストで指定し、その複合語構成にあたっての役割を制限する方法を提案した。この方法に加えて、候補となる形態素列の前後の要素に制約を設けることにより、コーパス内出現頻度が1の候補まで、適合度を低下を抑えながら、網羅的に抽出する方法を確定することができた。
 抽出された用語候補を体系的に整理するためには、用語候補の間の様々な関係をわかりやすく整理することが重要である。今回の研究では入れ子関係に基づく階層関係の整理と、特定の部分研究領域に関連付けた用語のグループ化を試みた。それぞれに用語候補を整理する上で有用な情報が得られることが確認されたが、さらに関係をきめ細かく整理する方法の開発が望まれる。
 入れ子関係に基づく階層的整理では、一つには多くの形態素からなる複合語において、その内部的係り構造を正しく把握する必要がある。また、第二には特定形態素の修飾機能をより詳細に把握する必要がある。これらの問題については、形態素をより詳細に分類し、その機能的役割を整理する必要があると考えられる。
 部分研究領域に関連付けた用語分類では、分野に関係する形態素に基づく用語候補分類が有力と考えられる。ただし、分野関連形態素にどのようなものがあるかを網羅的に判定する方法を改善する必要がある。現在、サ変名詞出現パタンや分野を代表する形態素との共起に加え、形態素自体が他のコーパスとの比較で当該コーパスにどの程度特異的かをあらかじめ評価しておき、対象コーパスに特異的なものの中から共起判定で上位にくるものを優先する方法を試みている。
 実際には用語抽出にしても、用語体系化のための用語間関係判定にしても、さらに高度な機能の実現が望まれる。このためには、さらに効果的な手法を開発していくとともに、現在の形態素分類を見直すことにより、複合語の判定をより確実にするとともに、複合語内部での形態素間の係り関係を正しく判定する手法についても開発を進める必要がある。
 用語抽出と用語体系化の様々な手法は、現在までのところ、完全に自動的な形では実用化される性能を備えていない。人間が使いやすい用語集の形で用語を体系的に収集し整理するためには、ある程度の人手をかける必要があると考えられる。
 人間とシステムとが協調して作業を進めるためには、両者の連系を取るシステム環境が不可欠のものとなる。効率的に用語集の編纂を進めるためには、これまでに蓄積されてきた用語や、用語とはみなしにくい複合語を蓄積しておき、例えば新しいテキストが与えられた場合にそこに出現する用語候補を、初出、既登録、未登録の区別をしながら表示する、あるいは抽出された候補を指定すると、それに関連を持つと考えられる用語や部分研究領域などを表示するなどの機能を提供し、人間が候補の登録や修正を効率的にできる環境を整備していくことが重要な課題となる。このためには用語抽出と体系化に関する様々な手法を必要に応じて使い分ける環境を整備するとともに、形態素情報、テキストコーパス、用語情報などの言語資源を適切に管理する枠組みを構築していくことが重要である。
 形態素分類の見直しを含め、用語抽出と体系化の手法をさらに洗練させるとともに、各種言語資源を適切に管理しつつ、開発されてきた様々なツール群を適切に使い分けながら、効率的に用語整理を進めるためのシステム環境を整備していく必要がある。今後はこれらの問題についても検討を進めたい。

参考文献

    1. Kageura, K. and.Umino, B. “Methods of Automatic Term Recognition – A Review”, Terminology Vol.3, No.2, pp.259-289, 1996.
    2. Kageura, K. and Koyama, T. eds., “Special Issue on Japanese Term Extraction”, Terminology, Vol.6, No.2, 2000.
    3. Ananiadou, S. “A Methodology for Automatic Term Recognition”, Proc. COLING-94, pp.515-521, 1994.
    4. Hisamitsu, T. et. al. Extracting Terms by a Combination of Term Frequency and a Measure of Term Representativeness”, Terminology, Vol.6, No.2, pp.211-232, 2000.
    5. Mima, H. and Ananiadou, S. “An Application and Evaluation of the C/NC- value Approach for the Automatic Term Recognition of Multi-word Units in Japanese” Terminology, Vol.6, No.2, pp.175-194, 2000.
    6. Nakagawa, H. “Automatic Term Recognition based on Statistics of Compound Nouns” Terminology, Vol.6, No.2, pp.195-210, 2000.
    7. 三浦康秀、増市博、“部分文字列のパープレキシティを利用した低頻度専門用語抽出”電子情報通信学会技術研究報告、NLC2007-1~28, pp.139-144, 2007.
    8. 小山照夫、竹内孔一、“候補の接続関係を考慮した複合語用語抽出”情報処理学会研究報告、SIGNL-193, pp.13/1-6, 2009.
    9. 小山照夫、“日本語テキストからの複合語用語抽出”、情報知識学会誌、vol.19、 No.4、pp. 306-315、2010.
    10.Daille, B. et. al. “Towards Automatic Extraction of Mono-lingual and Bilingual Terminology” Proc. COLING-94, pp.515-521, 1994.
    11.Kando, N. and Nozue, T. (eds) Proceedings of the first NTCIR workshop on research in Japanese text retrieval and term recognition, 1999.
    12.小山照夫、竹内孔一、“日本語複合語の入れ子関係に基づく階層的体系化” 電子情報通信学会技術研究報告、NLC2007-1~28, pp.49-54, 2007.
    13.Koyama,T., and Kageura, K., “Term Extraction Using Verb Co-occurence”, Proc. 3rd International Workshop on Computational Terminology, pp. 79-82, 2004.
    14.小山照夫、竹内孔一、“用語クラスタリングに基づく部分研究領域推定と用語分類”、情報処理学会研究報告、SIGNL-183, pp.87-92, 2008.