A03: 工学班

マルチモーダル対話翻訳における潜在的構造理解に基づくモダリティ横断

AIに人間の身振りや手話が理解できるでしょうか．いまはまだそれほど単純な問いではありません．私たちは人間の身振りや手話に含まれるマルチモーダル時系列データを高度に認識するための深層学習基盤技術を開発します．

工学班の研究紹介

つくる

わたしたちは人工知能技術を活用し、時系列に表現された身体や音声、記号といったマルチモーダルな要素を分析し、高度な状況理解を行う深層学習の技術を開発します。

人工知能技術を活用した、高度な状況理解人工知能技術を活用した、高度な状況理解

人工知能に関わる研究分野では、深層学習（ディープラーニング）の発展により、これまで分析が難しかった自然言語処理や画像処理といった本研究に関わる分野で飛躍的な進歩が続いています。最近では、テキストや画像・音声などのさまざまなメディアを自然に接続するマルチモーダル情報処理も注目を集めています。今後はわたしたち人間の普段の会話のような自然なコミュニケーションにおいてもコンピューターでの分析が可能になるかもしれません。
1. 高度なマルチモーダル情報処理の確立
深層学習においては画像・テキスト・音声といった個別のモダリティの情報処理は優れた結果を残すようになった一方で、単純な組み合わせだけでは、複数のモダリティを統合した情報処理は実現できません。手話言語のように、表情、ジェスチャーなど複数のモダリティが関係する表現を情報として処理するには、複数のモダリティを横断する必要があります。
また、手話言語では、文脈的な意味を含んだ指標性や象徴を伴った類像性もコミュニケーションの中では重要な意味を持ち、それらの表現を取り入れた理解を行うためには、複雑な深層学習モデルを確立する必要があります。わたしたちは人文科学領域の研究者と密に協力し、人文科学の研究者が作成した教師付きデータ、つまり言語学的正解データを活用して深層学習を行わせ、高度なマルチモーダル情報処理の技術を開発します。
2. 次世代コーパスとの連携
本研究で活用できるコーパスとして、これまで開発された「未来館SCコーパス」や「日本手話話し言葉コーパス」、身体班および手話班が開発する「次世代身振りコーパス」や「次世代手話コーパス」があります。これらのコーパスは、対話における動作・表情・視線・対象物等の情報が位置情報を含め人の手によって厳密かつ丁寧にアノテーションされています。この次世代コーパスを使えば、どのような要素が時系列で並び、構成されているのか、そしてどのような細かさで意味が表現されているのかを機械が学習することができます。そのために、わたしたちはコーパスを用いて機械学習を行う数理的な基盤技術を開発し、次世代コーパスを高度なマルチモーダル情報処理に活用します。
3．マルチモーダル情報処理の水準を押し上げる新しい数理基盤
わたしたちは、これまで取り組んできた画像認識と自然言語処理の二つの分野の知見を複合的に用いるマルチモーダル自然言語処理の研究成果を発展させます。これまでのマルチモーダル情報処理では、異なるモダリティから得られる記号情報を読み取る、あるいは大枠の意味を単純に結合する表面的な統合でした。そのため、潜在的な因果関係の理解や文脈から意味を読み取っていくことには限界がありました。
そこでわたしたちは、テキストや動画像・音声が複合的に紡ぎあげる「意味」や「文脈情報」を潜在変数として解釈し、対話や手話翻訳における意味理解を向上させる基礎技術の開発を行います。そのために、これまで開発した、潜在変数を活用し条件に応じてさまざまなスタイルの文を出力できる非自己回帰型機械翻訳手法といった基礎的な言語生成モデル自体も研究に取り入れていきます。

マルチモーダル対話翻訳への応用マルチモーダル対話翻訳への応用

わたしたちは、発話・表情・ジェスチャー等の異なるモダリティの情報がどのようなタイミングで、どのような流れで意味を複合的に形成するのか、という因果関係や視覚的類似性を抽出し、身振りや手話における指標性・類像性に踏み込んでその意味を理解し、翻訳するための基盤技術となるメカニズムを構築します。
1．マルチモーダル対話翻訳のツール公開
わたしたちは手話言語の複数のモダリティを柔軟に統合・活用し、情報抽出および予測を行うための深層学習の基盤技術を開発することで、マルチモーダル対話システム・日本手話翻訳システム等のアプリケーションを実現するとともに、これらを一般的に利用可能なツールとして公開することをめざします。さらに公開、利用を経て得ることのできた、コーパス作成や改良の際の工学的知見を、他の班の研究活動にもフィードバックすることにより、わたしたちの研究領域全体が掲げる「身体記号学」の有機的な連携をめざします。
2．高精度かつ解釈性の高いマルチモーダル対話翻訳システムの実現
これまでのマルチモーダル処理技術では、各モダリティから得られる全体的な特徴を単純に結合し、入力を出力へ変換する関数を直接的に学習させており、その意味を解釈するメカニズムはブラックボックス化されていました。しかし、このような方法では時系列の中で複雑なある一つの表現の意味をきちんと捉えることは難しく、翻訳システムとしての精度は十分ではありませんでした。わたしたちは、類像性・指標性などのより高度な意味論に基づく対話の翻訳をめざしており、メカニズムも含んだ深層学習を通して、高精度かつ解釈性の高いマルチモーダル対話翻訳システムを実現していきます。

工学班　研究者紹介工学班　研究者紹介

わたしたち工学班は、他の計画研究班から提供されるデータを解析・活用し、マルチモーダル情報から高度な状況理解を行うための深層学習技術を開発します。
これを実現するため、コンピュータビジョン、自然言語処理、計算言語学など人工知能の様々な分野のエキスパートによりチームを構成しています。
中山　英樹(Hideki Nakayama)
東京大学　准教授
研究代表者

1. 専門について
深層学習を用いた画像認識や自然言語処理を専門分野にしています。特に、画像や言語、音声など様々な情報を横断的に扱うマルチモーダル情報処理に興味を持っています。

2. この研究チームでの役割
　工学班の代表として、目標へ向けた研究開発のとりまとめを行います。まず、他の計画研究班と連携しながら、さまざまなモダリティを横断するマルチモーダル深層学習手法の数理基盤や、必要なデータリソースの全体的なデザインを行います。また、日本手話翻訳システム等のアプリケーションの実装を主導することも役割となります。

3. 身体記号学プロジェクトへ期待すること
　近年の生成AIなどに代表されるように、人工知能は表面的・部分的には一般的な人間を超える能力を有するに至ったといえるでしょう。その一方で、人工知能は本当の意味で人間に近づいているのか、より根本的には人間の知能や知性とは何かが改めて強く問われる時代になっていると感じます。このため、これからの人工知能研究では人文系領域との学際的な連携がより重要性を増すと考えており、本プロジェクトがその先駆けとなっていくことを期待しています。
佐藤　真一（Shin'ichi Satoh）
国立情報学研究所　教授
研究分担者

1. 専門について
画像・映像の解析、検索、マイニングなどの研究を行っています。特に画像・映像の意味解析について重点的に研究を行っています。

2. この研究チームでの役割
人間が意図して行動している映像の意味解析、そうした映像による深層学習技術による認識モデル学習、さらには、ある手話言語で学習したモデルの他の手話言語へ(米国手話から日本手話等)の転移学習等について検討を行っています。

3. 身体記号学プロジェクトへ期待すること
画像接地(visual grounding)等、画像認識に向けての主たる研究アプローチは、画像・映像などの視覚情報と自然言語との対応付けを目的としています。その一方、手話は基本的に視覚情報しかなく、対応する言語情報はそもそも存在せず、視覚情報を視覚情報として扱ったまま意味につながるという点に大変興味を持っています。視覚情報の意味解析研究に対し、これまでにない全く新しい視点を提供してくれるのではないかと期待しています。
西田典起（Noriki Nishida）
理化学研究所　特別研究員
研究分担者

1. 専門について
自然言語処理、特に文書や対話の背後にある構造や規則性を明らかにするための談話解析技術や、論文などの文献集合に記述されている知識を自動的に抽出して体系化する知識獲得技術について研究開発しています。

2. この研究チームでの役割
これまでの談話解析技術では、解析対象がテキストという表現形態に閉じているという仮定の下で、文や発話の間の関係性や名詞句間の照応関係を認識するための手法が研究されてきました。身体によって表現されるマルチモーダルな情報と言葉との間の相互作用に焦点を当てて談話解析技術を発展させ、日本手話翻訳等のアプリケーションの精度向上に繋げることが、工学班における私の役割です。

3．身体記号学プロジェクトへ期待すること
大規模言語モデルの登場により、自然言語処理ではパラダイムシフトが起ころうとしています。しかし、大規模言語モデルにこのような言語能力が創発される原理はまだわかっていません。また、現在のアプローチによって、手話や表情、声音、環境等のテキスト以外のモダリティが表す情報を、どこまで理解できるようになるのかはわかっていません。これらの問いは、工学に閉じていては解けず、学際的な連携が不可欠です。本プロジェクトが、そのような問いへの解答に至る契機になることを期待しています。
宮尾　祐介（Yusuke Miyao）
東京大学　教授
研究協力者

1. 専門について

2. この研究チームでの役割

3. 身体記号学プロジェクトへ期待すること
賀沢　秀人　Hideto Kazawa
Google
研究協力者

1. 専門について

2. この研究チームでの役割

3. 身体記号学プロジェクトへ期待すること

用語集(五十音順) 用語集(五十音順)

深層学習：機械学習の手法の一つであり、脳のニューロンの働きを模した人工ニューロンを多数積み重ねた数理モデルによって構成されます。入力層、出力層の間にある多数の隠れ層で非線形な処理を繰り返し行うことによって、複雑な入出力関係も柔軟に表現できるため、高度な情報処理や変換が実現できることが知られています。
モダリティ横断：画像、テキスト、音声といった入力データの複数のモダリティを横断し情報を処理することを指します。

関連活動の報告関連活動の報告

A03: 工学班

マルチモーダル対話翻訳における潜在的構造理解に基づくモダリティ横断

工学班の研究紹介

1. 高度なマルチモーダル情報処理の確立

2. 次世代コーパスとの連携

3．マルチモーダル情報処理の水準を押し上げる新しい数理基盤

1．マルチモーダル対話翻訳のツール公開

2．高精度かつ解釈性の高いマルチモーダル対話翻訳システムの実現

中山 英樹(Hideki Nakayama)

佐藤 真一（Shin'ichi Satoh）

西田典起（Noriki Nishida）

宮尾 祐介（Yusuke Miyao）

賀沢 秀人 Hideto Kazawa

中山　英樹(Hideki Nakayama)

佐藤　真一（Shin'ichi Satoh）

宮尾　祐介（Yusuke Miyao）

賀沢　秀人　Hideto Kazawa