身体記号学クロージングカンファレンス
第一部:AIを味方にするためのコミュニケーション研究[JPN/JSL]
2025年2月10日(月)の第一部では「AIを味方にするためのコミュニケーション研究」のテーマで、菊地浩平氏(筑波技術大学)の概要説明に続き、岡田智裕氏(総合研究大学院大学)、坂井田瑠衣氏(公立はこだて未来大学)、中山英樹氏(東京大学)、榎本剛士氏(大阪大学)の四名から話題提供がありました。
第一部
身体記号学クロージングカンファレンス第一部:AIを味方にするためのコミュニケーション研究[JPN/JSL]
発表①「日本手話話し言葉コーパス (JSLコーパス) データセットの概要と事例紹介」(岡田智裕)(JSL)
発表②「科学未来館SCコーパス データセットの概要と事例紹介」(坂井田瑠衣)
発表③「AIを利用した指さし動作認識の概要」 (Junwen Mo, Minh-Duc Vo, 中山英樹)
発表④「指標とAI認識: 記号論の観点から」(榎本剛士)
パネルディスカッション(指定討論者:喜多壮太郎, University of Warwick)
発表①「日本手話話し言葉コーパス (JSLコーパス) データセットの概要と事例紹介」(岡田智裕)(JSL)
A02:手話班のメンバーである岡田智裕氏(総合研究大学院大学)は、「日本手話話し言葉コーパス(JSLコーパス)データセットの概要と事例紹介」と題して、コーパスの構築とアノテーション付与の進捗状況、および指さしの分析結果について話題提供を行いました。
最初に、岡田氏は、2011年から国立情報学研究所・坊農研究室と筑波技術大学・大杉研究室が共同で構築を進めている「日本手話話し言葉コーパス」の紹介をしました。坊農研究室が担当している「対話型」の撮影では、2名が近くに置かれたモニターを見ながら手話で対話し、様々な角度や距離に設置されたカメラでその姿を収録しました。映像の収録時間は15時間を超え、アノテーションを付与した手話表現数は32,429件にのぼったと報告をしました。
報告の詳細は以下のようなものです。「対話型」の課題では、3つのテーマについて参加者が対話をします。〈アニメ〉はアニメ作品を見て、それを見たことがない人に対して説明をするというもの、〈カレーレシピ〉のテーマでは自分のカレーの作り方を説明する、そして、〈おらが国自慢〉は名所や人気スポットについて話すというものです。参加したのは男女合わせて122名、59ペア、年齢層は20代から80代となります。それぞれのテーマの収録時間について、〈アニメ〉は5時間32分51秒、〈カレーレシピ〉が4時間33分31秒、〈おらが国自慢〉は5時間36分37秒の合計15時間42分59秒におよびます。その映像へのアノテーションは現在、映像分析ツールであるELANを用いて取り組んでいるところですが、できていない箇所もある状況だと付け加えました。単語と文章を分けて抽出した総数の143件のデータのうち、単語においては5時間16分13秒、文章においては8時間44分56秒におよぶ時間となったと述べました。また、単語か文章のどちらかのほとんどにアノテーションの付与が終わっている状況だと述べました。現在アノテーション済みの手話表現数はアニメで12,135件、カレーレシピで17,591件、おらが国自慢は2,703件の合計32,429件となっていて、おらが国自慢は文章の割合が多くなっていて、それ以外の2つは単語が多くなっていると、現状の成果を報告しました。
そして、今回のテーマである「指さし」について、手話会話にはさまざまな指さしが存在することを説明しました。その指さしは一人称の指さし(PT1)、二人称の指さし(PT2)、それ以外(三人称の指さし、PT3)の3種類に分類でき、PT3の指さしの中にはPT2と区別しづらいものがあるので、AIが意味付けできるかどうかが今後の課題となっていると述べました。
具体的には、先述の3万件以上のアノテーション済みのデータの中で、指さしが確認できたものが6,436件あり、その中でも指さしの向きに3つ種類があると述べました。一人称の指さし(PT1)は2種類あり基本は自分の鼻を指さすが、胸を指すこともある。鼻を指さすことは日本では自分を指すと理解されるが英国だと理解されないという報告もあるので日本的な特徴であると岡田氏は付け加えました。次に二人称の指さし(PT2)は、相手を指さすもの。そしてPT1とPT2以外のすべての指さしをPT3と位置付け、三人称としたと語りました。そしてPT3について、さまざまな方角を指さしているが、特定のものがその場に存在しているわけではなく、目印のような形で指さしをするという使い方が多いと述べました。その一つが専門的な用語でList buoy(リストのブイ)と呼ばれる非利き手の指を指さす行為で、5つ程度の対象物を指し示すことができると説明しました。さらに複数の対象物を示す指さしとして日本手話の場合は2種類あり、聴者のように指を折って数える方法と、指を一本ずつ指さす方法がある説明しました。そしてAIを用いた日本手話話し言葉コーパスを構築するうえでの今後の課題に触れました。まず、PT3にはPT1やPT2と比べて多様な使い方が見られる。今後の課題として、まず、先述したPT3の対象物を指さした場合にAIが意味付けをできるかどうかが重要であると語りました。そして先ほどのList buoyについても指を指さす行為で、AIが特定の対象物と読み取れるかどうかも課題であると述べました。さらに、相手話者がいる場合において、前方を向ける指さしはPT2かPT3か、文脈によって人間には何を指し示しているのか判別できるが、AIもその区別が認識できるかも今後の課題となるだろうと述べ、発表を締めくくりました。
発表②「科学未来館SCコーパス データセットの概要と事例紹介」(坂井田瑠衣)
A01:身体班で身振りの研究をする坂井田瑠衣氏(公立はこだて未来大学)は、「科学未来館SCコーパス データセットの概要と事例紹介」と題して、日本科学未来館(以下、未来館)の展示フロアにおける科学コミュニケーター(Science Communicator:以下、SC)と来館者のやりとりを収録した、マルチモーダルコーパスについて、事例とともに話題提供をしました。
未来館のSCが自発的に施設を訪れた来館者に展示の説明をし、展示物間を移動する様子を撮影、計35セッションにおよぶ会話が収録されました。その収録内容を分析し、そこで見られた指さしの意味の多様性や文脈との関係性について分析した結果を報告しました。
収録の詳しい内容は下記のようなものです。「未来館スタイル」と呼ばれるサイエンス・コミュニケーションのフォーマットを採用し、SCと来館者間の対話や実演が対象とされました。未来館スタイルは、来館者の知識や関心を汲み取り、来館者に合わせた対話を構築する方式です。収録されたのは2014年2月から3月の計10日間、1日1時間程度で、使用言語は音声日本語と説明しました。収録場所は未来館5階の展示フロア、「空間のひろがり」「巨大望遠鏡で宇宙の謎に挑む」の展示で、5名のSCが、収録当日に自発的に訪れていた79名の来館者に(収録と公開の同意書を取得したうえで)展示物を解説する様子が対象となりました。収録されたのは、会話数、計35会話(セッション)で、1セッションにつき1名のSCが平均2.26名の来館者に対応したものとなります。収録の総時間は8時間17分22秒となり、1セッションあたりの平均時間14分30秒でした。ビデオカメラ6台で収録したそれらの映像を1つのファイルに合成し、7本のマイクで収録した音源から音声を編集し映像に同期させる形でデータの整理をしたと語りました。
未来館SCコーパスは、統制された実験的データの特徴と多様性の高いフィールドデータの特徴を併せ持つマルチモーダルコーパスなので、指さしのケースのように様々な役割の指さしがあったり、同じ役割の指さしがあったりといったことを観察・分析することが可能であると述べました。
具体的には次の二つの異なった指さしの確認がとれる事例をあげて、コーパスの活用法について説明がされました。事例1では、SCがどのようにして目的の場所まで来館者の移動を促しているかが見られるが、SCが身振り(指さし)で来館者の移動を促している様子が見て取れた。これは指さし単体というより、身体や視線の向き、発話の内容など様々な要素を伴っているので、マルチモーダルな身振りとして構成されているとわかると述べました。そして事例2では、事例1と同じように目的の場所まで来館者を移動することを促している状況だが、指さしが2回出てくる。それらは、それぞれ違う機能があると考えると語りました。移動先を示す指さしと注意対象を示す指さしに分けられるが、これらには「身振り」の文脈依存性が存在すると、現在すすめているアノテーションの事例を提示しながら説明しました。そして、未来館SCコーパスの特徴から考えられる今後の可能性についてこのように語りました。まず、半実験的に収録された自然発生的な会話であるがゆえ、同一環境での文脈に応じた多様な相互行為の分析が可能になること。展示物間の移動を伴う会話から、移動を達成するための多様な身振りや空間陣形の再編成について分析が可能になること。展示物に対する指さしなどが頻繁にみられる会話から、指標記号(インデックス)が多様な環境のなかで立ち現れる様子の分析が可能になること。そしてSCと来館者という非対称かつ初対面の人々による制度的会話から、それぞれの知識や理解、感心が擦り合わせられていくプロセスの分析が可能になると考えられると述べ発表を締めくくりました。
発表③「AIを利用した指さし動作認識の概要」 (中山英樹)
A03:工学班の中山英樹氏(東京大学)は「AIを利用した指さし動作認識の概要」と題し、AIに言語や画像等を理解させるための技術を用い「未来館SCコーパス」と「日本手話話し言葉コーパス」を分析し、そこで出た「指さし」(PT、Pointing)に関するデータの分析結果と今後の課題について話題提供をしました。
コミュニケーションの中の指さし動作をAIがどの程度理解できるのかについて、2つのコーパスそれぞれに適した技術を用いて分析をすすめたと説明しました。そして「日本手話話し言葉コーパス」に関して今回取り組んだ「孤立手話単語認識」の詳細を説明し、PTの検出とパターンの区別について実験した結果、おおよそ7割の確率でPTの認識に成功したと報告しました。さらに認識したPTのなかの区別でPT2とPT3は類似した動きであることから区別が難しく、認識の精度を上げることが今後の課題であると語りました。
具体的には、AIの指さし識別には、2つのコーパスそれぞれの特性に合った技術を選定したと話しました。「未来館SCコーパス」については指さしの識別はあくまで何かを指し示すために生まれた動作なので識別は単純にできると判断し静止画のみを使ったジェスチャー認識技術を用いた。「日本手話話し言葉コーパス」については指さし部分だけ切り取った画像で分析をすると、他の類似した手話単語と混同しやすいので、行動認識の技術を用いて分析をすすめたと説明しました。手話対話の中での指さし認識には「孤立手話単語認識」(ISLR)という方法で挑戦をした。「日本手話話し言葉コーパス」を使って、単語レベルに区切って入力された動画データを利用した場合、それをAIが認識できるのか、PTを識別できるのか評価する実験をしたと語りました。さらに行動認識のベースラインモデルとしては、骨格に基づく方法である「グラニューラルネットワーク」(ST-GCN)を用いたと付け加えました。実験では岡田氏からも言及があった26,305個にのぼる単語レベルのアノテーション済みのデータを対象に、この情報のうち80%をAIに学習させ、のこり20%で検証をしたところ、PT1、PT2、PT3ともにおおよそ7割程度の割合でPT認識ができたと報告しました。その結果から、AIが間違えた理由について分析をしたところ、手話ではPTの指さし動作と似た単語が散見され、それらの手話単語がPTと誤認されたのではないかと推測しました。
分析結果について、それぞれのPTのパターンで誤予測された手話単語を検出し、グラフ化したものを参照して、それぞれのPTで混同されやすい単語と、指さし行為(PT)ではないのにもかかわらず、PTとして誤認されやすい手話単語があったと報告しました。さらに、AIから手話単語がどう見えているかを可視化した図を共有しました。各単語を座表上に細かな点であらわし、そして各単語がAIのなかでどう表現されているかを点の位置関係と数字で表し、二次元にプロットしたものである、と説明した。つまり、この座標上ではAIが酷似していると認識した単語同士は近くに配置され、それ以外の単語は数字と位置が遠くなる、と解説しました。この図が示すのはPT1、PT2、PT3は動きが非常に似ているという認識はできていて、PT1については比較的正しく理解ができているということだが、岡田氏の発表でも言及されたとおり、PT2とPT3では区別できていないのがわかると語りました。PT以外の点を見ると、類似した手形状を有する手話単語は正しくグループ化されており、身振りの特徴は捉えられていると言えるが、PTの区別に関しては課題が残ると話しました。
今回、それぞれのコーパスに適した実験・分析の形を採用したが、日本手話に関してはまだ課題が多く残ると語りました。日々AIの技術は進歩しているので、より強力な認識のモデルを採用し、PT2とPT3の区別の精度を上げるために指さし動作前後の文脈を入れていくことも検討していきたい。そして、現在は指さし動作が出たか出ていないかを単純に検証しただけだが、身体の向きなど他の要素も取り入れて分析をすすめていきたい。本件はAIの技術の進歩とともにすすめていくことができる、面白い研究であると、発表を締めくくりました。
発表④「指標とAI認識:記号論の観点から」(榎本剛士)
A01:身体班で言語人類学の観点からコミュニケーションを分析する榎本剛士氏(大阪大学)は「指標とAI認識:記号論の観点から」と題し、パース記号論をベースに「指さし」とその関連動作を分析し、そこから得た気づきと今後のAIのコミュニケーション認識技術について展望を語り、続くディスカッションへの橋渡しをしました。
榎本氏はAIの精度はこれから劇的に上がってゆくと語ったうえで、記号論的に見たAIの今後の可能性について述べました。AIにはまだ「指さし」のような、マルチモーダルなコミュニケーション上での動作を正しく認識することがむずかしく、課題が多い。そこで「未来館SCコーパス」の収録内容などを材料に、マルチモーダルなコミュニケーションがどのようにして可能となっているのかを分析することで、AIの精度向上について見通しを述べました。今現在、特定の入力に対する形式の組み合わせの生成(言語の出力)が可能になっており、この部分が今後はもっと精度が高いものになるのではないかということ。そして時々人間ではありえないような間違いをAIはしてしまうことがあるが、今後はより「人間のような」形式と概念の対応付けができるよう、中山氏が話したようにAIと人間の理解のずれを擦り合わせてゆくこと。また、言及指示中心のイデオロギー(言語―概念―モノの3つの要素が相互的に関わり合い、言語が実際のモノと繋がり意味を持つこと)の〈モノ〉の部分が、〈動作〉や〈出来事〉などになったとしてもおそらく高い精度で特定ができるようになっていくであろうということ。そして属性を含んだ区別などもすすんでいくであろうと推測しました。
具体的に次のように説明しました。まず前提として、記号論的な観点からは「象徴記号」と「指標記号」があり、パース記号論で言う「象徴記号」(記号とそれが指す対象が社会的な慣習や決まりに基づいて決まっているようなもの)の扱いは、AIの得意分野である。言語の「象徴記号」としての特徴は「言及指示」に顕著に表れるもので、この特徴は「言い換え」を通じた「メタ言及指示」を可能にする。そして、このような言語の側面は大変重要な役割を果たしているが、一方で我々のコミュニケーションはコンテクストの中で行われ、マルチモーダルである。むしろ「指標記号」がかなり支配していると言える。ここでいう「指標記号」とは社会的な慣習や決まりに基づいて何かを指す記号ではなく、パースから引用すると「一方で、個別の対象との、他方で、それが記号としての役割を果たす人の記憶との動的な(空間的な)つながりに置かれることで『対象』を指す記号」である。つまり、「指さし」という動作は、つながりや隣接性に置かれることで対象を指す記号となる典型例である。しかし指さしには「象徴記号」と異なり「言い換え」がきかないと言う点がある。「象徴記号」の特徴である「メタ言及指示」ができない領域、つまりこの「指標記号」の扱いがAIにとって難しい部分である。以上の前提に基づいて考えると、今後AIがどこまで指標性を捉えることができるようになるのかが課題となる。現状から今後のAIの可能性については、まず「象徴記号」の性格も有する「指標記号」(※1レジスター、※2ジャンル、※3ジェスチャー、(代名詞)等)については今後AIでかなりうまく処理が可能になるであろう。ただ、代名詞に関しては「象徴記号」と「指標記号」両方の性格を有しているため、処理しきれない部分が出てくる可能性が高い。また、「指標記号」の「形」の(継(共)起の)特定も高い精度で可能となるだろう。しかしその「形」の認識だけでは記号を認識したとは言えない、つまり、その対象とセットになり初めて「記号」と言える。そこで、問題となるのは「動的な(空間的な)つながりに置かれる」ことで指し示される対象は特定できるのかということである。これについて「未来館SCコーパス」の収録の事例を榎本氏らが何度も実演し、分析した結果、これらは動くのに十分なコンテクストが積み重ねられており、記号論的に整合性を持っていると言える。
以上の記号学的な分析から、指標とAI認識に関して下記を提示し、ディスカッションへの橋渡しをしました。マルチモーダルな「指標記号」によって指し示されるまとまり、つまりコミュニケーション上でつながりを持っている対象のまとまりがどのようにして生成されているのかを分析していく必要性があること。そして人間はこのコミュニケーションのまとまりをもって初めてそれを受けて行為をすることができると付け加えました。そして「言語-概念-モノ」の枠組みはAIが得意とする分野だが、そこからさらに人間の五感に対応する認識技術が発展していくと推測し、そこから指標的な問題が解決されるのではないか、と提起しました。また、コミュニケーションの今・ここ性と発話出来事はAIの処理にどの程度入れ込むことができるかと述べました。「シンボルグラウンディング」と呼ばれる、シンボルをモノに意味付けをするという概念があるが、指標の枠組みに入れるとシンボルを今・ここで起きている発話出来事にどのようにして錨を下ろすかという「シンボルアンカリング」が今後AIと指標をめぐる問題となってゆくのではないかと述べ、発表を締めくくりました。
※1レジスター:特定の人・場所・ものと結びついているものとして理解される言葉を指す。(例:男性・女性言葉、ターミノロジー、敬語、等)
※2ジャンル:コミュニケーションの手続きが慣習化されているもの
※3ジェスチャー:意味が慣習化されたもの
パネルディスカッション
指定討論者:喜多壮太郎(University of Warwick)
パネリスト:榎本剛士(大阪大学)、岡田智裕(総合研究大学院大学)、坂井田瑠衣(公立はこだて未来大学)、中山英樹(東京大学)
モデレーター:菊地浩平(筑波技術大学)
第一部の話題提供に続いて、喜多壮太郎氏を指定討論者として迎え、パネリストとディスカッションが行われました。ディスカッションでは喜多氏から「指さし」の行為について理論的に意味の広さや深さをどのようにしてとらえればよいか、また、コミュニケーションの当事者として内容が理解できることや意味が汲み取れるといったことはどういう仕組みで行われるのか、といった議論の大枠が提示されました。それらの議題の中で、PT、AIの今後の課題、分析の視点、そして認識の前提となる経験とは何かについて多様な視点から議論が展開されました。
まず、喜多氏から各話題提供に対して質問が投げかけられました。「指さし」(PT) に関して、喜多氏から岡田氏に現状PTの種類は一人称、二人称、三人称の3種類に分類されているが、手話を理解するにあたってそのような区別を設けることは役立つのかと質問がされました。岡田氏からは、PT3はPT1・2と比べて幅広く、現状うまく分類することが難しい、そして細かく分類してしまうことでかえってわかりづらくなる可能性が出てくると答えた。「日本手話話し言葉コーパス」は丁寧な環境づくりをしたうえで収録したものとなり、実生活の中での自然なやりとりとは設定が異なる。後者のような設定だともっと色々な指さしが出てきて、今後PTの種類が増えてゆくという可能性は出てくると話しました。さらに、喜多氏から手話・音声言語の枠組みを超えて与えられる空間の中の特定の場所への意味付けについてどのように捉えているかという質問がされました。空間の指さしについての先行研究では最高何人まで空間の中で意味付けをすることができるかと言った実験がされていたが、個人的には人数が多いほど、あちこち様々な指さしをすることで見ている方も混乱し、理解力が低下すると考えられると岡田氏は意見を述べました。
喜多氏は坂井田氏に対して、「同じように見える」指さしだが意味は多様であるという発表の内容から、意味・目的が違うと判明してから再び手形などを循環的に観察することで得た気づきはあるかと質問をしました。坂井田氏は、喜多氏の意見に同意し、手全体を使っているか、人差し指か、また、指さしに伴うストロークや時間、その際の視線など微妙な違いを発見したと答えました。指さしの前後関係や時間と形や対象物の特徴が対応しているか考え直す必要がある。このSCコーパスのように同じような行動をしている中での指さしでも細かく指さし行為にともなう行動・言動を分類していくとかなり多様であることがわかると説明しました。
中山氏に対しては喜多氏より今後意味の世界に踏み込む予定があるかという質問があり、中山氏はその必要があると述べました。現状はあくまで画像を言語世界に落とし込み、大規模言語モデルに問題を解決・推論をさせるという方法をとっているが、それ以外の「意味」や「コモンセンス」に関わる側面が大事であると今回認識したと語りました。指標性がAIに与える課題への今後のアプローチについて、現状、大規模言語モデルは指標記号の扱いは苦手とするところであるが、そこをさらに広い枠組みや視点で考え、たとえばロボティクスやシミュレーション等を取り入れるなど、環境を整備していく必要があると述べました。
喜多氏から榎本氏に、「ダイナミックなつながり」が指標の重要なポイントであると言う点について、それは誰の視点から判断されたものか質問がされました。榎本氏は、A01班の中でも視点については議論されてきたが、答えには至っていないと述べたうえで、当事者としての視点は重要だとして、具体的に未来館SCコーパスの分析では来館者から見た視点を固定し、実際に何度もその行動をやってみたと話しました。先述のパース記号論とはつまり経験に関する理論なのでこれをしないことには記号論の視点から分析することはできないと語りました。視点は固定していいのか、そうすることにより実際のコミュニケーションの豊かさが損なわれるのではないかなどについても考えた。しかし最後には必ずこれらはすべて研究者からの視点から見た視点ではないかという疑問が生まれるので、それは今後説明が必要になる部分であると述べました。榎本氏の分析に喜多氏は自分で実際に真似をしてみて分かることがある、それを研究のメソッドとして採用しているのは非常に感銘を受けたと語りました。
さらに菊地氏が、中山氏の発表でAIが認識をする仕組みについて説明があったが、我々人間のような認識の仕方に近づくようになるために、今一度、「経験とは何を意味するのか」について議論する必要があるのではないか、我々の直観を構成している要素は何か考えるべきでは、と提起しました。経験に関し、パネリストがそれぞれの観点から見解を述べました。榎本氏は自身らが実際に起きた行動を実演してみて分析をするという方法で得た着眼点から、コミュニケーションとは特定の記号的なモダリティ―を持つ言語に回収できるものではないので、その中の要素をすべて当事者たちが拾い切れているわけではないと話しました。それを実際に行ってみることで言語が切り捨てている部分、つまり指標的に指示された部分も含めて再確認ができた。それらの意味や知識というのは次の行為に結び付くもので、すなわちそれが経験であり、経験からわかることがあるという現象はコミュニケーションとは指標的なものだからというところに帰着するのではないかと語りました。中山氏は経験について、AIには人間が一回やってみてわかるようになるということは到底無理であることを述べたうえで、それが人間に可能なのは過去の知識、つまり経験からの転移があるのではないかと述べました。新しい情報を既存の知識とどう結び付けていくか、それが少ない事例から学習ができることへの足掛かりになるかもしれないと推測しました。また、坂井田氏は動画を見て分析するという特性上、実際の現場にいることで受け取れる情報と多少異なりがあり、状況や関係性を理解するための認知的努力に差がある、よってリアリティに欠けた状態で分析していると感じることがあると話しました。榎本氏らが行っていることはまさにリアリティを経験しようとして採られている方法であり、リアリティのある経験をすることでわかることがあるのではという見解を述べました。岡田氏は手話会話のアノテーションをした経験から、経験というのは個人差があるもので、一つの動作のアノテーションをするにしても書き方や捉え方が異なることがあると述べました。それはその人の記憶力やバッググラウンド、指さしの使い方などの違いが影響している。空間の中の会話で意味付けをした場所があったとしても指標的なものは別の話では別のモノに入れ替わってしまう、そういった環境では経験という視点も大事だが、個人の生い立ち、指さしの使い方、方向性なども関わってくるので、共通点についても調べてみたいと思うとコメントをしました。喜多氏は経験が大切になってくる意味解釈とは何かという視点から、榎本氏の話題提供の中であった「言い換えられる」意味は、「経験によって得られる」意味と異なるのではないか、と見解を述べました。後者は推論によって導き出される意味であり、それはコミュニケーションをとる中で相手の前提は何だろうと推測している、自身のすべての経験からの視点が重要となる部分である。よって経験は前提を引き出してくるための重要な材料なのではないかとコメントをしました。
後半ではフロアとの質疑応答が行われ、指さしの手形状や向きの違いや、どこから指さしと捉えて分析をするのか、などPTの詳細についての質問が多くあがりました。最後に、喜多氏から指さしにはメタコミュニケーション的な意味があると考えていると述べられました。つまり自分の身体の動き(向きや視線など)がコミュニケーション的な意味を持っている。そのうえで何かを指し示す・意味付けするために指さしが役立っているのではないかと語りました。これを受け、中山氏はAI開発の観点でこのメタコミュニケーション性、本当の意味でのマルチモーダルを目指す必要があると思うと話しました。そして榎本氏からは、聴者・ろう者ではメタコミュニケーション的な意識にのぼってきやすいものとそうでないものがあり、使っている媒体によりその内容が変わると手話コミュニケーションには言及指示が多く空間のようなものが可視化されているという特徴について述べられました。それは言語相対論的な視点から興味深い点であり、そうしたことから聴者・ろう者の身振りの比較もして研究をしていく必要性があると語りました。
以上、今後の現状の研究の成果に対する理論的・技術的な見解と、今後の各研究に関する課題について多角的に議論された大変意義深いディスカッションとなりました。