日本学術振興会 科学研究費助成事業 学術変革領域研究(B) 2022〜

身体記号学クロージングカンファレンス
第二部:研究成果報告[JPN] (通訳:現地 JSL, IS /オンライン JSL)


 2025年2月11日(火)の第二部では学術変革領域研究(B)「言語相互行為における身振りと手話を対象とした身体記号学」の4つの研究班より、成果報告がありました。坊農真弓氏(国立情報学研究所)からの全体成果報告に続き、A01班を代表して井上昂治氏(京都大学)、A02班を代表して坊農真弓氏、A03班を代表して莫俊文氏(東京大学)、B01班を代表して牧野遼作氏(早稲田大学)らが研究の成果について発表をしました。

第二部

領域全体成果報告(坊農真弓)

A01成果報告「記号論に基づいたアノテーションデザイン」(井上昂治,高梨克也)

A02成果報告「日本手話日常会話コーパス」 (坊農真弓,岡田智裕)

A03成果報告「LLMのリソースとしてのYouTube」(中山英樹,Minh-Duc Vo, Junwen Mo)

B01成果報告「Tracrin」(牧野遼作)

領域全体成果報告(坊農真弓)

 学術変革領域研究(B)令和4年度採択研究領域「言語相互行為における身振りと手話を対象とした身体記号学」の3年間にわたるプロジェクトの活動内容と成果について、坊農真弓氏(国立情報学研究所)が報告をしました。
 本プロジェクトは音声会話と手話会話の比較をすることにより、「マルチモーダル記号論」を確立することを目標としていると話しました。コミュニケーションを記号論的にみると、シンボル(恣意性)・インデックス(指標性)・イコン(類像性)的な要素を持っており、手話の特徴としてはイコン性が高い言語であるといえると説明し、手話と音声ではコミュニケーションの取り方にかなり違いがみられ、これらのモダリティを比べることを目的としていると語りました。
 坊農氏は、4つの研究班が担当する分野について改めて紹介をしました。A01:身体班は音声会話専門(研究代表者:高梨克也氏、滋賀県立大学)、A02:手話班は手話専門(研究代表者:坊農真弓氏)、A03:工学班(研究代表者:中山英樹、東京大学)はAIの力で研究・分析を効率化していくことを専門とし、B01:データ統合班(研究代表者:菊地浩平氏、筑波技術大学)は他3つの研究班が集めたデータを使いコーパスを構築して必要とする方たちに提供する班となっている、提供をする方法にしても受け取り手のニーズや特性を検討し、適切な媒体で提供をしている、このように本プロジェクトに関わる研究者の専門は多様で多くのスペシャリストが携わっていると述べました。
 さらに、研究で行った作業について詳細を以下のように説明しました。まず集めた音声や動画のデータにアノテーションをつけていくことから始まり、そこから理論を構築し、各専門分野で研究として扱えるような形にしていく作業を行った。そして、第一部で紹介された「日本手話話し言葉コーパス」と「未来館SCコーパス」を1年目から使用可能にしたことによって迅速なプロジェクトスタートが実現できた。二年目は次世代のコーパスをつくることを目的とし、次につながるデータを収集することを考えてきた。また、多くの分野の専門家が集まっている性質から、学術用語についても認識にゆれがあるので、共通言語・認識をつくっていくためにイベントをした。それらをYouTubeで限定公開し、好きな時に見られるようにするなど多くの活動をしてきたと報告をしました。
 また、坊農氏からの成果報告に加え、本プロジェクトの文部科学省学術調査官を勤められた磯村朋子氏(名古屋大学)と橋本栄莉氏(立教大学)からは、貴重で有意義な経験をすることができた、今後の研究の発展を期待しているとコメントが寄せられました。
 このように、多くの専門家の協力を得て進んだ本プロジェクトは、ひとりひとりが重要な役割を担って3年間歩んできた。成功をしたと言えると坊農氏は全体報告を締めくくり、各研究班の成果発表へとつなげました。

A01成果報告「記号論に基づいたアノテーションデザイン」(井上昂治)

 A01:身体班の井上昂治氏(京都大学)が「記号論に基づいたアノテーションデザイン」と題して、音声対話における記号論に基づいた研究の説明と、分析結果の報告を行いました。
 A01班は、「マルチモーダル連鎖分析:“次世代身振りコーパス”構築に向けて」というテーマで研究をすすめており、最終的に「マルチモーダル連鎖分析」を通して会話における身振りの複雑な意味を解明していく、そしてその結果、今後AIが人間と自然に関わることができるようになる技術の発展につながっていくことを目標としていると語りました。また、「未来館SCコーパス」を材料に、身体動作の連鎖をレリバントアノテーションという手法をベースに様々な方式でアノテーションを付与していき、3年間でアノテーションの基盤を構築してこられたと認識していると述べました。それらを新たに取り組む身体記号学のシステムやコーパスの構築に利用していきたいと今後の展望についても語りました。
 詳細について下記のように説明をしました。「マルチモーダル連鎖分析」について、具体的にはコミュニケーションにおける身振りの役割を解明することを目的としている。研究では身振りの意味は文脈や状況とセットとして捉えており、話し手の身体動作を受け手がどう理解したか両者に焦点を当てて分析をすることを大切にしてきた。「未来館SCコーパス」を事例として取り上げ、これらの指さし(インデックス)行動を分析するにあたり、レリバントアノテーションというものをベースにしている。レリバントアノテーションとはSC側(説明する側)の動作に注視して、物理層(見たままの動き)からより意味解釈の強い層(挨拶をする行動等)までを階層的に記述したものである。近年のAIは自然言語も理解できるようになっていることから、自然言語で柔軟に記述したものを使用したと付け加えた。このレリバントアノテーションをベースとして、多様な専門家たちが多角的に取り組んだ5つのアノテーション様式を紹介した。まず1点目の「関連要素アノテーション」は移動の連鎖に関連する要素を出来るだけ細かく情報を書き出したもので、移動が生じる場面の細かい動きについてより詳細に分析が可能となる。時間、受け手の移動の有無、モード変化のトリガーなど12にわたる項目に分けて記載されており、18対話から74サンプルをアノテーションした。2点目は「動作連鎖アノテーション」で、レリバントアノテーションを簡略化しつつ応答する来館者の動きも対象にしているものとなり、SCの動きに注目するだけではなくSCの動きに対しての来館者の反応といった連鎖にも注目して記述している。この連鎖パターンを量的に分析することで指さしを含む身体動作と指さしがない動作ではどういった意味を持つのかといった分析が可能になる。3点目の「ポインティングアノテーション」は網羅的にこのコーパスの中で指さしがどの程度出現しているのかその頻度と時間、そしてそれが何を指しているのかを記述したものになる。ここでは35対話から135サンプルを抽出し、この網羅的なデータを使って質的なアノテーションが可能になってくると考えたと述べました。4点目に、A01班とA03班が連携して行った「ジェスチャタイプアノテーション」がある。SCの各ジェスチャ(925サンプル)をIndexical(指標的)、Iconic(図像的)、Symbolic(象徴的)、Mixed、Othersに分類をし、3名にアノテーションをしてもらった。その結果、多少のずれはあったものの展示物を鑑賞するという特性上、指標的な身体動作が多く見られ、ある程度共通した結果だった。そして現在、A03班と連携し、AIがどれだけジェスチャーのタイプを認識できるのかという実験を行っている。5点目に、第一部で榎本氏から説明があった「記号過程アノテーション」に取り組んでいると述べました。
 さらに、現在行っている2つの取り組みについて紹介をしました。まずアノテーション統合システムの構築に取り組んでおり、今まで様々な分野から取り組んできたアノテーション(同じ現象に対し異なる方式やレイヤーでアノテーションされたもの)を統合し、相互参照を可能にすることにより、新たに発見できる事象や分析できることがあるのではないかと語りました。そのための環境を作っていきたいと話しました。もう一つの取り組みとして、「風呂敷コーパス」の構築をあげました。このコーパスはより複雑な身体動作の連鎖のアノテーションを目的としており、「未来館SCコーパス」のように指標記号が中心になるものではなく、風呂敷の包み方を教える場面を対象にすることで、物と関わる身体動作やそれを表現する図像的(iconic)ジェスチャーが豊富にみられるのではないかと推測していると述べました。最後に、今回「未来館SCコーパス」における身体動作の連鎖に着目し、さまざまな方式・レイヤーのアノテーションを試み、アノテーションの基盤を築くことができたと述べ、それらのアノテーションを統合することにより新たな発見を期待していると成果報告を締めくくりました。

A02成果報告「日本手話日常会話コーパス」 (坊農真弓)

 A02:手話班より「日本手話日常会話コーパス」と題し、坊農真弓氏(国立情報学研究所)が日本手話の対話を対象とした次世代型コーパス構築に関わる実験とその成果について報告をしました。
 手話対話を対象として映像と音声を収録しながらデータの収集をし、アノテーションを試みてきたが、かつて「日本手話コーパス」を構築した経験に基づき、環境について再考したり、AIの技術を用いて解決をしたりしながら新たなコーパスの構築に挑戦してきたと語りました。A02班はより多くのデータを収集し、手話会話研究だけでなくAI研究などでも役立つような形でデータ収集をしていき、発表をしたいと今後の目標についても語りました。
 まず、2011年から2016年まで「日本手話話し言葉コーパス」を作って来た経緯があり、その際、アダム・シェンブリ氏(現バーミンガム大学)から助言を受けてコーパス構築について学び、実践してきたと説明しました。そして今回、新たに構築中の「日本手話日常会話コーパス」では具体的に語彙誘導型と対話型のデータを収集しており、対話型を坊農氏らが担当したと紹介をしました。この収録は第一部で岡田氏からも言及があったとおり、2名が与えられた特定のテーマに関して手話で対話する様子をカメラで撮影し、文脈の中の手話に注目して収録したものとなる。ただ、この実験のために整備された環境での対話なので、主に3つの問題点があったと述べました。まず、環境への指さしが起こらないという問題点について、A01:身体班からの成果発表でもあったようにA01班とA03 班の共同で行っているジェスチャタイプアノテーションにA02班も加わり手話も対象にしてみるという試みを始めた。3人のろう者のアノテーターそれぞれにテーマごとの対話にアノテーションを付与してもらった結果、80%から84%のアノテーション間の一致率が確認できた。よって文法化された指さし(PT1、PT2、PT3)と指さしジェスチャーの分類が可能かもしれないと推測した。ただ、これはあくまで実験室内でのジェスチャーなので、自然な環境ほどのデータが取れていない可能性はあると付け加えました。次に、収録した内容が自発的な手話会話ではないという問題点について、テーマに沿って話す内容という性質から自身の体験や思い出につながらない会話が多くなってしまうと指摘しました。自然な環境での対話を収録することで自身の体験や思い出などの話が多く出て、もっと描写的な手話が多くなる可能性があるのではないかと推測を述べました。最後に正面からの映像を取ることが難しいという問題点について、AIの技術により解決が可能であるとしました。具体的にはGoogleが開発したMediaPipeという技術を使用して、動きのコアだけを取り出し正面に合成することで分析することができる。そしてこのような分析法は、1つの語で様々な表現法(個人差)がある場合などにも手話の動きのコアを比較することを可能にした、と比較を二次元に落とし込んだ図を共有し語りました。今後、これらの課題へのアプローチとして以下を目標としたと述べました。実験室から出ること、話したいことを話すこと、AIに任せられる部分は任せること。そのために参考にした実験方法が国立国語研究所(特に小磯副所長)が行っている「日本語日常会話コーパス」であると話しました。こちらを参考に、2フェーズに分けて行った新たな実験について詳細を説明しました。まず協力者に撮影パック(マニュアルと360度カメラ)を送付し、第1フェーズでは7人の協力者に協力者同士の日常会話の収録をしてもらい、第2フェーズでは6人の協力者が友人・家族と会話をしているところを同意の上収録し、データを送り返してもらう手法をとったと話しました。合計収録時間は46時間にのぼり、協力者および対話者は合計39名に及んだとのことです。
 現在、坊農氏らは収録したデータの編集、第三者や著作物の削除、2D正規化、正面映像合成、映像の輝度調整、アノテーション等の作業をすすめていると話しました。また、できるだけ多くのデータをとることを目的としている性質上、可能な限りAIで処理が可能な部分は任せたと付け加えました。坊農氏は、今後、手話会話やAI開発両方にとって役立つようなデータ作りをしていると語り、成果報告を締めくくりました。

A03「LLMのリソースとしてのYouTube」(莫俊文)

 A03:工学班は「LLMのリソースとしてのYouTube」と題し、大規模言語モデル(LLM)等を活用し、日本手話(JSL)の動画データを収集・抽出・分析した結果を莫俊文氏(東京大学)が報告をしました。
 画像認識やLLMなど、データ駆動型AIを駆使し、音声生成や翻訳など音声AIの分野が飛躍的な発展を遂げているが、手話処理の分野ではまだ課題が多いと言えると述べ、A03班がその課題にどのようにアプローチしてきたかについて詳細に語りました。A03班が目標とする日本手話翻訳コーパス構築のためにはモデルに学習させるための字幕付き手話動画データを収集しデータセットを構築することが要となり、今回、YouTubeからJSLの手話動画、合計3000時間以上を入手したと述べました。それらのデータセットは合計300時間、20万テキスト(うち、16万のテキストはA03班の開発したパイプラインから抽出)にのぼり、日本手話翻訳データセットとして現状最大のものとのことです。これらの過程で、YouTubeにおける日本手話・対応手話の使用状況調査が必要となり、これは言語学的には初めて行われた調査となったと語りました。なお、日本手話翻訳コーパスの認識精度を向上させるために、別言語(アメリカ手話、YouTube-ASL)のビッグデータをモデルの事前訓練として活用してみるという初期探索にも挑戦し、これが有効な方法であると確認ができたと語りました。
 データ収集と分析の詳細について具体的に説明しました。まず手話翻訳のデータセットを構築するために字幕付きの動画を収集することが重要となるが、字幕付きの動画には2種類存在し、クローズドキャプション(CC)とハードコードキャプション(HC)がある。CCはYouTubeで投稿者が付けた字幕も含め、テキストデータを抽出できるので、処理は容易にできるが利用可能な動画が限られる側面がある。HCは字幕データが直接映像に埋め込まれており、字幕を正確に抽出することが難しいことから、利用可能なデータ量は多いが、処理が困難であるという側面がある。ただ、大規模な日本手話翻訳データセットの構築にはHC付きデータの活用が不可欠となる。字幕の問題の他に、もう一つの課題として、日本の手話には2種類あり(日本手話・日本語対応手話)、YouTube上ではその区別がされていないことが多く、「手話」とひとくくりになっているので、それぞれの使用状況調査も必要となることだ。A03班は、これらの課題に二つの並行プロジェクトでアプローチした。一つは手話翻訳データセットの構築のためにCC動画とHC動画両方を扱うが、主にHC動画から字幕を抽出することを目的とし、そのためのパイプラインを開発した。この結果、最大の日本手話翻訳データセット(合計300時間、20万テキスト、うち16万のテキストがA03班の開発したパイプラインから抽出)の作成に成功した。もう一つはYouTubeにある271個のチャンネルに基づき1人当たり1,891本ビデオクリップを3名(20代、30代、60代)のアノテーターにアノテーションの付与をしてもらう、という作業をすすめた。アノテーションの際に四つの項目、日本手話・日本語対応手話・判断できない・スキップのどれかにビデオを分類してもらい、この結果、日本手話/対応手話の判断は個人の主観や世代などにより大きく変わることが分かったと調査結果の報告をしました。
 また、A03班はYouTube-ASL(アメリカ手話)で学習したモデルはJSLコーパスの認識性能を改善できるか検証をしました。具体的には、以下の通り。YouTubeから収集したラベルなしのASLビデオをモデルに事前学習させることになるが、人間の場合は知識の習得度と予測能力というのは相互に関係しているという考えのもと、画像や音声の分野で使われる「マスク・再構築/予測タスク」の方法を応用した。具体的には手話の骨格情報の一部をマスクし、モデルがその欠けた部分を復元するという方法を訓練させることで、大量の手話に関する知識を習得させた。知識を習得したあと、JSLコーパスにおける孤立手話認識の訓練を行った。ここではラベルなしデータを使用するので、孤立手話認識ではモデルが単語レベルの予測をし、高い予測確率と対応したラベルが予測結果となる。その予測結果が正解のラベルとどの程度一致するのか、その一致率をベースに成功率を算出したものになる。JSLコーパスデータセットから、26,305個の単語レベルアノテーション、合計52,610のビデオクリップを抽出し、そのうち80%を訓練用データとして、残り20%を検証用データとして使用した。それらはRGB(外観、S3D)ベースと骨格(両手・上半身、ST-GCN++、事前訓練なしのTransformer)の方法で比較された。RGBベースの手法は動画の全体的な外観情報を活用する方法なので良い結果になったのは納得の結果であるとしたうえで、骨格ベース手法ではYouTube-ASLで訓練したモデルが最も良い結果となり、RGBベースの手法と同程度の性能に達する結果となった。つまり、ASLを用いた事前訓練がJSL認識の向上に有効であるといえると述べました。
 A03班はデータ収集をすることで将来の研究の基礎を築くことと、他の研究班に対してコンピューターやAI技術の面でサポートを提供する役割を担ってきた。同時に、他の研究班からの意見を元に様々なアイデアや課題を具体的な形にしていくことができたと語りました。また今後収集したデータを活用し、JSLでの手話認識と翻訳のより強力なモデルを開発し、ろう者・聴者間のコミュニケーションの促進を可能にしたい。そして、半自動アノテーションの開発など実用化につなげることで、言語学研究の生産性の向上につなげたい。引き続きデータの分析をすすめ、日本手話と対応手話の違いを明確化していきたいと今後の課題を述べ、成果報告を締めくくりました。

B01成果報告 「tracrin」(牧野遼作)

 B01:データ統合班は牧野遼作氏(早稲田大学)が、手話研究、発話コーパス、日常会話コーパスなどを接続するためのプラットフォームとして「tracrin」(トラクリン) を作成し、3月中にはウェブサイトから利用できるように公開を予定していると話しました。tracrinは情報技術を用いて、今まで相互行為分析をするうえで欠かせなかったトランスクリプトの生成を自動化し、さらにトランスクリプトの管理、編集、共有を可能にしたものだとし、開発内容と今後検討する仕様について報告をしました。
 詳細は以下のようになります。相互行為分析とは、社会学の会話分析を出発点とする、人々の相互行為を定性的に分析するための手法となる。そこで重要となるのがトランスクリプトの存在である。トランスクリプトとは会話内容を書き起こしたもので、手話研究、会話コーパス、日常会話コーパスなど相互行為分析を行ううえで欠かせない素材だ。これを行うにあたって、対象の相互行為場面を収録し、収録した相互行為の中の発話や身体動作を細かく記述し、記述に基づきトランスクリプトを作成する必要がある。トランスクリプトは縦方向は会話の流れを、横方向は会話の重なり・重複などをあらわしており、会話の時間構造が一目でわかるものとなっている。さらにそのトランスクリプトを根拠としてデータを使用する必要(論文・研究発表などで)も出てくる。これは研究者らがデータセッション(トランスクリプトをもとに議論すること)等をしながら膨大な労力と時間をかけて精査するもので、どこで誰が発話しているか、その発話はどのような意味か、どのような行為として記述できるのかという精査を行う。しかしそういった本質的な労力以外の部分で、テキストファイル上でインデント等の位置調整を手動で行う必要があったことや、ツールがないという理由から煩雑な業務も同時に発生していたという問題点があった。そういった煩雑な作業を削減するために今回、tracrinではELANからの書き起こしを自動生成できる機能や、発話の重複位置の自動調整機能等を基本的な機能として付けた。また、論文などで発表をする際にトランスクリプトを資料として使うために、tracrin上で文字数やインデント位置を発表媒体に合わせて自動的に調整ができるようにした。なお、追加機能として動画再生機能やコメントの共有機能もつけた。これは会話分析や相互行為分析をすすめる際、動画とトランスクリプトを行き来して分析の精度を上げていくもので、複数の研究者間でトランスクリプトを共有し、データセッションで議論をすることが不可欠であると強調し、動画との連携は必要な機能であると説明をしました。さらにコメント共有の機能により、今までトランスクリプトを紙媒体でそれぞれの研究者に配布していたが、複数名が同時にコメント等を書き込み共有・閲覧することが可能になり、煩雑で分かりづらかったプロセスが改善されたと話しました。
 このような情報技術を用い、プラットフォームの開発をすることで、相互行為分析の今後の発展が期待できると語りました。オンラインデータセッションや、「未来館SCコーパス」のように公開されているコーパスを様々な研究プロジェクトで対象・参考にする際などにtracrinの機能の柔軟性は役立つであろうとの見解を示しました。なお、今回はベーシックな機能の実装だったが、既存のトランスクリプトを情報技術の応用で容易に作成可能なことを提示し、tracrinがひな形として有用であることが確認できたとしました。一方で、現在の研究状況では、tracrinが現在対応可能なもの以上に複雑な書き起こしの方法について、手動でそれらを書き起こそうとすればするほど複雑になっていってしまうという課題に触れました。そのような複雑な記述は使われなくなる可能性が高くなってしまう懸念があるので、複雑な記法の生成・管理を容易にできるようにシステムを構築し、トランスクリプトを作ることができるようにしていきたい。情報技術と文系研究の融合として、身体記号学等、新たな記述に適した新たなプラットフォームを模索・構築していきたいと話し、成果報告を締めくくりました。

第一部:身体記号学クロージングカンファレンス第一部:AIを味方にするためのコミュニケーション研究
第二部:身体記号学クロージングカンファレンス第二部:研究成果報告
第三部:身体記号学クロージングカンファレンス第三部:招待講演