名古屋大学大学院森研究室(教授 森健策、准教授 小田昌宏、博士後期課程学生 Nguyen Cong Khang)と国立情報学研究所RCMBは、3次元X線CT画像から基盤モデルを作成し、さらに大規模言語モデル (LLM) と組み合わせてCT画像を比較読影した所見文を出力する大規模マルチモーダルモデル (LMM) を研究開発しました。このLMMは、経過観察のために時間をおいて撮影した二つのCT画像を読込んで解析し、それらを比較してどの臓器にどのような変化があるのか、あるいは変化がないのかを報告する所見文を生成します。これは、これまで放射線科医しかできなかった経過観察を支援し、より迅速で精確な読影所見の記述や病変の定量評価の実現につながるものです。

医療行為はさまざまな症状や画像、検査結果などを統合して処理・認識し、所見文の記載と共に診断することが最初に求められます。このような知的活動は知識と経験を有する医師のみが可能で、これまでの医療AIは単一モダリティの医療画像などから疾患の有無や種類を判定するような簡単な医療支援に止まっていました。LLMを言語以外の他のモダリティ、例えば画像と組み合わせたLMMを用いると、画像内容の説明を文章で出力する、逆に、文章で指示した内容を画像として描画することが可能です。こうした異なる文章を含むモダリティを統合して処理・認識することは知性の核であり、LMMは人間の知的活動に類するものを機械が獲得する第一歩と言えます。医療文書に関するLLMをベースにして画像認識などを組み合わせたLMMを実現することで、根拠となる所見を文章で示しつつ診断を示唆する、いわば医師の知的活動を支援する医療AIを実現することができます。

このLMMにおいては、二つの3次元CT画像 (人体の断面画像を積み重ねたもの)を、画像特徴を表現するトークンへと3D Vision Encoderを用いて変換します。そして、所見文の出力を命令する命令文のトークンも併せてLLMに入力することで経時変化の所見文を出力します。このLMMを実現するために、国立情報学研究所と日本医学放射線学会が構築を進めてきたX線CT画像データベースJ-MIDを利用して、生成AIの学習を名古屋大学にて行いました。名古屋大学は、国立情報学研究所が管理する画像データベースに接続し、本研究で開発された生成AIモデルの学習処理を行いました。

国立情報学研究所プレスリリース https://www.nii.ac.jp/news/release/2025/0424.html
名古屋大学プレスリリース https://www.nagoya-u.ac.jp/researchinfo/result/2025/04/ctai.html

Update

本成果はSIP第3期「統合型ヘルスケアシステムの構築における生成AIの活用」公開シンポジウム(2025年4月30日に開催)にて、デモンストレーション発表しました。