2020年の国立情報学研究所オープンハウスのテーマがCOVID-19 (新型コロナウイルス感染症) パンデミックとなり、特に研究と教育の継続性を情報学の立場から支援する様々な取り組みを提案、紹介しました。RCMBでは、医療画像データを日々クラウド基盤へ収集・蓄積している特徴を活かし、COVID-19肺炎のX線CT画像データセットをいち早く整備し、COVID-19肺炎の典型度を判別する医療支援AIを迅速に開発しました。

NIIニュースリリース
新型コロナウイルス肺炎CT画像をAI解析するためのプラットフォームを開発 〜全国の病院から集めたCT画像をAIで選別し高品質なAI研究用データセットとして整備〜

NII COVID-19 2020 News Release

クラウド基盤の存在

RCMBは、2017年11月の発足当時よりAMEDから研究資金の支援を受けて、医療データ、特に多数の医療機関から医療画像データを集めてデータベースに整備するクラウド基盤を構築、運営してきています。

RCMB Cloud

2020年7月末の時点で6つの医療系学会を通じて約1億6千万枚の医療画像を付帯情報と共に収集しています。このうち、約1億枚は日本医学放射線学会が運営するJ-MID (Japan Medical Image Database) からSINET5を経由して送られてきている全身のX線CT画像です。

Number of images

この約1億枚のX線CT画像のなかには、COVID-19肺炎の症例が含まれているはずです。

COVID-19肺炎のX線CT画像データセット

COVID-19の最初の報告は2019年11月中旬でした。COVID-19の原因ウイルスSARS-CoV-2 (severe acute respiratory syndrome coronavirus 2, 新型コロナウイルス) の出現が同年の秋としても、世界的に2019年夏前のウイルス性肺炎の症例はCOVID-19ではないと考えられます。武漢の最初の報告から約2ヶ月後の2020年1月中旬に、日本における最初の症例が報告されています。これらの経過を鑑みて、日本におけるウイルス性肺炎のX線CT画像のうち、2019年末までの症例はSARS-CoV-2以外のウイルスが原因 (pre-pandemic) であり、2020年以降の症例にはCOVID-19が含まれている (post-pandemic) と考えて差し支えないでしょう。

以上のような観点に立ち、胸部のX線CT画像からCOVID-19肺炎を検出・分類する診療補助AIを迅速に研究開発するために、COVID-19肺炎のX線CT画像データセットを可及的速やかに整備することを企図しました。

Selection of images

機械学習によってpre-pandemicとpost-pandemicのそれぞれの時期から適切な症例を選別するアルゴリズムを確立し、2020年9月8日現在で非COVID-19肺炎367例、COVID-19肺炎320例の合計687例の症例をクラウド基盤から抽出しました。さらに、順天堂大学、日本医学放射線学会と密接に連携し、抽出した症例のX線CT画像にPCR検査結果とCOVID-19肺炎典型度のメタデータを付与しました。

COVID-19肺炎典型度を判定する診療補助AIの開発

このようにしてクラウド基盤上に整備したCOVID-19肺炎のX線CT画像データセットを用い、名古屋大学の研究チームは高い精度でCOVID-19肺炎の典型度を判定できるAIを開発しました。

COVID-19 pneumonia classification

COVID-19肺炎典型度は北米放射線学会 (Radiological Society of North America, RSNA) が提唱した4クラス分類に基づきました。放射線診断専門医がX線CT画像を観察し、典型的なCOVID-19肺炎に見えるものから肺炎とは解釈できないものまで4段階に分類したものです。

  1. COVID-19肺炎に典型的な所見を有するもの
  2. 典型的とは言えない非特異的な所見で不確定なもの
  3. 非典型的なもの
  4. 肺炎の所見がないもの

これらを2群に分けて、COVID-19肺炎典型度の高い疑わしい症例 (1&2) とそうではない症例 (3&4) としました。

名古屋大学の研究チームが開発したAIは、この (1&2) と (3&4) の識別タスクにおいて、83.3%の識別性能を達成しました。また、この解析を可能とするために、炎症などの影響でX線CT画像上の肺の形状が識別困難な場合でも、AIが的確に肺の形状を推定できる手法も開発しました。

今後の展開

クラウド基盤は、COVID-19肺炎に限らない臨床データが悉皆的・網羅的に収集されています。今回、この膨大なデータから、COVID-19肺炎のAI解析用プラットフォームを迅速に整備できたことになります。つまり、今回の成果は、ターゲット疾患を定めないで収集した過去のデータから、状況に応じて該当するデータを自動選別し、目的に最適なAI機械学習用データセットを極めて迅速に整備できる技術を開発したことを意味します。このことは、このクラウド基盤や超高速ネットワークSINET5を将来も継続して整備・運用すれば、未知の感染症などの国家的な緊急課題への対処にも有効だと確かめられたといえます。

Cloud platform for COVID-19

今回の枠組みを今後も継続して運用し、COVID-19肺炎のX線CT画像データセットの拡充を図っていきます。さらに、J-MIDより日々データが送られてくる特徴を活かして、COVID-19肺炎サーベイランスシステムの構築を目指しています。

Update - 31 October 2021

クラウド基盤に収集した医療画像の総枚数は2億8千万枚を超えました。COVID-19肺炎アノテーション付き画像の症例数は913例です。COVID-19肺炎サーベイランスシステムはプロトタイプを試験運用し、いくつかの問題点の修正を試みています。