Surveillance system for COVID-19 pneumoniae

国内で毎日撮影されるX線CT画像データを日々クラウド基盤へ収集・蓄積している特徴を活かし、RCMBではCOVID-19 (新型コロナウイルス感染症) パンデミック発生当初から、COVID-19肺炎のX線CT画像による医療支援AIを研究開発してきました。まず、COVID-19パンデミック発生前後のウイルス性肺炎のX線CT画像から学習用データセットを生成し、同時に、このデータセットを利用して、X線CT画像からCOVID-19肺炎を診断補助する機械学習の研究開発環境を整備してきました。

NIIニュースリリース 2020年9月28日

新型コロナウイルス肺炎CT画像をAI解析するためのプラットフォームを開発　〜全国の病院から集めたCT画像をAIで選別し高品質なAI研究用データセットとして整備〜

この研究開発環境を利用し、研究の成果を社会実装するための実証実験として、COVID-19肺炎CT画像によるサーベイランスシステムを開発しました。

NIIニュースリリース 2022年11月1日

COVID-19肺炎CT画像によるサーベイランスシステムを開発パンデミックに即応して研究開発が可能なICTプラットフォーム

サーベイランス研究開発の背景

COVID-19はSARS-CoV-2 (severe acute respiratory syndrome coronavirus 2) の感染によって発生し、主に肺を含む呼吸器に症状を呈します。基本的に症状は比較的軽く、感染者の3分の1は無症状で終わります。さらに、発症した場合でも約8割は軽症から中等度症状で治癒します。いっぽう、SARS-CoV-2の感染力はきわめて高く、またたく間に全世界で爆発的な感染流行を引き起こしました。発症者の約2割は重篤な症状を呈し、5パーセントは呼吸不全や多臓器不全などの致命的経過を辿ります。重症化率・致命率は決して高くないのですが、元の感染者数が多いため、重症患者の数が増える傾向があります。

COVID-19の重症化にはいくつかの要因が関係しています。要因の一つは宿主の状態です。糖尿病などの基礎疾患の存在はウイルス感染に対する抵抗性を弱め、感染した場合には症状が重くなって致命的な状況へ至る可能性が高くなります。基礎疾患だけでなく、加齢や喫煙も重症化を促す状態となります。さらに、基礎疾患のない健康で若い成人でも、一定の割合で重症化する症例が報告されており、その原因の一つとして、感染者の遺伝的要因が想定されています。このような宿主の状態は、診療記録を参照するなどしてある程度は把握することが可能です。

重症化のもう一つの要因は、SARS-CoV-2の変異株 (variant) の存在です。ウイルスが宿主の細胞の中でゲノムを複製する過程で塩基配列に一定の確率で変異が入ります。大多数の変異はウイルスの表現型 (感染力や毒性など) を変えるに至らず、あるいは、ウイルスの生存率を下げてしまうため、変異株が優勢となることはありません。しかし、ごく一部の変異は生存率を上げる方向へ表現型を変えてしまうことがあり、このような変異株は短期間で感染流行の優勢を占めることになります。感染力や毒性の上がった変異株の出現を正確に予測することはとても困難です。

COVID-19の診断には、ウイルスの存在を示すPCR検査や抗原検査が利用されます。こうした検査は手軽で感度も高く、感染の有無を迅速、且つ大規模に同定することができます。しかし、COVID-19パンデミックにおいては、感染の有無ではなく、発症とそこから重症化する症例の把握が重要です。COVID-19の重症化には上述のようにいくつかの要因があり、感染の有無だけでは重症化症例を把握することはできません。重症化に至る最初の段階である症状、とりわけ肺炎の状態を把握しておくことが必要です。

そこで、肺野のX線CT画像からCOVID-19肺炎の典型度を判定するAIを利用し、クラウド基盤に日々収集されているCT画像を自動判定するシステムを構築、稼働することにしました。このシステムによって全国の医療機関で撮影されているCT画像からCOVID-19肺炎の症例を自動で判定し、それらの判定結果を日毎に集計することでCOVID-19肺炎のサーベイランスを行うことができます。発症率や経験則に依存しないで、肺炎患者の実態を画像ベースでリアルタイムに追跡、把握するシステムです。

サーベイランスシステムの実際

クラウド基盤には毎日2千〜1万シリーズ、画像にして50万〜120万枚のX線CT画像が送信されています。このCT画像は全身のもので、肺野を撮影対象としていない画像も多く含まれます。そこで、所見文に「肺」が含まれるCT画像を選択し、これらの画像に以前に研究開発した診断補助AIを実行し、各画像に対してCOVID典型度、所見文における重要キーワードの有無などを計算しました。処理した約31万症例の計算結果を各日ごとに集計して出力し、可視化してサーベイランスとしています。

サーベイランスの結果 - 24 March 2023 updated

サーベイランスシステムの稼働以来、過去にも遡って判定、集計を続けてきました。今回、COVID-19パンデミック初期の2020年2月までの遡り解析が終了し、今年2月末までの3年間のCOVID-19肺炎の動態が明らかになりました。

COVID-19 pneumoniae surveillance

サーベイランス　(インタラクティブグラフ版)

全国のCOVID-19による日毎の死亡者数 (厚生労働省オープンデータ) を背景のグレーの棒グラフでプロットしています。横軸下のI 〜 VIIIは感染の各波を、alphaやdeltaなどはSARS-CoV-2のその時点で優勢な変異株を、それぞれ示しました。変異株の間の斜めの境界は、株間の世代交代に要した時間を反映していて、delta-omicronの世代交代はalpha-deltaのそれの約三分の一の時間しか要していません。緑実線はAIによってCOVID-19肺炎に典型的なCT画像所見の可能性が高いと判定された症例の割合 (全症例に対する典型度高症例の割合) です。赤実線は所見文に「COVID」や「コロナ」などの文言が現れた症例の数と典型度高症例の割合を掛け合わせた数値を示し、青実線は所見文に「すりガラス陰影」や「GGO (ground-glass opacity)」などの文言が現れた症例の数と典型度高症例の割合を掛け合わせた数値を示しています。いずれも二週間の移動平均線です。

典型度高の割合の変動と各波は一致する部分としない部分がありますが、V波までは概ね一致しています。この傾向は、所見文に「COVID」や「GGO」といった文言が現れる症例数を掛け合わせた数値を見ると、よりいっそう明確になります。これらの文言は所見文に現れているだけで、それらの所見が画像にあるか否かは反映していません。つまり、「COVID肺炎と矛盾しない」という所見文も「COVIDを疑わない」という所見文も等しくカウントしているため、その所見文が附帯した画像がCOVID-19肺炎のCT画像ではない可能性もあります。したがって、これらの文言の出現頻度は、正確にはCOVID-19肺炎の頻度を反映していません。ただし、COVID-19肺炎と関係ない画像の所見文に「COVID」の文言が現れる確率は低く、ある程度の反映はあると考えられます。

「すりガラス陰影 (GGO)」はウイルス性肺炎のCT画像に典型的な所見で、COVID-19肺炎でも特徴的です。ただし、GGOは間質性肺炎でもよく見られ、SARS-CoV-2以外のウイルスによる肺炎でも現れるため、COVID-19に特異的な所見ではありません。しかも「COVID」文言の場合と同様に、所見にGGOがなくても所見文に「GGO」が現れる場合もあります。ここで、AIによる典型度高判定の割合と放射線科医による「GGO」文言出現の数を掛けた数値 (青実線) は、機械とヒトの判定を互いに補強した数値と見做すことができます。実際、V波までは流行のピークとよく一致します。

AI判定がVI波以降は感染ピークと一致しない現象については、おそらく学習データと判定ターゲットの乖離が原因でしょう。サーベイランスシステムで利用した診断補助AIの学習データは2020年7月から2021年6月のCOVID-19肺炎症例を使っています。この時期にはomicron株は未だ出現していません。さらに、omicron株による臨床像は、それまでのalpha株やdelta株のそれとは異なっていて、CT画像の所見も違います。このAIがomicron株によるCT画像の変化に追従しきれていない可能性は十分にあります。今後は、変異株の変遷に伴って学習データの更新を実行する仕組みを導入するなど、判定精度を維持する方策が必要でしょう。

Acknowledgement

本研究開発成果は、NICT委託研究「ウイルス等感染症対策に資する情報通信技術の研究開発」の研究課題「課題A ウイルス等感染症により発生するパンデミック対策に資するICT (採択番号 222A03)」によるものです。