深層学習の限界―胸部X線から肺炎自動検出システムの検証

m3.com
AI Lab
ニュース
深層学習の限界―胸部X線から肺炎自動検出システムの検証

AI Lab プロジェクト医療×AIの発展にご協力いただける方を募集しています

深層学習の限界―胸部X線から肺炎自動検出システムの検証

2018年12月3日（月）

AIに関連する医学論文をご紹介します。

ディープラーニング（深層学習）のひとつである、畳み込みニューラルネットワーク（CNN）を活用したコンピュータ支援画像診断（CAD）への関心が高まっているが、研究段階で示されるCNNの性能がそのまま臨床の現場で発揮されるわけではないことを、カリフォルニア・パシフィック・メディカルセンターのJohn R. Zechらの研究チームが示した。

3つの異なる医療機関で撮影されたレントゲン写真から肺炎を見つけ出す横断的な研究で、1つの医療機関で撮影されたレントゲン写真を使って機械学習を行ったシステムで別の医療機関のレントゲン画像の判定をしたところ、肺炎の検出率が有意に下がる場合があった。一方で画像がどこの医療機関で撮影されたものかを見分けるように学習したシステムは、安定して高い精度で撮影機関を区別することができるようになった。

研究チームは、CNNがレントゲン画像から疾病を見つけ出す際、疾病の影響で画像上に現れる特徴的な痕跡だけではなく、医療機関の撮影機材の特徴などほかの交絡因子も手掛かりにするように学習している可能性があると見ている。CNNを医療現場で診断支援に使う際にはこうした影響を考慮して慎重に性能の検証をすべきだとしている。

研究グループは米国立衛生研究所（NIH）の11万2120枚、インディアナ大学（IU）の7470枚、マウントサイナイ病院（MSH）の4万8915枚と3つの医療機関の胸部レントゲン画像のうち、まずは前方から撮影した画像だけを抽出するようにCNNに学習させ、選び出された合計15万8323枚の画像を続く実験で用いた。そして学習効果を高めるために9種類の疾患（心肥大、肺気腫、胸水、ヘルニア、結節、無気肺、肺炎、浮腫、合併症）の発症をとらえるように、3種類の画像セット（NIH、MSH、NIHとMSHの画像を混ぜたもの）のうちの1種類を使ってCNNに学習させ、4種類の画像セット（NIHとMSHを混ぜたもの、NIHのみ、MSHのみ、IUのみ）で学習効果を実践形式で調べた。

学習と実践に使う画像セットが同一の場合と異なる場合で、システムの肺炎の検出の能力がどう変わるかを比較した。さらに、CNNではなく、学習に使った画像セットの肺炎症例の比率だけをもとに疾病の有無を算出するモデルを使って、NIHとMSHの両方の画像を含むセットの判定も実施し、どこの医療機関の画像であるかという情報だけから肺炎の発症を判定できるかどうかも調べた。また、学習によってCNNがレントゲンの画像情報だけからどこの医療機関、さらには機関内のどこの部門で撮影されたものであるか判別できるようになるかも検証した。

機械学習後のCNNの肺炎検出の結果からROC（受信者動作特性）曲線を描き、AUC（曲線下面積）を算出した。NIHの画像セットで学習したシステムは、同じNIH由来の画像セットを判定した結果で性能を見るとAUC 0.750(95%信頼区間0.721-0.778)だったのに対し、MSH由来の画像セットで性能を見るとAUC 0.695 (95%信頼区間0.683-0.706、P＜0.001)、IU由来の画像セットではAUC 0.725 (95%信頼区間0.644-0.807、P=0.580)だった。同様に、MSHの画像セットで学習したシステムについては、同じMSH由来の画像セットで性能を見るとAUC 0.802 (95%信頼区間0.793-0.812)、NIH由来の画像セットではAUC 0.717 (95%信頼区間0.687-0746、P＜0.001)、IU由来の画像セットではAUC 0.756 (95%信頼区間0.674-0.838、P=0.273) だった。NIHとMSHの画像が混ざったセットで学習したシステムは、NIHのみもしくはMSHのみに由来する画像セットで性能を見た場合よりも、両方の画像が混ざった画像セットで見た場合の方が有意に高いAUCとなった。以上のように、5通りの比較のうち、学習と性能確認に使う画像が同じ医療機関に由来する組み合わせの3つで肺炎検出の性能が有意に高くなっていた。

一方で、各医療機関での肺炎症例の比率だけを使って画像の肺炎の有無を判定するモデルを使い、NIHとMSHの画像が混ざった画像セットの判定をしたところ、AUC 0.861 (95%信頼区間 0.855-0.866)となった。また、画像情報だけから撮影した医療機関がどこかを判別するように学習したCNNはNIH、MSH、IUのそれぞれで撮影された画像を95％以上の高い確率で正しく判別できた。MSH内のどの部門で撮影されたかを判別するように学習したCNNも、同じように高い確率で正しく判定した。

こうした結果を踏まえて、CNNは1つの医療機関の画像を使った学習によって複数の医療機関のレントゲン画像から肺炎を検出することができる汎用性を獲得しているとは言えず、疾患特有に画像に現れる兆候だけを使って肺炎の有無を判定しているわけでもないことを示せたと研究チームはしている。画像を取得する過程で各医療機関の機材の影響で生じる特有の痕跡を判断材料にしている可能性もあるとみている。ただ、本論文で用いたCNNには6,963,091のパラメータがあるというように、深層学習では無数のパラメータが関与しており、本来であれば過程を明らかにするのが理想的だがどのパラメータが疾病の有無の判定で重要な役割を担っているかを特定するのは極めて難しい。深層学習を利用したコンピュータ支援画像診断の活用を目指す場合、さまざまな交絡因子がありうるということを踏まえた上で、実際の医療現場を想定した状況での性能検証をしない性急な実用化は避けるべきだと研究チームは提言している。