糖尿病性網膜症を判定する医療機器の販売が米国食品医薬品局(FDA)に承認されるなど、今、人工知能(AI)を用いた画像診断支援システムの開発がめまぐるしく進んでいます。果たしてAIは医療現場をどのように変えるのでしょうか。 シリーズ「AIは医師を超えるか」は、『人工知能の哲学』や『人工知能はなぜ椅子に座れないのか』などを著した松田雄馬氏が、AIの仕組みから応用までやさしく解説する全5回の連載です。
前回 、画像診断システムにおける誤認識を生じさせる原因として、データが多すぎる場合、データが少なすぎる場合の両方についての解説を簡単に行った。
ニューラルネットワークをはじめとする「確率論(統計論)的学習理論」による分類では、ある一定確率で誤りが起こるのは原理的に避けられない問題である。一方、内視鏡医など画像診断に関わるベテラン医師であれば、ある一枚の画像だけで診断を下せない場合、「わからない」という判断ができる。そして前後の画像の関係などから、自信を持って診断を下せるまで確認することができる。しかし機械は、癌などの症状が「ある」か「ない」かのいずれかを必ず判定してしまう。機械と人間の認識は様々な意味で大きく異なるのである。今回は、人間の認識というものについて理解することによって、画像診断システムの信頼性を高めていくためには何が必要かについて検討していきたい。
さて、人間の認識ということを考えるにあたって、以下のような状況を想像していただきたい。
ーーー
ふと、空を見上げると、遠くの方から、ボールが飛んできたとする。それを見ている我々の脳内ではどのようなことが起こっているだろうか。脳は何を考えているだろうか。
「何かが飛んでくる」 「凄いスピードで飛んでくる」 「こちらに向かって飛んでくる」 「白くて丸い物体だ」 「ボールのようだ」 「ボールがこちらに向かって凄いスピードで飛んできているようだ」
当然の話ではあるが、何かが自分に向って飛んできているとき、それがボールであろうが鳥であろうが石ころであろうが、とにかく避けるか掴むかの動作をしないといけない。すなわち、「何かがこちらに向かって凄いスピードで飛んできている」という、物体の動きに関する情報は、「白くて丸いボールのような物体」という、物体の形や特徴に関する情報よりも優先して処理されるべき情報である。先に「白くて丸いボールのような物体が…」などと言いながら、のんびりと分析していては、分析が終わる前に、飛んでくるボールにぶつかってしまい、生命の危機に瀕してしまうのである。
出典;『人工知能はなぜ椅子に座れないのか』
ーーー
このような場面を考えると、我々の脳が非常によくできていることが分かる。物体の動きに関する情報と形や特徴に関する情報が別々に処理され、まずは動きに関する情報だけで自分自身がどのように行動すべきかを判断できる仕組みになっているのである。
脳の視覚系の情報処理の経路を示す下の図を見てみよう。目に飛び込んでくる映像(光)は大きく二つの経路に分かれていく。その二つの経路は、物の「形」に反応するものと「動き」に反応するものであり、それぞれ「腹側経路」と「背側経路」と呼ばれている。重要なことは、目に入って来る光は、ものの「形」と「動き」という二つの特徴に分かれて認識されているということである。厳密には異なる部分も多いのだが、大雑把な分け方をすると、ニューラルネットワークがものを認識するプロセスは腹側経路の「形」の認識に該当する。
さて、「何かが飛んでくる」という「動き」に反応する「背側経路」について、少し詳しく見ていきたい。ボールなどの動いている物体を捉える場合、背側経路は、その物体の動きの流れ(ベクトル)を捉える。その流れは、自分が静止している場合、物体そのものの動きとして捉えられるだろう。しかし、物体の流れは自分が動いている場合にも生じる。自分が動けば景色全体が動き、自分から遠いものは遅く、自分に近いものは速く動く。物体の動きの流れを知覚するとき、脳は物体の絶対的な速度を知覚するわけではない。自分に対して衝突するかどうか、衝突するのであればどこから来る物体がどれくらいの時間で衝突するのか、すなわち衝突時間を知覚している。これ自体は、「ニューラルネットワーク」が馬とそれ以外を分類するプロセスとは質的に異なる情報処理だと言える。
しかしながら、脳内での腹側経路と背側経路の処理は無関係に行われているわけではなく、「どこにあるか」がわかるからこそ、ものそれ自体に注意を向けることができ、それが「何であるか」を形や色などの情報を用いて認識することができるのである。以上の人間の脳の仕組みから、画像診断システムの誤認識が起こってしまうという根本的な問題、すなわち画像診断システムの限界に対して、何が言えるだろうか。
前述の通り、人間の脳は背側経路を通して物体がどこにあるかを認識し、物体に対しての注意を向けつつ、腹側経路を通してそれが何であるかを理解する。それに対してニューラルネットワークは、何であるか自体は認識するものの、それがどこにあるのかの認識は行っていない(「どこにあるか」を探索するプログラムを別途埋め込むことはできるが、認識プロセスに「どこにあるか」が関わっているわけではない)。すなわち、ニューラルネットワークを利用する前段階(前処理)において、「どこにあるか」を何らかの形で関与させることによって、画像診断システムの誤認識は格段に改善されるのである。
例えば学習段階において、「どこにあるか」を特定する(癌が常に中心に来るように画像データを揃えるなど)ことで、データのばらつきは減り、認識精度は改善していく。下の図は、対象物体を中心に揃えた場合(赤色でプロット)と、揃えなかった場合(青色でプロット)を示したものである。データのばらつきを抑えられるということは、対象が「ある場合」と「ない場合」の群が重なる領域が小さく抑えられるということである。
さらに言うならば、データのばらつきが抑えられるのであれば、学習段階で入力する画像が少なくとも、その群は全体の群に近いものになる。このため、少ない画像であっても、比較的高い精度での認識が(原理的には)可能である。
以上はあくまで一例ではあるが、人間の脳の仕組みを理解することによって、機械の認識というものは使い勝手が良くなっていく。画像診断システムの開発にあたって、何らかの参考にしていただければ幸いである。
松田雄馬
1982年生まれ。博士(工学)。京都大学工学部地球工学科卒。2007年日本電気株式会社(NEC)中央研究所に入所。MITメディアラボやハチソン香港との共同研究に従事した後、東北大学とブレインウェア(脳型コンピュータ)に関する共同研究プロジェクトを立ち上げ、基礎研究を行うとともに社会実装にも着手。2016年、NECを退職し、独立。現在、「知能」や「生命」に関する研究を行うとともに、2017年4月、同分野における研究開発を行う合同会社アイキュベーターを設立。代表社員。