マイクロソフトなどが主催するDeep Learning Lab(DLLAB)が2020年2月16日に開催した「DLLAB Healthcare Day 2020 ~地域包括ケアとAI~」で、千葉大学大学院医学研究院人工知能(AI)医学/理化学研究所医科学イノベーションハブ推進プログラムの川上英良氏が「機械学習による健康・疾患状態の層別化と予測」と題して講演を行った。同講演では、川上氏が提唱する「単なる予測・診断に留まらない、疾患のメカニズムに迫るAI技術の活用」について、2つの事例を基に報告があった。
近年注目を集める個別化医療は、患者の遺伝子情報や疾患の状態に基づいて最適な治療を提供することを目指したものだ。ディープラーニングや機械学習の高度化に伴い、患者の個別化や疾患の予測にAI技術を活用する研究が進められているが、「医師の診断をそのまま再現するようなAIは、臨床での分類や診断が明確でない疾患に対して有効性が低い」と川上氏は指摘する。
例えば、アトピー性皮膚炎は患者によって様々な病態が混在しており、臨床現場においても明確に切り分けるのが難しい。このようなケースでは「曖昧な分類のままAIの予測精度を上げるよりも、AIを活用することで“まだ人間が気づいていない分類を発見する”方が社会問題の解決に繋がる」というのが川上氏の考えだ。医学部を卒業後、インフルエンザウイルスなどを対象として分子生物学の基礎研究に従事していた経験を持つ川上氏は、単なる予測ではなく、疾患のメカニズムに迫りながら予測を行うAI研究を目指しているという。
本講演で川上氏は2つの研究成果について報告を行った。1つめの事例は「教師なし学習を用いた卵巣腫瘍の手術前診断に関する研究」で、良性腫瘍・早期がん・進行がんと従来3つのパターンに分類されている卵巣腫瘍について、AIを用いて新たな分類を発見することを目指したものだ。
医療の分野で研究が進んでいる診断支援AIの多くは「教師あり学習」を用いており、これは既存の分類に対して、医師と同じ診断をAIが行うことを目指したものとなっている。つまり、卵巣腫瘍の診断においては、現在臨床現場で使用される良性腫瘍・早期がん・進行がんという3つの分類に対して、AIがどれだけ精度よく分類できるかを追求する形になる。
それに対して、川上氏が今回発表した研究は、「教師なし学習」を用いることで、既存の分類を見直し、新たな分類を発見することを目指したものだ。
同研究では、卵巣がん患者約400人の術前血液検査データに対して、教師なし学習を用いて似た症例が近くになるよう配置した後、良性腫瘍・早期がん・進行がんのどれに対応するかを確認した。その結果、良性腫瘍と進行がんは比較的きれいに切り分けができている一方で、早期がんはうまく切り分けることができず、良性腫瘍に重なるグループと進行がんに重なるグループとが混在する結果となった。
この結果だけを見ると「予測精度が悪く、臨床では使えない」「患者データを400人から4000人に増やして精度が上がるか検証しよう」という議論になりがちだが、川上氏はまったく異なるアプローチを取った。早期がん患者について、良性腫瘍に重なるグループと進行がんに重なるグループ、それぞれの患者の予後を調べたのだ。
その結果、興味深い知見が得られた。良性腫瘍と重なるグループの患者は5年以内の再発がほぼ見られず死亡例が0だったのに対して、進行がんと重なるグループの4分の1は5年以内に再発または死亡していることが分かったのである。この結果は「従来は早期がんと一括りに診断していた患者を、より細かく分類して診断することができる可能性がある」ことを示しており、さらに「卵巣腫瘍の進行期や組織型を特徴づける要素を明らかにすることで、基礎研究や創薬研究が進むことが期待できる」と川上氏は説明した。まさに、単なる予測にとどまらない疾患のメカニズムに迫るAI活用と言えるだろう。
2つめの事例は「健康診断データに基づく糖尿病ランドスケープに関する研究」で、健康診断データから糖尿病の発症過程や進行過程をモデル化して、適切なタイミングでの介入や治療選択に繋げることを目的としたものだ。
疾患の発症過程を研究する上では時系列データの活用が重要となるが、多くの場合、患者が病院で診察を受けて初めてデータを得る形となる。つまり、疾患が発症した後のデータしか得られないことが多いという。そこで川上氏は、定期的に行われる健康診断のデータを活用することにした。
同研究では、JMDCが保有するデータから5年以上継続して健康診断を行っている患者のデータを抽出、空腹時血糖やHbA1cなど糖尿病に関係する10個の項目に関して一定の閾値を設定して0/1の2値化を行った。10個の項目それぞれが0/1の2パターンを取る場合、全部で1024(2の10乗)の状態に分けられるが、各患者の状態を整理した結果、「健康」「肥満+高血圧」「糖尿病」など大きく9個のパターンに分類が出来たという。
さらに、各患者の健康診断データを時系列で分析することで、患者Aは健康な状態から、肥満+高血圧の状態を経て、糖尿病になるといった形で糖尿病の発症過程を整理することができる。「各患者の診断データを時系列で見ることで、適切なタイミングでの介入や治療選択に活用できる可能性がある」と川上氏は今後の展望を説明していた。
川上氏は、自身の研究方針について「AIで高精度に予測が出来るケースと出来ないケースは当然ある。高精度な予測を出来なかった場合でも、疾患のメカニズムの理解が深まるなど、新たな知識が見つかるような形で研究を進めている」と語っている。
川上氏がチームリーダーを務める理化学研究所医科学イノベーションハブ推進プログラム・健康データ数理推論チームでは、ディープラーニングなど典型的な機械学習の手法にこだわらず、目的に合わせた数理手法を選び、データの中から知識を見つけていくことを重視しているという。
後半で紹介した糖尿病の発症過程・進行過程のモデル化は、生命システムの状態を地形として表現するエネルギーランドスケープという手法を用いているが、これは物理学の分野で用いられるイジングモデルに基づく手法であり、素粒子物理学のバックグラウンドを持つメンバーが中心となって研究を進めている。
川上氏は「千葉大学・理化学研究所ともに、様々なバックグラウンドを持ったメンバーが研究に参加している。彼らに助けてもらい、様々な数理手法を勉強しながら研究を進めていきたい」と述べて、講演を締めくくった。
山田光利 IPTech特許業務法人/テックライター
神戸を拠点にデジタルヘルス領域の取材や知財活動支援を実施。AI医療機器や医療系サービス・アプリの活用事例や今後の動向を中心に執筆予定。中国ITや国内外のスタートアップの動向を継続的に取材しており、2020年2月からオンラインで「中国医療スタートアップをわいわい調べる会」を主宰している。
ツイッター:https://twitter.com/tech_nomad_