1. m3.com
  2. AI Lab
  3. ニュース
  4. がんゲノムパネル検査、データ解析からレポート作成をほぼ自動化ー株式会社テン...

AI Lab プロジェクト医療×AIの発展にご協力いただける方を募集しています

がんゲノムパネル検査、データ解析からレポート作成をほぼ自動化ー株式会社テンクー代表取締役社長CEOの西村邦裕氏講演レポート

2019年2月27日(水)

東京⼤学未来ビジョン研究センター(旧・東京⼤学政策ビジョン研究センター)、慶應義塾大学メディカルAIセンター、エムスリー株式会社m3.com編集部が2019年1月から開催している「医療×AIセミナーシリーズ」のイベントレポートです。

» 連載1回目から読む

東京大学政策ビジョン研究センター、慶應義塾大学AIメディカルセンター、エムスリー株式会社m3.com編集部が2019年2月16日に開催した医療×AIセミナーシリーズ第4回「ゲノム医療とAI」に、株式会社テンクー代表取締役社長CEOの西村邦裕氏が登壇し、同社が東京大学医学部附属病院などと進めるがんゲノム医療について紹介をした(セミナー概要はこちら)。

ゲノム医療のためのトータルソリューションソフトウェア「Chrovis」

ゲノム医療のためのトータルソリューションソフトウェア「Chrovis(クロビス)」を開発している株式会社テンクーの西村邦裕氏は、もともとは東大のVR研究室の出身。テンクーは2011年に創業。2018年11月には、文部科学省の「科学技術への顕著な貢献2018(ナイスステップな研究者)」に選定されている。テンクーは社員数23人。ゲノム解析の結果を、AI技術を使って整理・解析して、人にわかりやすく提示して、アクションできるようにすることを目指している。そのため、社員にはデザイナーも入っており、患者や医師にわかりやすい情報の伝え方を意識しているという。

今日のようなゲノム医療の状況が来ることを予想して、ソフトウェア開発は2012年後半から始めていたという。AIについては、人の能力を増強するようなものとして考えており、人を代替するのではなく、判断は人が担うという考え方で開発を進めているという。

テンクーは、がんゲノムのデータ解析情報を医師にわかるようなかたちにレポートとしてまとめるソフトウェア「Chrovis」を開発している。西村氏は改めてシークエンスコストが下がっていることと、データ量が急増していることを示した。データ量が増えてきたので、情報系も役立つことができるのではないかと考えているという。

日本ではいま、「がん遺伝子パネル検査」を進めようとしている。適切な患者に適切な薬を渡す、そのためにコンピュータによる支援が可能なのではないかと考えられている。米国、イギリス、フランスや中国でも同じようなプロジェクトが動いている。

日本でも厚労省が様々なプロジェクトを始めており、がんゲノム医療の中核拠点病院を11カ所、その下に135カ所の連携病院をおき、社会実装を進めている。いまNCCオンコパネルとファンデーションワンが保険収載されるだろうと予測されており、今年4月以降に展開されていくと考えられている。それを踏まえて産学連携が進んでいる。テンクーは東京大学医学部附属病院の先進医療Bの情報解析を進めている。

Todai OncoPanelの解析

遺伝子変異には2つある。生殖細胞系列変異と体細胞変異だ。がんの場合は体細胞変異を見ることが多い。近年は分子標的薬の導入も大きな出来事だ。これまでは細胞全体をターゲットにしたのが分子標的薬によって異常がある部分に対して攻撃ができるようになってきた。また、免疫チェックポイント阻害剤の登場もある。効く人には効くことがわかってきた。

では、がんゲノム医療がやっているのは、どういうことか。病院での診察でがんとわかると、そのなかで検査を行い、病理医が診断を行う。ゲノム医療を行う場合にはこのあとに、その組織についてシークエンサーで遺伝子情報を読んでいくことになる。結果について、どの部分に変異があるのかを調べる。どういう変異にどんな意味があるのか、薬があるのかといった知見をアノテーションをつけていき、レポートにまとめなければならない。そして議論の結果、主治医と患者が話し合って治療を行うことになる。テンクーの「Chrovis」は遺伝子情報の解析とアノテーション、レポート生成を、ほぼ自動で行うことができる。

2018年8月から、東京大学が独自に開発したがん遺伝子パネル検査である「Todai OncoPanel(東大オンコパネル)」の臨床性能試験が先進医療Bで行われている。遺伝子解析は、東京大学がシスメックスの子会社である株式会社理研ジェネシスに委託して行われるが、得られた結果の分析は、テンクーに委託されている。テンクーではエキスパートパネルでの医師からのコメントを反映して、最終レポートを作り、電子カルテにアップロードして、かつ、患者向けレポートを作るところまでをほぼ自動生成している。

解析は、東大の分子ライフイノベーション棟のサーバで行われている。解析システムはいまオンプレミスで動いておりネットワークから遮断されているため、本郷三丁目駅の近くにあるテンクーから毎日社員が直接出向いて、作業を行っているという。

ゲノムシークエンスの実際

次世代シークエンサーに入れた検体の情報は、テキストベースのFASTQファイル形式で吐き出される。データ解析は基本的にはそれらのデータに対して解析を行い、変異を探す。西村氏は4行で1組になっているFASTQファイルを実際に見せながら解説した。

そのあとはリファレンスゲノムを使ってそれぞれのゲノムが合うように、ゲノム上の座標を特定していく。これをアライメント、あるいはマッピングという。変異を見つけるのは、何かしら変化しているところを見つけることになる。一文字だけ変わっている場合もあれば、一部の配列が丸ごと変わっている場合もある。それらを見つけていく。

知識データベースには、それに対して意味づけをするための情報が入っている。様々な公共DBや承認された薬の情報や治験の情報DBを全て統合して、横断的に検索できるようにしている。また、論文からの情報を使って支援するための仕組みも作っている。遺伝子変異についての情報を検索したり、日本の治験、FDAの薬があるかといったことを見つけられる。

インテグレーション、シソーラス、パラフレーズ検索、論文の自然言語検索

裏側の技術は4つあるという。データのインテグレーション、シソーラス、パラフレーズ検索、論文の自然言語検索だ。データのインテグレーションとは、様々なズレがある情報を正規化したり、クレンジングしたり、名寄せするための仕組みだ。それぞれにエンジンを作って統合的に綺麗にする仕組みを作っており、データを横串検索できるようにしているという。

シソーラスは表記のズレを吸収するための仕組みだ、遺伝子の名前は変わっていたり、複数の名前があることもある。薬は一般名、商品名、治験名、作用名などがある。これらが同じものであることを教えるために整備してやる必要がある。

さらに検索効率を上げるためには、人間による自然言語で書かれているため、言い換えが多く、その漏れをふさぐ必要がある。これがパラフレーズ検索で、表記揺れも吸収して翻訳も必要となる。阻害剤だろうがインヒビターだろうが、ヒットできるようにする。再帰的に組みあわせ検索をすることによって、人が様々な書き方をしても拾えるようにしているという。これは今年1月に開催された、第1回日本メディカルAI学会学術集会で最優秀賞を獲得した。検索しているキーワードと出て来るヒットが違っても見つけることができるシステムを実現しているという。

論文の自然言語処理は、大量の論文の絞り込みのための技術だ。論文のアブストラクトと本文にそれぞれ自然言語処理を行なっている。公共のDBには、エビデンスとして論文のリファーのデータが載っている。それらを全部持ってきて学習の教師データとする。それに論文のアブストラクトを読み込ませて学習モデルを作り、それに対して2800万の論文を入れるとスコアリングができて、データが抽出できる。論文本文テキストに対しても同じようなことを行う。何か面白いものが見つかったときに検出できるようにしているという。たとえば肺がんを検査すると、右側にスコアリングが出て、治験情報なども出てくる。西村氏はデータベースのデモを行いながら紹介した。

このような知識DBを使って、レポートを自動で作成する。たとえばEGFRという遺伝子があったとしたら、それに対してどんな承認薬があり、それをどう提示するかといったことをやっているという。裏側では各ステップのAPIが連携しており、DBにAPIで問い合わせすれば、それがすぐに帰って来る。たくさん変異が出てきた場合は変異ごとに問い合わせをして拾ってきてレポート化する。そしてカンファレンスを行い、症例提示があったときの情報の一つにゲノム情報を入れて示しているという。治験があるのか、論文報告があるのかといった情報なども一緒に表示される。

強みはプログラムを1から作り、既に現場で2年間動かしていること

Chrovisでは、このようなデータ解析、知識DB作成、レポート作成をほぼ自動で行なっている。最終的には人が見てチェックし、整える。テンクーの強みは「プログラムを1から作っていること」だという。オープンソースもいっぱいあるが自分たちでコントロールするために一から全て作り直しているという。もちろん臨床現場に使えるものにしている点も強みだ。既に2年くらい現場で回しており、ブラッシュアップされているという。

最後に課題として、今はオンプレミスで動かしていることについて、セキュリティではいいが、ゲノムの計算量や知識量を考えると絶対にオンライン、クラウドのほうがいいとコメントした。臨床の現場に役立つ情報をどう提供できるのかも今後の課題だという。日本では治験情報が不十分であることも課題だという。各種DBがバラバラで、アップデートなど情報整備も問題となっているという。

また、医療の世界では情報技術に対する理解がある医師とそうではない医師がいる点も問題だと述べた。これまでの医療の世界ではハードウェア、あるいは電子カルテがメインだった。ゲノム医療のような情報系技術についてはまだギャップがあり、「もったいない」と感じているという。もちろん薬事の問題もある。西村氏は最後に「この技術を日本発で作り、今後は海外にも展開していきたい」と締めくくった。

森山和道

森山和道 サイエンスライター

サイエンスライター、科学書の書評屋。1970年生。広島大学理学部地質学科卒。NHKディレクターを経て現職。現在、科学技術分野全般を対象に取材執筆を行う。特に脳科学、ロボティクス、インターフェースデザイン分野。研究者インタビューを得意とする。

このシリーズの記事