AIに関連する医学論文をご紹介します。
自宅などで両親が撮影した短いホームビデオから子供の自閉症スペクトラム障害の有無を判定する遠隔自動システムを、スタンフォード大学のQandeel Tariqらのチームが開発した。
子供の映像を収集するための専用ウェブサイトを用意し、既存の機械学習モデルが症例の判定に使っている自閉症スペクトラム障害に特徴的な症状の有無を、まずは人が動画を見て採点し、その結果を使ってモデルに判定させたところAUC(曲線下面積)89%(95%信頼区間 81%-95%)という結果が得られた。次に、人が採点した映像を使って機械学習モデルに学習させ、自閉症スペクトラム障害の判定を全部自動化したところ、テストデータではAUC93%(95%信頼区間 90%-97%)、検証データではAUC86%が得られた。
自閉症の患者数は米国では約20年の間に7倍に増えていて医療費も膨らんでいる。専門家が子供を直接診る必要があるため診断結果が明らかになるまで1年以上待つ場合もあり、早期発見が望ましいが現状では診断時の子供の平均年齢は約5歳だという。開発した手法を実用化できれば、患者の効率的な特定と早期の治療開始に役立てられる可能性があると研究チームは期待している。
研究成果“Mobile detection of autism through machine learning on home video: A development and prospective validation study”はPLOS Medicineに2018年11月27日に掲載された。
研究チームはまず、すでに研究報告されている8種類の機械学習モデルを選び出した。標準的な自閉症スペクトラム障害の診断方法であるADOS(Autism Diagnostic Observation Schedule)もしくはADI-R(Autism Diagnostic Interview-Revised)に沿ったモデルで、自閉症スペクトラム障害の有無の判断に使う項目の数が少なく、かつ最も精度が高いモデルとの差が標準誤差1以下のもので、分析結果が説明可能なものという基準で選んだ。どのモデルもテストデータで検証した正診率は90%以上だった。これら8種類のモデルは合わせて23種類の項目を利用しており、ホームビデオの映像を人が判定する際にはこれら23項目と、別に選ばれた7項目の合計30項目について見ていくことにした。
患者が映っているホームビデオの映像を収集するために、研究チームは専用のウェブサイトを開設した。SNSを活用して患者の家族に呼びかけて、直接の映像提供またはすでに公開されている映像のリンク提出を依頼した。長さが1~5分のもの、子供の手と顔が見えるもの、社会性について読み取れる場面があるもの、ナイフやフォーク、クレヨンやおもちゃなどを使っている様子が分かる162本のビデオを選別した。また、障害については自己申告制としたが、専門医が診断基準と照らし合わせて再確認した。集めたホームビデオの目視による採点は、自閉症スペクトラム障害の診断の経験がない9人の採点者が複数の選択肢がある30の質問に答えていく形で映像に映っている子供の様子を最もよく表すタグを選び、点数化する形式にした。
各ビデオあたり最低何人の採点者が必要かを算出するために、8種類のモデルのうちの1つでalternating decision treeという手法のモデル(略称 ADTree8)に50本のビデオについて採点者による結果を使って障害の有無を判定させた。採点者の人数を1人から最大の9人まで変えて多数決による判定の精度を比較したところ、3人で採点した場合と9人で採点した場合で精度に有意差がなかったことから、各ビデオについて9人からランダムに選んだ採点者3人の結果をタグ付けした。タグ付けを含めてビデオを見ていた平均時間は障害がある子供のビデオについては6分36秒、障害がない子供については5分8秒で有意差(p=0.0009)があった。
全162本のビデオの3人の採点結果を使って8種類のモデルで障害の有無を判定したところ、どのモデルも感度は94.5%以上あったが、特異度が50%を超えるものは3つしかなかった。そのうちの1つ、ロジスティック回帰という手法で5項目を判定に使うモデル(略称 LR5)が正診率88.9%、感度94.5%、特異度77.4%と最も精度が良かった。検証のために別の66本のビデオを3人の採点者が見てタグ付けした結果を使ってモデルで障害の有無を判定したところ、やはりLR5が感度87.8%、特異度72.7%で最も高い正診率を出した。LR5の判定では66本のビデオのうち13本で判定が間違っていて、9本が偽陽性、4本が偽陰性とされていた。偽陽性のうちの4本と偽陰性のうちの2本が障害がある確率が0.4-0.6と境界線上にあり、同じように確率が0.4-0.6だった66本中の26本の判定が難しいビデオを抜いて40本だけでモデルの精度を測定すると感度は91.3%、特異度は88.2%と改善された。ビデオからの判定が難しい場合もあるため、研究チームはモデルが算出した結果をそのまま障害の有無の判定に活用するだけではなく、確率として捉えることで患者の早期の特定により役立てられる可能性があると見ている。
全判定をモデルで実施できるようにするために、採点者3人がタグ付けした患者のビデオのうち176本を使ってelastic netで正則化したロジスティック回帰モデル(略称 LR-EN-VF)に障害の有無の判定のための学習と超パラメータを決定、そして最も精度が高くなる条件で性能検証を行ったところ、AUC-ROC93.8%、正診率90.7%となった。さらに残り52本のビデオをこのモデルで判定したところ、AUC-ROC86.0%、正診率75.5%となった。このモデルが判定に利用している上位8項目を見ると、最初の8種類のモデルが利用していなかったsensory seeking(感覚探求)という新たな項目があった。判定に利用する項目を見直すことで、モデルがより高精度な判定をできるようになる可能性があると研究チームは見ている。
鴻知佳子 ライター
大学で人類学、大学院で脳科学を学んだ後、新聞社に就職。バイオを中心とする科学技術の関連分野を主に取材する。約10年の勤務後に退社。ずっと興味があった現代アートについて留学して学び、現在はアートと科学技術の両方を堪能する方法を模索中。