騒音の中で会話をする相手の声だけを判別できる「カクテルパーティ効果」を再現できるシステムをコロンビア大学の研究チームが開発している。測定した脳波のデータをもとに、集中したい人の声だけを増幅できるという。
騒がしいパブの中で、親友と楽しく話している場面を想像してみよう。騒々しい中でも、あなたは周囲の雑音にフィルターをかけて相手の声に集中し、友人が語るとっておきの噂話をすべて聴き取ることができる。「カクテルパーティ効果」と呼ばれるこの現象は、多くの人に自然に起こるものだ。しかし補聴器の利用者にとって、無関係の雑音に対処することは難しく、非常にフラストレーションを伴う場合がある。
だが、そんな状況を一変させる可能性のある新しいシステムが開発されている。このシステムは、ユーザーが声を聞きたがっている相手を感知し、その人の声を増幅させることが可能なのだ。聞き手の意図を把握するために、このシステムは音を処理する機能を持つ脳の聴覚野(耳のすぐ内側にある)に取り付けた電極を使用する。脳がそれぞれの声に集中すると、システムはそれぞれの話者に対応する電気的なシグネチャーを生成する。
異なる声を区別するよう訓練された深層学習アルゴリズムが、このシグネチャーを、その場にいるさまざまな話者のシグネチャーと比較し、一致度の最も高い声を増幅させ、聞き手が聴こうとしている声に集中するのを助ける。
サイエンス・アドバンシズ(Science Advances)誌に掲載されたこのシステムは、コロンビア大学の研究者らが主導するグループによって開発された。システムの試験は、ニューヨークのノースショア大学附属病院で手術を受けていた、聴覚に異常のない3人を対象にして実施された。この3人はてんかん治療の一環として電極のインプラントを受けており、脳波を測定することが可能だった。実験では、別々の4名が話し続ける録音テープを被験者に聞かせた。 正しく聞き取れていることを確かめるため、研究者らは断続的に再生を止め、直前に聞いたセンテンスを繰り返すよう被験者に求めた。参加者らは、平均91%の精度で、聴き取ったセンテンスを繰り返すことができた。
明らかな欠点が1つある。現在のシステムでは、電極を脳に埋め込む手術が必要になることだ。だが研究グループは、脳波の測定は耳の内部あるいは外側を覆う形で配置されたセンサーでも可能だとしている。つまり、(精度は落ちるものの)いずれは補聴器に組み込める可能性があるということだ。また、聴力の問題は無いが、一人の音声を集中して聴きたいという人に使われる可能性もある。
もう一つの課題はタイムラグだ。論文の共著者であるコロンビア大学ニューラル音響処理研究室のニマ・メスガラニ准教授は、ほんの数秒の遅延だが、これによってセンテンスの始まりを聞き逃すことになりかねないという。 メスガラニ准教授によると、特定の話者に焦点を合わせるとき、聞き取りの精度と速度は本質的にトレードオフの関係にあるという。言い換えると、システムが聞き取りに時間をかけると、精度は上がるということだ。この課題を解決するにはさらなる研究が必要だが、メスガラニ准教授は、この種類の装置は、わずか5年ほどで商品化される可能性もあると話す。
メリーランド大学電気・コンピューター工学科のベタシュ・ババディ助教授は、この研究は概念実証に過ぎないが、興味深い可能性を示すものだと話す(同助教授は、今回の研究には参加していない)。
「このような装置を利用すれば、ほんの数秒で、声を聞きたい相手以外の全員の声を消せるかもしれません。この研究はこの問題を本当に解決するための初の取り組みであり、解決策の実現に向けた大きな飛躍です」とババディ助教授はいう。
転載元の記事はこちら
This article is provided by MIT TECHNOLOGY REVIEW Japan
Copyright ©2019, MIT TECHNOLOGY REVIEW Japan. All rights reserved.
MIT Technology Review