1. m3.com
  2. AI Lab
  3. ニュース
  4. フェイスブックが開発急ぐディープフェイク対策は「最悪の未来」に間に合うか

AI Lab プロジェクト医療×AIの発展にご協力いただける方を募集しています

フェイスブックが開発急ぐディープフェイク対策は「最悪の未来」に間に合うか

2020年6月23日(火)

フェイスブックがディープフェイク対策に先行して取り組んでいる。ディープフェイク映像を作成するツールが出回り、誰もが使えるようになると、本物の映像でさえ信頼できなくなる可能性がある。


ディープフェイクは一般人にとっても研究者にとっても気に障るものだ。実際には言ってもやってもいないようなことを現実のように見せる人工知能(AI)で作られた映像には、どこか独特な不気味さがある。

ディープフェイクを作るためのツールは、今では広く手に入れられるようになり、比較的簡単に利用できるようになった。そのため、ディープフェイクが危険なデマを広めるためにも利用されるのではないかと心配している人は多い。例えば政治家たちは、他人の言葉を自身の口に被せられたり、参加してもいない場所に参加させられたりする可能性がある。

少なくとも心配事ではある。しかし実のところ、ディープフェイクは人間の目ではまだ比較的容易に見分けられるし、2019年10月にサイバーセキュリティ関連企業のディープ・トレース・ラボ(Deep Trace Labs)が発表した包括的なレポートによると、ディープフェイクはこれまでに、いかなるデマ・キャンペーンにも使用されていない。ただし、同レポートによると、ネット上に投稿されたディープフェイクの数は、過去7カ月で約1万5000本に達し、急速に増加している。この数は現在ではもっと多くなっているはずだ。

ソーシャルメディア企業は、ディープフェイクがすぐにでも自社のサイトに氾濫することを懸念している。だが、ディープフェイクを自動的に検出することは難しい。問題に対処するために、フェイスブックはAIを利用して、AIが生成したフェイク動画を検出しようとしている。フェイク動画を発見するようAIを訓練するため、同社は過去最大規模のディープフェイクのデータセットを提供している。実在する3426人と、既存のさまざまな顔入れ替え手法を使って作成した、10万本以上の映像クリップだ。

「現在のところ、ディープフェイクは大きな問題ではありません」。フェイスブックのマイク・シュロープファーCTO(最高技術責任者)は説明する。「ですが、ここ数年で苦労して学んだ教訓は、油断して不意を突かれるな、ということです。起こることに備えるのではなく、決して起こらないはずの多くのまずい事態に備えておきたいのです」。

フェイスブックはまた、「ディープフェイク・ディテクション(検出)・チャレンジ(Deepfake Detection Challenge)」コンテストの優勝者も発表した。コンテストには2114人が参加し、フェイスブックのデータセットで訓練した約3万5000のモデルを提出した。最も優秀だったのは、地図会社のマップボックス(Mapbox)で機械学習エンジニアとして働くセリム・セフェルベコフのモデル。フェイスブックが作成した新映像とインターネット上から集めた既存の映像を合わせたものを含む1万本におよぶ未公開映像クリップのセットで試験したところ、65%の正確さでディープフェイクを検出できた。

コンテストの難易度をより高くするために、訓練用データセットと試験用セットには、検出システムが混乱しそうな動画が含まれている。例えば、メイクアップのチュートリアルをする人や、テキストや図形を話者の顔の上に貼り付けたり、解像度や向きを変えたり、速度を落としたりして微調整された動画などだ。

成績上位5位のモデルは、ディープフェイク生成の過程で動画のピクセルに残されたデジタル指紋(フィンガープリント)を探すといったフォレンジック技術を学習するのではなく、人間がするように、何かが「変だ」と感じたことを検出する方法を学習したようだ。

これを実現するため、受賞者は全員、グーグルの研究チームが昨年開発した「エフィシエントネッツ(EfficientNets)」と呼ばれる新たなタイプの畳み込みニューラル・ネットワーク(Convolutional Neural Network:CNN)を利用している。CNNは一般的に画像の分析に利用されており、顔の検出や物体の認識に適している。しかし、正確さをあるレベル以上に高めるためには、アドホックな(場当たり的な)調整が必要になることがある。エフィシエントネッツは、より構造化された方法で調整が可能で、より正確さの高いモデルを容易に開発できる。だが、このタスクにおいて、どうしてエフィシエントネッツが他のニューラル・ネットワークよりも優れているのか、厳密には分かっていないとセフェルベコフは述べる。

フェイスブックは、今回のコンテストで優勝したモデルを自社のサイトで使うつもりはない。理由の1つは、65%の正確さはまだ十分に実用的だとはいえないからだ。訓練データでは80%を超える正確さを達成したモデルもあったが、見たことのない映像クリップに対しては正確さは低下した。さまざまな手法で、顔がさまざまに入れ替えられている、未見の動画を検出できるようにモデルを一般化することが、課題の最大の難所だとセフェルベコフは言う。

セフェルベコフは、検出能力を向上させる1つの方法は、映像フレーム間の推移に焦点を当て、時間を追って追跡することだと考えている。「非常に高品質のディープフェイクであっても、フレーム間でいくらかチラつきがあります」とセフェルベコフは指摘する。人間は、これらの不整合に敏感であり、顔の映像においては特にそうだという。しかし、こういった隠し切れない欠陥を自動的に検出するには、より大きくより多様な訓練用データと、より高いコンピューティングパワーが必要だ。セフェルベコフは、これらのフレームの推移を追跡しようとしたができなかった。「CPUが本当にボトルネックでした」(セフェルベコフ)

フェイスブックは、ディープフェイクの検出は、画像や映像自体の分析という枠組を越えた手法を使って改善することもできると述べる。例えば、映像のコンテキストや出所などを評価することだ。

基本的人権の活動家が映像テクノロジーを使用する際のサポートをする「ウィットネス(Witness)」プロジェクトの総括責任者であるサム・グレゴリーは、ソーシャルメディア・プラットフォームがディープフェイクの検出に投資することを歓迎している。ウィットネスは、データセットについてフェイスブックに助言したAI研究の非営利団体「パートナーシップ・オン・AI(Partnership on AI)」のメンバーである。グレゴリーはシュロープファーCTOと同意見で、最悪の事態に備える必要があると考えている。「ディープフェイクの大災害はまだ訪れていませんが、ジェンダー(性別)に基づく暴力やデマを助長する非常にたちの悪いツールです」とグレゴリーは言う。例えば、ディープ・トレース・ラボのレポートでは、ディープフェイクの96%が、相手の意に反するポルノ動画であり、ポルノ動画の出演者の顔の上に、別の人物の顔が貼り付けられていたことが明らかになっている。

何百万もの人々が動画を作成して共有できるようになると、自分の目で見るものを信頼することが、人々にとってこれまで以上に重要になる。フェイクニュースはフェイスブック上でものすごい勢いで拡散し、ディープフェイクではないかという疑念をいったん植え付けられた人々は、フェイク映像だけでなく本物の映像さえ事実だと信じられなくなる可能性がある

さらにもうすぐ、自動検出が唯一の選択肢になるかもしれない。「将来、人間には判別できないディープフェイクが登場するでしょう」とセフェルベコフは話す。


転載元の記事はこちら

This article is provided by MIT TECHNOLOGY REVIEW Japan Copyright ©2020, MIT TECHNOLOGY REVIEW Japan. All rights reserved.

MIT Technology Review

MIT Technology Review

関連カテゴリー