研究背景・目的
現在、機械学習とくに深層学習の進展により、非常に自然、そしてそっくりだが、真正でないメディアを生成することが可能になりつつあります。とりわけ、ある特定の人の顔をリアルに生成することが可能となっており、CG技術への応用等が期待される一方で、フェイクニュース等への悪用も懸念されています。実際、「DeepFake」のようにリアルなフェイクビデオを容易に生成するアプリも公開され、ビデオ投稿サイトには実際に顔の改ざんを行ったフェイクビデオが多数存在し、社会問題となりつつあります。
研究内容
私たちは、動画上の顔の改ざんを自動的に行う技術で生成された巧妙なフェイクビデオを自動識別するディープラーニング技術を新たに開発しました。本技術は、「DeepFake」や「Face2Face」のようにリアルなフェイクビデオを生成する技術に焦点を当てたものです。フェイクビデオを自動識別するネットワークは主に2段階で構成され、ビデオ内の顔画像から特徴を抽出するVGGモジュールと、抽出された特徴量間の整合性を判断するCapsule networkで構成されます(図)。
本システムの識別精度は非常に高く、評価実験では、「DeepFake」で99.23%、「Face2Face」で99%(圧縮なし)、81.20%(圧縮あり)の精度を達成しました(写真)。
自動判定結果の動画は、https://nii-yamagishilab.github.io/Capsule-Forensics/で見ることが可能です。
産業応用の可能性
ウイルスソフトや悪意のあるサイトを検知するソフトのように、悪意をもって改ざんが行われたフェイクビデオを自動でフィルタリングするソフトとして、本技術を活用することが期待できます。
図)提案システムの構成図
フェイクビデオの自動判定結果