顔映像と音声信号の同時変換によるマルチモーダルな話者変換技術

研究背景・目的

機械学習の進展により、個々の人間の特徴をデジタルクローン化し、VR空間で再現する技術が実用化しつつあり、様々な分野で応用が期待されています。私たちが注目しているのは、話者変換です。話者変換とはある人物の顔と音声を、違う人物の顔と音声に変換する技術です。例えば、その場にいない演者、一人二役の演者による映画を製作する際等に、この話者変換技術を利用できると期待されます。この話者変換では、細かい表情を捉えるために特別な機材と方法が必要となりますが、既存技術ではある一つのモダリティを再現もしくは変換する研究がほとんどでした。具体的には、顔と音声を個別に変換し統合していたため、変換した顔の動き（特に唇）と音声が不自然になる問題がありました。

研究内容

本研究では、ビデオカメラとマイクロフォンで収録した感情豊かな顔映像と音声信号の両方を同時に用い、相互に影響すると考えられる顔と音声の特徴を考慮したうえで話者変換を実行する技術を開発しています。さらに、感情豊かな顔と音声の同時変換を実現することも狙っています（図）。

図）提案したマルチモーダル話者変換ニューラルネットワーク。顔映像と音声信号を同時に変換することが可能。

そこで、顔映像と音声信号から特徴量を抽出し、融合すること、および、融合された特徴量を目標の話者へ変換すること、そして、その変換された特徴から目標となる話者の顔映像と音声信号の両方を同時に生成することを実現するニューラルネットワークを開発しました。この手法では、入力する顔映像と音声信号の相関を捉えることが可能であり、生成された目標となる話者の顔と音声の同期がより自然になります。とりわけ、より豊かな顔・音声の表現を変換する際に、この相互作用が重要です。さらに感情の強度やタイプを制御することも可能で、感情表現の強調といった操作が可能です。

産業応用の可能性

映画やアニメーション映画などの製作に応用可能と期待されます。
ユーザの顔と音声情報によるアバター制御が可能となります。アバターを通じて、バーチャル世界で実世界にいるようなコミュニケーションができると期待されます。
無人コンビニや無人レストランのコミュニケーション用インタフェースへの応用も考えられます。