Article
雑踏の中でも聞きやすい音声合成を社会実装
合成音声技術の進歩で、人の声と変わらない自然な声が合成音声で生み出されるようになったばかりか、さらに「騒音に強い音声」など付加価値を持つ音声も登場しているという。深層学習を使った音声認識・音声合成の専⾨家である山岸教授に最新動向を解説してもらった。
山岸 順一Junichi Yamagishi
国立情報学研究所
コンテンツ科学研究系 教授
シンセティックメディア国際研究センター
副センター長
音声合成を巡る状況も、ディープラーニングの登場で2013年以降、激変している。音声をデータとして扱う「ボコーダ」技術においては、音声を符号化したり、符号化したデータから音声を復元したりといった作業が行われる。この信号処理をニューラルネットワークに置き換えたところ(ニューラル・ボコーダ)、音声の品質が劇的に向上したのだ。
さらに、もう一つの革新は、話し手の特徴を数学的に表現する「話者ベクトル」と呼ばれる技術だという。本人らしさの特徴を抽出し要約するのに優れており、一人ひとりの声の特徴を AI がうまく捉えられるようになった。山岸教授は「もともと本人認証のための技術だったのですが、『この話者ベクトルで音声を合成して』と指示すれば、その人の声のものまねができるようになりました」と説明する。
話者ベクトルは、少ない学習データで済む点でも有利だという。声を少し録音し、音声サンプルをアップロードすると、数分後にはその声を再現できるというボイスクローン技術の背後には、話者ベクトルの存在がある。
実際、人間が発した声と、それをまねた合成音声を聞き比べても、もはや違いはわからない。同じ人間が二度、同じ言葉を繰り返しているように聞こえる。山岸教授は「もう2018年ぐらいの時点で、音声合成技術が基本的に完成していたということです」と振り返る。
自然な話し方や、元の声とそっくりな声を出せるという点では、人工音声の性能は行き着くところまで行ってしまったとはいえ、研究がこれで終わったわけではない。山岸教授は「今度は、ただ品質を上げるだけでなく、もっと違う観点で考えていけばいいのではないか」と発想を切り替え、音声の明瞭度を上げることを目指した。
その結果、生まれたのが、雑音に強いクリアな音声で、今年5月には、東海道新幹線の構内放送に採用された。この音声合成システムは、テキストで放送内容を作成できるので、アナウンサーがスタジオでナレーションをいちいち録音するといった手間は要らない。「明瞭性強調」の効果により、電車の振動音、風雨の音、雑踏の騒音などが混じり合うホーム上でも、乗降客が放送内容を聞き取りやすいという。
「AI噺家」と話者ベクトル
一風、変わったところでは、落語の音声合成、すなわち「AI 噺家」の開発も目を引く。これも、ただ自然な音声を発するだけではなく、微妙な感情や楽しさをのせられるような音声を開発するという狙いがある。音声合成であっても、落語自体はある程度は自然な感じで聞こえるが、若干、ストーリーがつかみにくい。なぜなら、落語には、女性や「熊さん」「八つぁん」など様々なキャラクターが登場するが、合成音声はこの役の使い分 けが不得手なためだ。現状では「真打ち」はもちろん、「前座」に比べても AI の技量は劣っている。
興味深いのは、真打ちの名人芸では、単純に声色を変えて役を使い分けているのではないらしい。「まだ分析してもわからないのですが、韻律または話速の細かい調整で、役の違いを表現しているのではないか」というのが山岸教授の推測だ。今後、話者ベクトルの技術をもってしても迫 り切れない名人の奥義を科学的に解明してほしい気もする。
音楽も MIDI 規格を使って、さかんに作成されているが、音声と音楽に共通する部分も多く、研究の応用が利くという。文字の代わりに、MIDI の情報を入力してピアノの音を合成すると、これも自然にピアノの音楽が流れていくが、途中では少しつっかえたり、音程を外したりする場面が散見される。機械が合成しているというよりは、少し下手な人がピアノを弾いているという感じだ。
音声合成の品質が上がり、一般人でも安い料金で声の合成ができるようになると、悪用も懸念される。SNS に音声をアップロードする習慣があるアメリカやインドなどではすでにこれが問題化しつつあるという。2019 年には、英国企業の最高経営責任者(CEO)が、親会社の CEO から銀行振り込みを指示する電話を受けて送金したものの、親会社の CEO の声はフェイク音声で、巧妙な詐欺だったことがわかった。
「Hey Siri」などの呼びかけでスマホが起動するように設定してあると、偽の声で他人のスマホの認証を突破し、操作することも可能になってしまう。
切り拓く新たな境地
山岸教授は、こうした攻撃に対する防御技術も開発しているが、開発した検知技術をテストし、性能を比べるにあたっては、共通のベンチマーク(尺度)が求められる。そのために作ったのが、検知用の大規模データベースだ。NTT やグーグルなどに協力してもらい、合成音声と自然音声がペアになった巨大なデータベース「ASVspoof」として公開した。利用者は、どれが自然音声でどれが合成音声か判別できるかを試し、客観的な性能評価に使える。
山岸教授は「作るのは非常に大変だったが、この研究分野の人にはものすごく歓迎されました」と話す。こうした研究分野そのものを強化する知的インフラの整備に貢献した意義は大きいと言えよう。
山岸教授の研究の射程は長く、最近、始めたのがファクトチェックだ。人手で行うと大きな労力がかかるニュースや主張の事実確認を、信頼できるデータベースの情報を基に、AIに自動検証させようという発想だ。ファクト(事実)といっても、多くの主張で事実と意見は切り分けが難しく、また、参照するデータベースも100%事実だという保証はないだろう。課題は多いものの、例えば Twitter(現X)の投稿を24時間、自動監視してフェイクニュースや悪質なプロパガンダに注意喚起できるようになれば、大きなインパクトを持つのではないか。「長年、ディープフェイクの研究をしているうち、最後はやっぱり中身の真偽の判定についても考えなきゃいけないかな」と考え始めたという。研究に導かれ、音声研究からだいぶ離れた所までたどり着いた様子だが、今後も迷わず新たな境地を切り拓いていってくれることを期待したい。
WikipediaロゴはCC-BY3.0によってライセンスされています。
(取材・文 山田 哲朗)