Article
より自然で高強度な「音声匿名化」を求めて
個人情報の保護・秘匿が、以前よりもますます厳しく問われている現在。テレビ放送で取り上げられるさまざまな「生の声/証言」にも、一層の注意が払われるようになった。研究者と放送局が連携し、新たな音声匿名化技術の実装を果たした事例について日本放送協会(NHK)のご担当者、および国立情報学研究所(NII)の山岸順一教授に聞く。

高石 真美子TAKAISHI, Mamiko
日本放送協会 デザインセンター
音響デザイン部

山田 正幸YAMADA, Masayuki
日本放送協会 デザインセンター
音響デザイン部

山岸 順一YAMAGISHI, Junichi
国立情報学研究所
コンテンツ科学研究系 教授
(敬称略)
音声の匿名化が抱えていた問題
特定の個人を識別できる情報にはさまざまなものがある。氏名や住所などの属性情報から、顔つき、指紋、声などの生体情報などこれらはその人の「存在」を証明するのに重要である一方で、悪用されればその人を傷つけることにもなるため、大切に守らなければならない。
テレビ放送においても、主に報道番組やドキュメンタリー番組などでは、一般の方々がコメント、証言などに登場するケースは多々あるが、その際に、さまざまな事情から、匿名性を担保したい場合もある。特に声に関しては、従来は、高く/低く変調して元の声をわかりにくくするという手法がよく採られていた。 しかし、そこには問題もあった。
高石 「例えば、映像的にはモザイク等を掛ける。音声は変調した素材を重ねて複雑にし、聞きづらさはテロップ表記で補う。従来はそれしかないということで、当たり前のようにその表現を使ってきたのですが、勇気をもって発言して頂いているにもかかわらず、時にはネガティブな印象を与えてしまったり、あるいは人工的過ぎて人間性への配慮が不足してはいないか。本当にこの手法しかないのか。いろいろな現場でディレクターや編集担当者など制作スタッフと話し合うこともあり、そんなモヤモヤを常に抱えて来ました」
福祉関係のドキュメンタリーなどを多く担当してきたという、NHKデザインセンター音響デザイン部の高石真美子氏は、このように語る。
そもそも、単純な変調の場合は逆の操作を行えば元の音声が復元出来てしまう。NHKの場合は、多重にピッチ変更を行ったうえでエフェクトを加えるなどの加工も行っていたが、それでも非可逆性は万全とは言えず、前述のように加工後の質に不満もあった。一方ではフランス国立音響音楽研究所(IRCAM)で開発されたシステムの試用も行われていたが、これらにも、変換に時間がかかったり、あるいは扱う技術者によって変 換結果に違いが出たりと、なお実用性に問題が残った。
そんななか、NHKの開発部局主催の勉強会に出席していたNIIの山岸順一教授に出会ったことをきっかけに、相談を持ち掛けたことが、新たな音声匿名化の実装へと繋がっていったという。
システム開発と番組制作への導入
山岸教授は、20年以上にわたり音声合成の研究に携わってきた。特にボイス・クローンあるいはデジタル・クローンと呼ばれる、特定の個人の声を再現する技術などを手掛けてきたという。
山岸 「近年になってディープ・ラーニングの技術の発展などもあり、ボイス・クローニングに関してはだいぶ高いレベルで実現できるようになってきました。そうした時に、新たに浮上してきて興味を持ったテーマが2つあります。1つは、ボイス・クローニングによって高度に再現された声、いわゆるディープ・フェイク音声を悪用された場合に、それをどのように見破ればよいのかということ。
もう1つは、誰の声でも合成できるのであれば、逆にそれを私たちのプライバシー保護にも使えるのではないか、ということです。特に後者に関しては、個人情報保護法の改正などもあり、音声もパーソナルデータとして、第三者への配布時には匿名化しなければならないといったことも義務付けられるようになっていました。しかし一方で、では具体的に、どのような処理を行えば匿名化が果たされるかということは、明確化はされていませんでした。もちろん、ノイズ化してしまえば匿名化できるでしょうが、内容も失われてしまう。利便性とプライバシー保護の両立を図らなければならない。そうしたことも整理しつつ、技術開発を進めていたのです」
NHKからのアプローチは、まさにそのようなタイミングでのことだった。最初の意見交換が2021年8月のこと。その後実際に、山岸教授の技術を元に音声匿名化システムの実装に取り掛かった。
高石 「そして、このシステムをいよいよ初めて番組で実用したのが昨年(2023年)末のことです。以来、存在が口コミで広がって、実際に使ってみたいという要望も含め、問い合わせが集まってきています。やはりこうした課題に対するニーズは非常に高かったのだということを、あらためて実感しています」
実装にあたり、手法として選ばれたのが「k匿名化」と呼ばれる技術だった。発話内容と抑揚、個人性の3つに分解する。このうち、個人性のみを匿名化し再構成するのだが、この際に、音声データのプールを活用し、個人が特定化される確率をk分の1以下に変換する。この際、kの値は設定次第で変更が可能で、これを大きくすれば、その分、匿名性は向上する。
山岸 「NHKの方からお話を頂く前から研究開発を進めていたのですが、当初、2019年頃に作ったシステムは英語対応のものでした。実際にNHKで使って頂けるものにするには日本語対応にする必要がありました。単純に日本人の音声データに入れ替えればいいというものではなく、『k人の日本人のなかで、匿名性が保たれるようにする』点での調整も必要でした」

より使い勝手のよい匿名化を
現時点で実装している匿名化システムでは、男女別やkの値によって、何段階かの変換モードをプリセットし、利便性を高めている。「完全に別の声に置き換わってしまうのは避けたい」という要望にも応えるため、kのなかに発言者本人の声も含める選択肢も用意されている。
高石 「やはり、科学的に高い不可逆性が担保されているということ、そして自然でありながら、ほどよい加工感があり『本人ではない別の誰かに似てしまう』懸念が少ないことも、実際に使ってみて感じる良い点ですね。現場でも好評で、新たな選択肢として定着していく可能性を強く感じています。今後は、東京だけでなく全国の拠点でも広く利用できるようになればと思っています」
山田 「実は、匿名化を図ることとは違うのですが、ドラマ方面からもとても魅力的な技術で、たとえば近未来が舞台の作品で役者さんの声にこの加工を用いることによって、AIやデジタル世界の声を表現したり、別人格に生まれ変わらせたりなど、演出手法の一つとして使わせてもらおうかという話もあります」
一方、実用化されていく中から見えてきた課題もある。すでに山岸教授のなかで、今後の改良のポイントとして設定しているものが2つあるという。
山岸 「一つは、より安全性/匿名性を向上していくことです。まずは音声のプールを増やし、より大きなkの値を設定し使用できるように、ということを考えています。これに関しては特に技術的な障壁は無く、新たなデータ集積の手間の問題だけなので、早々に手を打ちたいと思っています。もう一つは、実際に使ってみてNHK側から指摘されていることですが、おそらくインタビューを録っている状況によって、処理後の音声に少し外国語風イントネーションが掛かっているように聞こえる場合があるという問題です。これについては、音声を発話内容と抑揚、個人性の各要素に分解する際の切り分け方の工夫で対処できるのでは、と感じています。やはり、単なる研究で、論文を書くことだけを思うなら必要なくても、実際に使用する場面で重要なことがいろいろ出てきます。それは私にとっても大いに参考になります」
「声の個人情報」の秘匿に関して、新たな一歩を開いたこの技術。今後のさらなる社会実装への展開を期待したい。