Sep. 2014No.65

音声の合成と認識~声をつくる、声を聞く~

Interview

音声合成と音声認識の組み合わせが豊かな社会を作り上げる

スマートフォンやタブレットを音声で操作する人が増えてきた。また、スマホなどから発せられる音声を聞き、対話をしながら操作する人も増加してきた。前者は音声認識技術であり、後者は音声合成技術によるものだ。この2つの技術は近いようで遠い関係にあったが、ここ数年で急接近している。音声認識に役立つ音声分離などの研究に取り組むNIIの小野順貴准教授と、音声合成を研究するNIIの山岸順一准教授に、音声認識と音声合成の最前線を聞いた。

小野順貴

Nobutaka Ono

国立情報学研究所 情報学プリンシプル研究系 准教授総合研究大学院大学 複合科学研究科情報学専攻 准教授

山岸順一

Junichi Yamagishi

国立情報学研究所 コンテンツ科学研究系 准教授 総合研究大学院大学 複合科学研究科 情報学専攻 准教授

大河原克行

聞き手Katsuyuki Ohkawara

ジャーナリスト
1965年、東京都出身。IT業界の専門紙の編集長を経て、2001年からフリーランスジャーナリストとして独立。25年以上にわたってIT産業を中心に幅広く取材、執筆活動を続ける。現在、ビジネス誌、パソコン誌、ウェブ媒体などで活躍。

大河原 ここにきて、音声認識や音声合成が急速な勢いで関心を集めています。その理由はどこにあるとお考えですか。

小野 1つには、スマートフォンという音声入力に最適なデバイスが登場したことが見逃せません。口元にマイクがあることから、音声を正しく認識するデバイスとして非常に有効です。カーナビや家電のように、マイクから離れたところから音声認識をするのに比べて断然有利です。もう1つは、さまざまなデバイスを通じて数多くの音声データを収集できるようになったこと。ここ数年で音声認識の技術が一気に進展していることを強く感じますね。私はスマホでメールを書くのにも、音声入力を使う方が多いですよ。スとして非常に有効です。カーナビや家電のように、マイクから離れたところから音声認識をするのに比べて断然有利です。もう1つは、さまざまなデバイスを通じて数多くの音声データを収集できるようになったこと。ここ数年で音声認識の技術が一気に進展していることを強く感じますね。私はスマホでメールを書くのにも、音声入力を使う方が多いですよ。

山岸 現在の音声認識は、HMM(Hidden Markov Model:隠れマルコフモデル)の技術が主流となっています。これは統計的アプローチを用いた手法で、大量のデータ蓄積を行い、それをもとに音声認識のモデルを作り上げるというものです。近年のビッグデータの活用や、ディープラーニングといった新たな潮流がこの技術の進化を支えています。

小野 ただ、音声認識の技術進化には大量のデータが必要となるため、ビッグデータを持っている企業や組織が強くなり、そこにまたデータが集まるという循環が繰り返されます。他が参入しにくくなるという環境になってきていますね。

大河原 音声認識はもともと日本の技術が先行していたはずですが、いまは日本の企業や研究所がそういう立場にはありませんね。それはデータ量が重視されてきたことが原因なのでしょうか。

山岸 そういう側面は否めないといえます。しかし、その一方で、音声合成については、「お家芸」というほどに日本が先行しています。いま私が行っている研究は、声の大規模データベースを使い、ある動詞の中の音素はどんな周波数になるのか、読み上げの声と怒っている声はどんな周波数か、その中間の声はどうなるかといった関数をもとに、平均的な声を作りあげ、そこに個人ごとの声の差を示すデータを組み合わせ、わずか10分程度で、特定の人にそっくりの声を作れるというものです。筋萎縮性側索硬化症(ALS)やがんの手術などで声を失った人も、わずかな音声データがあるだけで、本人の音声を作り上げることができます。

大河原 一方で、ここにきて、音声認識と音声合成の2つの技術が強く結びつくようになってきましたね。

山岸 音声合成と音声認識の技術はまったく別の技術でした。しかし、それぞれの技術が進化し、いずれも統計的アプローチ(隠れマルコフモデル)となったことで、研究者がお互いのコミュニティを行き交うようになり、化学反応が起き始めています。私が研究している音声合成による平均声の開発プロセスも、音声認識の技術からきているものです。

小野 ただし、音声合成と音声認識で求められる技術的要素が異なるという議論もありますね。

山岸 かなりの技術が互いに使えるようになりましたが、細かい部分をみると違う要素が求められます。音声認識は意味がわかればいいので、細かいニュアンスは認識しなくていい。しかし音声合成は、細かいニュアンスまで再現しなくてはならない。同じ統計モデルでも、学習のさせ方や学習する粒度が違うのです。

大河原 音声認識と音声合成の技術を組み合わせると、どんなことができるようになりますか。

山岸 成果の1つに、音声翻訳システムがあげられます。音声認識したものを、機械翻訳し、音声合成をして、あらゆる言語に自動変換してしゃべらせることができます。しかも、自分と同じ声で発することができる。第2外国語を学習するときに、自分の声だとこう発音するべきといったこともわかるようになります。それを発展させると、映画に出演している俳優の声のまま、他の言語でしゃべらせることができます。

大河原 音声認識は人間の耳に、音声合成は人間の口に近づけることが目標となりますか。

小野 音声認識や音声合成は、人間の耳や口を再現しようとしているわけではありません。人間にできることができないことも、また人間にできないことができることもあります。例えば音声認識では、人間はかなり雑音があったり、話者がかなり離れていても音声を認識できますが、こうした状況は音声認識システムにはまだまだ難しい面があります。一方私は、音声認識の前処理として、複数のマイクで特定の音だけを抽出するといった研究を行っていますが、このように混ざった音から、きれいな音を抽出して相手に聞かせることは人間にはできません。

大河原 これからの課題について、お考えをお聞かせください。

小野 音声認識では、遠隔発話において、どこまで人間に近づけるかということですね。この研究が進化すれば、会議の内容を要約して、議事録を自動作成してくれるといったことが可能になります。ロボットが、複数の人がしゃべっていることを自然に理解すれば、SFのような世界がやってくるでしょうね。

山岸 音声合成においては、いかに表現力を発展させるかが課題です。いまの統計的アプローチでは、平均的な表現にしかならないため、ナレーションなどには適していますが、映画のワンシーンの俳優の声といった「声の芸術性」といえる部分には弱さがある。これを解決できないと、聞き手を30分間、1時間と飽きさせない表現ができません。一方で、声が自由に合成できるようなった時に、いかに声の詐称を防ぐかといったセキュアな土壌も作らなくてはなりません。そうしないと、必要な時に、必要な用途に自由に使える技術には発展しえないと考えています。そこが課題だといえます。

インタビュアーからのひとこと

音声合成と音声認識は、数年前までは、「近くて遠い関係」だった。しかし、2つの技術が近づいたことで化学反応が起こり、技術進化を加速させている。その背景には、IT分野における重要な技術トレンドといわれるモバイル、クラウド、ビッグデータ、ソーシャル、アナリティクスが緊密に絡まっている点も見逃せない。2つの技術が我々の暮らしを豊かにすることを期待している。

第65号の記事一覧