研究 / Research

「音」への関心が変える未来　〜深層学習で人間の「声」をつくり出す

ロックに夢中だった音楽少年は、気がつくとドラムを叩き、バンド活動を始めていた。ライブハウスで演奏を経験するうちに、マイクの位置やオーディオ機器の設定が、観客に聴こえる音を大きく変えることに気づいた。多くの人たちにより良い音を届けるためには、どう工夫すればよいのだろう？

研究モチベーションの源は、今も「音」への関心だ。「現在は、ディープラーニング（深層学習）を使った音声合成を研究している。コンピュータで合成した声だけれど『まったく人間の声』『あの人の声そのもの』というレベルには、あと１～２年で到達できるはず」

コンピュータゆえの柔軟さは、教材やゲームの設計を変革しそうだ。音声ガイドの声を適切に選ぶことにより、子どもたちが教材などに取り組み続けることのできる時間が長くなり、目標を達成する時間が短縮されるということを、実験で明らかにすることができた。「声という一次元の信号に、どれほど大きな可能性があるのか、改めて気づいた」

最も切実に音声合成を必要としているのは、病気や事故によって声を出せなくなった人々だ。本来の声が、雑音や反響音のない良好な録音状態で残っているとは限らない。既に声が出せず、新たな録音はできないこともある。「雑音や反響音がある録音からも、その人の声のクローンを作れるように、アルゴリズムを開発している。ディープラーニングの導入で、誰でも手軽に『自分の声』を取り戻せるという理想に、より一層近づくことができた」

2015年までは、「隠れマルコフモデル」と呼ばれる確率論の手法を用いていた。基本技術の置き換えは容易ではなかったが、声の品質と有用性は劇的に進歩した。しかし技術革新は、悪用の可能性と表裏一体だ。「声による認証システムが、コンピュータの合成した音声で破られるようになってしまったので、人間の声とコンピュータの声を見分ける方法も研究している」

次々に生まれる研究の種子を、どう育むか。「NIIには、研究に集中できる環境がある。数多くの優れた研究者がいて、分野の壁がなく気軽に議論できるところがいい。他機関や国外との協力体制も充実している」

世界の音声合成研究を底上げするビジョンが研究を大きく前進させている。

山岸順一
YAMAGISHI Junichi

コンテンツ科学研究系教授

博士（工学）／東京工業大学大学院総合理工学研究科物理情報システム創造専攻博士課程短期修了／音声合成の話者適応技術に関する研究を東京工業大学にて開始。博士号を取得後、エジンバラ大学音声技術研究所を経て、2013年より国立情報学研究所コンテンツ科学研究系准教授。2019年より教授。

音声合成の話者適応技術に関する一連の学術論文を発表し、その枠組みを世界に先駆け確立。さらに、話者適応技術を、音声翻訳システムや音声障碍者の会話補助器をパーソナライズする、技術や騒音下で音声を聞きやすくする変換技術として利用する応用研究も実施。

日本音響学会独創研究奨励賞板倉記念、情報処理学会喜安記念業績賞、文部科学大臣表彰若手科学者賞、日本学術振興会賞を受賞。