研究シーズ2017情報メディア科学

深層学習を⽤いた次世代⾳声合成技術を進化・深化させる

高木 信二コンテンツ科学研究系 特任助教

研究分野⾳声合成/⾳声情報処理/⾳声インターフェース

研究背景・目的

音声認識・音声合成等の音声情報処理技術を核とする、音声インターフェースが広く普及し始めています。例えば、音声対話システム(ユーザーの音声を認識して、音声合成により情報を提示)や音声翻訳システム(ユーザーの音声を認識し、翻訳結果を音声合成により出力)が代表的なものとして挙げられます。その他にも、音声合成技術はスクリーンリーダー、ナレーション合成、歌声合成、いろいろな人の声や自分の声の合成といった、多くの用途で利用されています。本研究では、このようにさまざまな場面で使われ始めている音声合成技術の精度を高めることが目的です。特に近年では、深層学習を用いた音声合成技術に注力して研究を進めています。

研究内容

コンピューターを用いてテキストを音声に変換するテキスト音声合成の実現には、音声の分析やテキストの解析、これらの処理から得られた音声の特徴と言語情報の対応付けが必要となります(図1)。 私たちは、音声合成において音声の特徴量抽出に深層学習を導入しました(図2)。この手法で、テキスト音声合成により適した特徴量を自動的に抽出することが可能となりました。深層学習を用いることで、これまでとは一線を画す高性能な音声合成が実現しつつあります。

17-takaki-02.jpg

産業応用の可能性

連絡先

高木 信二[コンテンツ科学研究系 特任助教]
takaki[at]nii.ac.jp ※[at]を@に変換してください

Recommend

さらにみる