イベント / EVENT

平成27年度 第1回 Q&A

第1回 2015年7月29日(水)

おしゃべりなコンピュータ
山岸 順一 (国立情報学研究所 コンテンツ科学研究系 准教授)

講演当日に頂いたご質問への回答(全25件)

※回答が可能な質問のみ掲載しています。

音声合成技術で楽器音(新しい楽器音)を合成する可能性はありますか。

楽器音の合成(シミュレーション)は、音声合成と異なる技術です。サンプルベース、物理モデルに基づくシミュレーションなど様々な技術が確立されております。人間の声の合成音声を、新しい楽器音として利用しようという逆の発想もあります。

脳性まひなど、発音が不明瞭な方の声も認識することはできるのか?
(人間だと、その人の発音のクセがわかるにつれて認識できるようになるが、そういう風な形で機会に学習させることは可能か?)

通常の音声認識のままでは認識率は高くありませんが、音声認識を特定の人の特徴へ特化させる技術も開発されています。話者適応と呼ばれます。

今回はもっぱら発声の問題と理解したが、聴覚側はどうなっているのでしょうか?

合成音声は様々な観点で評価され、発音の明瞭性に加え、合成音声の自然性や類似性においても評価されます。この様な合成音声の自然性や類似性の改善には、聴覚上の特性を考慮することが重要で、メルスケールやバークスケールといった聴覚スケールが導入されています。

今(たとえば2015年現在)の計算機で、どれくらい実現可能なのでしょうか?
例)スマホでできるよ。
応用を考えたとき、H/Wに要求するものが、どれ位なのか、気になりました。

スマホでも十分実現可能です。ネットワークも高速になっていますので、サーバ上で処理し、合成音声をスマホへ送るというタイプの処理方法も可能です。

スライド(レジュメ)No.29「統計的音声合成」の箇所で音素の音声波形もコンピュータで作成するのですか?(実際の人の声をサンプリングするということはしていないのですか?)

サンプリングされた音声から、各音素の特徴を学習した隠れマルコフモデルを学習します。学習後は、サンプリングされた音声は不要です。

Siriでしばらく前に"きゃりーぱみゅぱみゅ"を認識できるかという一種の遊びが流行したことがありました。発音を正確にできる人が少ないため、正しく認識させられた人は少なかったのですが、人間同士の会話では多少発声が不正確でも認識できます。コンピュータの世界でもテキスト会話では補正の試みがされているようです(たとえば検索エンジンでの「~ではありませんか?」人工音声認識でもこの様な不確かさの補正は可能でしょうか?

音声認識も、講義で紹介したレキシコン(発音辞書)を利用しています。この辞書に登録されていない単語は、通常うまく音声認識できません。きゃりーぱみゅぱみゅが正しく認識されないのは、発音が正しいかどうかではなく、辞書に登録されていないからだと思います。音声認識において、発音が不正確の場合は、言語モデルが表す単語の共起・連続関係を考慮することで補正しています。

日本語ネイティブでない人が日本語を話した場合、話者を見ないでもノンネイティブの日本語だとわかる場合があります。各言語の音素やアクセントの違いによるものだと思うのですが、同じIPA記号で表される音でも(たとえば同じ/t/でも)「○○語らしさ」というのはどのように形成されるのでしょうか?

日本語のネイティブかノンネイティブの判定は、発音や音素の違いというようりも、モーラ制御が適切でないため、容易に認知されていると考えます。同様に、日本人が英語を喋った際には、シラブルをモーラ感覚で制御するため、ネイティブにはノンネイティブだと直ぐ様、知覚されてしまうと推測します。

人固有の周波数幅(例えばソプラノ(女)とかバリトン(男))とフォルマントの周波数の関係が理解できません。

声の高さとフォルマント周波数の違いです。楽器で例えるならば、楽器特有の音色と音符(音高)の違いです。テナーとメゾソプラノは同じ声の高さで歌うことができますが、テナーは男性、メゾソプラノは女性と認知されます。声の高さは声帯が開閉する周波数で、フォルマントは声道が共振する周波数です。

同じ母音/子音の組合せでもアクセントが異なる場合のフォルマント合成について補足説明して下さい((例)橋と端、クラブ(部活)とクラブ(夜の遊び場)

橋と端の違いはアクセント型です。フォルマントの制御に加え、声の高さ(基本周波数)という特徴を利用し、アクセント型を制御します。

音声合成はすでに商用ベースに乗っていると思いますが、NIIのような研究所で研究を継続されている意義・意味についてお聞かせください。

商用化もされていますが、まだ人間の音声表現には到達していません。

テレビドラマなどを見ていますと、同じセリフでも役者さんによってうまい、へたがあります。主に間合いとかイントネーションによるものと思いますが、音声合成でもそういった作りわけは可能でしょうか?発話にこめられた感情表現でも同じようなことがあると思います。

作り分けと言いますか、利用する声優の特徴を真似しますので、音声合成システムの学習に利用した声優が下手な喋り方なら音声合成も下手な喋り方をします。

発声させる音素の時間軸方向にゆらぎを与えることで、より人間らしい発話にすることはできるでしょうか?

音素の時間長も統計確率分布として表現されていますので、すでに揺らぎは考慮しています。単に揺らぎを与えれば良いと言う訳ではありません。

音素の音声波形も自動合成する研究などもあるのでしょうか?

統計的音声合成システムでは、音声波形も自動合成されます。

様々な声を作り出せる一方で発生するリスクはありますか?たとえば、声紋を再現できてしまうなど、なりすましの精度があがると怖いと思ってしまいます。

どんな技術も光と影になりえます。技術そのものに問題がある訳ではなく、その利用法に関するコンセンサスを私たちがこれから確立していく必要があります。そのコンセンサスを決めるのは社会の意見です。

最初にご紹介いただいた音声合成のアプリは一般にも利用可能でしょうか?利用可能ならアプリ名をお教えいただけますでしょうか

SpeakUniqueというアプリで、今後公開予定です。

音声データさえあれば自由に喋らせることが可能になる(例えば首相の声で自由に喋らせる)と思いますが、声の権利など研究上の難しさはありますでしょうか?

悪用された場合の不安も理解していますが、その一方で、この技術を利用したいと切実な願いを持っている人たちも多くいます。この相反する意見が混在していることが研究上の難しさです。ただ時代と共に意見は変わっていくとも思っています。写真や映像のようにすでに、いろんな合成音声が可能になっているということをみんな知っていれば、これはもしかしたら合成されてる音声かもしれないと思うことができます。

国内における研究および実用化の水準は、世界的に見てどの位の水準にありますか?先生の私見では、世界何位くらいですか?また、日本がこの分野でとびぬけているような技術があれば教えてください。

音声合成は日本が世界をリードしている数少ない分野の一つです。

CPUやストレージは今後もいちじるしく進化していきます。その制限を考えなければ、合成音声の世界観がすっかろ変わるような技術が出てくるでしょうか?それはどのようなものになると考えますか?

他の機械学習の分野で劇的な変化を起こしているビッグデータおよびでディープラーニングが音声合成の原理を根本的に変えてしまう可能性は十分あります。ワクワクしますね。

今後、高齢化が進むと、「ぼそぼそと何を言っているのかわかりにくい声→高域が聞き取りにくく子音が区別できない耳でもききとれる声」といった合成ができるといいと思います。難しいでしょうか?

実現可能性は十分にあります。対象ユーザや条件に応じて、賢く応答できる音声合成システムが今後あるべき姿だと思います。

特定の個人の声にどの程度似ているのか、実例を教えて下さい

合成音声の話者類似度の主観評価は、5段階で行うことが多いのですが(5点:本人そのもの、4点:本人によく似ている、3点:本人らしさを感じる、2点:あまり似ていない、1点:似ていない)、ブリザードチャレンジで行われた数100人の被験者の意見の平均を見るとと現状は4点ほどのようです。

合成音声の品質があがったのはよくわかりました。合成音声の品質を定量的に評価するパラメータや手法はあるのでしょうか?

合成音声の自然性や品質を客観的、定量的に評価する手法は幾つも提案されていますが、人間の主観的な判断と十分に高い相関を持つ客観的手法は未だ実現されていません。

今から10年以上前に、けいはんなのATRかNTT研究所で、30分ぐらい話すのを録音し、データとして取り込むと、その人の声で英語でも中国語でも合成音声でしゃべるというデモを見ました。すばらしいと思いましたが、今だにそれが何か実用的な使われ方をしたように思われません。そのような音声合成技術(この講座では「パーソナライゼーション」)の実用的な応用例について教えて下さい。

講座でご紹介した、異なる話者の特徴を真似させる技術および異なる喋り方を変換する技術は既に数社が実用化しております。特徴のあるキャラクターの合成音声を作る、災害放送時に聞きやすい合成音声を作るといった用途にも応用されております。

(「音色の発信」とは反対に)「音色」を認知して、それを「文字・点字」に変換することはできますか。...聴覚障がい者や視覚障がい者(主に筆記の点において)への支援を念頭においたサービス

点字については勉強不足であまり知りませんが、音声から手話への自動変換は見たことがあります。

名探偵コナンの「変声器」はいつ頃実現しますか?リハビリ(言語障がい)にも使用したいのですが...

コナンくんの変声システムの様な技術は「声質変換」と呼ばれ、大変積極的に研究されています。

万葉かなは、現在の1音に対し複数の文字を使っており、和歌百人一首などの競技では、音のつながりの微妙な違いとして認識されているふしがあるようだが、どのような違いがあるのでしょうか?

当時は8母音だった等色々諸説あるそうです。実際はどんな音だったんでしょうね。。。

shimin 2015-qa_1 page2521

注目コンテンツ / SPECIAL