イベント / EVENT

平成28年度第6回 Q&A

第6回 2017年2月22日（水）

人間の声？それともコンピュータ？
高木　信二（国立情報学研究所コンテンツ科学研究系特任助教）

講演当日に頂いたご質問への回答（全17件）

※回答が可能な質問のみ掲載しています。

DLの学習には、どれくらいの量のデータを使うのですか？

1時間程度の音声があればテキスト音声合成システムの構築は可能ですが、より多量のデータを利用して学習することで自然な音声の合成が可能となります。私たちは20時間程度の音声データを研究によく用いていますが、この程度のデータ量があればかなり自然な音声の合成が可能です。

ディープラーニングは、いろんな分野で活用されてきており、今回、音声情報処理、しかも音声合成に使われていることを興味深く思いました。音声→テキストの方がディープラーニング向きと思っていたので。（情報量大　→　情報量　小のため）　このディープラーニングが音声合成における究極の技術じなるのでしょうか？さらに次の技術や改善点としてはどのようなものがあるのでしょうか？

ディープラーニングを用いた音声合成にも課題は残っています。例えば、計算コストが大きい、つまり性能の良いコンピュータが必要になってしまうことや、自然性の面でも人間の発話と比較すると韻律が依然として不自然であること等が挙げられます。これらの課題の解決は必要になっています。また、本講座では人間の声の合成についてお話ししましたが、人間には不可能な声（例えば、とっても早いけど聞き取りやすい声）を合成する技術などは面白そうですね。

スライド　p.3等　「小さな鰻屋に～」「あらゆる現実を～」の分は、音声合成の研究上で、どのような意味があるのでそうか？例えば日本語に不可欠な音素形態素を網羅している当の要件があるのでしょうか？

日本の音声関連の研究者がよく用いる音声データベースのある１文です。この文を必ず用いる必要はないのですが、質問でおっしゃられている通り、様々な音素や形態素を含む音声データベースを用いる必要があります。

様々な機械学習アルゴリズムの中から、ディープラーニングを選んだ理由を教えてください。例えば、ランダムフォレストは不向きですか？

音声合成において決定木を用いた手法もこれまで用いられてきており不向きというわけではないですが、ディープラーニングを用いることでより多くの課題解決がなされているためです。

周波数変換の仕方、スペクトルの図の縦軸（dB)、横軸( rd)の意味を説明してください。

短時間フーリエ変換という処理を行うことで周波数変換を行うことができます。これにより音声が複数の周波数成分に分解されるのですが、横軸(rd)はどの成分であるか、縦軸(dB)はその成分がどのくらい含まれているかを意味します。

ディープラーニングの方式を採用しない従来の音声分析の研究は、"全て"ディープラーニングに移行したのですか？従来の方法は全てディープラーニングも移ったのか。（負けたのかな）

多くの研究でディープラーニングが用いられていますが、全て移行したわけではありません。計算コストが高いといったことや、そもそも対象としている研究によっては適切な学習が行われず性能が出ない場合もあります。

P.6の句の行で、「あかいそ　I　ら」と縦線が入れられているのは"ら"が、アクセントとして弱くなるという意味ですか？

はい、アクセントの位置を示しています。

音声合成技術を評価する普遍的なベンチマークテストってあるのですか？

普遍的なベンチマークテストはありませんが、例えば、音声合成を実現する手法の評価を目的としたBlizzardChallengeという会議が毎年開催され、多くの機関が参加しています。

音声合成に使われるディープラーニングはほぼ完成に近いものになっているのでしょうか？まだ残っている仮題があるとすると何でしょうか？

合成された音声の韻律がおかしな場合があったり、例えば感情表現に乏しかったりと課題は残っています。また、人間そっくりの音声を合成することは目標ではありますが、例えば人間には不可能な速さの音声といったような、人間の能力を超えた音声合成も目標に挙げられます。

合成音声の研究に、ビッグデータはどのように活用されていますか？

本講座で学習についてお話ししましたが、多量のデータを用いることでこの学習が適切に行われます。音声のビッグデータを用いることで音声合成が実現されます。

計算量も多そうですが、モデル作成にはどのくらいの時間がかかるのでしょうか？

利用するデータ量によってかかる時間は変わってきますが、最新のGPUを用いることで1日程度でモデル作成は行うことができます。

音声合成結果を数値的に評価する手法はあるのでしょうか？

本講座で説明した音声の周波数表現や声の高さといった音声の特徴量を用い、これら特徴量がどれだけ合成したい音声に近いかで数値的に評価することは可能です。しかし、補助的な結果としてしか捉えることができず、最終的には人が聞いて評価する必要があります。

階層が深いと演算が増え、マシンスペックが必要になるのでは？

その通りです。学習時や用途によっては、高性能のマシンやGPUになる場合があります。

音声には、喜怒哀楽の感情や、何かを訴える感情、甘えの感情などが存在していると思うのですが、そうした感情の違いは表現できるのでしょうか？

現在の音声合成器は単純な喜怒哀楽がなんとなく伝われば良い程度のものになっています。人間が行うような緻密な感情表現は依然として課題となっています。

合成音声を耳にする機会は増えましたが、いずれもナレーションのような起伏に乏しい声がほとんどです。「感情のこもった声」や、叫び声、泣き声は技術的に難しいのでしょうか？難しい場合は、理由も教えて頂きたいです。

叫び声や泣き声といった合成された音声を耳にしない理由には、以下の2つ挙げられるかと思います。1.叫び声や泣き声といった音声合成器を学習するための音声データベースがない。2.音声の特徴の分析や抽出が難しい。2は技術的に解決しつつあります。今後はこのような今まで耳にしなかった音声の合成も現れると感じています。