イベント / EVENT

平成21年度第2回 Q&A

第2回 2009年7月15日(水)

大量の音声データから見えてくるものは？
音声から情報を得る
板橋秀一（国立情報学研究所特任教授）

講演当日に頂いたご質問への回答（全31件）

※回答が可能な質問のみ掲載しています。

感情の伝わる音声合成は、いつ頃使えるようになるのでしょうか？方言はどうでしょうか？表現の上手、下手をどうやって評価する（出来る）のでしょうか？

感情音声の分析や合成の研究が進められています。一部実用化されている例もありますが、一般に普及するのは大分先のことになると思います。また琉球方言の音声合成に関する研究も進められています。表現の上手・下手の評価は人間が行うことになります。

感情を伴った自然な人間の音声が実現するためには、どのくらいの時間を要するのか？そのために障害になるものとは何か？）

感情音声については質問１の前半をご参照下さい。感情音声の分析や自動認識は必要と思われますが、ロボットが感情を込めて話をすることは必ずしも快く思わない方もあるようですので、実現までにはかなり時間がかかると思います。

合成音声の「合成」っぽさは誰もが気づくが、その正体は何なのでしょうか？どういった点が不足しているのですか？

幾つか考えられますが、大まかには声の大きさや高さ、長さなどの細かい変動や隣り合う音声の間の接続の滑らかさの違いなどが考えられます。合成の場合には変動が少なかったり、接続の滑らかさが足りなかったりします。

①「いい声」「聞きやすい声」はどういうものですか？
②一般の人がそれらを得るにはどうすればよいのですか？
③コーパスでそれらは異なるのですか？

①②については「いい声」「ボイストレーニング」「声のトレーニング」等に関する本が沢山出ていますので、それをご参照いただければ良いと思います。
③音声コーパスにはいろいろな話者の音声が含まれていますので、「いい声」や「聞きやすい」音声も含まれています。

よく通る声（音）と大きな音（声）とは違うといいますが、振動としては何が違うのでしょうか？

「大きな声」は肺からの空気の圧力が強い声といえます。「良く通る声」では3千はヘルツ付近の共鳴が強いことがあげられます。

①日本語より英語の合成音の方が自然な音に聞こえることが多いのはなぜでしょう？（日本語の方が不自然に聞こえることが多い）
②合成音を作る場合に、向く言語と向かない言語はありますか？ある場合、原因は何ですか？　英語、日本語、ロシア語　etc.

①英語の音声研究が非常に進んでいることと、合成音声を日本人が聞いた場合は、日本語の合成音の音質には厳しく判定する傾向があることが考えられると思います。
②音声を合成する場合に言語による難易の違いは基本的にはないと考えて良いと思います。

音声コーパスの活用領域としては、言語研究、危機的言語の保存、ヘリウム音声を聞きやすくするの他にはどのようなことがあるのでしょうか？民間企業でコーパスをしているのは実用的なことだと思いますが、どのような使い方でしょうか？

音声コーパスは音声認識・合成、言語認識、話者認識の研究に有用です。民間企業ではこのような分野の研究に使われています。

音声入力によるパソコン操作（文章入力を含む）は、どの程度まで進歩していますか？普及が遅れているネック？電話等の文字入力からの音声は、依然として不自然ですが、進歩の動きは？

音声でパソコンに文章を入力するソフトは使われています。操作に慣れるとかなり便利に使えるということですが、誰でも気軽にという訳には行かないのが現状です。問題としては誤入力の際の訂正がうまく行かないことなどがあげられます。合成音声の品質は次第に良くなっていますので、徐々に使われるようになると思います。

現状の音声認識のレベルをお教えください。
・背景雑音、残響下で音声認識は可能か？
・その時の話者同定はできるのか？
・不明瞭な音声であっても復元認識できるのか？ロボットがある特定の人の命令に従う自然環境下で、電話で、マイクでといった事が可能か？

背景雑音・残響下でも条件によっては音声認識が可能です。その際に話者同定ができるかどうかは雑音の程度によります。不明瞭な音声を認識するのは非常に難しいことです。ロボットがマイクや電話を通して、ある特定の人の音声にのみ反応することは考えられますが、誤りは生じます。

CSJから実際の発音と（辞書）表記にずれがあることがわかりましたが、これにより（辞書）表記が変更になったりするのでしょうか？

辞書の表記と実際の発音のずれがあることは分かりましたが、辞書は規範としての役割を持っていますので、すぐにその表記が変更になることはないと思います。

コーパスは犯罪捜査に使えますか？

話者同定は難しい問題ですので、音声コーパスが犯罪捜査にすぐ使えるということにはならないと思います。

発音された"音"ではなく、それを作り出す音声器官をソフト的にエミュートするという方法によるアプローチはないのでしょうか？ブザーの出来が良かったので、あれをソフトでリアルタイムに再現できれば良いと思います。

人間の音声生成機構をまねて音声を合成する「声道模擬型」と呼ばれる合成方式は長い研究の歴史がありますが、残念ながらコーパスベース方式の方が音質が良いということで、最近はあまりとり上げられません。

①音声コーパスの配布は有償なのでしょうか？有償であれば、いくらぐらいですか？
②音声コーパスの有効使用例はありますか？
③データ量は？

①無償と有償と両方あります。有償のものは500円～8万円程度です。
②現在主流の統計的音声認識方式では、音声コーパスを利用して音響モデルを作成しています。
③音声資源コンソーシアムで扱っている音声のデータ量は2000時間ほどになります。

視覚障害者向けの音声データ（本を音読してCD化してある）なども音声資源コンソーシアムで取り扱うのですか？

本を音読してCDに録音した音声データは、音声資源コンソーシアムでは扱っておりません。点字図書館等で扱っていると思います。

分析の元となる多様×大量の情報収集は、具体的にどのような仕組み・方法で行われているのでしょうか？（NIIに限らず）

多様で大量の音声データの収集は、幾つかの大学や研究所が分担して行うのが普通です。

喉頭で男性の時は声帯から出ることによって、バス・アルトの聞き分けは？
音声、言語が重なった時、ニッポンゴ、エイゴの音声ににごりが出ますか？

バスの声に比べてアルトは大体2倍の高さになっていますから、それでほぼ区別できます。また男声と女声の声質の違いからも区別することができます。日本語や英語の音声が重なると明瞭度は悪くなります。

翻訳機のレベルはまだまだ（文字ですらレベルが低い）ですが、リアルタイム翻訳機の実現性はどうお考えでしょうか？少なくとも何語を話しているか位は分かるのか？（先生の専門とは少し外れるかもしれませんが・・・）

手に持つことの出来る小型の音声翻訳装置が開発されていて、日・中・英の３言語の間の翻訳を行うことが出来ます。北京オリンピックの際にその実証実験が行われましたが、まだ市販はされていません。

言語音声コーパスは、いろいろな種類のものが沢山ありますが、作成者以外の人たちが使えるものは少ないと感じます。汎用性の高いコーパスが少ないのは、どんな問題があるからでしょうか？

言語・音声コーパスの大部分は研究者がそのプロジェクトで使用するために作成しますので、どうしてもその研究目的に沿ったものになりますが、類似の研究のためには利用することができます。

①合成音声について
JEIPAの例は長文のせいか、途中で音楽の"転調"している様に聞こえました。気のせいでしょうか？
②音声認識について
人間は、同じ言語＋同じ文章（同じ長調音結合）の音声でも話者を聞き分けられる。
例） Aさんの声とBさんの声は違う。CさんとDさんの声は似ている　等
これはどういうことか？　例えば2台のピアノで同じ曲を弾いても音色が異なるのと同じでしょうか？
"音声が似ている"ということは視覚化できるのでしょうか？
視覚化できた場合、人間はそのうちのどれ位の部分を聞き分けているのでしょうか？（何人ぐらい聞き分けられるのか）

①JEIDAの合成音声が途中で転調しているように聞こえたのは、韻律制御が部分的にうまく行かなかったためと考えられます。
②人間の声にはそれぞれ個性がありますので、同じ言語で同じ文章を発声しても違って聞こえます。音声の類似性を視覚化することに関連して、音声資源コンソーシアムでは（話者ではなく）音声コーパスの類似性を視覚化する研究を進めています。機械による話者認識に関する研究が進んでいて、入力環境と条件が良ければかなりの精度で話者を区別することができます。人間の話者認識性能は機械に比べると低いといわれていますが、既知の話者については10名程度の区別はできるようです。

言語の数が7,000と、とても多いと感じました。数え方はどのようになっているのでしょうか？日本の場合を例にすると、方言は別として数えているのでしょうか？どのように調査して算出したのでしょうか？

言語の数え方は非常に難しいものです。7000という数はEthnologueという本によるものですが、日本では12言語あると数えています。主に琉球方言の違いが反映されています。

①声帯の音（ブザーのような音）を模型で聞くことはできますか？
②HMMの使用例をお聞きしたい。

①声帯の音そのものを聞くことは非常に難しいのですが、それに近いものとして人工喉頭の音があります。
②HMM(隠れマルコフモデル）は現在の主な音声認識ソフトウエアでは必ず使われています。

実験用音声の録音の仕方を紹介していただけますでしょうか？

実験用音声は防音室や静かな室で卓上マイクロホンやヘッドセットマイク等を使って録音します。方言音声の場合には自然な発話を収録するために、普通の家でタイピンマイク等を使って録音することもあります。

①声帯は円運動しているのですか？声帯の運動と円運動の関係を教えてください。
②動物、例えばキンギョの可聴域はどのようにはかったのですか？

①声帯の運動と円運動は直接は関係ありません。円運動は正弦波の説明のために用いたものです。
②動物の可聴域の測定の正確な方法は分かりませんが、音が聞こえたときに観察される行動の変化に着目するのではないかと思います。

例えば共鳴振動でガラスが割れてしまうように「非（or不？）可聴域の周波数の音」を何かのエネルギーに使用している例はあるのでしょうか？（発電とか）可聴域の場合ではどうなのでしょうか？

共鳴現象でガラスのコップが割れたりすることがありますが、音のエネルギーは非常に小さいのでエネルギー源として使われることはあまりありません。超音波（２万ヘルツ以上の音）により眼鏡を洗浄したりする例があります。

①CSJは1人の方の話を集積されたとのことですが、複数の方の方言を比較しないで方言の特性はどのように配慮なさったのか。
②書きおこしの利用の仕方をお教えいただければと思います。（「よい」と「いい」は速記の変換基準のように使いわけないと書きおこしは、かえって使いづらい気がするので）

①CSJコーパスは対話音声ではなく一人で話した独話音声ですが、1000人以上の話者の声を収録しています。また原則として標準的な発声を収録していて方言は扱っていません。
②書き起こしは音声コーパスの中にどのようなデータが収録されているかを知るために使われます。「よい」と聞こえれば「よい」と書き「いい」と聞こえれば「いい」と記録して、発音をできるだけ忠実に反映する書き起こしと正書法による書き起こしが併用されています。

手書き文字をフォントとして残すというのが現在あるが、声についてもそのようなものはあるのだろうか？フォントパックならぬその人の声を全て再現できる音素パックのようなものがあればと思った。

音素パックという考え方は面白いと思いますが、音声の場合には「調音結合」があります。そのため連続して発声した音声は前後の音の影響を受けて変形しますので、実現するのは難しいと思います。

先日、ニュースで夜間に集まる若者を特殊な音で追い払うと言っていました。若者にしか聞こえない音だそうです。なぜ、若者にしか聞こえないのでしょうか？

人間の聴覚では20－2万ヘルツの周波数の音が聞こえますが、成人では1万5千ヘルツくらいまでしか聞こえないといわれています。若い人はそれより高い音も聞こえます。そのため1万8千ヘルツくらいの音を出すと、若い人には聞こえても年配の方には聞こえないということになります。

「行間を読む」とか「言外の意味を理解する」ということが、合成言語で出来るようになるのか？

「行間を読む」とか「言外の意味を理解する」ということは人間の非常に高度な知的活動ですので、音声認識・合成がこのレベルに達するのは非常に遠い先のことで、達することができるかどうかも分かりません。

①言語のグローバル化？になっていくのか。
②多様性・普遍性・多量性等々の要求からくる統一性の要求として、言語が信号化されてしまうのではないのか？
③コーパスの目的な何か？
＊コーパス・データベースは同じような意味に思うが、どのように違うのか？

①言語のグローバル化は進むと思いますが、また一方地域言語を大切にするという風潮も高まるものと思います。
②「多様性・普遍性・多量性」等はコーパスとしての利用価値を高めるための要求で、音声・言語の性質に影響を与えるものではありません。
③コーパスは音声・言語の研究を客観的に進めることが出来るようにするために使われます。音声・言語の研究で使うときは「コーパス」も「データベース」も同じように「研究に用いる音声・言語データの体系的集積」という意味で使われます。いわゆる「データベース」の分野では必ずしもそうではありません。

チベットなどで、遠くの人と直接話をする発声法があるそうですが、音響学的にはどう説明が出来ますか？

チベットで使われているかどうかは不明ですが、モンゴルで行われているホーミーという歌唱法があります。これは1名の男性歌手が高低2音を発するものです。低い方の音は一定の音を長時間維持します。もう一つの音は高い音域で口笛のような音色でメロディーを奏でるものです。話をするものではありませんので、ご質問のものとは違うかも知れません。