「声が伝わる、声で伝える？」第65号 - NII Today / 国立情報学研究所

Sep. 2014No.65

音声の合成と認識～声をつくる、声を聞く～

Essay

声が伝わる、声で伝える？

津崎実Minoru Tsuzaki

京都市立芸術大学音楽学部教授

　今回の特集テーマは「音声合成と音声認識」ということであるが、私の研究の核は聴覚なので、私自身は音声よりはもう少し初期的なところが常に気になっている。一般的に音声と言えば、人間の声がまず思い浮かべられ、その声が動物の鳴き声と異なっている特徴は言葉を伝えていることと考えられる。

　言葉とは言語内容であり、言語内容は意味や意志を伝えることは言うまでもない。だから選挙活動中の候補者が、「皆さまの一人ひとりの声を、国会に届けるためにも、是非私に1票をお願いします！」と言ったときには、別にその候補者は音声信号を国会で再生することを約束しているのではなく、みんなの意見を代表して国会で活動をすることを約束しているのである。この言語情報と音声信号とのリンクを機械にも可能とするのが、音声認識や音声合成の技術の大目的である。その技術はきっと便利であり、いろいろな局面で有効活用ができそうであり、活用されつつある。

　しかし、ここでひとつ忘れてならない音声の側面があると思う。その側面はより根源的であり、誰もが無意識に享受しているがために、言語情報の側面に隠れてしまいがちである。その側面とはパーソナリティーである。自然環境では、声には必ずその主がいる。これは決して声のおまけではない。person、即ちペルソナは、語源としてper（through 、by way of ; ～によって）とsona（音）であるという説がある。ペルソナに対して「仮面」という意味が英和辞典を引くと出てくるが、これはギリシャ時代の仮面劇では、役者の特定が声によってしかできなかったという側面と、さらに達者な役者はつけた仮面によって、その声までも自在に変えていたということに由来するものである。つまり、個人の特定に声を用いる戦略は昔から存在する。そもそも動物が声を出し始めたのも、個体識別を暗闇などでも可能とするための戦略だったと考えられる。

　音声認識と合成ができる機械が、生活空間に人間と親和性高く同居するためには、このペルソナの側面を上手にハンドリングする必要があるかもしれない。人間らしくない機械が妙に人間くさく話すのはユーザーを混乱させかねず、また世界一優秀な音声合成器がすべて同じ声であちこちで公共の案内を話し出すというのも困りものである。コンシェルジュ・ロボットが、いくらこちらが言っている内容をしっかりと認識できても、「ところでどちら様でしたっけ？」という態度だったら腹が立つであろう。

　巷ではボーカロイドという仮想的な存在が一定のファンを獲得しており、何を隠そう筆者もそのファンの一人であるが、彼女（？）たちが「不気味の谷」に落ちることなく、受け容れられている最大の要因は、実は声から入っていったことでペルソナがそこに存在していたからかもしれない。

第65号の記事一覧

音声の合成と認識～声をつくる、声を聞く～