研究 / Research

コンテンツ科学研究系

山岸 順一
YAMAGISHI Junichi
コンテンツ科学研究系 准教授
学位:博士(工学)
専門分野:テキスト・言語メディア
研究内容:http://researchmap.jp/read0205283

サイエンスライターによる研究紹介

音声とコンピュータの可能性を拓く

私はずっと、音声合成・音声認識を中心に研究を続けてきました。
音声認識は、スマートフォンに音声で話しかけると言葉を認識し、必要な情報をユーザに教えてくれるシステムを思い浮かべていただければと思います。音声合成といえば、日本では「ボーカロイド」のイメージが強いかもしれません。それから、社会のいろいろな場所で利用されている音声読み上げでしょうか。
音声認識を行って、自動翻訳し、多言語に翻訳した結果を音声合成で出力すると、音声翻訳アプリができますね。音声合成でこれから大事になってくるのは、その人の声で、もしくは、その言葉を話すのにふさわしい人物の声で、あるいは、周囲の状況にふさわしい音声で出力すること。ユーザの希望に合わせて、状況に合わせること。私はこのような「賢い」音声合成、つまり選択的・応答的な音声合成の開発に、取り組んできました。
今はそれに加えて、医療・福祉への応用に取り組んでいます。具体的には、喉頭がんやALS・筋ジストロフィーなどの病気で自分の声を失う人が、もともとの自分の自然な声でしゃべれるような装置の開発です。

日本生まれの音声合成技術

実は、音声合成の基本的な要素技術は、ほとんど日本から出てきているんです。研究が始まったのは1970 年ごろでした。その後1990 年ごろ、「単位接続システム」という考え方が日本から現れました。話される音声を、構成している要素ごとに「切ってつなぎあわせる」というやり方です。その後、2000 年ごろに、日本から「統計的アプローチ」という考え方が現れて、現在の主流になっています。簡単に言うと、音声を「関数」で表現するんですね。関数ですから、新しい音声要素や新しく学習する必要のあることを、柔軟に取り入れていくことができます。今は、一人の人のふつうに話している音声が1 時間分、それから怒っている声・楽しそうな声がそれぞれ2〜3分ずつあれば、その人が怒っていたり楽しそうだったりする口ぶりでの音声合成ができます。女性60 人の声をもとに少女の声を合成したり、英語圏の男性60 人の声をもとに訛りのある英語での発話を合成したりする「話者適応」、それから、環境に適応させることなどが、これまでに出来るようになっています。騒音の大きい場所で、ただ単に声を大きくしたのでは、さらにうるさくなるだけですよね? でも、聞きやすくすることができれば、「さらにうるさくする」以外の選択肢が現れます。

福祉・医療への応用も

今は、ALS という病気で声を失う人たちの話し声を、まだ発話出来るうちに録音させてもらっています。そして「録音された話し声をもとに、本人の話したい内容での音声出力を行う」という装置を提供しています。病気が進んで、明瞭に話すことが難しくなった段階で録音される方もいますから、「ある二重母音の発音ができなくなっている場合に、そこをどう補うか」といった技術的なチャレンジが、たくさんあります。

広い意味で「役に立つ」技術を

研究には「基礎研究→応用研究→実用研究」というフェーズがありますが、私はあまりこだわっていません。「応用から基礎へ」という流れもあると思っています。たとえば、実用段階に入っている音声合成を検証するために、600 人分の声のデータを集めたとします。それをどう解析すればよいかは、基礎研究の領域ですよね? 私はとにかく、新しいものを作って、アイディアを提案して社会に還元したいです。そして、そこからの理論展開という流れも大切にしたいんです。
さきほど、医療・福祉への応用についてお話しました。「便利にする」「障害などで出来ないことを可能にする」という応用でしたが、これからはデジタルアートへの展開も期待されています。芸術のことはあまり知らないので、これから勉強しなくては、というところです。

PDFをダウンロード


取材・構成 みわよしこ

関連情報

注目コンテンツ / SPECIAL