ニュース / News

ニュースリリース

2016/09/29

複数話者の音声を同時認識する新しい音響信号処理技術を開発／音声認識による会話の文字起こしも可能に

大学共同利用機関法人情報・システム研究機構国立情報学研究所（NII、所長：喜連川優、東京都千代田区）情報学プリンシプル研究系准教授、小野順貴（おの・のぶたか）の研究室と国立大学法人筑波大学（学長：永田恭介、茨城県つくば市）生命領域学際研究センター教授、牧野昭二（まきの・しょうじ）らの研究グループは、複数の機器で録音した複数話者の重なり合った音声から一人ひとりの声を分離し、これにより複数の音声を同時認識できるようにする新しい音響信号処理技術を開発しました。本成果は、米サンフランシスコで今月開かれた音声分野のトップ国際会議「INTERSPEECH」で、小野研究室のNII情報学プリンシプル研究系特任助教、越智景子（おち・けいこ）が発表しました。この技術により、会議のように複数の話者が同時に話すような状況でも、特別な機器を使わずに音声認識することが可能になります。

音声認識の性能は近年大幅に向上しつつありますが、会話や会議に代表される複数話者環境では、異なる話者の音声が重なるため、認識性能の低下が大きな問題となっていました。複数の話者の音声が混在した状況で個々の話者の音声を分離する「音源分離」という技術も研究されていますが、従来の技術では、複数のマイクロフォンで同期録音を行うためのマイクロフォンアレイと呼ばれる特別な機器が必要でした。これは、別々の録音機器で録音された信号は、録音開始時間が異なるだけでなく、サンプリング周波数（音圧信号をデジタルの信号時系列に変換する際の周波数）も機器ごとに微小に異なっており、従来の音源分離手法はこうした信号を扱うことができなかったからです。

NIIと筑波大学の研究グループは、別々の機器で録音され、同期がとれていない複数の録音信号を、録音後に同期させる新しい信号処理技術を開発しました。この技術と、小野研究室が開発した高速なブラインド音源分離の技術を組み合わせ、複数話者の音声が混ざり合った会話を個々の音声に分離した後に音声認識を適用することで、複数話者環境の音声認識性能を大幅に向上することに成功しました。

本発表の詳細につきましては、NIIと筑波大学の共同ニュースリリースをご参照下さい。

ニュースリリース

1755