イベント / EVENT

平成26年度第7回 Q&A

第7回 2015年1月22日（木）

機械が音を聞き分ける！？
小野順貴（国立情報学研究所情報学プリンシプル研究系准教授）

講演当日に頂いたご質問への回答（全32件）

※回答が可能な質問のみ掲載しています。

ある人の個別の声がわかっていれば、（サンプルがあれば）複数人の音声から、ある人だけの声を取り出すことができるのですか？
聖徳太子のように10人のよく知った人たちが同時にしゃべっても10人分に分離して認識できるのでしょうか？

サンプルがあっても、音声同士はやはり性質が似ているため、音声同士の混合から特定の話者の音声を分離するのは難しいと思います。マイクロフォンが十分たくさんあり、音源の空間位置の違いを使うことができる場合には、10人の話者が同時に話しても、ある程度はそれらを分離することができます。

どうして人の耳は音を聞き分けられるのですか？（学習の成果？）

耳は、音が含んでいる様々な成分を一度分解し、その後、音源方向、音の大きさの変化や周波数変化の同期性、倍音関係、などの共通性を手がかりにして、いくつかの成分を一つの音としてまとめて知覚する仕組みをもっており、これが音の聞き分けに大きな役割を果たしています。

今回の音源分離技術を利用して"音を聴いただけで楽譜が出てくる"というのは実現しているのでしょうか。

残念ながら、まだ実現しているとはいえません。音を楽譜に変換するためには、混合した音を分離するだけでなく、時間とともに変化するテンポやリズムを認識するなど、他にも様々な技術が必要になり、いまも活発な研究が進められている段階です。

先日見たTVの番組で、オレオレ詐欺の被害に遭う原因のひとつに電話の声が肉声の個性を失わせることがあると紹介されていました。（そのため、肉親と他者の声を聞き分けることが難しいとのこと）　これは電話で伝わる音声帯が情報は伝える部分のみで、"個性"を生じる部分（周波数帯）を含まないことによると説明されていました。
①これは技術的には送信時の音声分離の問題でしょうか？あるいは、受信器の再現性の問題でしょうか。
②先生のご研究していらっしゃる音声（分離）研究で、この問題は改善される可能性はありますか？

①電話では通信する情報を減らすために、音声の情報を送信側で大幅に削っていることが原因です。
②音源分離技術を直接的にこの問題に役立てるのは難しそうです。

古いレコードやテープに録音された音源からノイズだけを抽出、キャンセルして、より鮮明な音を再生することは可能でしょうか？（あるいはすでに実用段階にあるのでしょうか）
楽器などの音よりも、アナログ音源のヒスノイズのような音を分離・除去するほうが難しいように思いますので・・・。もし可能であれば、過去の音源を聴く楽しみが増すと思うのですがいかがでしょうか？　（講義前に書きました）

ある程度は除去できると思いますが、ノイズをたくさん除去しようとすると、聞きたい音も歪んでしまうことが多いのではと思います。

協奏曲のCDからソロパートを抜いたソリスト練習用のカラオケは作ることが出来ますか？

難しい問題ですが、どのパートを抜きたいかという情報を楽譜として与え、そのパートだけ抜いた音をつくる研究は行われていると思います。

Siri、しゃべってコンシェルは、きれいな音声は認識できるとのことですが、今までかなりトライしましたが、残念ながら認識されたことは一度もありません。きれいな音声の条件を教えて頂けたら助かります。おろしくお願いいたします。

本講演中では、雑音が少ない音声を「きれいな音声」と表現しました。実際には雑音が少なくても、発話速度や発話スタイルなどによって、認識されにくい場合もあるかと想像します。

耳の左右の聴こえ具合に合わせた補聴器は出来ますか？

現在の補聴器は、すでに個人の左右の耳それぞれにあわせてつくられる場合が多いと思います。

鼓膜が老化しても、補聴器で聞こえるように出来ますか？例えばラジオやテレビ等の音源自体（受信側）を加工して聞こえやすく出来ますか？

程度の問題はありますが、加齢により聴覚の衰えをある程度補聴器で補うことはできると思います。音源側の加工もありえると思いますが、どこで聞くかによって聴こえが変わり得る点に注意が必要です。

分離信号の独立性が最も大きく・・・これは微分方程式ですか？

独立性は微分方程式ではなく統計分野の用語になります。

引き算による音源分離では、いろいろな音源がまざった中から、Xの音源、Yの音源をどのようにして決める（識別する）のですか？

本講演で紹介した独立成分分析という手法では、「分離した信号同士の統計的な独立性」という基準でXとYを決めています。

"掛け算"分離の話での'成分'とは何か。（赤の例）つまり、何かしらのスペクトログラム上での範囲、単位(Cluster)ごとに、何かしらの特性をもっているかという分析なのだと思うのですが、その単位はどう決まるのですか。また、その特性とは周波数でないとしたら、どんなものなのですか。

音響信号を短い時間区間にわけ、この区間ごとにフーリエ変換して求めたものが、時間周波数成分という、分析の単位になります。掛け算アプローチとはご指摘のとおり、この単位を、なんらかの特性でクラスタリングするのに近い処理です。本講演で紹介した調波音打楽器音分離では、この時間周波数成分のパワーが、縦（周波数）方向に滑らかか横（時間方向）に滑らかかという、周囲のパワーの分布形状のような特徴を使って分離しています。

２つのアプローチ（引き算アプローチと掛け算アプローチ）の長所、短所は何ですか。

引き算アプローチ（線形フィルタ）は歪みが少なくよい音質が得られ、非定常な雑音でも除去できますが、音源数以上のマイク数を必要とし、また周囲の様々な方向から到来する背景雑音のような雑音にはあまり有効ではありません。掛け算アプローチ（時間周波数マスキング）は、背景雑音などもある程度効果がありますが、一般にはミュージカルノイズと呼ばれる耳障りな残留雑音が残る場合が多いです。

どうやってつくるのかは別の問題とあったが、音源分離の原理（２：掛け算　１：引き算）
をリアルタイムで処理するには、どういったアルゴリズムを組むのが良いのですか？

p.38のスライディング窓分析のように、適当なブロック窓の中でだけ処理を行い、これを逐次的に更新していくのが一つのやり方だと思います。

画像解析と音声解析につかわれる技術はどれくらい親和性がありますか？たとえば、前者で発明された画期的なアルゴリズムが、後者にもすぐ利用できるなどはよくあることなのですか？（どちらもスペクトルごとに分離するとき、フーリエ解析的技術をつかうと認識してますが、解析役のアルゴリズムはまた大きく違ってくるのですか？

例えば、非負値行列分解という手法は、最初は画像に適用されましたが、その後、音のスペクトログラムにも頻繁に用いられるようになりました。独立成分分析という分離手法は、音でも画像でも使われています。ただ、一般的にはやはり、音、画像、それぞれの特質にあわせた解析が行われていると思います。

人間が音を聞き分けるメカニズムを解明し、その方法を技術にするというアプローチは可能でしょうか？

実際、人間の知覚を模擬するアプローチも今までかなり試みられていますが、音源分離に関してはいまのところ、複数マイクを使ったり、統計学習を行ったり、人間とは異なるアプローチをとるシステムの方が性能が出ていると思います。

人間は耳が２つしかないのに、それより多くの未知の数の音源を、残響やノイズのあるところで聞き分けています。現状ではICAやスパースの考え方だけでは、人間に追いつくのは難しいのではないかと思います。機械による認識で、足りないのは何でしょうか？それに関する研究はどの程度進んでいますか？

人間は信号レベルで音を分離してから認識しているわけではなく、どの音を聞こうとするか、という注意と認識が一体となって働いているように思われます。機械による認識の場合も、音源分離や雑音抑圧といった前処理部と後段の認識部の統合が今後進んでいくと思います。

可視光が光・電磁波の周波数のごく一部でしかないように、音波についても、人間に関する可聴音だけではなく、超音波を含む広大な自然動植物等の音波空間はあるのでしょうか。それらを可聴音に変換させて、聴いてみたいものですが、方法はありますでしょうか。

一般に、生物の体のサイズが小さくなるほど、発する音も聞いている音も高い周波数になると考えられます。超音波帯域の音を可聴音に変換するのは、信号処理としてはそれほど難しくなく、ラジオの検波のような手法で周波数帯域をシフトする、ピッチ変換技術を応用してスペクトログラムを伸縮するなど、いくつか考えられると思います。

音波は、電磁波や光波のように、偏波面という概念はないのですか？

空気中を伝播する音は縦波（媒質の振動方向が波の伝播方向に対して平行な波）として伝わるので、偏波面はありません。固体中を伝わる振動の場合には縦波、横波があります。

P18の音源分離の原理の説明があるが、音声信号２は消去可能であるが、音声信号１については、変な引き算がされて源音が無くなってしまう。説明不足なのではないですか？

p.19で述べているように、音源信号２を消去するための引き算で音源信号１は変形を受けますが、周波数毎に大きさ（より正確には、大きさと位相）を元に戻すことにより、この変形はキャンセルできます。

分離した複数の音から、音声にかぎらず人間にとって意味のある音を自動的に特定するにはどうすればよいですか？（辞書なしで）

意味のあるなしは聞き手や応用に依存するので、やはり、何が意味のある音であるかを定義する、辞書をつくるような事前学習が必要になるのではと思います。

音声認識、分離に関する技術において、どの技術が特許化されているのですか。

本講演で紹介した技術の中では、調波音打楽器音分離はすでに特許化しています。他にも出願中の技術がいくつかあります。

移動する音源は分離出来るのでしょうか？

静止している音源より難しくはなりますが、移動音源の分離も研究されており、いくつかの手法が提案されています。我々の研究室でも、リアルタイムの音源分離システムを発表しています。

ブラインド音源アルゴリスムは音以外の波に対しても適用できるのでしょうか。

はい、生体信号、画像、宇宙の観測データなど、さまざまな領域でブラインド信号分離が適用されています。

（言語研究をしています。会話データを録る際、きれいな音声を録るため、一人ひとりにピンマイクをつけてもらっています。）自然な会話を録るには、ピンマイクをつけないのがよいのですが、たとえば、ビデオにとられた複数人の音声を音源分離するソフトウェアなど素人が使えるものでありますでしょうか？

ビデオ（動画）にとられた複数人の音声を自動的に分離するのはかなり難しい問題だと思います。通常のビデオカメラではマイクは２個（ステレオ）ですし、録音も圧縮されることが多く、情報が失われてしまいます。

研究に使っている測定器を紹介してください。スペアナ、音のFFTソフトなど

測定器はほとんど使っていません。私の研究の場合は、ICレコーダーやスマートフォンなどの録音デバイスによる音の収録を除けば、ほとんどは理論と計算機上での計算処理になります。主に、Matlabという数値計算ソフトを使っています。

スペクトログラムの音の種類の判定は人がやるのですか？測定器がやるのですか？

応用に依存します。例えば音声認識システムに音源分離を用いた場合、分離した音の中でどれが音声であるかは、認識システム自身が判定しなければなりません。しかし、例えば音楽信号を分離して、音量バランスやエフェクトを変えて自分好みの音作りをしたい、といった用途であれば、ユーザが自分で判定できれば十分といえます。

湿度・気温により、また高山と平地など気圧の違う場所ではスピードや音の大きさなど、音の伝わり方は違うのですか？

はい、音速は温度や気圧で変わります。

マイクの位地で測地は出来ますか？

マイク位置の推定ができるかという質問と解釈しました。はい、音の伝播を利用して、マイク自身の位置を推定することもできます。ただし、スピーカーの位置がわかっているか、同期がとれているかなど、いくつのマイクが利用可能かなど、条件に依存します。

とんでもない質問ですが、音の速さ（波の力）を利用して（340m/s）物体を移動することは可能ですか？

水面を伝わる波が水面上に浮いている葉っぱなどを運ばないのと同様に、音波の伝播により音速で物体を移動させることはできません。

香りの引き算は出来ないとかいわれたが、消臭剤　はどうなってますか？

消臭剤は、基本的には香り分子を吸着させることにより、空間中の香り分子を少なくするものだと思います。つまり、すでにプラスとして存在するものを減らす仕組みであり、「負の香り」という、それだけで匂いとして感じられるものを発生させて打ち消しているわけではないので、ここでの文脈では、かけ算式といえると思います。

入門書や参考文献があったら教えてください。

参考文献については、私の研究室のHPをご覧ください。
https://www.nii.ac.jp/faculty/informatics/ono_nobutaka/
また、ブラインド音源分離に関しては、入門書というよりは専門書に近いですが、Hyvärinenの「詳解独立成分分析―信号解析の新しい世界」は良書だと思います。

shimin 2014-qa_7 page2519