イベント / EVENT

平成25年度第1回 Q&A

第1回 2013年6月26日（水）

音楽の情報処理と信号処理～作曲する機械・聴き分ける機械～
嵯峨山茂樹（国立情報学研究所研究開発連携本部客員研究員）

講演当日に頂いたご質問への回答（全17件）

※回答が可能な質問のみ掲載しています。

人間がいわゆる「耳コピー」で採譜できるというのは、機械とはそもそも脳内で使われているアルゴリズムが異なっているのでしょうか？　カクテルパーティ効果のように、各楽器ごとにフィルタをかけている？

自動採譜する機械がまだ実現されていませんし、人間が行っている耳コピーのメカニズムも解明されていないので、まだ比較はできないのですが、耳コピーでは各音の楽器を判断して楽器追跡し、旋律として尤もらしい（いかにもありそうな）音の列を仮説として立て、音楽的に矛盾がないか、聴こえている音をうまく説明できるか、立てた仮説を改善しながら採譜をしていると考えられます。つまり、聴こえている音から再構成するボトムアップの面と、自分ならこのように聴こえる曲をどのように書くかというトップダウンの面が融合されているのではないでしょうか。私たちはそのような観点で自動採譜の研究を進めています。

多重音解析によって、ある特定の人間の声だけを抽出したり、消したりすることは可能でしょうか？

複数の歌唱者が歌っている場合の問題でしょうか？多重音解析自体がいまだ難問なのですが、多重音の分解分離ができるようになったとして、分解された単音の集合から、スペクトル的に特定の歌唱者である可能性が高く、旋律として尤もらしい音符の列を推定し、それらの音符列のスペクトル成分だけを取り出せば、その歌唱者の声の抽出がある程度できるでしょう。さらに歌詞が分かっていれば、歌唱成分の追跡に役立ちそうです。また、多数のマイクロフォンを用いて音源分離を援用できれば、合唱の中から特定の歌唱者の声を抽出することに役立つでしょう。逆に、特定歌唱者の声を消すこともできるでしょう。

HTC NMF他理論について論文等詳細資料がありましたら、入手方法を教えていただければと思います。

HTC (Harmonic-Temporal-structured Clusteringｍ, 調波時間構造クラスタリング) の代表的な論文としては、
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "A Multipitch Analyzer Based on Harmonic Temporal Structured Clustering," IEEE Transactions on Audio, Speech and Language Processing, vol. Vol. 15, no. No. 3, pp.982-994, Mar. 2007.
日本語解説論文としては
亀岡弘和, 嵯峨山茂樹, "多重音解析と自動採譜," 情報処理, vol. 50, no. 8, pp.711-716, Aug. 2009.
などがあります。亀岡弘和著の博士学位論文（英語）がもっとも詳細です。

音声にリバーブ成分が乗っていても分離可能ですか？

残響成分が加わると、当然ながら分離は難しくなります。残響除去の技術も開発されているものの、副作用が生じて、多重音分離に必ずしも有利とはいえません。とにかく、一度混ざったものは分離が難しいのと同様に、一度時間的にボケてしまった音は修復が難しくなります。

多重音解析をする際に、
・１つのマイクを用いて、混合された音から分離する。
・マルチマイクやマイクアレイで録られた音から分離する、たとえば独立成分分析（ICA）等を用いるこの２つは難しさがかなり違うのではないかと思います。そのあたりを教えていただけますでしょうか。

まだ実験検証は行っていませんが、その２つの難しさにはかなり差があると思われます。マイクロフォンの数が多い場合は、データが多い分だけ分離は有利になるはずです。特に、複数の楽器が異なる空間位置から音を発してそれを十分な数のマイクロフォンで受音した場合は、残響や反響がなければ、独立成分分析などを用いてかなりの性能で各音を分離できるでしょう。その場合は、狭い意味の多重音解析が不要になるはずです。

カーナビのような音声ガイドの声が、機械的な声（人の声とは感じられないような声）なのは、なぜか。人の声のようなものにするには何が足りないのか？（何が問題となっているのか？）

カーナビなどで、合成音声が使われている場合は、なかなか人間の声と同じ品質が技術的に達成されていません。現在の研究の主流は、一人の話者が話した大量の音声データにラベル付け（どの部分で何と話しているか）をして、合成したい内容に合わせて部分部分を切り貼りする方式（カーナビは主にこの方式）や、統計学習を行って音声モデルを学習してそれによって合成音声を生成する方式（学会で盛んな統計学習方式）などが研究されていて、かなり品質は向上しています。すでに、外国語を話す場合などは、人間よりうまく喋るかも知れません。しかし、文章内容により、場面により、柔軟に話し方を変化させる人間の真似はなかなか難しいのが現状です。ある先生の名文句を引用すれば「人間は（機械を基準にすれば）性能が悪い音声合成器である」と言えましょう。単純な数学や物理には乗らない、複雑な擾乱要素が多く、かといって単純にノイズを載せればいいわけでない、特有の音声現象が含まれていて、それをコンピュータの計算に落とし込むのは大変なのです。人間は個々には大きく違いがありながらも、たとえばちょっとした訛り（外国人の日本語など）にも気づくような、高い感度を持っています。一言で言えば、合成音声が機械的であるというより、人間は言語音声に関する感度が極めて高い（高すぎる？）ために、高度な音声合成でも、僅かに人間的でない箇所があればすぐに気づかれてしまう、と言ってもいいかも知れません。

お茶水大学　名誉教授　土屋賢二氏が「ロボットは芸術を理解するか」を哲学的に論じており、事例として作曲を取り上げています。　嵯峨山先生がもしも上記をご存知でしたら、先生なりのお考えをお聞かせいただければ幸いです。

土屋先生の著書を読んでいないので的確なお答えはできませんが、私の研究の立場からお答えすれば、知能ロボットの研究が進歩すれば、限りなく人間の知能に近づいてゆき、差は縮まると考えられることから、ロボットも人間に劣らない作曲の能力を持ち得ると思われます。但し、芸術行為は作曲と言う単独分野で成り立ちえるものでなく、人間の生活が基にあってその保守性の中で共感を生んだり、保守の枠から僅かに踏み出すことで革新性をもたらしたりすることが芸術をされるところから、作曲専門の単機能のロボットでは芸術は生み出しにくいと思っています。つまり、人間とともに生活し、喜び悲しむロボットが実現できる時代に、ロボットによる芸術も可能なのではないかと思います。

耳に心地よい音・音楽と、そうでない音・音楽の区別はできますか？傾向でもよいです。

機械で耳に心地よい音・音楽とそうでない音・音楽を区別する研究はあまり成されていないと思いますが、関連する研究としては不快音の研究（幹康国士舘大学教授による）や、騒音の評価において物理的な音圧レベル(dB)でなく、annoyance (うるささ) を論じている例があります。単音では、豊富な整数倍音の構造を持つ音は一般に楽音として美しく感じられ、非整数倍音が含まれると濁った印象を受けるようです。これは和音でも似たようなことが言われており、複数の基本周波数の音の重なり（和音）では、それらの間で単純な整数関係がある場合が澄んだ印象を受けます。しかし、さらに、澄んだ音ばかりが続く場合を美しい音楽と感じるかどうか、と言う問題もあり、人間の感覚は複雑です。

多くの人の感情を一定の方向に動かす音楽（ex.　人を感動させる）の作曲は、法則化できるのでしょうか？

音楽大学などで教えている作曲法では、和声学、対位法、形式論などの音楽作曲理論を教えています。これらは、いわば、聴く人に感興を与える音楽を作る経験的な法則や規則を使いこなせるようにする授業と言うことができるでしょう。その中で、学習者は、それらの規則の中から、どのような場合に楽しい雰囲気、劇的な雰囲気、安らぐ雰囲気などが実現できるかという経験を積み、それらを活用して自由自在に作曲できるようになるわけです。そういうわけで、「法則化」はかなりできていると言って良いと思います。

自動作曲では、曲の良し悪しを判断する評価関数がキモになると思います。自分の好みの曲をいくつか入力すると、評価関数を構成するパラメータを、自分に最適なものに自動的にしてくれ、自分にとって一番好みの曲を作曲してくれたり、沢山の曲の中から、自分の好みの曲をピックアップしてくれるようなシステムもできるのではないかと思います。評価関数のパラメータ推定については、どの程度研究されているのでしょうか。

私たちの自動作曲では、評価関数は試行錯誤で設定しています。今後、個人個人で別々の評価関数が設定できて、それに合わせた自動作曲ができるようになるかも知れません。パラメータ推定については、最尤推定をはじめとするいろいろな統計学習法がありますが、どのようなパラメータを持つモデルを作るか、それを学習するためにどのような統計データを集めるか、個々のデータの相違をどのように吸収するモデルを作るか、など、問題は山積しています。さらに、自動作曲のユーザは、いろいろな曲を生み出したいと言う希望も多く、必ずしも個人の好みに鋭くチューニングすることが本当に望まれるのかどうか、という疑問もありそうです。また、評価関数が作れれば、好みの曲を探索することも可能になりそうですが、好みは音色感、声色、リズム、ビートの強さ、テンポ、調性、和声構造、楽曲構造、旋律動機などなど、多くの階層があり、しかも一種類で満足できるはずもなく、それらの好みの特性をすばやくユーザから抽出するのは、永遠の課題かも知れません。

無限上昇音階等をコンピュータは人間のように理解できるようになるのでしょうか。

しかるべきモデルに基づいて聴覚のシミュレーションをするようなアルゴリズムを作ることはできると思います。具体的には、一瞬一瞬（数十ミリ秒くらい）の音響信号スペクトルの解析により基本周波数を推定すると、複数の解が確率とともに得られるでしょう。そして、連続的に変化する基本周波数を暫く観測して、それが継続する可能性が高いと学習し、そのモデルに基づいて、確率的に推定した基本周波数の追跡をすることで、無限上昇音階を理解することは工学的にできそうに思います。

音声認識をする時の一番重要な要素は何でしょうか？

現代の音声認識技術を実現する上で重要な要素は４つ： (1) 音声分析部（入力音声信号から特徴量を取り出す）、 (2) 音響モデル（観測された特徴量はどのような音素を話すときに生じるかを計算する）、 (3) 言語モデル（場面によりどのような音素の並びが生じえるかという確率を計算する）、 (4) 探索過程（以上に基づいて入力音声を最もよく説明できる言語内容を探索して推定する）です。これら４要素は不可欠なので、どれが最も重要とは言えず、最低限これらが必要です。人間もおおむね同じようにして音声認識していると考えられます。

自動作曲で、フーガを作らせる。二音よりは三音の方が易しい。三音よりは四音、四音よりは五音が易しい。何故なら制約が多くなるから。・・・この理解は正しいですか？

はい、ある意味では正しいと思います。もちろん、人間にとっては二声フーガより三声フーガの方が、三声より四声の方が制約が多くて解を見つけるのが難しいのが基本です。機械でもその点は同じでしょう。しかし、二声の場合に制約が少ないことをフルに活用して名曲を作るのは機械にとっては容易ではなく、むしろ人間にとって難しい解探索を機械的に行うのは得意なので、多声のフーガ作曲の方が機械の活躍の場面としては効果的である可能性が高いと考えられます。

１）感性は計算の中にどのように入ってくるのでしょうか？
２）プロのアーティストはこういった技術を使って作曲しているのでしょうか？事例はありますでしょうか？

(1) 「感性」という語は工学ではやや曖昧です。「感性情報処理」と呼ばれる研究分野がありますが、ここでの扱い方は限定的です（約２０～３０年前に数量化理論をベースに始まった研究分野）。いずれにしても、私たちの自動作曲システムでは、感性と言う意識はありません。
(2) 私は存じませんが、商業的な音楽作曲の分野で、自身の作曲技術の方法論として感性を計算的に扱っている作曲家がいるかも知れません。但し、現代作曲などの音楽の可能性を追求する創作活動では聴衆の感性を第一に配慮するようなことは、あまりなされないと思います。

１）機械はBPM変化の激しい曲も、小節を把握できますか？
２）機械と人間で即興演奏はできるようになりますか？（あらかじめ決められた曲が何も無い状態で。）

1) なかなか難しいです。音楽では、テンポが速くなったのか、同じようなテンポで単に音符が細かくなったのかを物理的に区別することは本質的に難しく、これは演奏習慣や文化も含めた高度な問題だと考えています。
2) 限定されたスタイルややり方の枠の中では、将来は即興演奏も可能と思います。実際に、ジャズにおけるジャムセッションの自動化の研究は数多く成されています。しかし、熟達した人間のように自由自在に即興で演奏セッションをするのは、まだまだ夢だと思います。

ライブ演奏で、リズムやメロディを予想させて、外すような手法を見かけるが、逆問題としては解きやすいものか。

演奏から楽譜を自動で書き起こす「自動採譜」の問題とかですね？どのような情報とモデルに基づいて音符を認識するかによりますが、将来の高度な手法では、音符の動きを予想（つまり有り得る答ごとに確率重みを与える）しながら、実際の入力とどれくらい合致するか、という手法が取られるでしょう。その場合には、予想を外される箇所では認識がし難くくなるでしょう。

自動作曲（コード進行や和声とか）に使われている数学の分野は、どのようなのがありますか？（代数学　（群論とか加群とか）も使われているのでしょうか。

現代作曲では、人間の音楽的情緒からではなく、いろいろな数学の概念を用いて機械的に音の列を作り出す試みがなされてきました。群論を用いた作曲（クセナキスなど）もあるようです。しかし、現代作曲でなく、普通に受け入れられる音楽の基礎になっている音楽理論は、音楽大学で教えられる課程では、数学とは関連付けられません。音楽に内在する数学的構造を探る研究は以前から行われており、ＭＣＭ（mathematics and Comptation in Music）という国際会議もあり、論文集も出ています。たとえば、調と和声進行の関係を数学的に捉える研究などがあります。

初音ミクとはご関係はございますか？なければ、彼女をどう思われますか？
ちなみにお好きな歌手は？お好きな作曲家は？

私たちは、初音ミク（ボーカロイド）とは関係ありません。ボーカロイドの技術は、音声合成の研究の歴史で言えば２０～３０年前の技術と言われており、決して高い技術とは捉えられておりません。現在の研究レベルでは、はるかに良い歌声が合成できます。しかし、アニメ風のキャラクターを設定することで、熱狂的に一般ユーザに受け入れられることが、音声合成研究者の間では驚きをもって見られています。
私が好きな歌手は、というご質問ですが、例えば、エマ・カークビーのようなバロック唱法の歌手が好きです。好きな作曲家は、というご質問にお答えすると、バッハが中心ですが、コレルリ、ヘンデル、ブクステフーデなども、またシューマン、ブラームス、ショパンなども好きです。まあ、バロックからクラシックまで広くと申せましょう。

shimin 2013-qa_1 page2523