イベント / EVENT

平成22年度第7回 Q&A

第7回 2011年1月19日(水)

キーボードを使わずに検索するには？
マルチメディアと検索技術
片山紀生（国立情報学研究所コンテンツ科学研究系准教授）

講演当日に頂いたご質問への回答（全28件）

※回答が可能な質問のみ掲載しています。

NIIのアーカイブに一般の人が見ることが出来ますか？
またもし出来るなら、その方法は？　どうすれば良いか教えてください

NII のアーカイブは、あくまでも学術研究のために構築しているものですので、研究目的での内部利用しかできません。一般に公開する計画もございません。放送映像は放送局が著作権を有する著作物であり、公開する権利は放送局にあります。一般に公開される場合には、NHKアーカイブスのように放送局自体によって公開されるか、横浜の放送ライブラリーのように放送局の許諾のもとに公開される形になります。

①NII TV-RECSでは、録画時にメタデータの自動付与（インデックスを付けて）をして検索時の速度を早くするような試みはされていますか？
②（画像や映像の）検索精度を評価する指標には、どういうものがありますか？
また、現状でのその指標による精度はどんなレベルですか？
（例えば、昔の情報工学（信号処理）で使われていた「検出確率」や「誤警報確率（False Alarm Rate)」のようなもの）
③静止画（画像）と映像（動画）の検索に、本質的違いはありますか？

①録画時に内容を解析しメタデータを自動付与することは行っておりません。
②従来と変わらない指標が使われております。人手により検索条件と正解集合の組を作成しておき、実際に計算機に検索させてみたときの適合率と再現率が調べられます。適合率は、検索結果中の正解の割合、再現率は、正解全体のうち検索結果に含まれている割合です。精度のレベルは、検索条件や検索対象によって様々です。
③動画は静止画が連続したものですので、静止画と同様に扱うことが可能ですが、物体の動きなど動画特有の特徴もあります。

メタデータの自動付与・・・イメージがわかないので、具体的な例があれば挙げてほしい。

例えば、映像中に映っている人物の名前を内容解析で自動付与することが挙げられます。テレビドラマなどでは、主な役者の名前は番組の情報として人手で付与されていることがあります。これは人手で付与されたメタデータになります。一方、顔の認識技術を用いると内容解析によって人物の情報を自動的にメタデータとして付与できるようになります。

特徴量で抽出する場合、類似の範囲をどのように設定するのか。これも例があれば挙げてほしい。→研究課題？
また物の形、人や物の動き等でも検索可能か？

どこまでが似ていて、どこからが似ていないのか、明確に決めることは難しいので、Webページの検索と同様に、似ているものから順にランキング表示するのが一般的です。また、形状や動きなどでも検索可能です。そのときには、形状の特徴を数量化した特徴量や、動きの特徴を数量化した特徴量を使います。

・3D画像（映像）が一般化してきたときに、検索が容易になったり難しくなったりすることが予想されますか？
・腕力（計算能力）のアップと、アルゴリズムの進化とどちらが早いのでしょう？
・諸外国の状況は、どうなっているのでしょうか？　公開されてる範囲で、最も進んでいるのはどこの研究機関でしょうか。（NIIという答を期待）

・3D画像や3D映像の場合、奥行きの情報（映っている物や人までの距離）を抽出することが可能になります。その結果、背景とその手前にある物や人を区別することが容易になります。使える情報が増える分だけ、検索し易くなることが期待されます。
・最近のプロセッサはクロックの高速化が頭打ちになっており、コア数でかせぐなど並列構成で処理能力を増やしています。そのため、並列実行する処理能力は増えていますが、コアあたりの処理能力の伸びは鈍化しています。一方、アルゴリズムを工夫すれば、計算量が半分になったり10分の1になったりします。コアあたりの処理能力の伸びが鈍化していることを考えますと、アルゴリズムの進化による効率の向上の方が期待できます。また、計算能力の向上は自ずとコストも消費電力も増大します。そのため、アルゴリズムの進化の方が、財布にも環境にもやさしいというメリットがあります。
・各国でしのぎを削っている状況です。活躍しているグループとしては、アメリカのカーネギーメロン大学、イギリスのオックスフォード大学、オランダのアムステルダム大学、中国の清華大学などがあります。そのような中で、NIIも、先頭集団の一員であると自負しております。

将来、3D画像で検索は可能でしょうか？

可能です。3D画像の場合、奥行きの情報（映っている物や人までの距離）を抽出することが可能になります。その結果、背景とその手前にある物や人を区別することが容易になります。使える情報が増える分だけ、検索し易くなることが期待されます。

「3D」関連の特徴量の研究もなされているのでしょうか？

３次元計測された物体や、CGで合成された3次元モデルを対象として、3次元物体の類似検索手法が研究されています。

例えばルーブルの「サモトラケのニケ」を、画像検索すると角度によって様々な画像があると思うのですが、立体／彫像の画像は、どれくらいの精度で同一と認識できるのでしょうか？

撮影方向のわずかな違いであれば、特徴量や画像処理を工夫することで差異を許容することが可能ですが、全く異なる方向から撮影した画像同士しかない状態で、それらが同一かどうか認識するのは容易ではありません。そのため、データベースに複数の方向から撮影した写真を登録したり、逆に検索条件として複数の方向から撮影した写真を使うことが行われます。

DCT特徴量の「DCT」は何の略ですか？

Discrete Cosine Transform（離散コサイン変換）の略です。

①p.11「メタデータVS内容解析」の（2）内容解析の「（b）メタデータにはない情報発掘（音声・画像の本質的な）が可能」との箇所について、具体的にはどのような情報が見つかり、どのように利用することが可能になるのでしょうか？
②p.14-22 カラーヒストグラムと特徴量について
例えば、
イ.鳩山前首相が白い背景色の中で写っている画像
ロ.鳩山前首相が黒い背景色の中で写っている画像
ハ.菅現首相が白い背景色の中で写っている画像
を比べるとイ.とハ.が近いという結果が出てしまうのではないか？
鳩山氏の画像を探すときの、背景の色の差異はあまり問題にならないと思うが、背景とターゲット（この場合は人物像）をどう区別するのか？

①応用事例として取り上げました「放送映像中の類似ショット」もメタデータだけでは見つけられない情報です。内容解析を用いることで、映像の内容について、出現頻度などの統計情報を調べたり、出現パターンなどの規則性を調べることが可能になります。そのような情報は、映像の特性について理解を深めたり、映像の活用法を広げることに役立ちます。
②今回の例では画像全体を使って特徴量を計算していましたが、画像の部分的な一致を検索するときには、元の画像を分割し、部分的な画像ごとに特徴量を計算します。例えば、人物を検索したいときには、最近のデジタルカメラでも見られるように顔の領域を検出できますので、その部分だけを抜き出して照合します。

p.5 検索例
18、20の各画像の下の数字（0.000000や0.104250）は何を表しているのでしょうか。

特徴量同士の距離を表しています。この数値が小さいほど、ユーザが選択した画像の特徴量と検索結果として得られた画像の特徴量とが似ている（距離が近い）ことになります。

p.18とp.20の検索例が2点ありますが、
①CPU時間とディスク1/0の差が出ているのは何？
②検索された画像の下にある数字の意味は？
0.000000　0.104250

①CPU 時間とディスクI/Oは、処理時間についての参考情報です。
②特徴量同士の距離を表しています。この数値が小さいほど、ユーザが選択した画像の特徴量と検索結果として得られた画像の特徴量とが似ている（距離が近い）ことになります。

内容解析による、メタデータにない情報発掘とは具体的にどのような業種のどのような局面で活用されることが想定されるでしょうか？

放送局など映像制作の現場で、映像の内容からの情報発見に使われることも考えられますし、映像処理技術の発展のために、映像特徴の抽出や規則性の発見のために使うことが考えられます。

特徴量の定義は検索システムごとに異なっていると思われるが、標準化の動きはないのでしょうか？
（学会レベル、業界レベル、国際レベルで）

映像や音声の符号化方式の標準化グループとして、MPEG という組織がありますが、この組織で MPEG-7 と呼ばれる国際標準規格が検討されています。MPEG-7 は、映像や音声の内容記述の共通フォーマットを定めるもので、特徴量についての規格も含まれています。一方、この分野はまだまだ日進月歩で発展していますので、新たな特徴量や改良された特徴量が現れており、刻々と動向が変化し続ける状態が続いています。

書籍のアーカイブと比較して、
①ベターな安全性の確保の方法について
②セキュリティ対策
③HDDに代わり得る、より信頼性の高い大容量のメモリは？

長期保存における災害等に対する安全性や、盗難や不正使用に対するセキュリティ対策についてのご質問かと思います。保全については万全を期す場合には二重三重に複製を作り、安全な場所に保管したり、異なる地域に保存したりします。不正使用等への対策としては、音楽や番組のネット配信に見られるように、暗号技術を用いて再生可能な機械を制限したり、複製の回数を制限することが行われます。大容量メモリについては、最近、高速であることと衝撃に強いことからハードディスクの代わりにSSDと呼ばれる半導体メモリが使われることが増えてきていますが、容量を大きくしやすい点で有利なのは、やはりハードディスクや磁気テープに代表される磁気記録方式になります。

カラーヒストグラムは何時計算してますか？
・検索時
・あらかじめ準備（データ保存時）
など

データベースに保存されている画像や映像の特徴量は、予め計算しておきます。その方が、検索時の処理が少なくなるので、検索処理の応答速度が速くなるためです。

ディジタルデータ以外の対象をコンピュータが認識する方法について①鴨が鷹を察知する場合に、翼の長さと頭から尾までの長さの比で認識すると聞きます。人が物を見る場合も、大ざっぱに二次元情報としてとらえ、さらに詳細に認識すると思われます。現状のコンピュータ認識が一次元で読み取り、解釈しているように思われ、これが解析時間の多さにつながるのではないでしょうか？コンピュータでも2次元で把握する方法はないのでしょうか。②さらに動きの特徴も人は認識できます。時間を含めた3次元を同時に解析するコンピュータの開発は可能でしょうか？＊奥行の認識は2視点の差で可能ですので大きな課題ではないかと。

①鴨や人間と全く同じ方法を使う訳ではありませんが、コンピュータでも人や動物の認識方法に似ている方法を使うことがしばしばあります。人や動物の認識方法を参考にして、意図的に模倣することもありますし、優れた方法を探していくと自ずと似ている処理になることもあります。粗い処理で絞り込んでから、段階的に細かくしていくことは、処理の高速化や効率化に効果がありますので、コンピュータでも広く使われております。今回紹介したカラーヒストグラムは、比較的容易に計算できることから粗い処理として使われます。一方、線成分などの特徴量は抽出するのに多くの計算を必要とするため、粗い処理で絞り込んだ後の細かい処理で使われます。次に、コンピュータが１次元で処理しているという点につきましては、従来の計算機では、直接２次元データを取り扱うことはできず、１次元データとして処理を行っていましたが、最近の計算機は複数演算を並列に実行する能力が向上しており、２次元のデータも従来より高速に処理できるようになっています。
②今回の例では、ビデオフレーム単位の内容解析をご紹介しましたが、動きを解析する研究も進められています。特徴量としてカメラの動きを用いたり、人の身振りなどを検出して検索する方法などが研究されています。

音声認識による書き下しテキストの抽出は、本日の講座でも使われているのでしょうか？
慶應大学の展示会で、動画内の雑音をテキスト抽出する技術を見たことがあります。声と雑音が被っていてもそれぞれ抽出することは可能でしょうか？

今回の例では、音声認識による書き下しテキストの抽出は使っておりません。今回の講座では取り上げておりませんが、音声認識の研究も活発に行われており、認識精度の向上が進められております。雑音の混入にどこまで耐えられるかは一概に言えませんが、実用性を高めることにつながりますので、雑音への耐性を高める方向でも研究が進められています。

スペースシャトルの検索列では視野を画面全体としていますが、検索で取り出したい画像が、例えば画面右下の方にスペースシャトルがあり、空が大きく占めているような場合、即ち視野を限定する場合の検索はどうするのでしょうか。
いくつか例を教えてください。

今回の例では画像全体を使って特徴量を計算していましたが、画像の部分的な一致を可能にするときには、元の画像を分割し、部分的な画像ごとに特徴量を計算します。画像の分割方法は、機械的に等間隔に行ったり、輪郭抽出等の結果に基づいて行います。

マルチメディア情報にクリックすると、大半の場合、画像が出てくるのに時間がかかります。PCのトラブルではなさそうですが、解決法はありますか？（XPを利用中）

マルチメディア情報は、データ量が大きく、また、表示するために必要な処理の量も大きくなります。そのため、ネットワークの通信量も大きくなりますし、PCの処理時間も長くなります。PC の性能やネットワークの速度にも依りますが、マルチメディア情報の表示に時間がかかるのは、ある程度やむを得ないことだと思います。

①メタデータによる検索はキーワード、注釈、分類、情報...etcでの検索ですが、そもそもメタデータの名前の意味を教えてください。
メタの意味は何ですか。
②ダブリンコードとメタデータの関係は何ですか。

①「メタ」は、「上位の～」とか「１段上の～」という意味の接頭語です。学術用語でしばしば使われます。どのような意味で「上位」かと言えば、言葉や意味の抽象度での上位のことを指しており、「メタ○○○」と言えば、「○○○」の意味や概念をさらに一段広げたり進めたりしたものを指します。そのため、「メタデータ」は「データのためのデータ」という意味で使われます。具体的には、映像データや音声データがあったときに、それらを説明するために付与されるデータのことを、「データのためのデータ」という意味で、メタデータと呼びます。
②ダブリンコアは、文書データに対するメタデータの共通記法として提案されたものです。ダブリンコアは、様々な文書データの属性を記述するのに用いられます。ダブリンコアで作成されたデータは、それらの文書データに対するメタデータになります。

"特徴量"の意味がよくわかりませんので、何かうまく説明していただければと思います。

一言でいえば、画像や映像が持っている特徴を、何らかの方法で数値化したもののことです。例えば、写真を例に考えると、海の写真は概ね青色になりますし、夏山の写真は概ね緑色になります。そのため、「主たる色が何色であるか」も、画像や映像が持っている特徴のひとつになります。そこで、写真の中で青色が何パーセントであるかを調べると、「青色が占める割合」という特徴を数値で表せます。このような数値化された特徴のことを特徴量と呼んでいます。

類似検索で抽出する特徴量に異なる背景や他の物体、光源によるスペクトルの差などが混在する。そのヒストグラムの中で、意図する特徴量を指定できるのでしょうか？

背景の差異、文字や他の物体の混入、撮影条件の違いなど、これらの差異は特徴量に影響を及ぼします。そこで、そのような差異の影響がなるべく小さくなるように特徴量を設計します。例えば、晴れの日に撮影した写真と曇りの日に撮影した写真とでは、被写体が同じでも輝度や色が異なっている可能性があります。そのため、そのような条件にも対応するには、線成分といった輝度や色に依らない特徴量を使ったり、輝度の相対的な違いを特徴量化することで輝度の絶対量に依らない特徴量を設計したりします。。

メディアをまたがった検索は可能ですか？
Ex.静止画に類似した動画（映像）を検索等

カラーヒストグラムや線成分など、静止画と動画に共通して使える特徴量を用いれば、メディアをまたがった検索も可能です。

「ぼかすことで主要な差異に絞る」ことの基準をどのように設定するか。
具体例を示してほしい。
例えば、輝度の視点から同一の映像とみなすには、どのようなデータの取捨選択をするのか。

主要な差異と軽微な差異を区別するとき、基準をどこに据えるかについては、実際にどの程度の揺らぎが起こりうるのかを実験または理論的考察によって調べ、それに応じて基準を決めることになります。例えば、映像の周囲に小さな文字が書き加えられても同一と見なしたいときには、そのような加工が行われた時、特徴量がどの程度の影響を受けるのかを調べ、その範囲については軽微な差異と見なすのです。今回ご紹介した例では、DCTという特徴量を用いており、この特徴量では小さな文字の有無といった細かい差異は無視して、ぼやけたように見える大まかな差異だけを抽出することが可能です。細かな差異をどんどん無視していくと、それに応じてどんどんぼやけた画像になります。どの程度までぼやけさせる必要があるかは、どの程度の差異まで許容する必要があるかを調べておき、それに基づいて決めることになります。

テレビ放送からの類似ショットの検出ですが、下記の項目すべてOKですか。
①アナログ放送／デジタル放送どちらも対応OK？
②カラー放送／白黒放送（アーカイブ）どちらもOK？
③NTSC放送／SECAM放送／PAL　どの方式でもOK？

①と③については、放送の伝送方式の違いだけですので、類似ショット検出には影響がありません。②については、白黒放送にも適用可能ですが、カラー放送よりも精度が下がる可能性があります。というのは、白黒放送では色の特徴が使えないため、照合の手掛かりになる特徴が少なくなるからです。

似顔絵の手法は応用できないか？

仰るとおり、人間がどのようにして似顔絵を描いているのかを考察することは、特徴量を設計する上で大いに参考になります。人間の認知機構については心理学などの分野でも研究されていますので、そのような関連分野の成果も盛り込みながら、どのような特徴量が優れているのか研究が進められています。

文献や特許に現れる画像の検索に興味があります。
この場合、ほとんど同じ物でも縦、横、表、裏などでコンピュータが類似検索は難しい問題と思いますが、現状どの程度可能となっているかを教えてください。
例）　は同じものです。
確か、㈱リコーの特許検索システムにこのような機能（β版？）がありますが、まだ十分とは言えません。

適用分野を限定すれば、その分野に特化した処理を行うことで、高精度な検索が可能な場合があります。例えば、数字であれば、郵便番号の自動認識や車のナンバープレートの自動認識のように高精度に照合することが可能です。工場の生産ラインなどでは、高精度な画像計測技術が使われています。また、顔については、最近のデジタルカメラで製品化されているように顔の位置を検出することはかなり高精度に可能ですし、同一人物かどうかの判定もある程度可能になってきています。適用可能な分野はまだ限られていますが、技術の向上、及び、計算機の処理能力の向上によって、今後適用可能な分野が広がっていくことが期待されます。例として、化学式を挙げておられますが、図面の認識や検索は、まだ難しい課題のひとつです。帳票のような比較的単純な構造のものは実用化が進んでいますが、手書きのものや複雑な構造を持つものについては今後の技術進歩により、精度向上や適用範囲の拡大が進むものと期待されます。

shimin 2010-qa_7 page2575