NIIについて / About NII

情報研シリーズ12(丸善ライブラリー)

jyohokenbook_12_cover.jpg

978-4-621-05378-2
定価 760円(税別)

石頭なコンピュータの眼を鍛える
コーパスで人間の視覚にどこまで迫れるか

佐藤 真一 (国立情報学研究所 コンテンツ科学研究系 教授)
齋藤 淳 (サイエンスライター)

著者からのメッセージ

「石頭なコンピュータの眼を鍛える」の著者を鍛える?

「石頭なコンピュータの眼を鍛える」は、多くの方々に手にして頂いているようで、読者の方からは、いろいろな感想と共に良い質問を沢山頂きました。
そこで今回、著者の佐藤真一教授と、ライターの齋藤淳氏が、それらの質問への回答を作成し、また書籍の中で紹介した映像理解技術研究のF1グランプリであるTRECVID、その2009の最新結果もここで紹介することになりました!
齋藤氏には、久しぶりに国立情報学研究所の佐藤教授の研究室にお越しいただきました。

齋藤:

佐藤先生、お久しぶりです。お変わりありませんか...あ、この液晶テレビは...。

佐藤:

東芝のCELL REGZAです。
ご存知のようにNIIでは地上波全チャネルを24時間記録しているのですが、これは同じことが出来るのです。

佐藤:

東芝のCELL REGZAです。
ご存知のようにNIIでは地上波全チャネルを24時間記録しているのですが、これは同じことが出来るのです。

齋藤:

見方を変えると、これまでは研究者でないと無理だったことが、このテレビを使うと個人でもできるわけですね。
何だかまさに「情報爆発」の世界ですね。
記録した番組の検索には(本書で紹介したような)画像理解技術が使われていたりするのですか?

佐藤:

いや、まだそこまでは行っていないですね。
検索はiEPGなどの番組情報のテキストが頼りです。
本書で説明したような画像理解技術はまだ使われていません。

齋藤:

このTVは(CELL)プロセッサーを搭載しているわけですから、佐藤先生の研究成果をプログラムとして動かせたら面白いですよね。

佐藤:

そうなったら面白いのですけれど、中をいじれるようにはなっていないですね。

齋藤:

そうですか、ちょっと残念ですね。

顔認識機能について

齋藤:

さて、では読者から寄せられた質問にお答えいただきたいと思います。
まず「顔認識機能のお話についてですが、コーパスによる機械学習の結果は、眼に見えるようなマスク・パターンとしては見せられないのですか?」と。

佐藤:

見せられないことはないんですが、つまらないですよ。機械学習の方法は本書で説明したとおりですが、基本パターンとして、縦縞か横縞または白黒白の縦縞を使い、学習過程では、基本パターンのアスペクトとサイズを変えて、特徴量を調べます。この過程(ステージ)は何万枚もの学習用画像について繰り返します。そうして目的に一番合う、つまり対象物が写っている場合とそうでない場合の差が大きく出るパターンを抜き出します。
それで、第1ステージの全10パターンを見てみると、
jyohokenbook_12_1_illust.jpg
のような、目の部分は黒くて目の下の頬の辺りの部分は白いというようなパターンとか、
jyohokenbook_12_2_illust.jpg
のような、目は黒くてその間は白いというようなパターンが見られます。
さらにステージが進むと、ものすごく細かいパターンが出てくる(残る)ようになるような気がするでしょうけれど、実際はよく意味のわからない不思議なパターンがたくさん出てきています。
この実験の場合の最終24ステージで生成された199パターンを見てみると、
jyohokenbook_12_3_illust.jpg
これは、あごの輪郭を見てるんですかねえ...。
jyohokenbook_12_4_illust.jpg
鼻の穴の黒いところにヒットしているのでしょうか?
jyohokenbook_12_5_illust.jpg jyohokenbook_12_7_illust.jpg
???なぜこれで差が出るのだろうか...という感じになっています。

齋藤:

本文でも紹介したことですけれど、イメージがつかみにくいんですよね。

佐藤:

ええ。その後NHKの「ITホワイトボックスII」という番組の取材を受けたんですが、その時にNHKが作ったCG(2010年6月10日放送)が分かりやすいです。NHKオンデマンドでしか見られないと思いますが。

齋藤:

では次に特徴量の説明で、大域と局所の違いをもう少しはっきり教えてください。

佐藤:

局所特徴量は、1つの画像から、数点からせいぜい十数点の画素だけを元に計算します。後の部分は落としてしまいます。大域特徴量は、対象領域の画素全体を計算に入れます。

齋藤:

つまり局所、というと本当に画像のほんの一部しか使わないで計算するのですね。

佐藤:

そうです。

齋藤:

なるほど。さて、ある読者の感想で「犬の顔認識機能つきのカメラで、自分の顔が犬の顔と認識されたらショックだ!」と書いてました。可能性としてはありますよね。

佐藤:

そうですね、ありえますね。
ちょっと話がずれますけれど、この間ネットで見つけたのですが(Viola JonesのHaarlike特徴量を使った)顔認識をごまかすフェイス・ペイントを考えた人がいるんですよ。イギリスの、研究者ではなくてアーティストのかたですが。この人は自分の作品をWebサイトで公開しています。興味があればご覧になってください。
http://www.theregister.co.uk/2010/04/22/face_detection_hacking/

齋藤:

なるほど、こういうことを考える人がいるのですか。効果はあるんですか?

佐藤:

ええ、効果はあるようです。もちろんペイントをした顔を学習させれば、顔だと分かってしまうのですが。

齋藤:

英国ではテロ対策でそこらじゅうに監視カメラが設置されていますけれど、そういうことに反発して考えたのでしょうか。

佐藤:

そこまでは分かりませんが、日本でも試す人が出てくるかもしれませんね。

jyohokenbook_12_6_illust.jpg
TRECVID最新情報

齋藤:

最新のTRECVID(TRECVID2009)の結果について教えてください。

佐藤:

オランダの国営放送のデータを使うのは今回限りで、来年からはインターネットアーカイブの動画を使うことになったこともあって、2008のときほどは盛り上がりませんでしたが、いろいろと面白い成果がありました。

齋藤:

全体的に見て(一般物の認識の)正解率は上がったのですか?

佐藤:

TRECVIDの今回の問題設定(検索課題)は以前とあまり変わりありませんでしたからトップの成績(正解率)で比較できるのですが、昨年の20パーセントくらいから23パーセントに向上しています。スケジュールについても本文で説明した2008とほぼ変わりありません。

齋藤:

佐藤先生のチームの成績はどうでした?

佐藤:

(TRECVIDの華でもある)高次特徴抽出のタスクの競争では、NIIチームは10位以下と振るいませんでした。でも日本からは東工大の篠田浩一先生(東京工業大学 大学院情報理工学研究科 准教授)のチームが4位に入っています。優勝は本書でも紹介した、アムステルダム大のMediaMillチーム、2位は同じく北京大、3位はフランステレコム研究所(FTRD)、4位は東工大、5位はコロンビア大学と共同で出場した香港市立大でした。

齋藤:

上位のチームの技術にはどんな特徴があるのですか?

佐藤:

技術的には本書で紹介した時とあまり変わっていなくて、チューンアップをしっかりやったという感じです。篠田先生たちのアプローチは面白かったですよ。

齋藤:

東工大チームはどんな工夫をしたのですか?

佐藤:

東工大チームは、基本的には本書で紹介したBag of Feature法を使っているのですが、音声認識で使われているガウス混合分布法という方法を解析に加えています。それと、これまではほとんどのチームがショット(短い動画)から1フレーム画像だけを抜いて特徴抽出に使っていたのですが、東工大は全フレームを使っていました。アムステルダム大も今回は多くのフレームを使うようにしていましたが、全フレームを使ったのは東工大が初めてではないかと思います。もちろんその計算処理には桁違いのパワーが必要になりますが、東工大が誇るスーパーコンピュータ・システムTSUBAME(Tokyo-tech Supercomputer and UBiquitously Accessible Mass-storage Environment)が使われていました。

齋藤:

TSUBAMEは東工大の松岡聡先生(東京工業大学 大学院情報理工学研究科 教授、元国立情報学研究所客員教授)が中心になって始めたプロジェクトで、情報学の世界ではおなじみのスーパーコンピュータですね。なるほど、そういう風に画像理解の研究にも使われているのですね。

佐藤:

そうです。

齋藤:

佐藤先生のチームは、今後どんな改良をするつもりですか。

佐藤:

まずは現在の主流であるSIFT特徴量の使い方を研究したいと思っています。

齋藤:

さて、読者からは「TRECVID以外に同じようなワークショップはないのですか?」という質問もありました。実は2008年にシンガポールでStarChallengeという商業的な大会があって、そのお話も佐藤先生からお聞きしたのですが、本書では落としたのですよね。

佐藤:

StarChallengeですか。あれは大会の参加者が同年のTRECVIDと重なっていたこともあって、割愛したのですよね。StarChallengeは一回限りでその後は開催されていません。そのほかに、私は参加していませんが、実はヨーロッパにはTRECVIDに似たワークショップがあるんです。「ImageClef」というのがそれで、「VideoCLEF」というプロジェクトをやっています。いかにもヨーロッパらしいなと思うのですが、このワークショップでは「多言語間検索」がカギになっています。つまり画像も言語のひとつだと見て、各国の画像を横断検索する技術を競い合うような課題設定になっているようです。
http://www.imageclef.org/

より深い知識のために

齋藤:

そのほか、「読みやすい」というおほめの言葉と同じくらい多かった感想が「踏み込みが足りない」というものでした。「画像による一般物体の認識」について勉強したい方向けに、いくつか参考書やWebサイトをご紹介いただけませんか。

佐藤:

そうですね。
コンピュータに画像を理解させる「コンピュータビジョン」のためのオープンソース・プロジェクトとして「OpenCV」というのがあります。Webカメラから画像データを取得する方法や、機械学習などを想定したさまざまな前処理、そして機械学習に必要なプログラムとサンプルコードのライブラリです。その解説として、 非公式ながら日本語のサイトとしては
http://opencv.jp/
があります。この辺が参考になるのではないでしょうか。OpenCVについては解説書もいくつか市販されています。

(2010年7月)

page7175

注目コンテンツ / SPECIAL