NIIについて / About NII
情報研シリーズ12(丸善ライブラリー)
978-4-621-05378-2 |
石頭なコンピュータの眼を鍛える
|
著者からのメッセージ
「石頭なコンピュータの眼を鍛える」の著者を鍛える?
「石頭なコンピュータの眼を鍛える」は、多くの方々に手にして頂いているようで、読者の方からは、いろいろな感想と共に良い質問を沢山頂きました。
そこで今回、著者の佐藤真一教授と、ライターの齋藤淳氏が、それらの質問への回答を作成し、また書籍の中で紹介した映像理解技術研究のF1グランプリであるTRECVID、その2009の最新結果もここで紹介することになりました!
齋藤氏には、久しぶりに国立情報学研究所の佐藤教授の研究室にお越しいただきました。
|
齋藤: |
佐藤先生、お久しぶりです。お変わりありませんか...あ、この液晶テレビは...。 |
|
佐藤: |
東芝のCELL
REGZAです。 |
|
佐藤: |
東芝のCELL
REGZAです。 |
|
齋藤: |
見方を変えると、これまでは研究者でないと無理だったことが、このテレビを使うと個人でもできるわけですね。 |
|
佐藤: |
いや、まだそこまでは行っていないですね。 |
|
齋藤: |
このTVは(CELL)プロセッサーを搭載しているわけですから、佐藤先生の研究成果をプログラムとして動かせたら面白いですよね。 |
|
佐藤: |
そうなったら面白いのですけれど、中をいじれるようにはなっていないですね。 |
|
齋藤: |
そうですか、ちょっと残念ですね。 |
顔認識機能について
|
齋藤: |
さて、では読者から寄せられた質問にお答えいただきたいと思います。 |
|
佐藤: |
見せられないことはないんですが、つまらないですよ。機械学習の方法は本書で説明したとおりですが、基本パターンとして、縦縞か横縞または白黒白の縦縞を使い、学習過程では、基本パターンのアスペクトとサイズを変えて、特徴量を調べます。この過程(ステージ)は何万枚もの学習用画像について繰り返します。そうして目的に一番合う、つまり対象物が写っている場合とそうでない場合の差が大きく出るパターンを抜き出します。 |
|
齋藤: |
本文でも紹介したことですけれど、イメージがつかみにくいんですよね。 |
|
佐藤: |
ええ。その後NHKの「ITホワイトボックスII」という番組の取材を受けたんですが、その時にNHKが作ったCG(2010年6月10日放送)が分かりやすいです。NHKオンデマンドでしか見られないと思いますが。 |
|
齋藤: |
では次に特徴量の説明で、大域と局所の違いをもう少しはっきり教えてください。 |
|
佐藤: |
局所特徴量は、1つの画像から、数点からせいぜい十数点の画素だけを元に計算します。後の部分は落としてしまいます。大域特徴量は、対象領域の画素全体を計算に入れます。 |
|
齋藤: |
つまり局所、というと本当に画像のほんの一部しか使わないで計算するのですね。 |
|
佐藤: |
そうです。 |
|
齋藤: |
なるほど。さて、ある読者の感想で「犬の顔認識機能つきのカメラで、自分の顔が犬の顔と認識されたらショックだ!」と書いてました。可能性としてはありますよね。 |
|
佐藤: |
そうですね、ありえますね。 |
|
齋藤: |
なるほど、こういうことを考える人がいるのですか。効果はあるんですか? |
|
佐藤: |
ええ、効果はあるようです。もちろんペイントをした顔を学習させれば、顔だと分かってしまうのですが。 |
|
齋藤: |
英国ではテロ対策でそこらじゅうに監視カメラが設置されていますけれど、そういうことに反発して考えたのでしょうか。 |
|
佐藤: |
そこまでは分かりませんが、日本でも試す人が出てくるかもしれませんね。 |
TRECVID最新情報
|
齋藤: |
最新のTRECVID(TRECVID2009)の結果について教えてください。 |
|
佐藤: |
オランダの国営放送のデータを使うのは今回限りで、来年からはインターネットアーカイブの動画を使うことになったこともあって、2008のときほどは盛り上がりませんでしたが、いろいろと面白い成果がありました。 |
|
齋藤: |
全体的に見て(一般物の認識の)正解率は上がったのですか? |
|
佐藤: |
TRECVIDの今回の問題設定(検索課題)は以前とあまり変わりありませんでしたからトップの成績(正解率)で比較できるのですが、昨年の20パーセントくらいから23パーセントに向上しています。スケジュールについても本文で説明した2008とほぼ変わりありません。 |
|
齋藤: |
佐藤先生のチームの成績はどうでした? |
|
佐藤: |
(TRECVIDの華でもある)高次特徴抽出のタスクの競争では、NIIチームは10位以下と振るいませんでした。でも日本からは東工大の篠田浩一先生(東京工業大学 大学院情報理工学研究科 准教授)のチームが4位に入っています。優勝は本書でも紹介した、アムステルダム大のMediaMillチーム、2位は同じく北京大、3位はフランステレコム研究所(FTRD)、4位は東工大、5位はコロンビア大学と共同で出場した香港市立大でした。 |
|
齋藤: |
上位のチームの技術にはどんな特徴があるのですか? |
|
佐藤: |
技術的には本書で紹介した時とあまり変わっていなくて、チューンアップをしっかりやったという感じです。篠田先生たちのアプローチは面白かったですよ。 |
|
齋藤: |
東工大チームはどんな工夫をしたのですか? |
|
佐藤: |
東工大チームは、基本的には本書で紹介したBag of Feature法を使っているのですが、音声認識で使われているガウス混合分布法という方法を解析に加えています。それと、これまではほとんどのチームがショット(短い動画)から1フレーム画像だけを抜いて特徴抽出に使っていたのですが、東工大は全フレームを使っていました。アムステルダム大も今回は多くのフレームを使うようにしていましたが、全フレームを使ったのは東工大が初めてではないかと思います。もちろんその計算処理には桁違いのパワーが必要になりますが、東工大が誇るスーパーコンピュータ・システムTSUBAME(Tokyo-tech Supercomputer and UBiquitously Accessible Mass-storage Environment)が使われていました。 |
|
齋藤: |
TSUBAMEは東工大の松岡聡先生(東京工業大学 大学院情報理工学研究科 教授、元国立情報学研究所客員教授)が中心になって始めたプロジェクトで、情報学の世界ではおなじみのスーパーコンピュータですね。なるほど、そういう風に画像理解の研究にも使われているのですね。 |
|
佐藤: |
そうです。 |
|
齋藤: |
佐藤先生のチームは、今後どんな改良をするつもりですか。 |
|
佐藤: |
まずは現在の主流であるSIFT特徴量の使い方を研究したいと思っています。 |
|
齋藤: |
さて、読者からは「TRECVID以外に同じようなワークショップはないのですか?」という質問もありました。実は2008年にシンガポールでStarChallengeという商業的な大会があって、そのお話も佐藤先生からお聞きしたのですが、本書では落としたのですよね。 |
|
佐藤: |
StarChallengeですか。あれは大会の参加者が同年のTRECVIDと重なっていたこともあって、割愛したのですよね。StarChallengeは一回限りでその後は開催されていません。そのほかに、私は参加していませんが、実はヨーロッパにはTRECVIDに似たワークショップがあるんです。「ImageClef」というのがそれで、「VideoCLEF」というプロジェクトをやっています。いかにもヨーロッパらしいなと思うのですが、このワークショップでは「多言語間検索」がカギになっています。つまり画像も言語のひとつだと見て、各国の画像を横断検索する技術を競い合うような課題設定になっているようです。 |
より深い知識のために
|
齋藤: |
そのほか、「読みやすい」というおほめの言葉と同じくらい多かった感想が「踏み込みが足りない」というものでした。「画像による一般物体の認識」について勉強したい方向けに、いくつか参考書やWebサイトをご紹介いただけませんか。 |
|
佐藤: |
そうですね。 |
(2010年7月)

学術情報基盤オープンフォーラム 2026
国立情報学研究所 2026年度 概要
NII Today No.106
NIIサービスニュース
SINET広報サイト
ウェブサイト「軽井沢土曜懇話会アーカイブス」を公開
SINETStream 事例紹介:トレーラー型動物施設 [徳島大学 バイオイノベーション研究所]
情報研シリーズ これからの「ソフトウェアづくり」との向き合い方
学術研究プラットフォーム紹介動画
教育機関DXシンポ