NII 国立情報学研究所

 
サイトマップお問い合わせ先アクセスEnglish
 
トップ 研究者紹介 サービス・事業 NIIについて
一般の方 研究者の方 学生の方 大学・図書館の方 企業の方
情報研シリーズ12 著者からのメッセージ1


「石頭なコンピュータの眼を鍛える」の著者を鍛える?ページ

石頭なコンピュータの目を鍛える


「石頭なコンピュータの眼を鍛える」は、多くの方々に手にして頂いているようで、読者の方からは、いろいろな感想と共に良い質問を沢山頂きました。
そこで今回、著者の佐藤真一教授と、ライターの齋藤淳氏が、それらの質問への回答を作成し、また書籍の中で紹介した映像理解技術研究のF1グランプリであるTRECVID、その2009の最新結果もここで紹介することになりました!
齋藤氏には、久しぶりに国立情報学研究所の佐藤教授の研究室にお越しいただきました。
(企画推進本部 広報普及チーム)

佐藤真一(国立情報学研究所教授) 齋藤淳(サイエンスライター)
佐藤真一(国立情報学研究所教授) 齋藤淳(サイエンスライター)


『石頭なコンピュータの眼を鍛える──コーパスで人間の視覚にどこまで迫れるか──』
 佐藤 真一、齋藤 淳 著 丸善ライブラリー刊





    齋藤:佐藤先生、お久しぶりです。お変わりありませんか…あ、この液晶テレビは…。

    佐藤:東芝のCELL REGZAです。
    ご存知のようにNIIでは地上波全チャネルを24時間記録しているのですが、これは同じことが出来るのです。

    齋藤:見方を変えると、これまでは研究者でないと無理だったことが、このテレビを使うと個人でもできるわけですね。
    何だかまさに「情報爆発」の世界ですね。
    記録した番組の検索には、(本書で紹介したような)画像理解技術が使われていたりするのですか?

    佐藤:や、まだそこまでは行っていないですね。
    検索はiEPGなどの番組情報のテキストが頼りです。
    本書で説明したような画像理解技術はまだ使われていません。

    齋藤:このTVは(CELL)プロセッサーを搭載しているわけですから、佐藤先生の研究成果をプログラムとして動かせたら面白いですよね。

    佐藤:そうなったら面白いのですけれど、中をいじれるようにはなっていないですね。

    齋藤:そうですか、ちょっと残念ですね。
    ●顔認識機能について

    齋藤:さて、では読者から寄せられた質問にお答えいただきたいと思います。
    まず「顔認識機能のお話についてですが、コーパスによる機械学習の結果は、眼に見えるようなマスク・パターンとしては見せられないのですか?」と。

    佐藤:見せられないことはないんですが、つまらないですよ。機械学習の方法は本書で説明したとおりですが、基本パターンとして、縦縞か横縞または白黒白の縦縞を使い、学習過程では、基本パターンのアスペクトとサイズを変えて、特徴量を調べます。この過程(ステージ)は何万枚もの学習用画像について繰り返します。そうして目的に一番合う、つまり対象物が写っている場合とそうでない場合の差が大きく出るパターンを抜き出します。

    それで、第1ステージの全10パターンを見てみると、
    Face24-Stage-0-0-HAAR_Y2-3-6-17-6.jpgのような、目の部分は黒くて目の下の頬の辺りの部分は白いというようなパターンとか、

    Face24-Stage-0-1-HAAR_X3-2-1-21-5.jpgのような、目は黒くてその間は白いというようなパターンが見られます。

    さらにステージが進むと、ものすごく細かいパターンが出てくる(残る)ようになるような気がするでしょうけれど、実際はよく意味のわからない不思議なパターンがたくさん出てきています。

    この実験の場合の最終24ステージで生成された199パターンを見てみると、
    Face24-Stage-23-19-HAAR_X2_Y2-2-17-14-6.jpgこれは、あごの輪郭を見てるんですかねえ…。

    Face24-Stage-23-8-HAAR_Y2-7-13-9-6.jpg鼻の穴の黒いところにヒットしているのでしょうか?

    Face24-Stage-23-79-HAAR_X2-2-7-22-17.jpg 

    Face24-Stage-23-98-HAAR_X3-19-0-3-19.jpg???なぜこれで差が出るのだろうか…という感じになっています。

    齋藤:本文でも紹介したことですけれど、イメージがつかみにくいんですよね。

    佐藤:ええ。その後NHKの「ITホワイトボックスII」という番組の取材を受けたんですが、その時にNHKが作ったCG(2010年6月10日放送)が分かりやすいです。NHKオンデマンドでしか見られないと思いますが。

    齋藤:では次に特徴量の説明で、大域と局所の違いをもう少しはっきり教えてください。

    佐藤:局所特徴量は、1つの画像から、数点からせいぜい十数点の画素だけを元に計算します。後の部分は落としてしまいます。大域特徴量は、対象領域の画素全体を計算に入れます。

    齋藤:つまり局所、というと本当に画像のほんの一部しか使わないで計算するのですね。

    佐藤:そうです。

    齋藤:なるほど。さて、ある読者の感想で「犬の顔認識機能つきのカメラで、自分の顔が犬の顔と認識されたらショックだ!」と書いてました。可能性としてはありますよね。

    佐藤:そうですね、ありえますね。
    ちょっと話がずれますけれど、この間ネットで見つけたのですが(Viola JonesのHaarlike特徴量を使った)顔認識をごまかすフェイス・ペイントを考えた人がいるんですよ。イギリスの、研究者ではなくてアーティストのかたですが。この人は自分の作品をWebサイトで公開しています。興味があればご覧になってください。
    http://www.theregister.co.uk/2010/04/22/face_detection_hacking/

    齋藤:なるほど、こういうことを考える人がいるのですか。効果はあるんですか?

    佐藤:ええ、効果はあるようです。もちろんペイントをした顔を学習させれば、顔だと分かってしまうのですが。

    齋藤:英国ではテロ対策でそこらじゅうに監視カメラが設置されていますけれど、そういうことに反発して考えたのでしょうか。

    佐藤:そこまでは分かりませんが、日本でも試す人が出てくるかもしれませんね。


    絵 ©なかがわみさこ
    石頭なコンピュータの眼を鍛える|1|次ページ →
    お問合せ先
    国立情報学研究所 企画推進本部 広報普及チーム Tel:03−4212−2145、E-mail: