イベント / EVENT

平成20年度 第2回 Q&A

第1回 2008年7月3日(木)

画像情報とマシンビジョン
--ロボットが世界を見て理解するために必要となる技術とは?--

杉本 晃宏(国立情報学研究所 コンテンツ科学研究系 教授)

講演当日に頂いたご質問への回答(全15件)

※回答が可能な質問のみ掲載しています。

人間の視覚のみが有用とは限らないのではないか?
虫とか、いろんな動物の視覚も再現はできないか?
ロボットに応用するのなら、そうした視覚処理も参考になるのではないか?

もちろん人間の視覚のみが優れているとして研究が進められているわけではありません。生物の視覚に学んで、対象をどう認識するかという研究もあります。

人の見え方で画像処理をしている例が多かったように思いますが、人が「見えている」思わないようなものを写すカメラ(例えば赤外線など)を利用する試みは無いのでしょうか?

もちろん、赤外線カメラを用いた監視システムもあります。

人間の眼をまねたステレオ視による復元法は左右対称を前提としているが、実際の人間の眼には、誰にも「きき眼」(左か右)があり、それゆえに何らかの補正メカニズムがあるように思うが、この点はどうでしょうか?

カメラは工業製品ですから、基本的に均一なものが提供されていると考えられます。したがって、現在の技術では、そういう個性を持ったカメラを扱うことを想定していません。将来的に、そういうことまで議論ができればすばらしいと思います。

カメラが固定されている場合は、背景差分が有効と思う。しかし、カメラが動く場合(ロボットが動く場合)、どのような技術があるか?

カメラが動く状況下で障害物を検出するための技術として、オプティカルフローを用いる手法があります。オプティカルフローとは対象物の画像上での見かけの動きのことで、遠くにあるものはフローが小さく見え、近くにあるものはフローが大きく見えます。この違いを利用して対象物を検出します。

背景差分法で、背景が変化する(例として、置いてあった机が移動する)場合に対処するような技術はありますか? あれば少し紹介してください。

背景を動的に更新するという技術があります。たとえば、ある一定時間における各画素値のメディアンを用いることで背景を更新する手法や、混合ガウス分布によって背景をモデル化し、その分布のパラメタを随時更新することで背景の変化に対応する手法があります。

カメラの台数と形状復元の精度との相関関係はあるのでしょうか?

あります。基本的にはカメラの台数が多ければ多いほど復元精度は向上します。しかし、カメラの配置も復元精度に大きく影響します。これらの点に関する理論的な議論はまだありませんので、ぜひしっかりとした理論を構築したいと思っています。

対象物が人であるまたは顔であると判断する条件はどのようなものがメジャーなのか?
また、顔の向きは何で判断するのか?

顔であるかどうかを判断するための基準として、目、鼻、口といった顔のパーツが用いられるのが一般的です。顔の向きによってこれらのパーツの見え方や相対的な位置関係が変わるのでその情報を利用して顔の向きを推定しています。

3次元により人間の顔の認識機能が高まっている。人間の表情の認識から人間の心に迫ることになりませんか。サービスロボットのひとつ?

表情認識技術を使って人間の心の内までを読み取れることができれば、それはサービスロボットを実現する上で大きな前進になると思います。しかし、どのような状況であっても表情を正しく認識する技術を確立するための研究が進められているのが現状です。人間の心のうちを読み取るというレベルに達するにはもう少し時間を要すると思います。

コンピュータの物を見る原理が人間の眼の原理とはだいぶ違うことが分かった。違う原理でどこまで人間に近づけると考えているのかをききたいです。また、人間よりもコンピュータが得意である分野は、どのように応用していけるのでしょうか? (色を正しく判別できるとか、錯視がないということ)

違う原理でどこまで人間に近づけるかは正直わかりません。人間の眼の原理をそのまま忠実に再現すればいいと思われるかもしれませんが、そもそもその原理を完全に解明することは遠い将来のことになります。そこで、工学的な立場で、機能として人間の眼を実現したいと考えています。

CMUで、1枚の画像から3次元復元を高精度に行なう手法が解説されていたが、概要を教えていただけますか?

紹介したCMUで行われた研究では、1枚の画像から3次元を復元したのではなく、49台のカメラを使って復元対象を同じタイミングで撮影し、そこで得られた画像を用いて3次元を復元しています。講座でも紹介したように、3次元復元には視体積交差法を用いています。

カメラで男と女を見分けることは、どこまでできるのですか?

需要との関係もありますが、一般的な状況下(必ずしも人間だけが写っているとは限らない状況下)で男女を区別する技術はあまり研究されていないように思います。人間が写っているという前提のもので、それは男か女かということを判断するのであれば、男女を区別する典型的な特徴を選択し、それを利用することである程度実現可能だと思います。

錯視画などにおいて知覚の個人差はあるのでしょうか?もしあるとしたら、その要因は何にあるのでしょうか?
例えば後天的な知識の差や文脈の違い、それとも先天的な知覚機能の違い?また、マシンビジョンの分野において、機械が錯視を知覚するアルゴリズムといったものは研究されているのでしょうか?

錯視画像の知覚には個人差があります。先天的な要因もあるでしょうし、その人の知識や経験に左右される後天的な要因もあると思います。このあたりは視覚心理学や神経心理学といった分野に関係すると思われますが、私の専門からは外れるので、正確なことはお答えできません。私の知る限りでは、錯視を知覚するアルゴリズムはないと思います。

画像情報を情報として将来に残しておく必要があると思いますが、記録媒体を考えた場合に、テープ、DVDといろいろあります。しかし、過去の事例を考えた場合、テープはなくなり、DVDもBDになっています。今記録した情報も、例えば50年後に見れないかもしれません。情報を永久に残すにはどうすれば良いでしょう?

将来、記録媒体が現在のものとまったく変わってしまった場合、今の記録は保存されません。しかし、ある日突然記録媒体が変わってしまうということはありえないので、移行時期に新しい記録媒体に情報を保存しておけば問題ないと思います。たとえば、音楽の記録媒体はレコードからCDに変わっていますが、レコードに記録された音楽もCDの形で復活しているのを連想すれば納得できると思います。

現実にはない想像上の環境や動作はどう確認するのか?
アニメとの違いは?

今回のお話は、あくまで視覚情報を入力としてどのような技術が実現されているかという範囲に限られています。したがって、頭の中だけで想像した環境や動作を認識することはできません。視覚を通して見える動作に対して、今回の講座の範囲では、人間の動作とアニメの動作を区別することは想定していません。

人間の視覚が取得する90%の情報と、取得しない10%の情報の差は何なのか?
どのようにそれを計測したのか?

人間が五感を使って外界から取得する情報の90%程度は視覚から得ているということです。他の10%は聴覚や触覚、嗅覚、味覚から得ています。90%という数字は、主に心理物理学の分野の先人の研究結果に基づくものです。

shimin 2008-qa_2 page2591

注目コンテンツ / SPECIAL