Jun. 2019No.84

コンピュータビジョン研究の最前線見えないものを捉える"機械の目"

Article

高精度な3次元復元技術の実用化をめざす

蓄積された知見と深層学習を組み合わせ、不動産や医療分野へ応用

人は網膜像から3次元の世界を脳内で構成し、奥行きを知覚する。それはどのような数学的モデルで表現できるのか。コンピュータビジョンの研究者であるNIIの池畑 諭助教は、その点に興味を持ち、近年は陰影を用いて3次元復元を行う「フォトメトリックステレオ」と呼ばれる手法で3次元復元に挑んでいる。現在は深層学習(ディープラーニング)も用いていて、多様な分野での実用化もめざす。どんな可能性があるのかを聞いた。

池畑 諭

Satoshi Ikehata

国立情報学研究所 コンテンツ科学研究系 助教/総合研究大学院大学 複合科学研究科 助教

2次元の画像から3次元情報を復元する

 池畑助教は、大学院修士課程では複数のカメラ画像の「対応点」(物理的に同一の箇所)を用いてモデルを構築する「多視点ステレオ」法を使って建造物の3次元モデル作成に取り組んでいた。静的な建造物だけでなく動く対象、例えば結婚式の新郎新婦を多くの写真から3次元復元したいと考えていたという。

 博士課程になるとテーマを「フォトメトリック(照度差)ステレオ」法に変えた。多視点ステレオとは異なり、フォトメトリックステレオはカメラを1台しか使わない。その代わり、光をさまざまな方向から当てて何枚も画像を撮影し、多数の陰影パターンをもとに3次元形状の復元を行う。

 復元に用いる反射モデルのうち最もシンプルなモデルが、ざらざらした拡散反射表面を扱うランバート反射だ。例えば、石膏像の表面はランバート反射で近似できる。しかし磨かれたテーブルやプラスチック、金属の表面などで見られる鏡面反射を扱うのは難しい。

Interview84-4.jpg

 そこで池畑助教は、複雑な材質に適応するための画期的な方法を提案した。まず2012年には、画像上の限られた領域でのみ観測される(これをスパース性という)鏡面反射を外れ値として扱い、影響を除外する手法を提案した。実装が容易で効果が高いことから今でもこの手法は用いられている。

 だが、木のように広く鏡面反射を行う物質に対してはスパース性を仮定することができない。その場合、鏡面反射を表現する正確な物理モデルが必要となる。しかし、その場合は一般的に非線形の非凸問題[1]を扱う必要があり、これは解くのが非常に難しい。しかし、これも対象とする空間を制限するような条件を設けると問題を簡単にできる。池畑助教は2014年に自然界の物質の多くは等方反射[2]だと仮定を置くことで、より簡単な問題に置き換えが可能なことを発見し、この手法(凸最適化)で理論上はどんな材質でも扱えることを示した。

こうして扱える対象は段階的に増えてきたが、まだ課題がある。影だ。フォトメトリックステレオでは陰影のうち、「陰(Shade)」の強弱を用いる。だが、「影(Shadow)」は、光線が障害物に遮られて、光が届かなくなった表面に生じる領域のため、そもそも情報がない。特にボウル形状だと光が遮られてしまう。

 そこで2018年には、深層学習を用いて非凸形状の物体に対してフォトメトリックステレオを使うことを世界で初めて提案した。深層学習においては、一般的に固定数の入力画像を与える必要があるが、フォトメトリックステレオにおいてはあらかじめその数が固定されていない。そこで、入力データには独自のアイデアを用いた。入力をいったん、光がどう観測されたかを示す1枚の画像である「オブザベーションマップ」にすべて投影してしまう。光の情報を圧縮してエンコードしたそのマップを学習させてフォトメトリックステレオを行うというアイデアだ。

 フォトメトリックステレオは3D スキャナーよりも厳密に正確な形状を表現できる。今後は多視点で撮影した画像から表面のディテールを描き出すことにも挑戦したいという。

 「人間は1 枚の画像から正確な形状を復元できる。それは『光は上方からくる』といった仮定を置いているからです。計算機にも、推定するための知識を深層学習で学習させることができるはず。それと多視点の方法を組み合わせたいと考えています」

不動産にも応用が可能

 現在、池畑助教が注目しているのが3次元復元技術の不動産応用だ。池畑助教は米国でのポスドク時代から不動産の3次元復元を手がけ始めた。米国の不動産業界ではIT化が進む一方で古い物件が多く、間取り図が蓄積されていないため、モデル化のニーズが高いのだ。

 屋内を市販のレーザースキャナーで撮影すると3次元点群が得られる。しかし点群だけでは、建物の間取りや天井までの高さといった詳細な構造はわからない。池畑助教は点群から3次元モデルを作るだけでなく、それに意味的情報を与え、CAD(Computer Aided Design)との連携も可能な物件情報を作ることに成功した。

 ポイントは二つある。一つは池畑助教が提案する新たな3次元情報表現である「構造グラフ」だ。「部屋」や「壁」、「天井」といった建物の構成要素をノードとし、それぞれの包含・接続関係をエッジとするグラフ表現で、それぞれのノードには3次元復元をするために必要なジオメトリやトポロジー(空間の位置や接続の関係性)の情報などがすべて詰まっている。そのため、構造グラフから、平面同士の隙間はなく、壁同士の接続関係も保たれた3次元モデルが出現することが保証されているのだ。

 もう一つ、構造グラフの復元に用いる「構造文法」を提案した。建物は人間が住みやすくデザインしたものなので、その設計には人間の意図が介入している。その意図に基づき、「部屋を壁や床に分解する」というようなアルゴリズムの集合である「構造文法」を適用すると、3次元点群が自動で建物内の構成要を持つグラフ構造によって初めて実現できた機能だ。このような3次元復元はこれまでにはなかった。

img84-4.jpg

人と機械の橋渡しを

 スマートフォンによるパノラマ撮影から3次元情報を復元する取り組みも行っている。1枚のパノラマ撮影からの3次元復元は不定性のある困難な問題だが、すでに多くの研究者が取り組んでいるので、「おそらく1年以内には復元できてしまうのではないか」と池畑助教。

 そのほか、顕微鏡画像や放射線撮影画像などからの3次元復元など、医療系の応用も進められている。特に3次元復元への深層学習の応用に期待が高まっている。「従来の手法では3次元復元が難しいけれど、人間なら容易にできる分野は深層学習が使えると思います」


 各手法には得意・不得意がある。「問題に応じた使い分けが重要です。そこが面白い」と語る池畑助教は、独立して発展してきた各手法を組み合わせる時代にきていると考えている。

 「人間も奥行き知覚にはテクスチャーや両眼視差、運動視差、陰影情報などいろいろな情報を使っています。コンピュータビジョンもそれぞれ異なる手法があります。深層学習の応用によってその境界が曖昧になりつつありますが、特に物理的に蓄積された知見と深層学習を組み合わせるのが面白い。単なる入力出力の対応関係だけではなく物理の知識を使うことで解を絞ることができるからです」

 技術的にはさまざまなことができるようになってきたが、不足しているのは実用面だという。実際に応用されることで技術もまた大きく伸びると予想される。

 もともと知覚心理学を専攻していたこともあり、人間の見方と計算機の見方の違いにも興味を持っている。例えば騙し絵は人間にしか見えない。それを突き詰めていくと、人間が世界をどう見ているかという研究にもつながる。複数の解釈ができてしまう問題は3 次元復元にもある。

 「人間を見ることでコンピュータビジョンに足りない部分を埋められるでしょう。人間的な部分と情報処理の橋渡し研究ができるかもしれません」

(取材・文=森山和道 写真=古末拓也)

[1]二次関数のように下に凸を示す凸関数は、最小値を求めることが比較的楽だが、凸ではない非凸関数については解を求めることが難しい。

[2]対象物を回転させても、光の反射の明るさが変化しない反射のこと。

第84号の記事一覧