イベント / EVENT

2019年度 第2回 Q&A

第2回 2019年9月10日(火)

驚き! 3Dセンシング
-進化するコンピューターの眼-

池畑 諭

講演当日に頂いたご質問への回答(全25件)

※回答が可能な質問のみ掲載しています。

コンピューターも錯覚をするのでしょうか

錯覚というのが存在しない情報を知覚するという意味であればコンピュータはありのままの情報しか認識しないので錯覚をしないと言えます。一方で、コンピュータにわざと人間と同様の錯覚をするようなプログラムを施すこと自体は可能ですがあくまでそれ自体も意図した動作なのでやはり錯覚してはいないのかもしれません。

3Dセンシングでは色の近さが重要なようですが、画像が白黒の場合とカラーの場合では精度が異なりますか。

基本的に局所的な陰影や勾配のパターンを見るために画像特徴というのは白黒で抽出するのが一般的です。一方で、例えば、同じ構造の物体が複数あってそれぞれの色が違うというような場合には、色が唯一それぞれを識別するための情報ですので、その場合は色の情報が重要になります。

錯覚やだまし絵のような図をコンピューターは理解できるか?受動、単眼、運動視差なし(静止画)では無理?
また、上記を使うと3Dセンシングに対する攻撃ができるのでは(例:自動運転車をだます)その対策は?
どのような攻撃があり得るか全列挙することは可能?

現状では錯視図形を錯視図形として認識するための研究は例が無いと思います。一方識別器を騙すためのノイズに関する研究というのは認識の分野ではよく行われていますので、例えば深層学習に基づくステレオ視を失敗させるようなノイズパターンのようなものがもしかしたらあるかもしれません。

最も普遍的に誰もが3次元を受動、単眼で知覚できるような図示法を構成することはできる?例えば赤色立体地図のような、光源を持たない図示など

実際に可能かどうかを考えた事はありませんが、単眼でも正確な奥行きを知覚させるための表現方法を考えるというのは面白い研究テーマかと思います。

奥行きを正確に計測/計算し、3D空間を正しく復元することは可能なのでしょうか。どの程度の精度が見込めるのでしょうか。

陰影からの3次元復元に関して言えば、例えば顕微鏡の画像を利用すれば微小物体に対しても正確な形状を復元する事が可能です。逆に言えば、精度は撮像系に依存すると言えます。ステレオ法に関しては、十分な視差が確保できるかというのがポイントとなります。近くのものであれば数mm程度の精度で復元する事も可能です。遠くに行けば行くほど、視差の変化が小さくなるので精度が下がります。

人間の見方、処理の仕方を模倣する場合、錯覚や錯視が起きるようなケースはコンピューターはどう判断するのでしょうか? 

既存研究でコンピュータに錯視図形を見せたという実験があります。例えば猫と犬のどちらかに見える錯視図形を用意して、さらに猫と犬のそれぞれの識別器を学習しておきます。それを用いて錯視図形を識別した場合、図形の傾きや明るさに応じてどちらかの識別器のみが常に強く反応したそうです。

人間は錯視(錯覚)があり、例えば凸(出っぱっているもの)を凹(へこんでいるもの)と見誤ってしまうことがあります。3Dセンシングでもそういった誤りは発生しないのでしょうか?また、誤り検知はどのような仕組み(アルゴリズム)になっているのでしょうか。

一般的に、凹凸の曖昧性は問題の制約が不十分な場合に発生しますので、それを避けるためにフォトメトリックステレオ法では複数の光源の情報を与えて解を固定します。仮に1枚しか陰影画像を与えない場合は、人間と同様に材質の同一性や表面形状の滑らかさ等の制約を与えて解の範囲を狭めていきます。

逆に、3Dセンシングの(上手な)騙し方のようなものもあるのでしょうか。

認識の分野では識別器を騙すためのノイズを研究する分野がありますが、3Dセンシングではまだそのような研究は存在しません。基本的に知識や経験に基づく認識と違って3次元センシングは物理現象に基づいているので、それを騙すというのは難しいと思います。ただ、例えばテクスチャの存在しない物体のように3次元復元自体が困難な対象は存在ます。また、深層学習のような手法の場合は、わざと特徴抽出を困難にするような画像ノイズのようなものが存在するかもしれません。

例えば、フィッシャーの「だまし絵」(水がさかのぼる水路)などを3Dセンシングはどのように認識するのでしょうか。

実は誰も試したことがありません。そもそも絵画に対して3次元復元をするという研究が少ないというのもあります。予想ですが、おそらく局所的には正しい形状を与えると思いますが、全体としてはところどころで繋がらないのではないかと思います。

3Dセンシングでは数学でいう「アフィン変換」のアルゴリズム(計算式)はつかっているのでしょうか。

3次元復元において、アフィン変換によって物体の視点による見えの変化を表現するという事は非常に初期のころから行われてきました。しかしアフィン変換では複雑な形状の視点変化を表現する事はできないので、射影変換のように実際はより複雑な変換が用いられます。

ヒトが3次元の形状や位置関係を把握する際には、本日説明していただいた情報以外に、「大きいはずの物が小さく見えていたらそれは遠くにあるはずだ」というような「知識」もかなり重要な役割を果たしていると思います。だとすると、人間に匹敵するような3Dセンシングを実現するためには上記のような「学習」というプロセスが必要になると思うのですが、いかがでしょうか。アルゴリズム+学習 というプロセスになるのでは?

おっしゃる通りです。元々アルゴリズムによって解かれていた問題は、知識に基づく深層学習に置き換えられつつあります。一方さらに最近ではEnd-to-Endの学習に幾何的、物理的な知識による制約を与えてより正確な復元を行うという試みが行われています。

画像のみでなくレーザー測距技術を組み合わせることはできないのでしょうか?実業に近すぎて研究テーマにするのはうれしくなかったりするのでしょうか。

アクティブセンシングも研究されていますが、受動センシングが正確な奥行き・形状測定に焦点が当てられているのに対して、どちらかというとこちらに関しては「データを取得した後の処理」に焦点があてられた研究が多い印象です。例えば、画像と奥行きのデータが与えられた時に、そこからシーンの意味的情報を復元する(床と壁と家具に分ける)というような問題です。

ヒトの眼では近くから遠くを見るときに眼球が上へまわる、とか両眼で見るときに左右の眼球の角度が変わるなど、動的、筋肉的動きも関係していると思います。そのようなポイントは考慮しなくてもヒトと同じレベルに到達できるのでしょうか。

解剖学的な機構というのは、全く同じではないものの3次元復元には利用されています。例えば、多視点ステレオやSfM法においては、カメラの位置や姿勢の情報が3次元復元の重要な手がかりとなります。

現代の技術で3Dセンシングを自動運転等に応用するのはいずれ実現可能になるのか、それとも新しい技術が必要になるのか

3Dセンシング単体での精度というより、おそらく意味情報の抽出等を含めて障害物検知や異常検知を行う事が必要なので、総合的に様々な問題をクリアしていく必要があります。それぞれの技術は日進月歩しているので、着実に実現に向かっていると思います。

「深層学習」の次の理論、フレームワークはありますか? コンピュータビジョンの領域の中で解決しようとする場合、ステレオアルゴリズムの変遷のように、現時点の最先端は深層学習だと思いますが、その次はどんなものが考えられるのでしょうか。

非常に難しい質問です。人類の進化と同様に、次にどのようなアプローチが可能になるのかを予測するのは非常に難しいと思います。ステレオ以外の3Dセンシングに関してはまだまだ深層学習を利用した例が少ないのでまずはその技術が発達して、それから次の理論が芽生えるのだと思います。

火事などで煙が充満した家屋の中で3Dセンシングを行い、部屋の隅に倒れている人を捜すには、どのような技術が必要ですか?

可視光のように透過性が低い波長の光ですと、煙で減衰してしまうのでセンシングは難しいと思います。比較的波長の長い音波やTHz帯域の光を元に煙中のセンシングを行う技術の開発が進んでいるようです。

パッシブな手法に対してアクティブな手法の生かし方、Fusion (特にショートレンジでアクティブあまりうまくいかない中で)

パッシブな手法とアクティブな手法を組み合わせるという事は実はよく行われています。最も一般的なのはRGB-Dと呼ばれるもので、これはRGB(色の3原色)の画像と距離センサによって得られたD(Depth;奥行き)を組み合わせたものを用いて情報処理をするというものです。画像というのは特に意味的な情報の重要な手がかりになりますし、さらに一般的にアクティブな手法よりも高い解像度のデータを得る事ができます。そこで、距離の精度は高くてもセンシング範囲が狭いアクティブセンサを補完する形でRGB画像が利用されます。

デビッド・マーはどうやって認知の仕方(視覚のモデル?)を着想したのでしょうか。

残念ながら私にはわかりません。しかし、博士論文で残した業績がこれほどのインパクトを残したというのは賞賛すべきことだと思います。

最新(2019年4月発表、2019年8月日経ロボティクス)GoogleのSCAM技術はAIを使っているのでしょうか。

近年発表したGoogleのSLAM論文の事かと推察します。深層学習を利用したSLAM自体は既存手法が存在しますが、この手法は深層学習によってカメラの内部パラメータ(例えば焦点距離)も同時に推定しているので、従来のカメラパラメータが学習時と推定時で異なる場合と比較して精度向上に成功しています。

SCAMの次の技術は?

SLAMはカメラの位置姿勢とシーンの構造を同時に復元するという技術ですが、基本的には得られる構造は静的なものに限られていたり、得られた3次元構造に意味的情報が付与されていません。そこで、動的な(例えば人間や車)がシーンに多数存在しても頑健な手法であったり、同時にシーンの意味的情報も復元可能な手法の登場が期待されています。

自動運転中の突然飛び出してくる小動物や子供などのアクシデントについて、どのように対処対応しようとしているのでしょうか。また高速道路上で、トラックから荷崩れが発生したときなど。

3Dセンシングができる事は、基本的には「何か」が目の前にあるという情報だけです。それが何であるのかを認識したり、それに対してどのようなアクションを取るかということはまた異なる研究分野が存在するので、それらの知見を組み合わせる事によってさまざまなアクシデントに対応できるようになると思われます。

人間の生態に追いつくのは、いつごろになりそうですか?

コンピュータビジョンが人間と比べて明確に劣っているのは、知識や経験を生かすという部分や複数の手がかりを統合するという部分だと思います。特に、深層学習を利用したアプローチでは、特定のカテゴリに特化してのみ精度が高くなるという欠点があり、汎用的に上手くいく手法というのがなかなか存在しません。今後効率的な学習方法が提案され、学習カテゴリ以外の対象に対しても適用可能な手法が発展していくと思われますが、コンピュータが人間に近い知識を蓄えるのはまだまだ先の話になりそうです。

距離情報の定量的な計算(評価)方法

評価に関しては様々な手法があります。一つ目は人工的なシーンを生成して厳密な正解データを作成し、それとの誤差を求める方法です。もう一つは、実空間で画像以外のより精度の高い手法によって実測した結果との比較です。最近では、正解付きの評価データが公開されていますので、それを利用する事が殆どだと思います。

平面画2枚あれば3D再現できそうな、素人目ですが、対応が必ずしも合わないから?なのか、すべて対応がきれいに合うとしても、そこから対応式を導いていくことは難しいってことですかね。

対応点の探索というのは実は難しい問題であるという事です。人間が一瞬で対応点を見つける事ができるのは網膜の情報だけではなくて、我々の膨大な経験や知識を利用しているからでもあり、画像を単なる数字列としか見る事ができないコンピュータにとっては「そもそも対応とは何か」を定義するところから始まります。そのギャップが研究として面白いと感じます。

結局はコンピューターの処理能力のスピード向上とセンサー画像の精度向上の2つの要素が重要な印象

例えば、1兆画素の写真を撮影できるカメラがあったり、コンピュータの計算能力が無限であったとしても、「何を解けば最適な対応点が得られるのか」という問いはそもそも我々が定義したモデルに基づくので、そのモデルが厳密でなければ得られる解も厳密ではありません。そしてほとんどの3Dセンシング手法は現実の物理現象の近似に過ぎず、何をもって正解とするのかという厳密な基準に対する答えを与える事が非常に困難です。その基準を人間が与えるのではなくデータから直接導き出そうとするのが深層学習を利用するモチベーションでもあります。

shimin 2019-qa_2 page3961

注目コンテンツ / SPECIAL