研究 / Research
情報学プリンシプル研究系
SUGIYAMA Mahito
情報学プリンシプル研究系 准教授
研究紹介
膨大なデータから役に立つ情報を効率的に見いだす
自然界の事象はアナログ(連続的)情報ですが、デジタル(離散的)情報として計測されます。この離散的な情報から、コンピュータを利用してデータの背後に隠れた特徴を探りだす研究をしています。膨大な量のデータの中から人間の役に立つ情報を効率的に取り出すための研究とも言えるでしょう。
パターンマイニングに統計的手法を加味
膨大なデータからパターンを見出す技術はパターンマイニングと呼ばれます。その応用の一例に、疾患に関係する遺伝子の研究があります。その研究では、多くの人の遺伝子マーカーのデータから、その相関関係を図のように点と線で表現します。そこから疾患に関連するパターンの組合せを検出するわけですが、マーカーの数がn個あれば2n(2のn乗)個の組合せを解析しなければなりません。マーカーが大量だと結果が出るまでに多大な計算リソースと時間がかかります。そこに集合の包含関係のような離散構造の考え方を利用して解析すると、劇的に少ない計算量で結果を出すことができます。さらに結果に対して統計的有意性の視点からさらに解析すれば、本当に疾患に関係する遺伝子パターンは何かを正確に探れます。そんな研究を進めているところです。離散構造、情報幾何、統計的な手法を組み合わせて、より効率的に、正しい判断ができるよう、理論を構築してはプログラミングで検証し、その結果を理論に反映させていくのが、私の研究の方法です。
ディープラーニングに離散的なアプローチを加えてさらに深い解析を
顔認識や音声認識など数々の便利なサービスが生まれていますが、これにはディープラーニング技術が大きく寄与しています。それは大量データの相関関係を整理して、ある特徴とある特徴を兼ね備える場合は○○と判断できるというように、一般的に使えるモデルを構築していくものです。いわば信号処理の高度な発展形と言えるかもしれません。私はこれに加えて、かつて人工知能研究の中心的役割を担った帰納論理プログラミング、またデータマイニング研究の中心であるパターンマイニングのようなシンボリックで離散的なアプローチを加えることが、健全な機械学習の発展につながると考えています。近年はディープラーニングで鍛えた囲碁プログラムがトップ棋士に勝っていますが、その手の内を説明することは困難です。別のアプローチを加えることで、より深い解析ができて納得のいく棋譜の説明ができるのではないか。そんなことも期待して研究をしています。