研究シーズ2018知能システム科学

時系列データ活用技術の開発とその応用

小林 亮太情報学プリンシプル研究系 助教

研究分野時系列解析/計算論的神経科学/ウェブ・ソーシャルメディア分析

研究背景・目的

近年になって、ウェブ履歴、メールの送受信記録、サーバーのアクセスログ、センサーデータ、心電図・血圧等の生体計測データをはじめ、さまざまな時系列データを入手できるようになってきました。このようなデータを有効に活用するためには、データの背後に潜むルールを発見することが重要です。標準的なデータマイニングの手法では、高頻度のパターンを探索することによってルールの抽出が行われます。しかし、時系列データの場合には可能なパターンの組み合わせ数が莫大となるため、スーパーコンピュータを使ったとしてもルールの抽出は困難です。そこで時系列モデルに基づいて、データから隠されたルールを発見する手法を開発しています。

研究内容

時系列データとして、脳から計測されたデータに着目してきました。神経細胞間の電気信号のやり取りを詳細に計測することは、現在の実験技術では困難です。そこで、脳計測データから神経細胞の情報処理のメカニズムを調べる手法の開発に取り組んできました。特に、私たちが開発した神経細胞モデルは、スイス連邦工科大学ローザンヌ校(EPFL)が2007〜2009年に開催した予測コンテストにおいて優勝しました(図1)。このモデルは、脳のコンピュータシミュレーションの要素技術として使われつつあります。

NIIに着任してから、ウェブ・ソーシャルメディアから得られるデータの分析技術の開発を始めました。ウェブ上では、1分間に300時間以上のYouTube動画、30万以上のツイートといった膨大な量のコンテンツが生まれ続けていますが、人々に注目されるのはそのほんの一部です。ウェブコンテンツの公開後にどれだけ人々の興味を引くかを予測できるようになれば、マーケティングや魅力的なコンテンツ開発を効率的に行うことが可能になります。私たちは、ウェブコンテンツ(ツイート、署名サイト)が将来どれだけアクセスされるかを予測する技術を開発しました(図2)。

18-kobayashi-image1.png

図1 実際の神経細胞が生成するパルス (スパイク)を正確に再現する数理モデル

18-kobayashi-image2.png

図2 将来のリツイート数を、ツイート直後のデータから予測する手法

上:提案手法の模式図、下:予測精度の既存手法 (左: Gao et al., WSDM 2015, 右: Zhao et al., KDD, 2016) との比較

産業応用の可能性

連絡先

小林 亮太[情報学プリンシプル研究系 助教]
r-koba[at]nii.ac.jp ※[at]を@に変換してください

Recommend

さらにみる