ニュース / News
ニュースリリース
「生物規範と情報理論が融合した強化学習による運動制御の研究」で 小林 泰介 助教が若手科学者賞を受賞
~令和8年度 科学技術分野の文部科学大臣表彰~
文部科学省が2026年(令和8年)4月7日(火)に発表した「令和8年度 科学技術分野の文部科学大臣表彰」において、「生物規範と情報理論が融合した強化学習による運動制御の研究」の業績により、国立情報学研究所(NII、所長:黒橋 禎夫 東京都千代田区) 情報学プリンシプル研究系の小林 泰介助教が、若手科学者賞(*1)を受賞しました。
【研究の背景】
近年、ロボットの性能向上は目覚ましく、人間のように歩行するだけではなく、倒されても立ち上がったり、バク転までこなしたりするなど、高度な運動性能を持ったものまで登場しています。そして、ロボットを自律的に動かし実世界で活用するために機械学習、中でも強化学習(*2)によるAIを組み合わせる手法が注目されています。一方で、膨大なデータからパターンやルールをコンピュータが自ら見つけ出し、予測や判断を行う従来の強化学習をそのままロボットに適用すると、状況が絶えず不確実に変化する実世界で動かそうとしたとき、想定外の状況に対処できず止まってしまうという問題があります。また、AIにとって想定外な状況をなくすために無差別にデータを学習してしまうとデータのノイズも学習してしまい、AIが正しい答えにたどり着けず、ロボットが人の期待通りに動かないといったことも起きるといった課題がありました。そのため、新たな強化学習の手法を確立する必要がありました。
【評価の対象となった研究成果】
この課題を解決するために、小林助教が着目したのが、強化学習に「生物が学習する仕組み」を取り入れることでした。従来の強化学習では、どのような結果でも平等に考慮して行動の学習に活用するようになっていましたが、アルゴリズムを新しい解釈から導くことで、生物が悪い結果より良い結果を重んじで学ぶ「楽観性」を獲得することに成功しました。同様に、悪い結果を優先して危険に備える「悲観性」や、刺激と知覚の間には対数の関係があるという生物の特徴が強化学習にも隠されていたことを発見しました。また、フィードバック誤差学習(*3)の一般化にも世界で初めて成功して、センサ故障にも頑健な蛇型ロボットの運動制御を実証することができました。
また、生物が実世界で動く際に、与えられた目的だけでなく様々な注意点を適切なバランスで目的を阻害しない範囲で考慮できる点に着目しました。例えば、ロボットには目的を達成するための俊敏性と同時に行動の滑らかさという相反することを求められますが、「生物は状況の変化を知覚することで行動を柔軟に変化させる」ことを参考に、行動を滑らかにする範囲を適切に定める新技術を確立しました。また、万が一の事態に備えた戦略も重要になる一方で、あらゆる事態を想定してしまうと動けなくなってしまう問題に対しても、想定すべき事態の範囲を予想される事態の周辺に抑えた敵対的学習(*4)の枠組みを開発しました。これは、4脚ロボットを使い実証実験を行ったところ、わずか2時間足らずの練習で、前後左右から押されても踏ん張って歩き続けられるような運動制御を獲得させることに世界で初めて成功しました。今回、こうした業績が評価され、小林助教は令和8年度 科学技術分野の文部科学大臣表彰の若手科学者賞を受賞しました。
【令和8年度 科学技術分野の文部科学大臣表彰 若手科学者賞 】
生物規範と情報理論が融合した強化学習による運動制御の研究
|
小林 泰介(こばやし・たいすけ) 情報・システム研究機構 国立情報学研究所(NII)情報学プリンシプル研究系 助教 |
業績概要:
ロボットの運動性能を引き出す制御方策を経験的に得る強化学習が注目されている。しかし、実世界では様々な想定外の問題が起こり、運動性能の追求だけでは不十分である。実世界で逞しく生きる生物から見出した付加価値や学習特性を適切に強化学習へと融合する必要がある。
氏は、「確率推論としての強化学習」と呼ばれる新しい情報理論の概念を駆使して、生物の様々な学習特性をボトムアップ的に強化学習則へ発現させる方法論を確立した。また、「トレードオフ関係にある付加価値」間の優先順位・バランスを生物の挙動から定め、トップダウン的に与える新たな制約付き最適化問題とそれを解く強化学習アルゴリズムを開発した。
本研究成果は、実世界の様々な場面でロボットが適応的に活躍するための新制御基盤および人の行動決定を説明・理解するモデルと期待される。
主要論文:
- 「LiRA: Light-Robust Adversary for model-based reinforcement learning in real world」Robotics and Autonomous Systems 誌、vol.192、105057、2025 年発表
- 「Optimistic reinforcement learning by forward Kullback-Leibler divergence optimization」Neural Networks 誌、vol.152、p169 ~ 180、2022 年発表
小林 泰介 助教のコメント:
「この度は、このような名誉ある賞をいただき、大変光栄に存じます。本研究は、近年注目を集めているフィジカルAIの基盤技術の一つである強化学習を実世界のロボットに適用していく上での数多くの課題に対して、生物を規範とした理論で解決しようと取り組んできたものです。本研究は私一人の力ではなく、これまで支えてくださった共同研究者や、共に切磋琢磨してきた学生の皆様のお力添えによるものであり、この場を借りて心より感謝申し上げます。今回の受賞を励みに、実世界で活躍できるロボットの知能化に向けて、今後も研究に邁進してまいります。」
関連リンク
- 小林 泰介 - 情報学プリンシプル研究系 - 研究者紹介
- LiRA: Light-Robust Adversary for Model-based Reinforcement Learning in Real World - arXiv
- Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization - arXiv
ニュースリリース(PDF版)
「生物規範と情報理論が融合した強化学習による運動制御の研究」で 小林 泰介 助教が若手科学者賞を受賞
~令和8年度 科学技術分野の文部科学大臣表彰~
(*2) 「強化学習」: 機械学習の一種で、AIが周囲の環境とやり取りしながら、自ら試行錯誤を繰り返して適切な行動を学んでいく手法
(*3) 「フィードバック誤差学習」: 実際の結果を見て目標とのずれを修正し続ける「フィードバック制御」の結果生じた信号を、そのまま「学習の正解(教師信号)」として利用し、予測に基づいて先回りをして指令を出す「フィードフォワード制御器」を賢くしていく学習手法
(*4) 「敵対的学習」: 機械学習の手法で、AI(味方)と、それを邪魔するAI(敵)を戦わせることで、より性能を高める学習方法


NII Today No.107
学術情報基盤オープンフォーラム 2026
国立情報学研究所 2026年度 概要
情報研シリーズ 「ディープフェイク 生成AIとの共棲に向けて」
NIIサービスニュース
SINET広報サイト
ウェブサイト「軽井沢土曜懇話会アーカイブス」を公開
SINETStream 事例紹介:トレーラー型動物施設 [徳島大学 バイオイノベーション研究所]
学術研究プラットフォーム紹介動画
教育機関DXシンポ