「安全で信頼できる日本語医療LLMの研究開発に向けて」第105号

Sep. 2025No.105

生成AI 光と影生成AIの便益、リスク、社会相関とNIIの研究活動

Column

安全で信頼できる日本語医療LLMの研究開発に向けて

SIP統合型ヘルスケアシステムの構築

小林和馬KOBAYASHI, Kazuma

国立情報学研究所コンテンツ科学研究系 /
大規模言語モデル研究開発センター特任准教授

（敬称略）

　LLMは、その柔軟な対話応答能力と汎用的な問題解決能力により瞬く間に社会に浸透し、人工知能システムの実社会応用における新たな可能性を切り拓いた。高度な知識を正確に運用することが不可欠な医療分野も例外ではなく、LLMによる大きなインパクトがもたらされている。実際、医師国家試験、診断困難症例に対する診断、臨床的な対話能力など、さまざまな臨床能力において、LLMが人間と同等か、場合によってはそれ以上のパフォーマンスを発揮することが次々と報告されている。これらの技能は数年前まではいずれも人間にとってのコア・コンピテンシーと考えられていたものであり、LLMの登場によって、医療そのものの将来展望が急速に変革されつつある。

　こうした背景を踏まえて、戦略的イノベーション創造プログラム（SIP）第3期「統合型ヘルスケアシステムの構築における生成AIの活用」テーマ1「安全性・信頼性を持つオープンな医療LLMの開発・社会実装」では、相澤彰子教授を中心としたチームが、安全性・信頼性を持つオープンな日本語医療LLMの研究開発に取り組んできた。本プロジェクトでは、大規模言語モデル研究開発センターで開発されたLLM-jpシリーズをベースモデルとして、医療ドメイン知識を持つ基盤型の日本語医療特化LLM（SIP-jmed-llmシリーズ）を、誰でも利用可能となるように構築することを目指した。そのうえで、研究開発者は、この基盤型のモデルを自身のクローズドな環境に導入し、個別のタスクに合わせたファインチューニングなどの追加開発を実施することが可能となる。これにより、機微性の高い医療データの安全性を確保しつつ、臨床現場の具体的なニーズに即した高性能な医療LLMの社会実装を推進していくことが期待されている。

　具体的には、①日本語医療分野の専門テキストコーパスの収集、②同コーパスを用いたLLM-jpモデルに対する継続事前学習、③日本語医療分野のLLMの性能評価のためのベンチマークの構築と評価、の3つのステップを一つのサイクルとして、これを繰り返すことにより研究開発を実施した。実感された課題として、医学の専門テキストの多くは英語で流通しており、日本語で記載されたテキスト資源が相対的に希少であった点が挙げられる。そのため、高度な医学知識を日本語で運用するための能力をLLMに獲得させるために、機械翻訳の活用が不可欠であった。最終的に、本邦の医師国家試験の過去5年間の問題からなるベンチマークにおいて、人間の合格水準を超える性能を示すモデルの構築に成功した。これは、LLM-jpシリーズに始まるすべての構築過程が透明化された国産LLMとして意義深い成果であろう。

　臨床現場における医療の実践とは、目の前の患者に対して最善を尽くすことの繰り返しであり、それこそが医療者の人生であると感じていた。しかし、LLMはそうした医療者の日々のベスト・プラクティスを再生産可能なものへと変え、医療システムの持続性そのものに貢献するものと感じている。一方で、患者の健康や生命に影響し得るという点で、医療におけるあらゆる技術は本来的に大きなリスクと隣り合わせである。したがって、アルゴリズムやルールでは表現しきれない臨床の機微を熟知した医療者と、最新の人工知能技術に精通した情報科学者が互いを理解し合い、コミュニケーションを重ねていくことがますます重要になってくる。そうした「場」を作っていくことも、臨床から研究へと転じた自身のミッションの一つであると考えている。

記事へのご意見等はこちらへ

第105号の記事一覧

生成AI 光と影生成AIの便益、リスク、社会相関とNIIの研究活動