Sep. 2025No.105

生成AI 光と影生成AIの便益、リスク、社会相関とNIIの研究活動

NII Today 第105号

Interview

国産LLMを医療現場に届ける

NII大規模言語モデル開発の進捗と多分野への適用に向けて

生成AIの基盤技術である大規模言語モデル(LLM)は、世界のビッグテックを中心に急速に開発が進んでいる。日本でも国立情報学研究所(NII)に大規模言語モデル研究開発センター(LLMC)が設立され、多様な分野の研究者が結集して日本語に強い国産のLLMの開発を進めている。そのモデルを活用した医療分野向け国産LLMの構築に取り組む、LLMC副センター長の相澤彰子教授に、生成AIのインパクト、研究の進捗状況や、社会実装に向けた課題を聞いた。

相澤 彰子

AIZAWA, Akiko

国立情報学研究所 コンテンツ科学研究系 教授/主幹
大規模言語モデル研究開発センター副センター長

山田 哲朗

聞き手YAMADA, Tetsuro

読売新聞 論説委員
1990年、東京大学卒、読売新聞入社。2006年、マサチューセッツ工科大学(MIT)ナイト科学ジャーナリズム・フェロー。経済部、科学部、ワシントン支局を経て2018年に科学部長。2019年から論説委員(科学技術担当)。

(敬称略)

──生成AIやLLMの研究は、めまぐるしい速さで動いています。3年前のChatGPTの登場は、専門家にとっても驚きだったのでしょうか。

 言葉の意味を数値ベクトルで表現した構文解析などさまざまな言語タスクに活用する手法が出てきた2013年頃から、少しずつ変化は感じていました。そのうちに「今まで人手でやっていた作業を言語モデルにやらせてみたら、十分な結果が出た」という報告が入ってくるようになり、「あれっ?」と思っている間に、2022年にOpenAIのChatGPTが現れて驚いたという感じですね。その性能は衝撃的でした。では日本の研究者も力をあわせてLLMを作ろうと、2023年5月、自然言語処理の専門家らが自主的に集まり「LLM勉強会」を立ち上げました。

──勉強会が始まって2年、文部科学省の事業として2024年4月大規模言語モデル研究開発センター(LLMC)が設置されてから1年あまり、この間の進捗はどうでしたか。

 LLM勉強会は、オープンで、かつ日本語に強いLLMを自分たちで構築し、LLMの原理解明に取り組む目的で始まりました。議論の過程や失敗も含めてすべて公開することが原則です。当初は30人ほどのメンバーでスタートしましたが、2025年7月現在、学術界と産業界を合わせ約2,300人あまりが参加する大きなグループになっています。この勉強会を包含しつつ発展させたLLMCでは、LLMの構築や高度化、透明性・信頼性確保に向けた研究開発を行っています。

 LLMといってもさまざまですが、企業が非公開で作り中身が分からないもの、モデル自体は使用可能でも訓練に使ったデータは公開されていないものが大半です。その点、NIIは、モデルやデータ、技術資料などをすべて公開しています。アメリカの非営利研究組織「アレン人工知能研究所」もNIIと同様の理念のもと、完全公開のモデルを手がけています。ChatGPTが登場した当初は非公開のモデルが先行し、圧倒的な性能を誇っていましたが、現在では、非公開モデルと公開モデルの間にあったギャップは埋まり、双方とも同等の高いレベルに達しています。日本語での有用性について、我々のLLM-jpモデルはGPT-4-0613を上回るようになりました。

p8.png
(図1)LLM-jp-3.1-instruct4の性能 | NII大規模言語モデル研究開発センター(LLMC)では2025年5月30日LLM-jp-3.1-instruct4シリーズを公開した。MT-Bench(Multi-turn Conversational Bench:複数カテゴリの対話式質問を複数回行うテストによる評価指標)にて、代表モデルの llm-jp-3.1-8x13b-instruct4(表の濃いオレンジ部分)は、日本語有用性(左の表)でGPT-4-0613を上回り①、日本語安全性(右の表)ではGPT-4o-2024-0806をも上回る②が、英語有用性(中央の表)については課題が残る③。*NIIオープンハウス2025黒橋禎夫NII所長基調講演資料より

 自分の手を動かしてモデルを作らないことには、中の仕組みがどうなっているのか、どのようにして間違いが発生するのかなど原理を把握することはできず、研究できることが限定されてしまいます。また、性能が高くても中身が公開されていないモデルは安心して使えません。一握りの巨大IT企業だけがこうした技術を独占することに対する問題意識は各国が共通して持っており、世界各国が自分でLLMを開発しようと動いています。

国産LLMの現在

──アメリカの巨大IT企業は、圧倒的な資金力、マシンパワー、人材で優位にあります。日本の当初の出遅れはやむを得なかったのでしょうか。

 「モデルが大きければ大きいほど、どんどん性能が向上していく」という、計算資源が競争の核心になるという点が日本では十分に予測されていなかったかもしれません。これは研究アプローチの大転換であり、自然言語処理分野の研究者の誰もが「研究はそんなにお金がかからない」という前提でいたので、急激な変化に驚いたと思います。ただ、アメリカでは産業界主導で起きたことに対して、日本で国を挙げてキャッチアップしようとすると、一定のルールに則って進める必要もあり、GPU(画像処理装置)を調達するにも時間がかかります。そういう中でベストを尽くした結果が今の姿ということだと思います。

さらに「データが大きくないといいモデルが作れない」という状況がどんどんエスカレートしており、今はもうウェブ上のデータを全部使っても足りないと言われています。そのため、データを作る、合成するというところにかなり焦点が移り、テキストをLLMに作らせる、あるいはトレーニング用の問題をLLMに作らせるという複雑なことになっています。「ウェブ上の公開データは全部使ってしまったので、人工的に学習データをどんどん追加(Mid-Training)しないとダメ」という状態です。

AIを医療に適用するということ

──AIの応用が期待される分野としては、金融、バイオテクノロジー、材料科学など無数にありますが、NIIがまず医療分野に注力している理由は何ですか。

 内閣府の戦略的イノベーション創造プログラム(SIP)第3期「統合型ヘルスケアシステムの構築」でLLMの医療分野への適用を進めています。AIを医療に適用する試みは、1960年代の心理カウンセリング用チャットボットから始まる60年以上の歴史があります。また、日々の臨床の現場は、日本語でのやりとりで成り立っており、日本の制度や倫理に従うことが必要なので、国産LLMを開発する意義は大きいと言えます。私は昔から、「日本発のデータをちゃんと整備していかないと、日本らしさとか、文化のようなものを守れない」と感じていました。研究の世界では「まず情報は海外から来るもので英語が中心」と考えられていますが、医療分野は異なり、論文のほか症例報告もあって日本語の文献でないと得られない知識が多くあるという特徴があります。さらに、医療分野の研究者には、情報処理に関するリテラシーが高い人が多く、AI導入に積極的という事情も好都合ですね。

 現場のニーズに応えやすいのは、患者が退院する際の記録作成や、英語紹介状の執筆をAIで支援することです。こうした医療業務の効率化は、既に一部、実用段階にあります。さらには、AIが医師の診断作業を補助することも有用だと認められつつあります。ただ、AIを診療に使う場合、医療機器としての認可の対象になるとみられ、企業がシステムを実装していくには時間がかかります。個人情報の取り扱いも医療分野はことに厳しく、病院内のデータを外に出すということについては制約があります。多くの病院は経営が厳しく、潤沢な予算もありません。このあたりは、システムのベンダーやメーカーなどの役割が重要になると思います。

 日本語医療 LLMの開発では、汎用日本語LLMをベースに、日本の医療に適応したモデルを訓練します。ただ日本語文書だけでは分量が不足して医療の基礎知識が不足してしまいますので、英語と日本語のバランスをとりながら医療分野の文書を集め、大規模な医療系コーパスを学習データとして構築しました。こうした工夫で、さまざまな医療タスクを処理する性能は徐々に向上し、ほかの海外モデルに見劣りしない性能を発揮するまでになりました。5年分の医師国家試験で合格水準に達しており、平均してGPT-4を上回っています。性能の評価でも、「穿孔性胆嚢炎で入院・緊急手術となった72歳女性の術後に心房細動が認められた。今は落ち着いているが、追加の検査や治療は必要か?」といった質問に対し、患者の状態を正確に要約した後で、追加のモニタリングや検査、投薬の必要性などについて回答し、さらに血栓塞栓症リスクのスコアを計算することができます。

SIP-jmed-llm-2-8×13bは、推論時のアクティブパラメータ数が22B(220億)ながら、70B級オープンモデルに匹敵する性能を発揮

p4.png
【左図】|ベンチマークテストによるタスク平均性能の比較。開発モデルの一番上、NIIの事前学習済みモデルの「LLM-jp」シリーズに医療系ファインチューニング(追加学習)を行ったSIP-jmed-llmモデルの進化を表す。表の下へ行くほどモデルが強力になり、平均性能が上がっている。比較モデルは、中国のアリババが開発したQwen2.5-72B(ピンク色の棒グラフ)で、比較当時に同じクラスのモデルの中で上位。
【右図】| 左図の赤点線のSIP-jmedllmモデル(緑色の棒グラフ)とQwenのタスクごとの性能比較。SIP-jmed-llmは、複数のタスクにおいて好成績をマークしている。
AIを使うか、使わないかの選択

──あまりにAIが優秀だと、人間の医師はいらなくなってしまいますか。

 医師が生成AIを使う場合と使わない場合を比較すると、AIを使った方が治療結果が向上するとともに所要時間も短くて済むという報告があります。「AI」対「人間」という戦いの構図ではなくて、「AIを使う医師」対「AIを使わない医師」という比較の問題になってくるのでしょう。

──今回の医療分野での経験は、今後、国産LLMをほかの分野に応用していく際にも役立ちますか。

 ここで学んだノウハウは今後、さまざまな分野にAIを適用していくのに活きると思います。医療分野の研究者とのコミュニティーができたことも大きな収穫でした。ただ同時に、LLMはモデルを作れば終わりというものではなく、思った以上に大変な仕事であることも分かりました。データの権利関係の処理などは複雑で、課題は山積みです。情報分野そのものと、医療など応用先の分野の専門家が組むほかに、法務や倫理問題を扱うことができるチームも必須ですが、どの分野も人材が足りないのが現状です。一度に大型の研究予算を付けることはもちろん有効ではありますが、人材の厚みを増すためには、やはり長期にわたって継続的、安定的に研究費を確保していくことが大切ではないでしょうか。

人間の言語を守るという観点

──社会で役に立つLLMという側面のほか、純粋に知的な側面からLLMについての関心はありますか。

 私自身は、言語を守るというような観点も重要だと考えています。これまでは人間がしゃべる言語がリソースのすべてだったわけです。ところが今の世の中では、生成AIがしゃべっている言語とか、生成AIと人間が対話している言語とか、きちんと分離するのが不可能なぐらいいろんなものが混じってしまっているので、実際、「人間の言語とは何か」とか、「言語のバイアスとは何か」とかを論じにくくなってきました。アイヌ語などの少数言語や、消えゆく方言をAIに覚え込ませて保存することも可能かもしれませんが、その場合も、話し手の人間がいなくなったら正しさの基準がなくなるわけです。

 また、人間の赤ちゃんは文法のような能力を頭の中にある程度持って生まれ、LLMのように大量の文章や言葉を学習せずとも自然に母国語を獲得できるという特性があります。このような人間の仕組みにヒントを得て、LLMの学習過程そのものに、人間を模したある種の構造を持ち込むことで、大量に電力を消費するLLMの学習方法を何とか効率化できないか探る研究もあります。

 さらには、生成AIが科学のあり方も変えるとする人たちもいます。今まで科学というのは、自然現象の背後に隠れた法則を見つけたり、あるいはシミュレーションのためのモデルを作ったり、複雑な現象を解釈し単純化することを志向してきたわけですが、生成AIは複雑なものを複雑なまま受け入れ、データの塊のまま扱うという、ある種、人間の手を離れた世界になっていきます。もっとも、今は問題を与えると、それで自分で仮説を立てて、プログラムで自動的に実験し、その結果を図にして論文を書くところまで全部LLMがやることもできます。いわばAI科学者ですね。これからの未来、AI研究にはいろいろなチャレンジが待っていることでしょう。

聞き手からのひとこと

メジャーリーグの野球選手の場合と同様、アメリカの巨大IT企業は、最高の人材を高額の年俸でライバル企業から引き抜いて生成AIの開発を加速させている。アメリカに対抗し、中国政府は国を挙げて開発体制を強化している。予算が限られルール順守を求められるNIIが、激しい世界的競争で渡り合っていくのは大変にちがいない。だが、このマラソンはまだ序盤で、ゴールもはっきりとは見えていない。日本勢はスタートの号砲に驚いてあわてて走り出した状態ではあったが、トップ集団にぴったりついているという。今後の力走を期待したい。(山田 哲朗)

写真:杉崎恭一

記事へのご意見等はこちら

関連リンク
第105号の記事一覧