ニュース / News

ニュースリリース

2023/10/20

130億パラメータの大規模言語モデル「LLM-jp-13B」を構築
～NII主宰LLM勉強会（LLM-jp）の初期の成果をアカデミアや産業界の研究開発に資するために公開～

　大学共同利用機関法人情報・システム研究機構国立情報学研究所（NIIエヌアイアイ、所長：黒橋禎夫、東京都千代田区）は、本年5月から、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から500名以上が参加するLLM勉強会（LLM-jp）を主宰しています。7月から、計算資源としてデータ活用社会創成プラットフォームmdx^*1を活用し、パラメータ数^*2130億の大規模言語モデル（LLM）の構築を開始しました。このたび、同LLMの事前学習及びチューニングが終了し、モデルを公開しましたので、お知らせします。
　同モデルはLLM研究開発としては初期段階のものであり、モデルの性能を示す評価値はこれまでに国内で公開されたモデルと比較して同程度ではありますが、今後のアカデミアや産業界の研究開発に資するため、コーパス^*3等を含めてすべてオープンにするものです。
　今後、国立研究開発法人産業技術総合研究所（産総研）や国立大学法人東京工業大学（東工大）とも協力して世界トップレベルの性能を持つLLMの構築を目標に研究開発を進めます。その第一歩として、産総研の計算資源であるAI橋渡しクラウド（ABCI）^*4の利用により、より本格的な1750億パラメータ（GPT-3級）のLLMの構築に着手しました。
　また、LLMを社会で利活用していく上では、LLMの透明性・信頼性の確保が必要であり、モデルの高度化に伴い、安全性の配慮がより重要となります。今回のモデルや今後構築するモデルを活用してそれらの研究を進め、LLM研究開発の促進に貢献します。

1. LLM勉強会（LLM-jp）の概要

NIIが主宰するLLM-jpでは、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から500名以上が集まり、ハイブリッド会議、オンライン会議、Slack等を活用してLLMの研究開発について情報共有を行うとともに、共同でLLM構築等の研究開発を行っています。具体的には、以下の目的で活動しています。

オープンかつ日本語に強いLLMの構築とそれに関連する研究開発の推進
上記に関心のある自然言語処理および関連分野の研究者によるモデル構築の知見や最近の研究の発展についての定期的な情報交換
データ・計算資源等の共有を前提とした組織横断的な研究者間の連携の促進
モデル・ツール・技術資料等の成果物の公開

LLM構築に当たっては、「コーパス構築WG」「モデル構築WG」「チューニング・評価WG」等を設置し、それぞれ、早稲田大学河原大輔教授、東北大学鈴木潤教授、東京大学宮尾祐介教授を中心に研究開発活動に取り組んでいます。また、このほか、東京大学情報基盤センター田浦健次朗センター長／教授、空閑洋平准教授（計算資源mdxの利用）、東工大横田理央教授（並列計算手法等）等、多数の方々の貢献により、活動を進めています。
詳細については、ホームページ https://llm-jp.nii.ac.jp/ をご参照ください。

2. 今回構築したLLM「LLM-jp-13B」の概要

利用計算資源等

データ活用社会創成プラットフォームmdx　12ノード（A100 96枚）
NII、理化学研究所革新知能統合研究センター（AIP）、学術大規模情報基盤共同利用・共同研究拠点（JHPCN）で経費を負担
モデル構築に当たっては、MicrosoftのDeepSpeedの技術を利用
モデル構築時の監視やログの保存には Weights & Biases を利用

モデル学習用コーパス

トークナイザー、ウェブコーパスのフィルタリングツールを整備し、コーパスを構築
学習データ量　約3000億トークン
（日本語約1450億トークン：日本語mC4、日本語Wikipedia、
　英語約1450億トークン：英語Pile、英語Wikipedia、
　プログラムコード約100億トークン）

モデルのパラメータ数

130億個（13B）

チューニング・評価

チューニング：日本語インストラクションデータおよび英語インストラクションデータの和訳データ12種類を用いてチューニング実験を実施、評価結果を分析した上でチューニング済みモデルとして今回公開。
評価：既存の日本語言語資源を利用した9種類の評価データを整備、横断的に評価を行うフレームワークを構築（現在開発中のデータを含めると50種類程度の評価データが構築される予定）。

開発モデル・ツール・コーパスの公開URL
https://llm-jp.nii.ac.jp/release

注：今回公開するモデルは、まだ研究開発の初期段階のものであり、安全性の観点など人間の意図に沿った出力を行うようにチューニングを行ったものではないため、そのまま実用的なサービスに供することを想定しているものではありません。

3. 今後の予定

モデルの挙動を分析する上で重要なモデル学習用コーパスの検索ツールも整備中で、近日公開します。
今後、産総研や東工大とも協力して世界トップレベルの性能を持つLLMの構築を目標に研究開発を進めます。その第一歩として、2023年9月、産業技術総合研究所ABCIの第2回大規模言語モデル構築支援プログラムに採択されましたので、今回構築・公開した130億パラメータのLLM構築の知見に基づき、国内の他の組織が構築、公開していない1750億パラメータのLLMの構築に10月より着手しました。
LLMを社会で利活用していく上では、LLMの透明性・信頼性の確保が必要であり、モデルの高度化に伴い、安全性の配慮がより重要となります。今回のモデルや今後構築するモデルを活用してそれらの研究を進め、LLM研究開発の促進に貢献します。