Interview
ディープフェイク検知技術の社会実装に向けて
生成AI技術の急激な進化で、一般の人々でも画像や動画、音声を手軽に生成できるようになった半面、その非倫理的使用や詐欺など犯罪での使用が問題になっている。そうした悪用を阻止するため、ディープフェイクの検知技術や偽情報・誤情報の判定技術の研究開発に取り組む国立情報学研究所(NII)山岸順一教授に、現在の状況や対策技術について聞いた。

山岸 順一YAMAGISHI, Junichi
国立情報学研究所
コンテンツ科学研究系 教授
シンセティックメディア国際研究センター
副センター長

聞き手吉川 和輝YOSHIKAWA, Kazuki
科学技術ジャーナリスト
日本経済新聞社や日経サイエンス社で30年余り科学技術報道に従事し、2025年4月からフリーランスの科学技術ジャーナリスト。AIや量子コンピューター、核融合発電などの先端技術動向に関心がある。
(敬称略)
──今やAI利用によるフェイク情報は社会問題であり、対策が望まれます。実際、どのような状況なのでしょうか。
まず、専門知識のない人でもフェイクコンテンツを手軽に作れるようになり、ショート動画や画像、メッセージを投稿するサイトなど、誰でも使えるさまざまなソーシャルネットワーク(SNS)でディープフェイク(機械学習されたAIが生み出す架空の状況や人物の画像・映像・音声など)のコンテンツが急増しています。当初はただ注目を集めるための軽い目的で使われることが多かったと思いますが、この技術が悪用されるようになったことでフェイク検知への関心がさらに高まっているのではないでしょうか。
実在するインフルエンサーに似せたフェイク動画を使って投資詐欺を企んだり、ロマンス詐欺目的でディープフェイクの音声や画像が使われたりしています。また特定の人に精神的、社会的なダメージを与えるために、その人のフェイク画像をネット空間に拡散させる、といった事件も起こっています。
こうした画像や音声の加工が簡単に行えるツールやアプリが一般の人でも安価に使えるようになったことが最近の特徴といえます。例えば、ある音声合成アプリを使うと、真似たい人の音声データを5秒分くらい入手してアップロードできれば、その人そっくりの声でテキストを読み上げることができます。また非常にリアルなアバター(仮想空間で自分の分身となるキャラクター)を作ったり、顔の部分だけを別の人物にすり替えて動画を作ることができるツールが、スマートフォンのアプリサイトから容易に入手できる状況です。
──フェイクコンテンツはかなりリアルになっています。もう人間が判別できる段階を過ぎてしまったのでしょうか。
フェイク動画に関してはまだ不自然さが目につきますが、静止画像と音声については、人間が見抜くのは難しくなってきていますし、実際それを示す研究やエビデンスもあり、フェイク画像を人間は正しく認識できないことを示した論文も既に何本も出ています。音声については人間による判定が難しいという研究結果が出始めたのは2020年くらいだったと思います。
精巧なフェイクを生成する技術自体はそのころからあったのですが、それが一般に普及してしまったのは、生成AIモデルを動かすのに使われるGPU(画像処理半導体)搭載サーバを使った情報サービスが安価に提供されるようになったことが大きいと思います。ハイレベルのAI技術がビジネスユースを経て、コンシューマー向けにもここ数年で急速に広がりました。
──山岸教授が参画されている、偽情報対策プラットフォームを開発するプロジェクトについて教えてください。
2024年10月から始まった、新エネルギー・産業技術総合開発機構(NEDO)公募の「経済安全保障重要技術育成プログラム(Kプログラム)」の「偽情報分析に係る技術の開発」というプロジェクトで、富士通が取りまとめ役(プライム事業者)となり、NII、NEC、慶應義塾大学SFC研究所、東京科学大学、東京大学、会津大学、名古屋工業大学、大阪大学の9者が参加しています。ディープフェイクの検知から根拠情報の収集・分析、評価までを自動で統合的に行うという、世界でも初めての偽情報対策プラットフォームの試みで、2025年度末までに構築することを目指しています。
開発する技術分野は①メディアデータごとの情報分析と偽情報検知②真偽判定の根拠情報(エンドースメント)管理③総合真偽判定支援④偽情報影響度評価、の4つです(図1)。NIIはNECとともに①の偽情報検知のパートを担当しています。NIIは、真偽判定の対象となるSNS投稿などの情報を構成するメディアデータ(画像、映像、音声)に対し、ディープフェイクを用いた意図的な偽情報を検知する技術や、改ざん箇所や生成手法を判定の確信度を含める形で推定し根拠情報として出力する技術を手がけています。
偽情報対策プラットフォーム 富士通
偽情報対策プラットフォームを機能させるためには、このようなディープフェイクの検知技術の精度を上げることが不可欠です。国内でこの分野を一貫して担える研究機関はNIIに限られるのではないでしょうか。フェイクメディアの検知結果を真偽判定(ファクトチェック)の根拠情報として活用する試みも、世界的に例がないはずです。
NIIの直接の貢献部分ではありませんが、偽情報対策プラットフォームではマルチモーダルファクトチェックという新しい手法に挑戦している点も注目されます。プラットフォームでは真偽判定を生成AIモデルである大規模言語モデル(LLM)によって自動的に行いますが、判断の根拠となる知識源としてテキスト情報をはじめ画像や動画、音声、センサー取得といった多彩な情報源を総合的に参照することで、判断の精度を高めようとしています。
──プラットフォームの開発はどこまで進んでいますか。
プラットフォーム開発は昨年(2024年)スタートし、予定されている機能を一通り実装したプロトタイプは既にできており(2025年7月現在)、トライアルや実証試験が近く始まる予定です。最初はファクトチェック機関や省庁で試行的に使い、改良を進めたうえで、2026年度以降に民間企業や報道機関などにも利用してもらうことを目指しています。当初の活用は、選挙中の偽情報対策と、災害時に拡散するデマ情報を見分けるという2分野が想定されています。我々NIIはプラットフォームに組み込むディープフェイク検知ツールのバージョンアップを続け、性能を上げていきます。
──フェイクを作る技術が急速に進む中で、フェイクを検知する技術が追いつかなくなってしまう懸念はないですか。
フェイクを作るのと見分けるのがイタチごっこになっているのではないか、という人もいますが、私自身はフェイク検知自体は今言われているほど難しい課題ではなく、過度に悲観的になる必要はないと思っています。
まず、フェイク検知に取り組むための国内体制の強化が着実に進んでいます。フェイク検知の研究への公的な支援が増え、フェイク検知を手がける研究コミュニティーやスタートアップが育っています。こうして対策技術の研究スピードが上がっています。
フェイク検知技術につながる研究成果も出ています。例えば、音声や画像、映像のフェイク検知をするのに、人間由来の大量のリアルデータで学習した基盤モデルと呼ばれるAIモデルを使うことで、検知性能が向上することが分かってきました。これまでのようにフェイクのサンプルデータを大量に集めなくても検知性能を上げる見通しがつけられます。
また、2025年7月に開かれたコンピュータービジョンの国際学会「CVPR」で注目すべき研究成果が発表されました。フェイク検知用のAIモデルを、大量の生成AIモデルを基に作るという方法です。既に世の中には何千種類という画像生成AIモデルがあります。今回の研究では、フェイク検知用モデルの学習データに含める生成AIモデル数を最大約4,000種類まで増やしていくことで、学習データに含まれていない生成AIモデルのディープフェイク画像の検知性能も上がっていく[1]、と報告されていました。この知見が、画像だけでなく音声や映像の分野でも当てはまるとすれば、今後多数の生成AIモデルを集めて学習することで、現在よりも精度が高く汎用的なフェイク検知モデルが開発できる可能性があります。
フェイク検知が、言われているほど難しくないだろうと考えているのは、このように人間由来の大量のリアルデータで学習した基盤モデルと、多様なAIモデルからサンプリングしたデータセットで学習したモデルを合わせることで、汎化性能をより向上させ、将来現れる未知なるAIにも対応できるのではないかという理由からです。
──研究成果の社会実装は進んでいますか。
先ほど述べた、リアルデータで学習した基盤モデルによるディープフェイク検知には既に取り組んでいます。この基盤モデルを使ったディープフェイク音声と、ディープフェイク顔画像などの検知モデルが、Kプログラムのプラットフォームの一部として実装されます。画像と映像は既に導入されており、音声はこれから入る予定です。
──山岸教授が取り組むこうしたフェイク検知技術がここまで発展してきた経緯を教えてください。
私はNIIに着任する前、2006~2013年に英国の大学で音声合成技術の研究をしていました。特定の人の声で文章を読み上げることができるボイスクローンという技術を開発しました。現在音声合成に使われるディープニューラルネットワークという技術は当時なく、「隠れマルコフモデル」という別のモデルを使ってボイスクローンを作り、成果をホームページで公開しました。
同年、私の研究成果を見た米国の大学教授から連絡があり、「面白い研究だがその技術を使えば音声による生体認証システムを突破できるのではないか」と指摘され、そこで、当時使われていた、発声者の声を認識して本人確認をするシステムで試したところ、合成音声で認証システムを突破できることを確認しました。これがセキュリティ問題に大いに関心を持ったきっかけです。
NIIでは同僚の越前功教授と協力して、2018年にディープフェイク顔映像検知モデル「MesoNet」を発表しましたが、当時ディープフェイクを検知するAIモデルの研究例はほとんどありませんでした。2021年にはNIIにシンセティックメディア国際研究センターを設置、越前教授がセンター長、山岸が副センター長を務め、ディープフェイク検出出プログラム「Synthetiq Vision」を開発し、2023年からはライセンス供与も始めています。
こうしたフェイク検知の研究の蓄積を生かしながら、今回のNEDOのKプログラムのようなフェイク対策への社会実装に貢献していきたいと思います。
[1]Park J, Owens A. Communityforensics: Using thousands of generatorsto train fake image detectors. arXiv.org.https://arxiv.org/abs/2411.04125.Published November 6, 2024.
聞き手からのひとこと
生成AIを使って趣味で動画や画像を作ることと、悪用目的でフェイクコンテンツを生成することとの間に技術的な違いはない。ファクトチェックも、明らかな虚偽が示されている場合を除けば、コンテンツ作成者の意図を十分に考慮しなければ真偽を誤って判断する恐れがある。こうしたコンテンツの「文脈」をAIに自動的に理解・判断させるには技術的課題が少なくなく、それを支えるフェイク検知技術への期待が高まっている。(吉川 和輝)
写真:杉崎恭一
