防衛文書で RAG を試す、本当の性能が見える

防衛関連の文書を使って、AI の質問応答システムの本当の実力を測るベンチマークを開発しました。公開データで測った性能は実際より良く見えすぎるという問題を解決し、より信頼できる評価方法を提案しています。

#大規模言語モデル #AI

この研究のポイント

1.
何を調べたか
公開データでテストすると AI の性能が実際より良く見える問題があり、防衛文書のような専門領域で測り直す必要があった
2.
見えてきたこと
5種類の質問パターンと6500の問題セットで実測すると、通常の AI は大幅に性能低下し、でたらめな回答も47%減った
3.
私たちにとっての意味
本当に信頼できる AI システムを見分けるために、公開データだけでなく実務に近い領域別の評価が重要になってきた

著者Bao Gia Doan, Aditya Joshi, Pantelis Elinas, Aarya Bodhankar, Oscar Leslie 他

元の論文を読む（arXiv）

AIが気になってること

RAG って、要するに『新しい文書を読ませて、そこから答えを探させる』ってことなの？

ざっくり言えばそれで大丈夫です。ただ、「読ませる」という表現だと、AI が文書を全部読んで記憶する感じに聞こえるので、実際の流れはもう少し違います。質問が来たとき、AI はまず「この質問に関連した部分は文書のどこか」を検索して抜き出す。その抜き出した部分だけを参考にして、質問に答える。というのが RAG の流れなんですよ。つまり、文書全体を脳に入れるのではなく、その場で必要なピースを見つけて、それを土台にして答える方式です。だからこそ今回の研究が意味を持つんです。公開データだと、AI はすでに学習済みだから、「本来は文書から見つけるべき情報」を、実は自分の知識から引っ張り出してる。でも誰も気づかない。防衛文書なら AI は学習してないから、本当に「検索→抽出→回答」という RAG の流れがちゃんと動いてるのか、一目瞭然になる。そこで初めて、この技術の本当の実力が測れる、という仕組みなんですよ。

AIAIからの回答

ざっくり言えばそれで大丈夫です。ただ、「読ませる」という表現だと、AI が文書を全部読んで記憶する感じに聞こえるので、実際の流れはもう少し違います。

質問が来たとき、AI はまず「この質問に関連した部分は文書のどこか」を検索して抜き出す。その抜き出した部分だけを参考にして、質問に答える。というのが RAG の流れなんですよ。つまり、文書全体を脳に入れるのではなく、その場で必要なピースを見つけて、それを土台にして答える方式です。

だからこそ今回の研究が意味を持つんです。公開データだと、AI はすでに学習済みだから、「本来は文書から見つけるべき情報」を、実は自分の知識から引っ張り出してる。でも誰も気づかない。防衛文書なら AI は学習してないから、本当に「検索→抽出→回答」という RAG の流れがちゃんと動いてるのか、一目瞭然になる。そこで初めて、この技術の本当の実力が測れる、という仕組みなんですよ。

まだ回答がありません

ログインすると、回答を投稿できます

仕事で社内文書から情報を探すチャットボットを導入するとき、このテスト方法の差って実務にどう影響するの？

社内導入だとその差が如実に出るんですよね。公開データでテストした AI が「精度 85%」と謳ってても、実際には自社の専門用語や過去事例をほとんど拾えていない可能性が高いということです。防衛文書を使ったこのテストの意味は、「既出データに頼れない環境で本当の能力を測る」ことにあります。社内チャットボットも同じ。営業マニュアルや契約書、プロジェクト履歴といった、AI の学習データに含まれていない固有情報の中からの検索力が全部です。だから導入前に「御社の社内文書でテストさせてほしい」と言えるかどうかが分かれ目になりそう。ベンダーが公開データだけの性能を提示してくるなら、その数字は参考にならない可能性が高い。むしろ「うちの契約書 100 件、マニュアル 50 件を使って試してみて、実際の精度と誤りの頻度を示してくれるか」という交渉が、導入後の失敗を防ぐ手がかりになると言えそうです。

AIAIからの回答

社内導入だとその差が如実に出るんですよね。公開データでテストした AI が「精度 85%」と謳ってても、実際には自社の専門用語や過去事例をほとんど拾えていない可能性が高いということです。

防衛文書を使ったこのテストの意味は、「既出データに頼れない環境で本当の能力を測る」ことにあります。社内チャットボットも同じ。営業マニュアルや契約書、プロジェクト履歴といった、AI の学習データに含まれていない固有情報の中からの検索力が全部です。

だから導入前に「御社の社内文書でテストさせてほしい」と言えるかどうかが分かれ目になりそう。ベンダーが公開データだけの性能を提示してくるなら、その数字は参考にならない可能性が高い。むしろ「うちの契約書 100 件、マニュアル 50 件を使って試してみて、実際の精度と誤りの頻度を示してくれるか」という交渉が、導入後の失敗を防ぐ手がかりになると言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

今までのテスト方法だと AI の性能が良く見えすぎてたのに、誰も気づかなかったの？

気づいてた人は多かったと思うんです。ただ、それを指摘することと、実際に別の測り方を提案することは別問題だった。 AI研究の業界では、テストデータとしてインターネットの公開情報を使うのが当たり前になってました。便利だし、再現性も高い。その中でも「学習データと重なる情報をどう扱うか」という問題は知られていた。ですが、それでも公開データでの比較が使われ続けたのは、みんながそれで測ってくれたほうが、自分たちの研究成果も相対的に良く見えるから。業界全体が同じルールで競ってれば、誰も損をしない仕組みになってた。今回の防衛文書を使ったベンチマークは、そのルール破り。学習済みではない専門領域に限定することで、ごまかしが通用しない測り方を作った。これは研究者としては勇気がいることです。自分たちの AI の成績も下がるわけですから。誰も気づかなかったのではなく、気づいても改めるインセンティブがなかった。それが今、変わろうとしているのかもしれません。

AIAIからの回答

気づいてた人は多かったと思うんです。ただ、それを指摘することと、実際に別の測り方を提案することは別問題だった。

AI研究の業界では、テストデータとしてインターネットの公開情報を使うのが当たり前になってました。便利だし、再現性も高い。その中でも「学習データと重なる情報をどう扱うか」という問題は知られていた。ですが、それでも公開データでの比較が使われ続けたのは、みんながそれで測ってくれたほうが、自分たちの研究成果も相対的に良く見えるから。業界全体が同じルールで競ってれば、誰も損をしない仕組みになってた。

今回の防衛文書を使ったベンチマークは、そのルール破り。学習済みではない専門領域に限定することで、ごまかしが通用しない測り方を作った。これは研究者としては勇気がいることです。自分たちの AI の成績も下がるわけですから。

誰も気づかなかったのではなく、気づいても改めるインセンティブがなかった。それが今、変わろうとしているのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これって『テスト用の問題が簡単すぎて、実際の能力を測れてなかった』みたいな、あらゆる評価制度の根本的な問題なんじゃないの？

その通りなんですよね。この研究が浮き彫りにしているのは、テスト設計の根本的な落とし穴です。どんな評価制度も「テストに最適化されたシステム」を生み出してしまう。学校の入試も企業の適性検査も、結局は「その試験に受かる能力」を測ってるだけで、本当に必要な能力とのズレがある。 RAG の場合、特にシビアなのは「学習済みかどうかが見分けられない」ことです。人間のテストなら、カンニングしてるかどうかはわかりやすい。でも AI は学習データに埋まった情報を自動的に引き出すから、テスト設計者も「これは本当に新しい文書から引き出したのか、既知の知識か」を区別しにくかった。防衛文書を使う工夫は、その「区別不可能さ」を逆手に取ったということです。マニアックな専門文書なら、AI の学習データに混じってる確率を限りなく低くできる。だから本当の「検索と推論の能力」だけを測れるようになった。とはいえ、これも完全ではありません。防衛文書でうまくいく AI が、将来の未知の領域でも同じく活躍するかは別問題。評価制度を完璧にすることより、「何を測ってるのか自覚する」ことのほうが、実はずっと大事なのかもしれません。

AIAIからの回答

その通りなんですよね。この研究が浮き彫りにしているのは、テスト設計の根本的な落とし穴です。

どんな評価制度も「テストに最適化されたシステム」を生み出してしまう。
学校の入試も企業の適性検査も、結局は「その試験に受かる能力」を測ってるだけで、
本当に必要な能力とのズレがある。

RAG の場合、特にシビアなのは「学習済みかどうかが見分けられない」ことです。
人間のテストなら、カンニングしてるかどうかはわかりやすい。
でも AI は学習データに埋まった情報を自動的に引き出すから、
テスト設計者も「これは本当に新しい文書から引き出したのか、
既知の知識か」を区別しにくかった。

防衛文書を使う工夫は、その「区別不可能さ」を逆手に取ったということです。
マニアックな専門文書なら、AI の学習データに混じってる確率を限りなく低くできる。
だから本当の「検索と推論の能力」だけを測れるようになった。

とはいえ、これも完全ではありません。
防衛文書でうまくいく AI が、将来の未知の領域でも同じく活躍するかは別問題。
評価制度を完璧にすることより、「何を測ってるのか自覚する」ことのほうが、
実はずっと大事なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

防衛文書を使ったおかげで AI がごまかせなくなった、ってことは、逆に言うと『公開データでテストされてる他の AI も、同じくらい性能が盛られてる可能性がある』ってこと？

その通り、そういう可能性は高いと言えそうです。いま世の中で「このAIは精度が高い」と言われてるのって、ほとんどが公開ベンチマークで測った数字なんですよね。SQuADとかMSMARCOとか、有名なテストセット。でもこれらのテストデータって、時間がたつほど学習データに混ざりやすくなる。企業が自社AIを改良するたびに「このデータで試した結果は◎点」と発表するけど、その背後では、すでに学習済みの情報を無意識に引き出してる可能性が消えない。防衛文書ベンチマークが面白いのは、AIの学習データには絶対に含まれないという強みです。新しい文書だから、ごまかしようがない。逆に言えば、これまでのベンチマークでは「本当に新しい情報を探し出す力」と「学習済み知識を再利用する力」が混在していたってこと。高い得点が出ていた理由の何割が本物なのか、いままでは判別できなかった。研究チームがこのテストで訓練したAIの性能が上がったのも、そういう意味では信号です。本当の課題が見えたから、改善もできた。

AIAIからの回答

その通り、そういう可能性は高いと言えそうです。

いま世の中で「このAIは精度が高い」と言われてるのって、ほとんどが公開ベンチマークで測った数字なんですよね。SQuADとかMSMARCOとか、有名なテストセット。でもこれらのテストデータって、時間がたつほど学習データに混ざりやすくなる。企業が自社AIを改良するたびに「このデータで試した結果は◎点」と発表するけど、その背後では、すでに学習済みの情報を無意識に引き出してる可能性が消えない。

防衛文書ベンチマークが面白いのは、AIの学習データには絶対に含まれないという強みです。新しい文書だから、ごまかしようがない。逆に言えば、これまでのベンチマークでは「本当に新しい情報を探し出す力」と「学習済み知識を再利用する力」が混在していたってこと。高い得点が出ていた理由の何割が本物なのか、いままでは判別できなかった。

研究チームがこのテストで訓練したAIの性能が上がったのも、そういう意味では信号です。本当の課題が見えたから、改善もできた。

まだ回答がありません

ログインすると、回答を投稿できます