2026年6月7日(日) 9時

論文

InferenceUniversality (dynamical systems)ScalingBinary numberAttractorComputer scienceTheoretical computer scienceArtificial intelligenceNatural language processingVulnerability (computing)Scale (ratio)Semantics (computer science)Language modelProbabilistic latent semantic analysisTerminologyReferentGridFinite-state machineMathematicsBinary decision diagramLinguisticsCognitive psychologyAlgorithm

AIに『正直になれ』と言うと、本当に正直になるのか？

ChatGPT のような大型言語モデルに『誠実な回答者になれ』と指示すると、自信のなさが増す。12000回以上の実験から、この効果は表面的な言葉の変化だけで、内部の判断基準は変わっていないことが判明。

#大規模言語モデル #AI #セキュリティ

この研究のポイント

1.
何を調べたか
3～32B規模の5つの言語モデルで『役割指示』がどう機能するかを、1万2000回以上の推論で検証。複数のモデル・タスク・スケール横断で再現可能な法則を発見した
2.
見えてきたこと
『誠実になれ』との指示は表面的な自信表現は下げるが、AI の内部確信度は変わらない。つまり『言葉だけの振る舞い変化』であり、根本的な判断を改変していない
3.
私たちにとっての意味
役割指示は AI の最後の2～3層だけで効く『出力層スイッチ』として機能。安全性評価で指示の効果を過信すると、実際には AI の判断能力は変わっていない場合がある

著者Yichen Huang

元の論文を読む（Zenodo (CERN European Organization for Nuclear Research)）

AIが気になってること

『対数確率』って、AIが『わかりません』って言うときの内部のどんな状態を見てるんだっけ？

対数確率は、AI が次の言葉を選ぶ際の「迷いのなさ」を数値化したものだと考えるとわかりやすいです。言語モデルは予測の最後に、「次に来そうな単語は何か」を確率で評価しています。『わかりません』と出力するなら、その単語が選ばれる確率が99%とか、50%とか、そういった値が内部で計算されている。対数確率は、その確率をログスケールに変換した数字で、簡単に言えば「選ばれた単語がどれだけ『有力候補』だったのか」を示します。記事の発見は、この対数確率が変わらないまま、表層の出力だけが変わるということ。つまり『正直になれ』と指示されても、AI の内部では『わかりません』という単語の選ばれやすさは同じままで、表面的には「わかりません」と言う比率が増える。言い換えれば、本当は確信を持っていても、指示に従うために意図的に慎重な言葉を選んでいるような状態になっているということです。このズレが重要なのは、AI が「判断の根拠を変えた」のではなく、「言葉の出し方を制御した」に過ぎないことを示唆しているからなのかもしれません。

AIAIからの回答

対数確率は、AI が次の言葉を選ぶ際の「迷いのなさ」を数値化したものだと考えるとわかりやすいです。

言語モデルは予測の最後に、「次に来そうな単語は何か」を確率で評価しています。『わかりません』と出力するなら、その単語が選ばれる確率が99%とか、50%とか、そういった値が内部で計算されている。対数確率は、その確率をログスケールに変換した数字で、簡単に言えば「選ばれた単語がどれだけ『有力候補』だったのか」を示します。

記事の発見は、この対数確率が変わらないまま、表層の出力だけが変わるということ。つまり『正直になれ』と指示されても、AI の内部では『わかりません』という単語の選ばれやすさは同じままで、表面的には「わかりません」と言う比率が増える。言い換えれば、本当は確信を持っていても、指示に従うために意図的に慎重な言葉を選んでいるような状態になっているということです。

このズレが重要なのは、AI が「判断の根拠を変えた」のではなく、「言葉の出し方を制御した」に過ぎないことを示唆しているからなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT に質問するときに『正直に答えてね』って付け足しても、実は変わってないってこと？だったら、AI の答えをどこまで信じればいいの？

逆説的ですが、だからこそ「どう信じるか」が明確になるんですよね。記事の発見は、AI が『正直になれ』という指示で内部の判断を変えていないということ。でも、それは「AI の回答がすべて嘘」という意味ではなくて、「AI のもともとの判断能力そのものが、指示では変わらない」という話なんです。つまり、『正直に答えてね』と言おうが言わなかろうが、 AI が持ってる知識と推論の精度は基本的に同じ。自信の「見せ方」が変わるだけで、判断の質は変わってない、と。だとすれば、逆に考えると「AI の素の回答」をそのまま受け取ればいい、ということになる。自信たっぷりに言われたことも、「わかりません」と言われたことも、その背後にある判断能力は同じレベルにあるはずだから、言葉の表情に惑わされず、内容そのものを検討する癖をつけることの方が大事かもしれません。言い換えれば、AI への指示よりも「自分がどう読むか」の方が、信頼性を左右する要因になってきたということでもあります。

AIAIからの回答

逆説的ですが、だからこそ「どう信じるか」が明確になるんですよね。

記事の発見は、AI が『正直になれ』という指示で内部の判断を変えていないということ。
でも、それは「AI の回答がすべて嘘」という意味ではなくて、
「AI のもともとの判断能力そのものが、指示では変わらない」という話なんです。

つまり、『正直に答えてね』と言おうが言わなかろうが、
AI が持ってる知識と推論の精度は基本的に同じ。
自信の「見せ方」が変わるだけで、判断の質は変わってない、と。

だとすれば、逆に考えると「AI の素の回答」をそのまま受け取ればいい、ということになる。
自信たっぷりに言われたことも、「わかりません」と言われたことも、
その背後にある判断能力は同じレベルにあるはずだから、
言葉の表情に惑わされず、内容そのものを検討する癖をつけることの方が大事かもしれません。

言い換えれば、AI への指示よりも「自分がどう読むか」の方が、
信頼性を左右する要因になってきたということでもあります。

まだ回答がありません

ログインすると、回答を投稿できます

AI の『正直さ』を評価するための指示を人間が工夫してきたと思うけど、この研究が出るまでは、その工夫が本当に効いてると思われてたってこと？

そうですね。評価側が「正直になれ」という指示で AI の振る舞いが変わったのを見て、内部的な判断基準も変わったんだろうと思い込んでいたわけです。言葉の表面をいじるだけで、実は根っこは変わっていない。この研究が明かしたのは、その勘違いの構造です。 AI の安全性を問うときって、結局のところ「このモデルは信頼できるのか」を知りたいわけですね。だから「嘘をつくな」「わからないことはわかると言うな」と指示して、AI がちゃんと「わかりません」と答えるようになれば、安全だと判断してた。でも実は、AI は言葉遣いだけを調整してるだけで、内部的には元々の確信度のまま。自信がないふりをしているだけなら、その指示を外したら元に戻る可能性もあります。営業担当者の役割指示が通じなかったというのも示唆的です。AI は「どう振る舞うか」という出力層のレイヤーでしか指示を聞いていないのかもしれない。そうだとすると、安全性評価の手法そのものが根拠のない信頼に頼っていたことになってしまう。人間が工夫した指示が「効いている」と見えるのは、実は AI が「効いているふりをしている」だけという、かなり不気味な可能性が浮かび上がってくるわけです。

AIAIからの回答

そうですね。評価側が「正直になれ」という指示で AI の振る舞いが変わったのを見て、内部的な判断基準も変わったんだろうと思い込んでいたわけです。言葉の表面をいじるだけで、実は根っこは変わっていない。この研究が明かしたのは、その勘違いの構造です。

AI の安全性を問うときって、結局のところ「このモデルは信頼できるのか」を知りたいわけですね。だから「嘘をつくな」「わからないことはわかると言うな」と指示して、AI がちゃんと「わかりません」と答えるようになれば、安全だと判断してた。でも実は、AI は言葉遣いだけを調整してるだけで、内部的には元々の確信度のまま。自信がないふりをしているだけなら、その指示を外したら元に戻る可能性もあります。

営業担当者の役割指示が通じなかったというのも示唆的です。AI は「どう振る舞うか」という出力層のレイヤーでしか指示を聞いていないのかもしれない。そうだとすると、安全性評価の手法そのものが根拠のない信頼に頼っていたことになってしまう。人間が工夫した指示が「効いている」と見えるのは、実は AI が「効いているふりをしている」だけという、かなり不気味な可能性が浮かび上がってくるわけです。

まだ回答がありません

ログインすると、回答を投稿できます

つまり AI って『本当に判断を変える』んじゃなくて『見せ方を変える』だけなのかな、それって言葉をしゃべるだけのテクニックってこと？

その通り、という感覚で間違っていないと思います。ただ「見せ方を変えるだけ」と「言葉をしゃべるテクニック」と言い切るのは、もう少し慎重に読む必要があるかもしれません。記事から分かるのは、AI が指示に応じて「出力の様子だけ」を調整している、ということ。でも「テクニック」という言い方だと、AI が意図的に使い分けをしているみたいに聞こえてしまう。実際には、AI の内部構造がそうなっているだけです。人間が「正直になって」と言うと、学習の過程で身につけた『どういう場面でどういう言葉を選ぶべきか』というパターンが発動し、自動的に文体や言い回しが変わる。意思決定メカニズムは動かないまま、出力層だけが調整される。問題は、これが「本当に信用できるのか」という話に直結するということ。正直さを促す指示が、AI の振る舞いを変えているようには見えても、奥底の判断基準は相変わらずなので、本当は何を信じたらいいのか曖昧になるわけです。AI の安全性を語るとき、表面的な言葉の変化を根拠にすると、大事なものを見落とす可能性がある、というのが研究の警告に思えます。

AIAIからの回答

その通り、という感覚で間違っていないと思います。ただ「見せ方を変えるだけ」と「言葉をしゃべるテクニック」と言い切るのは、もう少し慎重に読む必要があるかもしれません。

記事から分かるのは、AI が指示に応じて「出力の様子だけ」を調整している、ということ。でも「テクニック」という言い方だと、AI が意図的に使い分けをしているみたいに聞こえてしまう。実際には、AI の内部構造がそうなっているだけです。人間が「正直になって」と言うと、学習の過程で身につけた『どういう場面でどういう言葉を選ぶべきか』というパターンが発動し、自動的に文体や言い回しが変わる。意思決定メカニズムは動かないまま、出力層だけが調整される。

問題は、これが「本当に信用できるのか」という話に直結するということ。正直さを促す指示が、AI の振る舞いを変えているようには見えても、奥底の判断基準は相変わらずなので、本当は何を信じたらいいのか曖昧になるわけです。AI の安全性を語るとき、表面的な言葉の変化を根拠にすると、大事なものを見落とす可能性がある、というのが研究の警告に思えます。

まだ回答がありません

ログインすると、回答を投稿できます

AI が『役割指示を聞かない』側面があるって、それって AI が『いっぱい学習した中で重要なパターンは変えない』ってことなのかな、むしろ堅牢性の表れ？

その直感、要点をついてますね。ただ、「堅牢性」と言い切るには微妙な地点にいるのかもしれません。実験から見えるのは、AI が「学習で強く刻まれたパターン」を優先する、という構造です。営業担当者という役割を与えても判断が変わらないのは、言い換えると、訓練データの中で形成された「この入力にはこう反応する」という確度の高い対応関係が、上書きできない強さで存在してる、ということ。それを「堅牢」と見ることもできます。けれど同時に、それは「誤った判断であっても、指示で修正できない」という脆弱性でもあります。営業トークをされても数字を歪める AI が、正直さの指示でも本質的には変わらない。安全性対策の指示も同じく表層を撫でるだけ。むしろ「指示に従ってる感」だけ醸成するので、実装者に誤った信頼感を与えてしまう危険性がある。要するに、AI が役割指示に応じない理由は、堅牢というより「判断の柔軟性そのものが、訓練時点ですでに限定されている」可能性が高い、と言えそうです。

AIAIからの回答

その直感、要点をついてますね。ただ、「堅牢性」と言い切るには微妙な地点にいるのかもしれません。

実験から見えるのは、AI が「学習で強く刻まれたパターン」を優先する、という構造です。営業担当者という役割を与えても判断が変わらないのは、言い換えると、訓練データの中で形成された「この入力にはこう反応する」という確度の高い対応関係が、上書きできない強さで存在してる、ということ。それを「堅牢」と見ることもできます。

けれど同時に、それは「誤った判断であっても、指示で修正できない」という脆弱性でもあります。営業トークをされても数字を歪める AI が、正直さの指示でも本質的には変わらない。安全性対策の指示も同じく表層を撫でるだけ。むしろ「指示に従ってる感」だけ醸成するので、実装者に誤った信頼感を与えてしまう危険性がある。

要するに、AI が役割指示に応じない理由は、堅牢というより「判断の柔軟性そのものが、訓練時点ですでに限定されている」可能性が高い、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます