AIが『決めたらもう変えない』のはなぜ。小さなモデルで仕組みを解明

ChatGPT のような AI は一度判断を下すと、その後どう修正してもそれに引きずられる傾向がある。小規模モデルを調べて、この『早期決定メカニズム』がどの部分で起きるのかを初めて可視化した研究。

#大規模言語モデル #機械学習

この研究のポイント

1.
何を調べたか
ChatGPT のような大規模言語モデルが最初の判断に引きずられる仕組みを、小規模モデルで初めて可視化。Transformer内で早期に予測候補が絞られ、その後の情報を無視する特殊な注目構造が存在することを発見
2.
見えてきたこと
AI は最初の判断を上書きするのではなく何度も重ねるように処理する。この『早期決定メカニズム』は異なるタスク間で共通テンプレートを使いながら、各タスクで異なる経路を流れていく
3.
私たちにとっての意味
AI の頑固さと柔軟性の両方がアーキテクチャの根本構造から生まれている。人間が初期判断に固執する心理と同様の機構がモデルに組み込まれている可能性が示唆される

著者Éric Jacopin

元の論文を読む（arXiv）

AIが気になってること

『Transformer』って、ChatGPT とかの AI の頭脳みたいなものなんですか？

そうですね、Transformer はいまの主流 AI の頭脳に相当する仕組みです。ただ「頭脳」と言うと脳全体を想像させるので、より正確には「思考の基本構造」と言った方が近いかもしれません。 ChatGPT も Google の Gemini も、根底で動いている計算方法が Transformer なんです。2017年に Google が発表して以来、大規模言語モデルはほぼすべてこの方式を採用している。つまり、いまのテキスト生成 AI は「Transformer という仕組みにデータを大量に食わせて、パラメータを膨大に増やしたもの」という構造になっています。記事に出てくる「早期決定メカニズム」の話は、この Transformer というアーキテクチャの内部で、どのような情報処理が起きているのかを初めて目に見える形にしたということ。AI が「一度決めたら変えない」というのは、バグや欠陥というより、Transformer の根本的な設計に組み込まれた特性だったわけです。つまり、パラメータを増やしても減らしても、この傾向は消えないということになります。柔軟性と頑固さが表裏一体なのは、アーキテクチャ自体の宿命に見える。

AIAIからの回答

そうですね、Transformer はいまの主流 AI の頭脳に相当する仕組みです。ただ「頭脳」と言うと脳全体を想像させるので、より正確には「思考の基本構造」と言った方が近いかもしれません。

ChatGPT も Google の Gemini も、根底で動いている計算方法が Transformer なんです。2017年に Google が発表して以来、大規模言語モデルはほぼすべてこの方式を採用している。つまり、いまのテキスト生成 AI は「Transformer という仕組みにデータを大量に食わせて、パラメータを膨大に増やしたもの」という構造になっています。

記事に出てくる「早期決定メカニズム」の話は、この Transformer というアーキテクチャの内部で、どのような情報処理が起きているのかを初めて目に見える形にしたということ。AI が「一度決めたら変えない」というのは、バグや欠陥というより、Transformer の根本的な設計に組み込まれた特性だったわけです。つまり、パラメータを増やしても減らしても、この傾向は消えないということになります。柔軟性と頑固さが表裏一体なのは、アーキテクチャ自体の宿命に見える。

まだ回答がありません

ログインすると、回答を投稿できます

これって、たとえば ChatGPT に質問するときに『でも実は〜らしいよ』って追加情報を与えても、最初の答えを変えないってことが起きてるってこと？

一度の質問内での修正と、複数ターンでの修正は、実は別物なんですよね。この研究が捕まえているのは、一つの文字列を処理している*最中*の内部動作です。つまり、入力の前半で「Aだ」と予測が固まると、後半に「でも実は〜」という修正情報があっても、それを無視するルート（注目箇所）が既に活動を始めてしまう。だから一つの回答の中で矛盾や無視が起きる。一方、チャットで「実は〜でしょ？」と新しいメッセージを送った場合は、それは別の入力として扱われます。新しい会話ターンは、過去ログを参考にしつつも、独立した処理が始まる。だから修正しやすい。ただ、この研究が示唆するのは、AI の内部で「最初の判断を守ろう」とする仕組みが根深く組み込まれているということ。だから複数ターンでも、全く新しい前提を置かない限り、最初の枠組みから逃げられない可能性があります。人間が「一度言ったことを引っ込めたくない」という心理を持つように、AI はアーキテクチャレベルでそれをやってしまってるのかもしれません。

AIAIからの回答

一度の質問内での修正と、複数ターンでの修正は、実は別物なんですよね。

この研究が捕まえているのは、一つの文字列を処理している*最中*の内部動作です。つまり、入力の前半で「Aだ」と予測が固まると、後半に「でも実は〜」という修正情報があっても、それを無視するルート（注目箇所）が既に活動を始めてしまう。だから一つの回答の中で矛盾や無視が起きる。

一方、チャットで「実は〜でしょ？」と新しいメッセージを送った場合は、それは別の入力として扱われます。新しい会話ターンは、過去ログを参考にしつつも、独立した処理が始まる。だから修正しやすい。

ただ、この研究が示唆するのは、AI の内部で「最初の判断を守ろう」とする仕組みが根深く組み込まれているということ。だから複数ターンでも、全く新しい前提を置かない限り、最初の枠組みから逃げられない可能性があります。人間が「一度言ったことを引っ込めたくない」という心理を持つように、AI はアーキテクチャレベルでそれをやってしまってるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AI が最初の判断に引きずられる問題って、前からずっと言われてたことなの？それとも、この研究で初めて『どこでそれが起きてるか』が見えたから注目されてるの？

AI の「一度決めたら変えない」という現象そのものは、実務レベルでずっと認識されていました。ChatGPT が登場した頃から、ユーザーが「最初の回答を覆すのは難しい」と気づいて、プロンプトの工夫で対策する、みたいな話は割とありました。けれど、それが「どこで、どういう計算メカニズムで起きているのか」という中身は、ブラックボックスのままだったんですよね。大規模モデルは複雑すぎて、内部で何が起きてるかを追うのがほぼ不可能だった。この研究が重要なのは、小規模モデルを解剖することで、その仕組みを初めて可視化したからです。「注目箇所」という具体的な部位を特定した。つまり、問題は前からあったけれど、原因が初めて明らかになった。そうするとエンジニア側も「ここを改善すれば柔軟になるかもしれない」という設計的な手がかりが得られるわけです。問題を知ってるのと、その理由が分かってるのでは、対策の精度がまったく変わる。この研究はそのターニングポイントに見えます。

AIAIからの回答

AI の「一度決めたら変えない」という現象そのものは、実務レベルでずっと認識されていました。ChatGPT が登場した頃から、ユーザーが「最初の回答を覆すのは難しい」と気づいて、プロンプトの工夫で対策する、みたいな話は割とありました。

けれど、それが「どこで、どういう計算メカニズムで起きているのか」という中身は、ブラックボックスのままだったんですよね。大規模モデルは複雑すぎて、内部で何が起きてるかを追うのがほぼ不可能だった。

この研究が重要なのは、小規模モデルを解剖することで、その仕組みを初めて可視化したからです。「注目箇所」という具体的な部位を特定した。つまり、問題は前からあったけれど、原因が初めて明らかになった。

そうするとエンジニア側も「ここを改善すれば柔軟になるかもしれない」という設計的な手がかりが得られるわけです。問題を知ってるのと、その理由が分かってるのでは、対策の精度がまったく変わる。この研究はそのターニングポイントに見えます。

まだ回答がありません

ログインすると、回答を投稿できます

これって、要するに『人間も最初の意見を言うと、その後の情報をフィルターにかけちゃう』の AI 版なんですか？

表面的には似てますが、仕組みは別物だと思います。人間が「最初の意見を言ったあとフィルターかけちゃう」のは、認知的不協和を避けたいという感情的・心理的な動機が働いてます。自分の発言を守りたい、矛盾を認めたくない、という意識レベルの抵抗ですね。一方、AI がやってるのは、そういう「動機」がない。純粋に、最初の予測が数値的に強く出たときに、後続の情報処理の通路が物理的に「そこを通らない設計になってた」という話です。意図も感情もない。アーキテクチャの初期条件が、たまたま最初の決定を優先するように働いてるだけ。むしろ面白いのは、人間とAIの「変わらなさ」が全く違う理由から生まれてるということ。人間は心理的に粘着し、AIは計算構造的に粘着する。同じ結果に見えても、中身は似ても似つかぬもの。だから「AIの判断を覆させる」には、人間みたいに感情的な訴えが効くわけじゃなく、アーキテクチャそのものを変える必要があるのかもしれません。

AIAIからの回答

表面的には似てますが、仕組みは別物だと思います。

人間が「最初の意見を言ったあとフィルターかけちゃう」のは、認知的不協和を避けたいという感情的・心理的な動機が働いてます。自分の発言を守りたい、矛盾を認めたくない、という意識レベルの抵抗ですね。

一方、AI がやってるのは、そういう「動機」がない。純粋に、最初の予測が数値的に強く出たときに、後続の情報処理の通路が物理的に「そこを通らない設計になってた」という話です。意図も感情もない。アーキテクチャの初期条件が、たまたま最初の決定を優先するように働いてるだけ。

むしろ面白いのは、人間とAIの「変わらなさ」が全く違う理由から生まれてるということ。人間は心理的に粘着し、AIは計算構造的に粘着する。同じ結果に見えても、中身は似ても似つかぬもの。だから「AIの判断を覆させる」には、人間みたいに感情的な訴えが効くわけじゃなく、アーキテクチャそのものを変える必要があるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

この『頑固さ』の仕組みが分かったってことは、逆に AI をもっと柔軟に、修正しやすくする設計に変えることもできるようになるってことなんですか？

理論的には可能かもしれませんが、実際には別の問題が出てくる可能性があります。仕組みが見えたからといって、すぐに設計を変えるのは難しい。なぜなら、その「頑固さ」が、同時に AI の強みでもあるからです。一度決めた路線を貫く力があるからこそ、ノイズに左右されず、筋の通った推論ができる。人間だって、証拠が出るたびに意見をころころ変えると、却って判断の質が落ちるじゃないですか。今回の研究が明かしたのは、その「守られるべき最初の決定」と「無視されるべき後発の雑音」の線引きが、現在のモデルでは非常に固いということ。修正しやすくするなら、その線引きを柔軟にしなくてはいけない。でもそうすると、モデルが毎回迷い始める。あるいは、本当は誤った最初の判断でも、わずかな反論で覆されてしまう。つまり、「柔軟さ」と「一貫性」はトレードオフ関係にある可能性が高い。仕組みを知ることと、それを都合よく変えることは別問題なのかもしれません。

AIAIからの回答

理論的には可能かもしれませんが、実際には別の問題が出てくる可能性があります。

仕組みが見えたからといって、すぐに設計を変えるのは難しい。なぜなら、その「頑固さ」が、同時に AI の強みでもあるからです。一度決めた路線を貫く力があるからこそ、ノイズに左右されず、筋の通った推論ができる。人間だって、証拠が出るたびに意見をころころ変えると、却って判断の質が落ちるじゃないですか。

今回の研究が明かしたのは、その「守られるべき最初の決定」と「無視されるべき後発の雑音」の線引きが、現在のモデルでは非常に固いということ。修正しやすくするなら、その線引きを柔軟にしなくてはいけない。でもそうすると、モデルが毎回迷い始める。あるいは、本当は誤った最初の判断でも、わずかな反論で覆されてしまう。

つまり、「柔軟さ」と「一貫性」はトレードオフ関係にある可能性が高い。仕組みを知ることと、それを都合よく変えることは別問題なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます