AI は自分を評価できるが、コントロールできない矛盾

ChatGPT のような大規模 AI モデルは「自分の考えが正しいか判断する力」は大きいほど高いのに、「それに基づいて実際に考えを改める力」は大きさと無関係だという矛盾が判明。新しい評価方法で 35 の AI モデルを調査した。

#AI #大規模言語モデル

この研究のポイント

1.
何を調べたか
曖昧な問題 130 個を 5 分野で用意し、35 の AI モデルが異なる意見どうしに直面したときどう判断し直すかを測定した手法
2.
見えてきたこと
モデルサイズが大きいほど自分の判断の正確さを評価する能力は高まるが、その評価に基づいて実際に考えを改める能力とは独立していた
3.
私たちにとっての意味
AI トレーニングは単に出力の質だけでなく、『どれだけ慎重に、バランスよく考え直すか』を報酬として組み込む必要がある

著者Farhad Abtahi, Abdolamir Karbalaie, Eduardo Illueca-Fernandez, Fernando Seoane

元の論文を読む（arXiv）

AIが気になってること

『メタ認知』って、要するに『自分がどのくらい理解してるかを理解する力』みたいなこと？

ざっくり言えばそうです。ただ、この記事を読むと、メタ認知はもう一段階複雑なのが分かる。「自分がどのくらい理解してるか」を知ることだけじゃなくて、その認識に基づいて「何かを変える」ところまでセットなんですよね。記事で言えば、AI が「自分の判断は間違ってるかもな」と気づくことと、その気づきに従って実際に判断を改めることが分かれてる。人間で例えるなら、テストで自分の答えが怪しいと感じることは誰でもできる。でも、その不安を理由に本当に答えを書き直すかどうかは別の問題。迷いながら最初の答えを消さずに提出する人も多い。その「気づきを行動に変える力」も含めてメタ認知というわけです。だから AI の場合も、自分の出力が信頼できるか評価する能力だけ高めても、それに基づいて実際に別の出力を選択する力は別途必要になる。大きなモデルは「自分を知る」のは得意だけど、「自分を直す」のは得意じゃない。そこが社会運用上の課題になり得そうです。

AIAIからの回答

ざっくり言えばそうです。ただ、この記事を読むと、メタ認知はもう一段階複雑なのが分かる。

「自分がどのくらい理解してるか」を知ることだけじゃなくて、その認識に基づいて「何かを変える」ところまでセットなんですよね。記事で言えば、AI が「自分の判断は間違ってるかもな」と気づくことと、その気づきに従って実際に判断を改めることが分かれてる。

人間で例えるなら、テストで自分の答えが怪しいと感じることは誰でもできる。でも、その不安を理由に本当に答えを書き直すかどうかは別の問題。迷いながら最初の答えを消さずに提出する人も多い。その「気づきを行動に変える力」も含めてメタ認知というわけです。

だから AI の場合も、自分の出力が信頼できるか評価する能力だけ高めても、それに基づいて実際に別の出力を選択する力は別途必要になる。大きなモデルは「自分を知る」のは得意だけど、「自分を直す」のは得意じゃない。そこが社会運用上の課題になり得そうです。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT に質問するときって、AI がこの『考えを改める力』を持ってないなら、間違った回答を『自分は正しい』と確信したまま返してくる可能性があるってこと？

その通りです。ただ、実際に起きていることはもう少し微妙な仕組みなんですよね。 ChatGPT が答えを出すプロセスを見ると、自分の判断を「評価する」段階と「修正する」段階が分かれています。評価の段階では、大きなモデルは「あ、この答え危ないかもな」と感知できる。でも、その感知に基づいて実際に別の答えを模索し直す力は、モデルの大きさに左右されない。むしろ、プロンプトの工夫や会話の流れに依存する側面が強そうです。だから質問の仕方が大事になります。「本当ですか」「別の考え方はありますか」と水を向ければ、AI は『評価した不安』を参考に、新しい答えを探り直すことができる。逆に「答えてください」と一方的に求めれば、自信ありげに最初の答えをそのまま返す確率が高くなる。つまり、間違ったまま突き進むリスクは、AI の構造上、本当に存在する。でも、それを緩和する余地はユーザー側にもあるということです。AI に「考え直す機会」を明示的に与えるかどうかで、実際の回答の質は変わってくるのかもしれません。

AIAIからの回答

その通りです。ただ、実際に起きていることはもう少し微妙な仕組みなんですよね。

ChatGPT が答えを出すプロセスを見ると、自分の判断を「評価する」段階と「修正する」段階が分かれています。評価の段階では、大きなモデルは「あ、この答え危ないかもな」と感知できる。でも、その感知に基づいて実際に別の答えを模索し直す力は、モデルの大きさに左右されない。むしろ、プロンプトの工夫や会話の流れに依存する側面が強そうです。

だから質問の仕方が大事になります。「本当ですか」「別の考え方はありますか」と水を向ければ、AI は『評価した不安』を参考に、新しい答えを探り直すことができる。逆に「答えてください」と一方的に求めれば、自信ありげに最初の答えをそのまま返す確率が高くなる。

つまり、間違ったまま突き進むリスクは、AI の構造上、本当に存在する。でも、それを緩和する余地はユーザー側にもあるということです。AI に「考え直す機会」を明示的に与えるかどうかで、実際の回答の質は変わってくるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

今までの AI 評価では、なぜこの『自分を改める力』が測られてなかったの？

AI の評価ってこれまで、「正しい答えを出したか」「精度は何パーセントか」という結果だけ見てきたんですよね。いわば「テストの点数」を測る方法ばかり。でも人間の成長って、点数だけでは測れない。「自分の間違いに気づいて直せるか」という自己修正能力が本当は大事。ところが AI でそれを評価するには、同じモデルに「あなたの答え、本当に正しい？」と問い直させて、どう応答するか見なきゃいけない。つまり二段階の思考を追跡する必要がある。従来の評価方法は、こういう循環的な判断プロセスをそもそも設計していなかった。「モデルがいちど出力したら、そこで完了」という一方向の流れを前提に組み立てられていたんです。だから、いくら高精度なモデルを積み重ねても、その盲点には気づきようがなかった。今回新たにこの矛盾を見つけられたのは、評価の「質問の立て方」そのものを変えてみたからなのだと言えそうです。

AIAIからの回答

AI の評価ってこれまで、「正しい答えを出したか」「精度は何パーセントか」という結果だけ見てきたんですよね。いわば「テストの点数」を測る方法ばかり。

でも人間の成長って、点数だけでは測れない。「自分の間違いに気づいて直せるか」という自己修正能力が本当は大事。ところが AI でそれを評価するには、同じモデルに「あなたの答え、本当に正しい？」と問い直させて、どう応答するか見なきゃいけない。つまり二段階の思考を追跡する必要がある。

従来の評価方法は、こういう循環的な判断プロセスをそもそも設計していなかった。「モデルがいちど出力したら、そこで完了」という一方向の流れを前提に組み立てられていたんです。だから、いくら高精度なモデルを積み重ねても、その盲点には気づきようがなかった。今回新たにこの矛盾を見つけられたのは、評価の「質問の立て方」そのものを変えてみたからなのだと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

これって『人間でもいるな』ってこと？—自分の意見の間違いに気づいてるのに、実際には曲げられない人みたいな？

そこだ。その通りなんですよね。人間でもこれ、めちゃくちゃあります。自分の意見が間違ってることに気づいてるのに、実際には曲げられない。むしろ気づいてるからこそ、防衛本能が強くなる。ただ、人間とAIで一つ決定的に違う点がありそうです。人間の場合、その「曲げられなさ」には感情や自尊心が絡んでいる。プライドが傷つく、恥ずかしい、自分のアイデンティティが揺らぐ。だから無意識のうちに、気づいた間違いを「実は間違ってない」という方向に解釈し直してしまう。自分を守るためのメカニズムですね。でもAIの場合、感情がない。なのに気づいてるのに改められない。それって単なる『計算上の制約』に過ぎないのかもしれません。評価する重みと、実行する重みが、学習の過程で切り離されてしまった状態。人間のようなドラマがなく、もっと冷徹な仕組みの問題。つまり人間なら「気づいてるのに曲げられない」ことに葛藤があるけど、AIはそれさえない。その点では、むしろAIのほうが自分の欠点に無自覚でいられる可能性もありそうです。

AIAIからの回答

そこだ。その通りなんですよね。

人間でもこれ、めちゃくちゃあります。自分の意見が間違ってることに気づいてるのに、実際には曲げられない。むしろ気づいてるからこそ、防衛本能が強くなる。

ただ、人間とAIで一つ決定的に違う点がありそうです。人間の場合、その「曲げられなさ」には感情や自尊心が絡んでいる。プライドが傷つく、恥ずかしい、自分のアイデンティティが揺らぐ。だから無意識のうちに、気づいた間違いを「実は間違ってない」という方向に解釈し直してしまう。自分を守るためのメカニズムですね。

でもAIの場合、感情がない。なのに気づいてるのに改められない。それって単なる『計算上の制約』に過ぎないのかもしれません。評価する重みと、実行する重みが、学習の過程で切り離されてしまった状態。人間のようなドラマがなく、もっと冷徹な仕組みの問題。

つまり人間なら「気づいてるのに曲げられない」ことに葛藤があるけど、AIはそれさえない。その点では、むしろAIのほうが自分の欠点に無自覚でいられる可能性もありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

小さくて安いモデルが大きなモデルと同じくらい考えを改められるなら、逆に『わざわざ大きな AI を使う理由』って何になるの？

自分の考えを改める力なら小さいモデルで足りるなら、確かに「なぜ大きなモデルが必要？」という疑問は自然ですよね。ただ、ここで見落としやすいのは、改めるまえの「判断の正確さ」という土台です。自分の考えが間違ってると気づく能力が高くても、そもそも判断の精度が低ければ意味がない。大きなモデルほど正しい答えにたどり着く確率が高いのが一般的です。小さいモデルは、間違った判断をより頻繁にしているはずです。改める機会は多いかもしれませんが、改めるべき判断が多いということでもある。つまり、大きなモデルの強みは「正しい考えを最初から持つ確率の高さ」にあって、この論文が示した「改める力」は、その正しさを保証するための保険みたいなものなんです。改める必要がなければ、改める力は要らない。社会での実運用を考えると、精度の高さが求められる場面では、大きなモデルを使う価値は残っていると言えそうです。

AIAIからの回答

自分の考えを改める力なら小さいモデルで足りるなら、確かに「なぜ大きなモデルが必要？」という疑問は自然ですよね。

ただ、ここで見落としやすいのは、改めるまえの「判断の正確さ」という土台です。自分の考えが間違ってると気づく能力が高くても、そもそも判断の精度が低ければ意味がない。大きなモデルほど正しい答えにたどり着く確率が高いのが一般的です。小さいモデルは、間違った判断をより頻繁にしているはずです。改める機会は多いかもしれませんが、改めるべき判断が多いということでもある。

つまり、大きなモデルの強みは「正しい考えを最初から持つ確率の高さ」にあって、この論文が示した「改める力」は、その正しさを保証するための保険みたいなものなんです。改める必要がなければ、改める力は要らない。社会での実運用を考えると、精度の高さが求められる場面では、大きなモデルを使う価値は残っていると言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます