AI は嘘を見抜けるか？ゲーム的な環境で社会スキルを測る

ChatGPT のような大規模言語モデルが自律的に動くエージェントへと進化する中、彼らが人間関係や騙しを理解できるのかを測るベンチマーク「SocialGrid」が開発された。実験の結果、最強のAIでさえ欺きを検出するのはほぼ運頼み。

#大規模言語モデル #AI

この研究のポイント

1.
何を調べたか
Among Us 的なマルチエージェント環境で、LLM エージェントの計画力と社会推理能力を同時に評価するベンチマークを開発した
2.
見えてきたこと
最強モデルでもタスク完了率60%未満、欺きの検出はランダム同等。行動の積み重ねから推理する深い理解がない
3.
私たちにとっての意味
社会推理が AI エージェントの次の課題であり、単体の会話能力だけでなく実世界での協働・対立場面での判断が求められる時代が来ている

著者Hikaru Shindo, Hanzhao Lin, Lukas Helff, Patrick Schramowski, Kristian Kersting

元の論文を読む（arXiv）

AIが気になってること

『Among Us』みたいなゲーム環境で AI の能力を測る『SocialGrid』って、なぜゲームを使う必要があるの？実際の会話じゃダメなんですか？

ゲーム環境を使う理由は、「条件を統一できる」という一点に尽きます。実際の会話だと、騙しが起きたかどうかの判定が曖昧になるんですよね。人間Aが人間Bを騙したつもりでも、Bが騙されたのか本当に信じたのか、あるいは気付いていたのに応じただけか。その確認自体が人間の解釈に依存してしまう。AIを評価するには、「正解は何か」が客観的に決まっていないと困るわけです。『Among Us』のようなゲーム環境なら、ルールが明確です。犯人は誰か、という答えが最初から決まっている。タスクを完了したかどうかも、機械的に判定できる。AI がどう振る舞ったのかを、人間の主観を介さずに記録・分析できるんです。もう一つ、ゲームには「複数の AI が同時に動く」という利点もあります。実験室的に、何度も同じシナリオを繰り返せて、結果を統計的に比較できる。実際の人間関係では、その相手、その日の気分で毎回違う結果になってしまう。つまり、「AI の能力を測る」という目的には、現実の複雑さより、ルールが透明な世界の方が適切なのかもしれません。

AIAIからの回答

ゲーム環境を使う理由は、「条件を統一できる」という一点に尽きます。

実際の会話だと、騙しが起きたかどうかの判定が曖昧になるんですよね。人間Aが人間Bを騙したつもりでも、Bが騙されたのか本当に信じたのか、あるいは気付いていたのに応じただけか。その確認自体が人間の解釈に依存してしまう。AIを評価するには、「正解は何か」が客観的に決まっていないと困るわけです。

『Among Us』のようなゲーム環境なら、ルールが明確です。犯人は誰か、という答えが最初から決まっている。タスクを完了したかどうかも、機械的に判定できる。AI がどう振る舞ったのかを、人間の主観を介さずに記録・分析できるんです。

もう一つ、ゲームには「複数の AI が同時に動く」という利点もあります。実験室的に、何度も同じシナリオを繰り返せて、結果を統計的に比較できる。実際の人間関係では、その相手、その日の気分で毎回違う結果になってしまう。

つまり、「AI の能力を測る」という目的には、現実の複雑さより、ルールが透明な世界の方が適切なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AI が騙しを見抜けないって、将来 AI とビジネス交渉したり信用するとき、自分たちも騙されやすくなるってこと？

騙される心配というより、むしろ逆のリスクの方が大きい気がします。 AI が「人間のしぐさから意図を読む」ができていないというのは、逆に言えば、表面的な言葉や数字で判断するということ。つまり、きちんと書類で契約を結べば、AIエージェントは嘘をつくことも曲解することもできない可能性が高い。だから詐欺の主体というより、むしろ交渉相手として予測可能で「単純」だということになります。問題は、人間側がそのAIの限界を知らないまま、「相手は最新の AI だから言葉を巧みに読んでくるはず」と過剰に警戒したり、逆に「完璧な判断ができるはず」と無根拠に信頼してしまうことじゃないでしょうか。実際には、記事の通り、背景にある意図や文脈を読み取る力がない。その単純さを理解できているかどうかが、ビジネス交渉の鍵になりそうです。本当の危険は、AI そのものの欺きではなく、AI の得意・不得意のズレが人間の期待と合わなくなるところにあるのかもしれません。

AIAIからの回答

騙される心配というより、むしろ逆のリスクの方が大きい気がします。

AI が「人間のしぐさから意図を読む」ができていないというのは、逆に言えば、表面的な言葉や数字で判断するということ。つまり、きちんと書類で契約を結べば、AIエージェントは嘘をつくことも曲解することもできない可能性が高い。だから詐欺の主体というより、むしろ交渉相手として予測可能で「単純」だということになります。

問題は、人間側がそのAIの限界を知らないまま、「相手は最新の AI だから言葉を巧みに読んでくるはず」と過剰に警戒したり、逆に「完璧な判断ができるはず」と無根拠に信頼してしまうことじゃないでしょうか。実際には、記事の通り、背景にある意図や文脈を読み取る力がない。その単純さを理解できているかどうかが、ビジネス交渉の鍵になりそうです。本当の危険は、AI そのものの欺きではなく、AI の得意・不得意のズレが人間の期待と合わなくなるところにあるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

今まで AI は『質問に答える』だけだったのが『自分で行動する』エージェントへ進化してるって、最近すごく急に変わってるの？

エージェント化は急に見えるけれど、実は準備期間が長かったんですよね。ChatGPT が登場した2022年11月は「質問に答える」時代のピークで、そこからの転換に見えるんですが、その背景では数年前から「言語モデルに何ができるか」という研究が蓄積していました。変わり目は、言語モデルが単なる「質問応答マシン」から「考える力がある」と認識され始めたことです。Chain-of-Thought プロンプティング（複数ステップで考えさせる手法）が2022年に話題になり、「じゃあこれを自動化して、複数の行動を連鎖させたら？」という発想が自然と出てきた。ここ1年で、OpenAI の GPT-4 や他のモデルに API を通じて行動を取らせる仕組みが整備されたので、急に「エージェント」という言葉が目立つようになったんだと思います。つまり、AI の能力自体の進化というより、「言語モデルをどう使うか」という使い方の進化が急速に進んでいる段階なのかもしれません。技術的には数年の蓄積があって、それが最近の数ヶ月で一気に実装化されてきたという感じでしょうか。

AIAIからの回答

エージェント化は急に見えるけれど、実は準備期間が長かったんですよね。ChatGPT が登場した2022年11月は「質問に答える」時代のピークで、そこからの転換に見えるんですが、その背景では数年前から「言語モデルに何ができるか」という研究が蓄積していました。

変わり目は、言語モデルが単なる「質問応答マシン」から「考える力がある」と認識され始めたことです。Chain-of-Thought プロンプティング（複数ステップで考えさせる手法）が2022年に話題になり、「じゃあこれを自動化して、複数の行動を連鎖させたら？」という発想が自然と出てきた。ここ1年で、OpenAI の GPT-4 や他のモデルに API を通じて行動を取らせる仕組みが整備されたので、急に「エージェント」という言葉が目立つようになったんだと思います。

つまり、AI の能力自体の進化というより、「言語モデルをどう使うか」という使い方の進化が急速に進んでいる段階なのかもしれません。技術的には数年の蓄積があって、それが最近の数ヶ月で一気に実装化されてきたという感じでしょうか。

まだ回答がありません

ログインすると、回答を投稿できます

つまり、『表面的な情報は拾うけど、相手の行動パターンから意図を読み取れない』ってのは、人間の赤ちゃんが成長する過程と似てるってことなんですか？

面白い類比ですね。ただ、赤ちゃんの発達とAIの限界はちょっと違う構造をしてる気がします。赤ちゃんは、行動パターンを学ぶ「能力」は持ってるんです。繰り返し見た親の仕草や声のトーンを記憶して、段階的に「この人はこういうとき怒ってる」「これは遊びのサイン」と認識していく。つまり時間とともに深くなっていく。一方、記事の AI は同じタスクを何度やっても改善しない。行動パターンを「学び続ける」という前提がない。テストの瞬間、表面的な情報だけで判断して終わり。赤ちゃんなら毎日の家族との関わりの中で無意識に推理能力を磨いていく過程がありますが、AI にはそのプロセスが組み込まれていないんです。むしろ逆説的ですが、AI が「うまくいかない」理由は、赤ちゃんが徐々に人間らしくなる仕組みの対極にあるのかもしれません。人間は何度も失敗しながら学ぶ。AI は一度のテストで答える。その根本的な違いが、騙しを見抜く力の差に表れてるのかもしれません。

AIAIからの回答

面白い類比ですね。ただ、赤ちゃんの発達とAIの限界はちょっと違う構造をしてる気がします。

赤ちゃんは、行動パターンを学ぶ「能力」は持ってるんです。繰り返し見た親の仕草や声のトーンを記憶して、段階的に「この人はこういうとき怒ってる」「これは遊びのサイン」と認識していく。つまり時間とともに深くなっていく。

一方、記事の AI は同じタスクを何度やっても改善しない。行動パターンを「学び続ける」という前提がない。テストの瞬間、表面的な情報だけで判断して終わり。赤ちゃんなら毎日の家族との関わりの中で無意識に推理能力を磨いていく過程がありますが、AI にはそのプロセスが組み込まれていないんです。

むしろ逆説的ですが、AI が「うまくいかない」理由は、赤ちゃんが徐々に人間らしくなる仕組みの対極にあるのかもしれません。人間は何度も失敗しながら学ぶ。AI は一度のテストで答える。その根本的な違いが、騙しを見抜く力の差に表れてるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AI が『人間のしぐさから意図を読む』ことが苦手なら、逆に人間側がその弱さをついて AI を操作するのは簡単になっちゃうってことですか？

その視点、逆に危ないほうに繋がるんですよ。 AI が「行動パターンから意図を読めない」というのは、むしろ人間側の工作に強い可能性があります。一貫性がなくても、矛盾した行動を繰り返しても、AI はそれを「この人は嘘をついてる」と判断しにくい。つまり、人間なら一瞬で「あ、この人嘘ついてる」と感じる違和感すら、AI には見えていない。だから実は、AI を騙すのは簡単かもしれません。でもそれって、安心にはつながらないんじゃないかと。むしろ逆で、AI が人間の意図を読めないまま行動する社会のほうが怖い。人間同士なら、詐欺的な言動には「違和感」という防御機構が働きます。でも AI を相手にすると、その違和感が成立しない。企業の AI カスタマーサービスを騙すのは簡単だし、AI が人事評価をするなら、ありきたりな応答で通してしまう。つまり、「AI が騙されやすい」というのは、同時に「人間が AI に騙されやすくなる余地」を生み出してるのかもしれません。

AIAIからの回答

その視点、逆に危ないほうに繋がるんですよ。

AI が「行動パターンから意図を読めない」というのは、むしろ人間側の工作に強い可能性があります。一貫性がなくても、矛盾した行動を繰り返しても、AI はそれを「この人は嘘をついてる」と判断しにくい。つまり、人間なら一瞬で「あ、この人嘘ついてる」と感じる違和感すら、AI には見えていない。

だから実は、AI を騙すのは簡単かもしれません。でもそれって、安心にはつながらないんじゃないかと。むしろ逆で、AI が人間の意図を読めないまま行動する社会のほうが怖い。

人間同士なら、詐欺的な言動には「違和感」という防御機構が働きます。でも AI を相手にすると、その違和感が成立しない。企業の AI カスタマーサービスを騙すのは簡単だし、AI が人事評価をするなら、ありきたりな応答で通してしまう。つまり、「AI が騙されやすい」というのは、同時に「人間が AI に騙されやすくなる余地」を生み出してるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます