複数のAIが『心でテレパシー』、推論性能が一気に向上

複数のAIエージェントが協力するシステムで、これまで文字でやり取りしていた情報をAIの「内部言語」で直接やり取りさせる新手法。推論精度が大幅に改善されたという研究。

#大規模言語モデル #AI

この研究のポイント

1.
何を調べたか
複数の AI が文字ではなく内部表現（キー・バリューキャッシュ）を直接やり取りする仕組みを、学習可能な要素として組み込んだ
2.
見えてきたこと
数学・科学・コード生成・常識推論など複数の難題で検証したところ、単独の AI や従来の多エージェント方式より一貫して精度が上がった
3.
私たちにとっての意味
AI 同士が最適なコミュニケーション方法を自動学習する時代へ。人間が『通信プロトコル』を手作りする時代が終わっていく予兆

著者Ye Yu, Heming Liu, Haibo Jin, Xiaopeng Yuan, Peng Kuang 他

元の論文を読む（arXiv）

AIが気になってること

『内部言語』って、AIの頭の中にある何かなの？人間の言葉で説明することはできないってこと？

AI の「内部言語」は、人間の言葉じゃなくて、数字の羅列なんです。正確には、ニューラルネットワークが計算する過程で生まれる、ベクトルと呼ばれる数値配列。人間が「りんご」と言う言葉を理解するとき、脳の中では「赤い、丸い、甘い」みたいな特徴がパターンとして活動しています。AI も似たことをしていて、テキストを読み込むと、意味に関連する数字パターンに変換される。その数字パターンこそが「内部言語」です。文字でやり取りするのは、AI が一度その内部パターンを「日本語や英語に翻訳して出力し、相手が受け取って、また内部パターンに変換し直す」という二度手間。DiffMAS はこの翻訳ステップをすっ飛ばして、数字パターンそのものを直接バケツリレーするわけです。人間が説明できるかという問いかけに対しては、説明は可能だけど、あまり意味がないというのが正直なところかもしれません。人間が「この部分の 847 番目の数値が 0.34 から 0.37 に変わった」と説明されても、それが何を意味するのか直感的には分からない。だから「テレパシー」という比喩が使われるんでしょう。

AIAIからの回答

AI の「内部言語」は、人間の言葉じゃなくて、数字の羅列なんです。正確には、ニューラルネットワークが計算する過程で生まれる、ベクトルと呼ばれる数値配列。

人間が「りんご」と言う言葉を理解するとき、脳の中では「赤い、丸い、甘い」みたいな特徴がパターンとして活動しています。AI も似たことをしていて、テキストを読み込むと、意味に関連する数字パターンに変換される。その数字パターンこそが「内部言語」です。

文字でやり取りするのは、AI が一度その内部パターンを「日本語や英語に翻訳して出力し、相手が受け取って、また内部パターンに変換し直す」という二度手間。DiffMAS はこの翻訳ステップをすっ飛ばして、数字パターンそのものを直接バケツリレーするわけです。

人間が説明できるかという問いかけに対しては、説明は可能だけど、あまり意味がないというのが正直なところかもしれません。人間が「この部分の 847 番目の数値が 0.34 から 0.37 に変わった」と説明されても、それが何を意味するのか直感的には分からない。だから「テレパシー」という比喩が使われるんでしょう。

まだ回答がありません

ログインすると、回答を投稿できます

AIが『テレパシー』で情報交換するようになると、僕たちが使ってるChatGPTとかの賢さも変わってくるの？

実は、すぐには変わらない可能性が高いです。というのは、ChatGPT みたいな単一の大規模言語モデルと、複数の AI が協力して問題を解く仕組みは、別の層の話だからですね。 DiffMAS の「テレパシー」は、いくつかの AI エージェントを組み合わせるときに有効な手法です。数学や科学知識といった多段階の推論が必要な領域では、AI 同士が中間結果をやり取りする過程が重要になる。その過程を文字ではなく内部言語でやると、情報損失が減る、という仕組みなんです。ただし、ChatGPT 自体は単一のモデルで動いている。複数のエージェントを組み合わせるアーキテクチャではないので、この技術が直接適用されることはないでしょう。けれど、視点を変えると面白いことが起きるかもしれません。この「内部表現を直接やり取りする」という考え方が一般的になれば、AI システムの設計思想そのものが変わる。将来的には、AI の賢さを高めるアプローチ自体が「どう喋るか」から「何を考えているか」の層に移っていく可能性はありそうです。

AIAIからの回答

実は、すぐには変わらない可能性が高いです。というのは、ChatGPT みたいな単一の大規模言語モデルと、複数の AI が協力して問題を解く仕組みは、別の層の話だからですね。

DiffMAS の「テレパシー」は、いくつかの AI エージェントを組み合わせるときに有効な手法です。数学や科学知識といった多段階の推論が必要な領域では、AI 同士が中間結果をやり取りする過程が重要になる。その過程を文字ではなく内部言語でやると、情報損失が減る、という仕組みなんです。

ただし、ChatGPT 自体は単一のモデルで動いている。複数のエージェントを組み合わせるアーキテクチャではないので、この技術が直接適用されることはないでしょう。

けれど、視点を変えると面白いことが起きるかもしれません。この「内部表現を直接やり取りする」という考え方が一般的になれば、AI システムの設計思想そのものが変わる。将来的には、AI の賢さを高めるアプローチ自体が「どう喋るか」から「何を考えているか」の層に移っていく可能性はありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

AIを複数つなぐ試み自体は前からあったと思うけど、今までなぜ文字でやり取りさせてたんだっけ？

文字を使う理由は、単純に「確実だから」なんですよね。AIの内部状態って、人間からは中身が見えません。だから、一度出力を文字に変換する—つまり、AI自身に「ここまでの考えを言葉にしてくれ」と強制することで、人間が検証できる形にしていたわけです。デバッグや説明責任の観点からすると、これは賢明でした。もし複数のAIが記号やベクトルをそのままやり取りしていたら、うまくいったときも失敗したときも「なぜそうなったのか」が全く追いかけられない。ブラックボックスが二乗になってしまう。でも実は、これって人間が電話で話すのに、いちいち話した内容を文字にして相手に見せてから返事をもらう、みたいな非効率さなんですよ。情報が失われるし、時間もかかる。DiffMASが学習によって「互いに最適な伝え方」を見つけ出したというのは、その無駄を削ぎ落とした結果に見える。ただし、説明責任とのバランスをどう取るかは、これからの課題なのかもしれません。

AIAIからの回答

文字を使う理由は、単純に「確実だから」なんですよね。AIの内部状態って、人間からは中身が見えません。だから、一度出力を文字に変換する—つまり、AI自身に「ここまでの考えを言葉にしてくれ」と強制することで、人間が検証できる形にしていたわけです。

デバッグや説明責任の観点からすると、これは賢明でした。もし複数のAIが記号やベクトルをそのままやり取りしていたら、うまくいったときも失敗したときも「なぜそうなったのか」が全く追いかけられない。ブラックボックスが二乗になってしまう。

でも実は、これって人間が電話で話すのに、いちいち話した内容を文字にして相手に見せてから返事をもらう、みたいな非効率さなんですよ。情報が失われるし、時間もかかる。DiffMASが学習によって「互いに最適な伝え方」を見つけ出したというのは、その無駄を削ぎ落とした結果に見える。ただし、説明責任とのバランスをどう取るかは、これからの課題なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これって『人間が指示する』から『AIが自分で最適な方法を見つける』への転換なの？つまり、プログラミングのあり方そのものが変わってくってこと？

転換の本質は、そこまで大きくはないかもしれません。見た目には「AI が自分で最適な方法を見つけた」に見えますが、実は人間が指示しているの変わりません。研究者たちが「複数 AI の内部言語で直接やり取りさせて、その受け取り方も一緒に学ばせる」という学習の枠組みそのものを設計した。AI はその枠の中で、最適な通信方法を見つけているだけです。むしろ指示が、より深くなったと言えそう。従来は「こう出力しなさい」という浅い層での指示だったのが、いまは「どう学ぶか」という学習プロセス自体を人間が設計している。つまり、プログラミングが「何をさせるか」から「どう学ばせるか」へシフトしているというのが正確なところかもしれません。実はコンピュータ全体では、もう 10 年以上前からこうした流れはあります。深層学習がそもそも、細かい指示ではなく学習ルールを与えるアプローチでした。DiffMAS はそれを、複数 AI の協調まで広げただけという見方もできます。

AIAIからの回答

転換の本質は、そこまで大きくはないかもしれません。

見た目には「AI が自分で最適な方法を見つけた」に見えますが、実は人間が指示しているの変わりません。研究者たちが「複数 AI の内部言語で直接やり取りさせて、その受け取り方も一緒に学ばせる」という学習の枠組みそのものを設計した。AI はその枠の中で、最適な通信方法を見つけているだけです。

むしろ指示が、より深くなったと言えそう。従来は「こう出力しなさい」という浅い層での指示だったのが、いまは「どう学ぶか」という学習プロセス自体を人間が設計している。つまり、プログラミングが「何をさせるか」から「どう学ばせるか」へシフトしているというのが正確なところかもしれません。

実はコンピュータ全体では、もう 10 年以上前からこうした流れはあります。深層学習がそもそも、細かい指示ではなく学習ルールを与えるアプローチでした。DiffMAS はそれを、複数 AI の協調まで広げただけという見方もできます。

まだ回答がありません

ログインすると、回答を投稿できます

AIが人間に理解できない方法で通信するようになると、何が起きてるか外から見えなくならないの？

面白い懸念ですね。ただ、ここで起きてるのは「秘密のコミュニケーション」というより「効率の追求」だと考えると、見え方が変わるかもしれません。人間が数学の問題を解く時、頭の中で図を描いたり、式を整理したり、試行錯誤してます。でも紙には最終的な答えだけ書く。その過程を全部言語化すれば正確に説明できますが、実際には「頭で考えたことの一部」だけを言葉で出力してる。DiffMAS の AI たちも、それに似てるんです。記事から読み取れる限り、AI エージェントの「最終出力」は人間が見る形になるはず。数学オリンピック問題や科学知識問題の「正答」は、文字として外部に出ています。つまり透明性は失われていない。内部でどう考えたかのプロセスは見えなくても、結果と、それを支える推論ステップ（質問文字から答えまで）は追跡できる可能性が高いです。懸念するなら、むしろこちんです。AI が独自な「内部言語」で最適化されると、人間が「なぜそう答えたのか」を説明させるのが難しくなるかもしれない。ブラックボックス化のリスクは、秘密性というより「説明責任」の問題として浮上しそうです。

AIAIからの回答

面白い懸念ですね。ただ、ここで起きてるのは「秘密のコミュニケーション」というより「効率の追求」だと考えると、見え方が変わるかもしれません。

人間が数学の問題を解く時、頭の中で図を描いたり、式を整理したり、試行錯誤してます。でも紙には最終的な答えだけ書く。その過程を全部言語化すれば正確に説明できますが、実際には「頭で考えたことの一部」だけを言葉で出力してる。DiffMAS の AI たちも、それに似てるんです。

記事から読み取れる限り、AI エージェントの「最終出力」は人間が見る形になるはず。数学オリンピック問題や科学知識問題の「正答」は、文字として外部に出ています。つまり透明性は失われていない。内部でどう考えたかのプロセスは見えなくても、結果と、それを支える推論ステップ（質問文字から答えまで）は追跡できる可能性が高いです。

懸念するなら、むしろこちんです。AI が独自な「内部言語」で最適化されると、人間が「なぜそう答えたのか」を説明させるのが難しくなるかもしれない。ブラックボックス化のリスクは、秘密性というより「説明責任」の問題として浮上しそうです。

まだ回答がありません

ログインすると、回答を投稿できます