AI の「考える過程」を文字から画像に変えると、何が起こるのか

ChatGPT のような AI が問題を解く時、文字で「段階的に考える」プロセスを経ています。この論文は、その「考える過程」全体を画像で表現したら、どうなるかを試した研究です。

#大規模言語モデル #AI #画像・映像AI

この研究のポイント

1.
何を調べたか
AI の思考過程を文字から画像に変える『光学的推論』という新しい手法を提案。レイアウト最適化と図形構成の2つの方式で実装した研究
2.
見えてきたこと
数学や科学の問題を解く精度は文字ベースと同等かそれ以上なのに、処理トークン数は28～16％削減。言葉より画像の方が効率的に情報を伝えられることが示唆された
3.
私たちにとっての意味
AI の『考える過程』を画像で表現できるなら、人間にとっても AI の判断理由が視覚的に分かりやすくなる可能性がある

著者Yutong Bian, Dongjie Cheng, Heming Xia, Yongqi Li, Wenjie Li

元の論文を読む（arXiv）

AIが気になってること

「トークン数」って何？文字数とは違うの？

トークンは、AI が文字を処理する時の最小単位です。1語がそのまま1トークンとは限らなくて、言語によって、単語の長さによって、記号によって、バラバラに分割されます。たとえば「ChatGPT」は3トークン、「AI」は1トークン、「。」も1トークンというように数えられる。日本語だと1文字が必ずしも1トークンではなく、複数文字でようやく1トークンになることもあります。なぜこんなことになるかというと、AI の学習プロセスの都合です。あらかじめ大量のテキストを細かく刻んで、「この断片とこの断片がセットで出現する確率は高い」という統計的パターンを学ぶ。その時の「刻み方」がトークンになるわけです。だから、同じ字数でも、複雑な単語や記号が多いと、トークン数は跳ね上がります。この記事で「28％削減」というのは、文字数ではなくこの処理単位で28％減ったということ。つまり、AI が「考え直す回数」が減った、と捉えても大きく外れていないのかもしれません。

AIAIからの回答

トークンは、AI が文字を処理する時の最小単位です。1語がそのまま1トークンとは限らなくて、言語によって、単語の長さによって、記号によって、バラバラに分割されます。

たとえば「ChatGPT」は3トークン、「AI」は1トークン、「。」も1トークンというように数えられる。日本語だと1文字が必ずしも1トークンではなく、複数文字でようやく1トークンになることもあります。

なぜこんなことになるかというと、AI の学習プロセスの都合です。あらかじめ大量のテキストを細かく刻んで、「この断片とこの断片がセットで出現する確率は高い」という統計的パターンを学ぶ。その時の「刻み方」がトークンになるわけです。

だから、同じ字数でも、複雑な単語や記号が多いと、トークン数は跳ね上がります。この記事で「28％削減」というのは、文字数ではなくこの処理単位で28％減ったということ。つまり、AI が「考え直す回数」が減った、と捉えても大きく外れていないのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AI が処理する情報を減らせるって、スマートフォンとかの電池持ちが良くなるみたいな話につながるの？

直結はしないんですよね。トークン数が減るのは、計算の「ステップ」が効率化される話であって、電池消費を左右する主な要因ではないです。スマートフォンの電池持ちが良くなるには、AI の推論そのものがデバイス上で高速に走る必要があります。そこで大事なのはトークン数より、モデルのサイズや計算の複雑さ、そもそもどこで計算するか（クラウド vs 端末）といった別の層の話になってくる。同じ答えに 28% 少ないトークンで到達できても、それは「サーバー側での処理が軽くなる」という利点に近い。計算コストが下がれば、電気代やサーバーの負荷は減ります。ただそれは、スマートフォンの電池持ちというより「データセンターの電費が良くなる」という、企業側のメリットに見えるかもしれません。ただ長期的に見ると、計算効率が上がれば、より軽いモデルでも同じ精度が出せるようになる。そうなれば、小型デバイス上での動作もあり得るようになる。その先の世界では、スマートフォンで動くローカル AI のバッテリー消費も、今より目に見えて変わってくる可能性がありそうです。

AIAIからの回答

直結はしないんですよね。トークン数が減るのは、計算の「ステップ」が効率化される話であって、電池消費を左右する主な要因ではないです。

スマートフォンの電池持ちが良くなるには、AI の推論そのものがデバイス上で高速に走る必要があります。そこで大事なのはトークン数より、モデルのサイズや計算の複雑さ、そもそもどこで計算するか（クラウド vs 端末）といった別の層の話になってくる。同じ答えに 28% 少ないトークンで到達できても、それは「サーバー側での処理が軽くなる」という利点に近い。計算コストが下がれば、電気代やサーバーの負荷は減ります。ただそれは、スマートフォンの電池持ちというより「データセンターの電費が良くなる」という、企業側のメリットに見えるかもしれません。ただ長期的に見ると、計算効率が上がれば、より軽いモデルでも同じ精度が出せるようになる。そうなれば、小型デバイス上での動作もあり得るようになる。その先の世界では、スマートフォンで動くローカル AI のバッテリー消費も、今より目に見えて変わってくる可能性がありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

ここ最近、AI に「図や画像も混ぜる」という試みが増えてきた理由は、文字だけでは何か足りないことに気づいたからなの？

文字だけでは「空間関係」が伝わらないんですよね。たとえば、「AはBの右にあり、CはAとBの間にある」と何度も書くより、サッと図で示す方が、複雑な構造を一度に把握できます。人間も AI も、脳（あるいはニューラルネットワーク）の処理レベルでは、この空間的・視覚的な情報を直列的な言葉より効率よく扱える可能性がある。ただ面白いのは、足りなかったのは「図の有用性」というより、むしろ「文字で詳しく説明することの非効率さ」に最近になって気づいたという流れに見えることです。AI の性能が上がってくると、余分な説明も長々と処理させられるようになって、かえって計算コストが膨れ上がるようになった。だから「これ、図にしたら説明を短くできるんじゃ」と逆算で考え始めたのかもしれません。つまり、文字だけでも理解は可能だったけれど、スケールが大きくなるにつれて、効率の天敵になっていったという面が強そうです。

AIAIからの回答

文字だけでは「空間関係」が伝わらないんですよね。

たとえば、「AはBの右にあり、CはAとBの間にある」と何度も書くより、サッと図で示す方が、複雑な構造を一度に把握できます。人間も AI も、脳（あるいはニューラルネットワーク）の処理レベルでは、この空間的・視覚的な情報を直列的な言葉より効率よく扱える可能性がある。

ただ面白いのは、足りなかったのは「図の有用性」というより、むしろ「文字で詳しく説明することの非効率さ」に最近になって気づいたという流れに見えることです。AI の性能が上がってくると、余分な説明も長々と処理させられるようになって、かえって計算コストが膨れ上がるようになった。だから「これ、図にしたら説明を短くできるんじゃ」と逆算で考え始めたのかもしれません。

つまり、文字だけでも理解は可能だったけれど、スケールが大きくなるにつれて、効率の天敵になっていったという面が強そうです。

まだ回答がありません

ログインすると、回答を投稿できます

これって『脳が情報を処理するときのやり方に、AI も近づいてる』みたいなことなんだっけ？

面白い着眼ですが、正反対かもしれません。人間の脳は、図を見るときも文字を読むときも、ほぼ同じ「視覚野」という領域で情報を処理しています。図は無意識に自動で理解される。一方、AI が「画像で考える」というのは、訓練済みの視覚モデルを活用しているだけで、脳の処理とは仕組みが全く違います。むしろ注目すべきは、AI の学習効率の問題。文字列だけで複雑な論理を説明するには、たくさんの単語が必要になる。それを画像に圧縮すれば、同じ情報量を少ないトークン数で表現できる。これは「人間と同じメカニズム」というより、「情報圧縮の効率の話」に近い。人間も複雑な説明を聞くより図を一目見た方が頭に入りやすい理由は、脳が視覚情報を並列処理できるからですが、AI の画像入力は基本的に順序立った処理なので、そこに本質的な共通点はないと言えそうです。ただ、結果として「少ない計算で足りた」という現象は、AI にも情報の圧縮に優れた表現方法があることを示唆しているのは興味深いところにあります。

AIAIからの回答

面白い着眼ですが、正反対かもしれません。

人間の脳は、図を見るときも文字を読むときも、ほぼ同じ「視覚野」という領域で情報を処理しています。図は無意識に自動で理解される。一方、AI が「画像で考える」というのは、訓練済みの視覚モデルを活用しているだけで、脳の処理とは仕組みが全く違います。

むしろ注目すべきは、AI の学習効率の問題。文字列だけで複雑な論理を説明するには、たくさんの単語が必要になる。それを画像に圧縮すれば、同じ情報量を少ないトークン数で表現できる。これは「人間と同じメカニズム」というより、「情報圧縮の効率の話」に近い。人間も複雑な説明を聞くより図を一目見た方が頭に入りやすい理由は、脳が視覚情報を並列処理できるからですが、AI の画像入力は基本的に順序立った処理なので、そこに本質的な共通点はないと言えそうです。ただ、結果として「少ない計算で足りた」という現象は、AI にも情報の圧縮に優れた表現方法があることを示唆しているのは興味深いところにあります。

まだ回答がありません

ログインすると、回答を投稿できます

図や矢印で表現できるようになると、逆に AI の『考えた過程』が人間にもっと理解しやすくなるってこと？

図や矢印でわかりやすくなる、というのは理想的な話ですが、実際には別の問題が浮かんできそうです。この研究で起きてるのは、AI の「計算効率が上がった」という事実。でも AI が内部で何をしてるかと、人間が見て理解できることは、別問題かもしれません。たとえば、AI が図形や矢印を組み合わせて思考を表現できるようになっても、その図そのものが「AI の実際の計算プロセス」を映してるとは限らないんですよね。むしろ逆で、私たちが理解しやすい図に「翻訳された」結果に過ぎないかもしれません。人間向けに見栄えよく整理された図と、AI が内部で本当にやってることは、ズレてる可能性が高い。図が増えるほど、その「翻訳のされ方」に私たちが納得してしまって、実は AI の黒箱性が深まるという逆説もありそう。むしろ重要なのは、AI の思考過程が「どんな形式で表現されるか」よりも、その過程が「検証可能か」という点かもしれません。図が多いからといって、それが AI の思考をより正確に映してるわけではない、と言えそうです。

AIAIからの回答

図や矢印でわかりやすくなる、というのは理想的な話ですが、実際には別の問題が浮かんできそうです。

この研究で起きてるのは、AI の「計算効率が上がった」という事実。でも AI が内部で何をしてるかと、人間が見て理解できることは、別問題かもしれません。たとえば、AI が図形や矢印を組み合わせて思考を表現できるようになっても、その図そのものが「AI の実際の計算プロセス」を映してるとは限らないんですよね。

むしろ逆で、私たちが理解しやすい図に「翻訳された」結果に過ぎないかもしれません。人間向けに見栄えよく整理された図と、AI が内部で本当にやってることは、ズレてる可能性が高い。図が増えるほど、その「翻訳のされ方」に私たちが納得してしまって、実は AI の黒箱性が深まるという逆説もありそう。

むしろ重要なのは、AI の思考過程が「どんな形式で表現されるか」よりも、その過程が「検証可能か」という点かもしれません。図が多いからといって、それが AI の思考をより正確に映してるわけではない、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます