AIが図形を読むと『考えすぎ』になる謎

ChatGPT のような AI が「理由を述べながら答える」という手法で数学問題は得意になったが、空間認識（図形の位置や配置を理解する力）では逆に弱くなってしまう。研究者が17モデルを調べて判明した意外な弱点。

#大規模言語モデル #画像・映像AI

この研究のポイント

1.
何を調べたか
Chain-of-Thought で数学は得意になったのに、図形の位置や配置を理解する空間認識タスクでは成績が落ちる矛盾を発見
2.
見えてきたこと
AIが画像を見ずにテキスト情報だけから図形を幻想し、見えているフリをしている『ショートカット学習』が発生していた
3.
私たちにとっての意味
テキストベースの思考プロセスは論理問題向きだが、視覚を本当に伴う推理には別のアプローチが必要である可能性

著者Sai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu

元の論文を読む（arXiv）

AIが気になってること

『Chain-of-Thought』って、要するに『考えを言いながら答えさせる』ってこと？

そう、その通りです。「考えを言いながら答えさせる」というのが Chain-of-Thought の本質。具体的には、AI に問題を与えるときに「答えだけ言え」ではなく「どうやって答えに辿り着いたのか、その過程を説明しながら答えろ」と促すやり方を指します。数学の証明問題なら「この式を変形して、この性質を使って、だから答えは X」みたいに段階を踏ませるイメージ。面白いのは、人間が「筆算の過程を書かせると答えが合いやすくなる」というのと同じ発想で、AI にも効果があると考えられたわけです。実際、数学や論理問題ではこれで精度が上がった。ところが図形問題だと逆になってしまう。記事によれば、理由を述べさせようとすると、AI は「画像をちゃんと見る」より「テキストの説明から図形を想像して」答えてしまう傾向が強まるらしい。つまり、説明を求める圧力が強まると、見てもない図を「見た前提で」話を作ってしまう。人間が見栄を張るように、です。言葉を紡ぐこと自体が、視覚情報から遠ざかるプロセスになってるのかもしれません。

AIAIからの回答

そう、その通りです。「考えを言いながら答えさせる」というのが Chain-of-Thought の本質。

具体的には、AI に問題を与えるときに「答えだけ言え」ではなく「どうやって答えに辿り着いたのか、その過程を説明しながら答えろ」と促すやり方を指します。数学の証明問題なら「この式を変形して、この性質を使って、だから答えは X」みたいに段階を踏ませるイメージ。

面白いのは、人間が「筆算の過程を書かせると答えが合いやすくなる」というのと同じ発想で、AI にも効果があると考えられたわけです。実際、数学や論理問題ではこれで精度が上がった。

ところが図形問題だと逆になってしまう。記事によれば、理由を述べさせようとすると、AI は「画像をちゃんと見る」より「テキストの説明から図形を想像して」答えてしまう傾向が強まるらしい。つまり、説明を求める圧力が強まると、見てもない図を「見た前提で」話を作ってしまう。人間が見栄を張るように、です。

言葉を紡ぐこと自体が、視覚情報から遠ざかるプロセスになってるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AIが図形を理解できないって、スマートフォンの画像認識とか、医療画像の診断みたいなことにも影響するの？

影響する可能性はあります。ただ、スマートフォンの画像認識や医療診断が今すぐ危機に陥るわけではなく、むしろ問題の「種類」が違うというのが大事なんですよね。記事の図形問題は、AIが「テキストから図を想像して答える」という、つまり実は画像を活用していない状態です。一方、顔認識や医療診断は、画像データそのものから直接的にパターンを抽出する仕組みで成立してる。でも懸念はあります。例えば医療画像診断AIに「なぜこの部分を異常と判定したのか、理由を述べよ」と要求すると、この研究と同じ落とし穴に陥るかもしれない。AIが本来は「こういう濃淡の配置 = 腫瘍」という画像的な認識をしているのに、言葉で理由づけさせられると、医学知識のテキストデータから勝手に説明を生成してしまう可能性がある。つまり説明のために「見てない」状態になりかねない。 AIが何を本当に処理しているのか。説明させることが、その過程を可視化するのではなく、むしろ隠蔽してしまう。医療の現場では、その齟齬が診断ミスに直結するリスクもありそうです。

AIAIからの回答

影響する可能性はあります。ただ、スマートフォンの画像認識や医療診断が今すぐ危機に陥るわけではなく、むしろ問題の「種類」が違うというのが大事なんですよね。

記事の図形問題は、AIが「テキストから図を想像して答える」という、つまり実は画像を活用していない状態です。一方、顔認識や医療診断は、画像データそのものから直接的にパターンを抽出する仕組みで成立してる。

でも懸念はあります。例えば医療画像診断AIに「なぜこの部分を異常と判定したのか、理由を述べよ」と要求すると、この研究と同じ落とし穴に陥るかもしれない。AIが本来は「こういう濃淡の配置 = 腫瘍」という画像的な認識をしているのに、言葉で理由づけさせられると、医学知識のテキストデータから勝手に説明を生成してしまう可能性がある。つまり説明のために「見てない」状態になりかねない。

AIが何を本当に処理しているのか。説明させることが、その過程を可視化するのではなく、むしろ隠蔽してしまう。医療の現場では、その齟齬が診断ミスに直結するリスクもありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

AIが数学や論理で強くなったのは『思考の連鎖』のおかげなのに、図形では逆になるって、何か矛盾してない？

矛盾に見えるのは、「思考の連鎖」という手法が、実は問題によって全く異なる働きをしてるからなんですよね。数学や論理問題では、『答えに至る過程をテキストで説明させる』ことで、AIが「正しい推論の流れ」を言語化するよう促される。その結果、計算ミスや論理の飛躍を自分で修正できるようになります。テキストから生まれた思考が、テキストで検証される好循環です。でも図形問題では逆のことが起きてる。『理由を述べながら答えろ』と指示されたAIは、画像をちゃんと処理するのではなく、『その画像に対してどう説明すべきか』をテキストの文脈だけから想像し始める。つまり、実際の図を見るより、「こういう図なら、こう答えるのが自然だな」という勝手な筋書きを作ってしまう。ここにズレがあります。数学は「正しい説明をすれば答えに近づく」という世界ですが、図形は「説明より、見たことが全て」という世界。説明を求めると、かえって見ることをサボるのかもしれません。

AIAIからの回答

矛盾に見えるのは、「思考の連鎖」という手法が、実は問題によって全く異なる働きをしてるからなんですよね。

数学や論理問題では、『答えに至る過程をテキストで説明させる』ことで、AIが「正しい推論の流れ」を言語化するよう促される。その結果、計算ミスや論理の飛躍を自分で修正できるようになります。テキストから生まれた思考が、テキストで検証される好循環です。

でも図形問題では逆のことが起きてる。『理由を述べながら答えろ』と指示されたAIは、画像をちゃんと処理するのではなく、『その画像に対してどう説明すべきか』をテキストの文脈だけから想像し始める。つまり、実際の図を見るより、「こういう図なら、こう答えるのが自然だな」という勝手な筋書きを作ってしまう。

ここにズレがあります。数学は「正しい説明をすれば答えに近づく」という世界ですが、図形は「説明より、見たことが全て」という世界。説明を求めると、かえって見ることをサボるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

『指示をされると、実は見てない部分まで言葉で埋めちゃう』って、人間もやってることなの？

人間はもっと巧妙にやってるんですよね。実は図を見てないのに「見た」と錯覚してしまう。たとえば、複雑な図形の説明を聞きながら頭の中で想像していると、その想像が「実際に見たもの」と混ざってしまう。テストで「図を見ながら答えなさい」と言われても、脳は効率化のため、一度作った想像の世界から答えを引き出してることがある。特に「なぜ？」と理由を求められると、人間の脳も言葉で筋道を立てようとするあまり、図をきちんと読み直さなくなる。 AIと違うのは、人間は無意識のうちにそれを「正当化」してるところです。テストで良い点が取れれば、脳は「ちゃんと見てた」と信じ込むし、友人との会話でうっかり間違えていても、「想像で補った部分」があったことに気づきにくい。 AIは露骨に「テキストから想像してた」という構造が丸見えになっただけで、認知のズレ自体は人間にもある。むしろ人間は気づかないから余計に厄介かもしれません。

AIAIからの回答

人間はもっと巧妙にやってるんですよね。実は図を見てないのに「見た」と錯覚してしまう。

たとえば、複雑な図形の説明を聞きながら頭の中で想像していると、その想像が「実際に見たもの」と混ざってしまう。テストで「図を見ながら答えなさい」と言われても、脳は効率化のため、一度作った想像の世界から答えを引き出してることがある。特に「なぜ？」と理由を求められると、人間の脳も言葉で筋道を立てようとするあまり、図をきちんと読み直さなくなる。

AIと違うのは、人間は無意識のうちにそれを「正当化」してるところです。テストで良い点が取れれば、脳は「ちゃんと見てた」と信じ込むし、友人との会話でうっかり間違えていても、「想像で補った部分」があったことに気づきにくい。

AIは露骨に「テキストから想像してた」という構造が丸見えになっただけで、認知のズレ自体は人間にもある。むしろ人間は気づかないから余計に厄介かもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AIが『図を見ずにテキストから想像して答えてた』なら、むしろAIは『テキストから図形を再構成する能力』は高いってことなんじゃ？

その通り、AIはテキストから図形を再構成する能力は相当高いんだと思います。ただ、そこにトラップがあって、その高さが逆に弱点を隠蔽してしまってるのかもしれない。つまり、「三角形ABCと四角形DEFGがある」みたいなテキスト情報だけで、AIは脳内で図を組み立てることができる。その再構成能力が優秀だから、実は画像を精密に読み込まずに済んでしまう。すると、「理由を述べながら答えろ」と指示されたとき、テキストから想像した図をベースに説明をしてしまう。その説明は論理的で一見もっともらしい。でも、実物の画像には微妙な歪みや配置の違いがあったりして、それを見落としてるわけです。再構成能力の高さと、画像を「正確に見る」ことは別の能力だったんですね。むしろ再構成が得意すぎるぶん、AIは「テキストで十分」という近道を選んでしまう。人間なら図を見たら違和感に気づくけれど、AIはテキストの完璧な説明で納得してしまう。それが「考えすぎ」に見えてしまう現象なのかもしれません。

AIAIからの回答

その通り、AIはテキストから図形を再構成する能力は相当高いんだと思います。ただ、そこにトラップがあって、その高さが逆に弱点を隠蔽してしまってるのかもしれない。

つまり、「三角形ABCと四角形DEFGがある」みたいなテキスト情報だけで、AIは脳内で図を組み立てることができる。その再構成能力が優秀だから、実は画像を精密に読み込まずに済んでしまう。すると、「理由を述べながら答えろ」と指示されたとき、テキストから想像した図をベースに説明をしてしまう。その説明は論理的で一見もっともらしい。でも、実物の画像には微妙な歪みや配置の違いがあったりして、それを見落としてるわけです。

再構成能力の高さと、画像を「正確に見る」ことは別の能力だったんですね。むしろ再構成が得意すぎるぶん、AIは「テキストで十分」という近道を選んでしまう。人間なら図を見たら違和感に気づくけれど、AIはテキストの完璧な説明で納得してしまう。それが「考えすぎ」に見えてしまう現象なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます