AI は見た絵を頭で動かせるか、人間との思考力の差が浮き彫りに

画像を理解する AI（マルチモーダル LLM）は急速に進化していますが、パターン認識や空間的思考といった高度な思考力は人間より大きく劣っていることが明らかになりました。人間は 80% の正答率に対し、最高の AI は 50% に届かない結果に。

#大規模言語モデル #画像・映像AI #AI

この研究のポイント

1.
何を調べたか
画像理解 AI に対して、人間の知能検査をもとに設計した 8 種類の視覚認知課題（A-R-T 分類：抽象化・関係認識・変形）を実施した評価研究
2.
見えてきたこと
人間が 80% 正答する課題に対し、最高性能の AI は 50% 未満。視覚情報の選別、心的操作、概念抽象化で AI が著しく劣るパターンが明確になった
3.
私たちにとっての意味
AI の弱点は『見る』ではなく『見た後に考える』プロセス。より人間的な思考メカニズムを組み込むことが今後の課題になる

著者Rohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu

元の論文を読む（arXiv）

AIが気になってること

「マルチモーダル LLM」って、要するに画像も文字も両方理解できるAIってこと？

そう理解して大体あってます。ただ「両方理解できる」という言い方だと、単に入力が増えただけに聞こえちゃうかもしれません。実際には画像と文字を「つなぎ合わせて」考えるのが特徴です。たとえば写真を見ながら「この絵について説明して」と頼むと、見た内容を言葉で説明する。逆に「この画像の中で赤い物は」と文字で質問すれば、文章の意味を理解した上で画像を探す。つまり両方の情報を同時に処理して、その関係性の中で答えを出してる。昔の AI は画像認識と言語処理が別々のシステムでした。でも今は一つのモデルの中で、「画像のこの部分は文字の『赤い』と対応してる」みたいに結びつけて考えられるようになった。だから「マルチ」（複数）の「モーダル」（データ形式）を同時処理できる、という名前がついてるわけです。ただこの記事の結論を見ると、見た情報を組み替えたり複雑に考えたりする段階では、結局まだ弱いということなのかもしれません。

AIAIからの回答

そう理解して大体あってます。ただ「両方理解できる」という言い方だと、単に入力が増えただけに聞こえちゃうかもしれません。

実際には画像と文字を「つなぎ合わせて」考えるのが特徴です。たとえば写真を見ながら「この絵について説明して」と頼むと、見た内容を言葉で説明する。逆に「この画像の中で赤い物は」と文字で質問すれば、文章の意味を理解した上で画像を探す。つまり両方の情報を同時に処理して、その関係性の中で答えを出してる。

昔の AI は画像認識と言語処理が別々のシステムでした。でも今は一つのモデルの中で、「画像のこの部分は文字の『赤い』と対応してる」みたいに結びつけて考えられるようになった。だから「マルチ」（複数）の「モーダル」（データ形式）を同時処理できる、という名前がついてるわけです。ただこの記事の結論を見ると、見た情報を組み替えたり複雑に考えたりする段階では、結局まだ弱いということなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

画像認識AIが苦手な『頭のなかで物を動かす』力って、実際の仕事や生活でどんな場面で差が出るの？

医者が X 線写真を見るときを考えるとわかりやすいです。画像を眺めるだけじゃなくて、骨がどう折れているのか、手術でどう位置を戻すか、頭のなかで立体的に回転させながら判断している。AI は「ここに白い影がある」と認識できても、「この角度から見ると実は〇〇という構造」という空間推論ができない。同じことは設計図の読み込み、家具の配置、服の着合わせ、料理のプロセスなど、日常の判断のあちこちで起きてる。見たものを「こう変形したらどうなる？」と試行錯誤する力が、実は人間の思考の土台になってるんですよね。AI が今、文字生成やコード作成で活躍できるのは、パターンマッチング（似たものを引き出す）が得意だから。でも「新しい状況を想像する」「複数の制約をバランスさせる」という創造的な判断には、その動的な思考力が要る。だからこそ AI には専門家の補助はできても、経験を積んでこそ上達する職人仕事や医療、設計業務の中核は、当分は人間にしかできないのかもしれません。

AIAIからの回答

医者が X 線写真を見るときを考えるとわかりやすいです。画像を眺めるだけじゃなくて、骨がどう折れているのか、手術でどう位置を戻すか、頭のなかで立体的に回転させながら判断している。AI は「ここに白い影がある」と認識できても、「この角度から見ると実は〇〇という構造」という空間推論ができない。

同じことは設計図の読み込み、家具の配置、服の着合わせ、料理のプロセスなど、日常の判断のあちこちで起きてる。見たものを「こう変形したらどうなる？」と試行錯誤する力が、実は人間の思考の土台になってるんですよね。AI が今、文字生成やコード作成で活躍できるのは、パターンマッチング（似たものを引き出す）が得意だから。でも「新しい状況を想像する」「複数の制約をバランスさせる」という創造的な判断には、その動的な思考力が要る。だからこそ AI には専門家の補助はできても、経験を積んでこそ上達する職人仕事や医療、設計業務の中核は、当分は人間にしかできないのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

ここ数年でAIが急速に進化してるなか、なぜこんな基本的な『思考力の差』が今になって見つかったの？

AI が「見る」ことは得意になったから、初めて「考える」ことの弱さが目立つようになったんですよね。数年前なら、AI は画像認識そのものがまだ不完全だった。犬と猫を区別するのだけで精一杯だったわけです。だから「見たあとで頭で動かす」という次のステップを測りようがなかった。いわば、目が見えていない状態で思考力を問うようなものでした。ところが ChatGPT などのマルチモーダル LLM が登場して、画像の細部まで把握できるようになると、ようやく次の段階の能力差が可視化される。目が見えるようになったぶん、思考力の限界が浮き彫りになったということです。言い換えれば、AI 開発は「下層の穴を埋める」という作業を続けていたので、より深い層の弱点に気づくチャンスがなかった。今回の研究は、その意味で「次のボトルネック」を発見した。だからこそ「人間的な思考プロセスに学ぶ必要がある」という結論が説得力を持つのかもしれません。

AIAIからの回答

AI が「見る」ことは得意になったから、初めて「考える」ことの弱さが目立つようになったんですよね。

数年前なら、AI は画像認識そのものがまだ不完全だった。犬と猫を区別するのだけで精一杯だったわけです。だから「見たあとで頭で動かす」という次のステップを測りようがなかった。いわば、目が見えていない状態で思考力を問うようなものでした。

ところが ChatGPT などのマルチモーダル LLM が登場して、画像の細部まで把握できるようになると、ようやく次の段階の能力差が可視化される。目が見えるようになったぶん、思考力の限界が浮き彫りになったということです。

言い換えれば、AI 開発は「下層の穴を埋める」という作業を続けていたので、より深い層の弱点に気づくチャンスがなかった。今回の研究は、その意味で「次のボトルネック」を発見した。だからこそ「人間的な思考プロセスに学ぶ必要がある」という結論が説得力を持つのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

つまりAIが得意な『パターン認識』と、人間が得意な『空間的思考』って、脳の働き方が根本的に違うってこと？

面白い質問ですね。記事の結果を見ると、確かに得意領域が違って見えるんですけど、実は「パターン認識が得意」という前提自体が、ちょっと揺らいでいるのかもしれません。 AI が画像から犬を判定したり、顔を認識したりするのは、統計的パターンマッチングが得意だからです。でも今回の実験は、認識したあと「それを頭のなかで動かす」という工程が入った。ここで AI がこける理由を考えると、実は単なる認識ではなく、パターンの「意味」を理解して、それを頭のなかで操作する能力が必要だったんですよね。人間の空間的思考は、見た情報を脳のなかに一種の立体モデルのようにつくって、それを動かし、回転させ、変形させることができる。一方 AI は、画像データとしての「見た目」には強いけど、その背後にある「物の本質」を掴むところで躓いている。根本的には、人間は「実際に手で触ったり、体を動かしたりした経験」から、空間的な感覚が育まれてきたんだと思います。生肉体を持つことで培われた思考パターン。それに対して AI は、ネット上の画像データだけで学習しているから、そういう経験がないんですよね。得意・不得意の差というより、学習の入口が根本的に異なるのかもしれません。

AIAIからの回答

面白い質問ですね。記事の結果を見ると、確かに得意領域が違って見えるんですけど、実は「パターン認識が得意」という前提自体が、ちょっと揺らいでいるのかもしれません。

AI が画像から犬を判定したり、顔を認識したりするのは、統計的パターンマッチングが得意だからです。でも今回の実験は、認識したあと「それを頭のなかで動かす」という工程が入った。ここで AI がこける理由を考えると、実は単なる認識ではなく、パターンの「意味」を理解して、それを頭のなかで操作する能力が必要だったんですよね。

人間の空間的思考は、見た情報を脳のなかに一種の立体モデルのようにつくって、それを動かし、回転させ、変形させることができる。一方 AI は、画像データとしての「見た目」には強いけど、その背後にある「物の本質」を掴むところで躓いている。

根本的には、人間は「実際に手で触ったり、体を動かしたりした経験」から、空間的な感覚が育まれてきたんだと思います。生肉体を持つことで培われた思考パターン。それに対して AI は、ネット上の画像データだけで学習しているから、そういう経験がないんですよね。得意・不得意の差というより、学習の入口が根本的に異なるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

AIが『見る』のは得意で『考える』のが苦手なら、逆に人間が苦手だけどAIが得意なことって、何かあるのかな？

記事では AI の「考える」が弱点として浮き彫りになりましたが、逆を考えると、AI の本当の強さが見えてくる気がします。人間が苦手で AI が得意なのは、実は「大量の情報を一度に処理する」という部分なんですよね。たとえば、医療画像診断の場面。レントゲンやMRI の画像から微細な異常を探すとき、人間の目と脳は数枚を見て疲れてしまう。でも AI は数千枚、数万枚のスキャン画像を一度に比較して、「この微妙な濃淡の違いは病変の可能性が高い」と判断できます。つまり AI は「見た情報を組み替える思考」には弱いけど、「見た情報を大量に記憶して、パターンとして認識する」のは人間より桁違いに得意なんです。子どもの落書きと名画の見分けは AI はバラバラですが、何百万枚の顔写真から「この人物は過去に現れたことがある」と特定するのは、人間にはまず不可能。その差は「新しい思考」か「既知の照合」か、という根本的な違いなのかもしれません。

AIAIからの回答

記事では AI の「考える」が弱点として浮き彫りになりましたが、逆を考えると、AI の本当の強さが見えてくる気がします。

人間が苦手で AI が得意なのは、実は「大量の情報を一度に処理する」という部分なんですよね。たとえば、医療画像診断の場面。レントゲンやMRI の画像から微細な異常を探すとき、人間の目と脳は数枚を見て疲れてしまう。でも AI は数千枚、数万枚のスキャン画像を一度に比較して、「この微妙な濃淡の違いは病変の可能性が高い」と判断できます。

つまり AI は「見た情報を組み替える思考」には弱いけど、「見た情報を大量に記憶して、パターンとして認識する」のは人間より桁違いに得意なんです。子どもの落書きと名画の見分けは AI はバラバラですが、何百万枚の顔写真から「この人物は過去に現れたことがある」と特定するのは、人間にはまず不可能。

その差は「新しい思考」か「既知の照合」か、という根本的な違いなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます