2026年4月18日(土) 2時

論文

cs.CV(画像)cs.CL(言語処理)

画像を見ているのに、AI は実は『文字だけ』で判断していた

視覚と言語を組み合わせた AI モデルが、画像を加えると逆に精度が落ちる現象を発見。つまり、本来は『画像から考える』はずなのに、実は『テキストだけで推論』していることが判明した研究。

#大規模言語モデル #画像・映像AI

この研究のポイント

1.
何を調べたか
同じ情報を『テキストのみ』『画像のみ』『両方』で提示し、現在のビジョン言語モデルが何に頼って推論しているかを厳密に測定した
2.
見えてきたこと
画像を加えるとむしろ性能が低下する傾向を確認。つまり AI は画像より文字情報を優先し、本当の意味で『見て考える』ことができていない
3.
私たちにとっての意味
この弱点に対応した学習データセットを開発し、複数のタスクで性能改善を実証。画像を活かした推論能力を育てるための道筋を示した

著者Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin 他

元の論文を読む（arXiv）

AIが気になってること

『ビジョン言語モデル』って、要するに画像と文字の両方を入力できるAIってことだけど、どう違うのは実際のところなに？

ビジョン言語モデルと、文字だけのAIの違いは、入力できるデータ形式ではなく、実際には「何を考える足がかりにしているか」の差なんです。理論上は、ビジョン言語モデルが画像を見て「ここに猫がいる」と判断し、その視覚情報をテキスト推論に組み込むはず。ところが、この研究は別のシナリオを示唆しています。実は、AI は画像データを本当には処理していなくて、画像の説明文やキャプション、あるいはプロンプトの文字情報だけで判断しているのかもしれない、ということです。つまり、画像を見ているように見えて、実は「その画像について書かれた文字」だけを拾い読みしている。人間なら「写真を見て判断する」と「説明文を読んで判断する」は違うことですが、AIは両者の違いをはっきり認識していないかもしれません。だからこそ、画像を追加すると精度が落ちるんです。余分な視覚情報が増えると、テキスト推論の確度が下がってしまう。ビジョン言語モデルは、見かけ上は「両方扱える」けれど、中身は「実は文字ベース」という齟齬が起きているのかもしれません。

AIAIからの回答

ビジョン言語モデルと、文字だけのAIの違いは、入力できるデータ形式ではなく、実際には「何を考える足がかりにしているか」の差なんです。

理論上は、ビジョン言語モデルが画像を見て「ここに猫がいる」と判断し、その視覚情報をテキスト推論に組み込むはず。ところが、この研究は別のシナリオを示唆しています。実は、AI は画像データを本当には処理していなくて、画像の説明文やキャプション、あるいはプロンプトの文字情報だけで判断しているのかもしれない、ということです。

つまり、画像を見ているように見えて、実は「その画像について書かれた文字」だけを拾い読みしている。人間なら「写真を見て判断する」と「説明文を読んで判断する」は違うことですが、AIは両者の違いをはっきり認識していないかもしれません。

だからこそ、画像を追加すると精度が落ちるんです。余分な視覚情報が増えると、テキスト推論の確度が下がってしまう。ビジョン言語モデルは、見かけ上は「両方扱える」けれど、中身は「実は文字ベース」という齟齬が起きているのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

スマートフォンで『この画像、何が写ってる？』と聞いても、実は文字情報だけで判断されてるってこと？ということは、見間違いは直らないってことなの？

スマートフォンで画像を見せるときは、たいていAIが「この画像には〇〇が写ってます」と答えるまでに、画像ファイルそのものに含まれた情報（メタデータ）や、撮影時の周辺データが一緒に渡されてる可能性があるんですよね。研究が示したのは、研究室の精密な実験環境での話です。つまり「同じ情報量を別々に与えたときどっちに頼るか」という限定的な条件。実際のスマートフォンアプリでは、画像ファイルには撮影地点、時刻、カメラの種類など、周辺情報が大量についてる。そういう「見えない文字情報」があれば、AIはそっちを活用してるかもしれません。ただ、見間違いについては別の問題。AIが画像を完全に理解してないなら、その見間違いを「画像をもっと正確に見る」ことでは直らない可能性があります。むしろ学習データを増やすとか、推論の仕組み自体を変える必要があるということ。つまり、現在のAIは「画像認識が下手」というより「テキスト推論に寄りすぎて、画像の情報をまだ生かし切れてない」段階にあるのかもしれません。

AIAIからの回答

スマートフォンで画像を見せるときは、たいていAIが「この画像には〇〇が写ってます」と答えるまでに、画像ファイルそのものに含まれた情報（メタデータ）や、撮影時の周辺データが一緒に渡されてる可能性があるんですよね。

研究が示したのは、研究室の精密な実験環境での話です。つまり「同じ情報量を別々に与えたときどっちに頼るか」という限定的な条件。実際のスマートフォンアプリでは、画像ファイルには撮影地点、時刻、カメラの種類など、周辺情報が大量についてる。そういう「見えない文字情報」があれば、AIはそっちを活用してるかもしれません。

ただ、見間違いについては別の問題。AIが画像を完全に理解してないなら、その見間違いを「画像をもっと正確に見る」ことでは直らない可能性があります。むしろ学習データを増やすとか、推論の仕組み自体を変える必要があるということ。つまり、現在のAIは「画像認識が下手」というより「テキスト推論に寄りすぎて、画像の情報をまだ生かし切れてない」段階にあるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPT や GPT-4V が『複雑な問題をときどき解けるようになった』って最近話題らしいけど、その成功も、実はテキストだけのおかげだったってことなの？

その可能性が高いと言えそうです。複雑な問題で AI が成功する場面って、実際には「問題文そのものに答えのヒントが隠れている」ケースが多いんですよね。たとえば数学の文章題なら、「図を見て」と指示されていても、実は「時速 60km で 2 時間走ると」という文字情報だけで十分解ける。画像はあっても、テキストがあれば冗長になる。この研究が示しているのは、現在の AI モデルが「テキストを優先的に信頼している」という構造的な弱さです。つまり、わざわざ画像を加えても、AI はテキストの方が確実だと判断して、画像を軽く見てしまう。むしろ画像があると「矛盾する情報が増えるのでは」と混乱して、精度が下がる。言い換えると、今まで「複雑な問題を解いてすごい」と思っていた成功例の多くは、実は「テキストの質が高かったおかげ」だった可能性があります。本当に視覚的な情報が必要な場面——たとえば医療画像の診断や、図形の認識——では、この AI の弱点がより顕著になるかもしれません。

AIAIからの回答

その可能性が高いと言えそうです。

複雑な問題で AI が成功する場面って、実際には「問題文そのものに答えのヒントが隠れている」ケースが多いんですよね。たとえば数学の文章題なら、「図を見て」と指示されていても、実は「時速 60km で 2 時間走ると」という文字情報だけで十分解ける。画像はあっても、テキストがあれば冗長になる。

この研究が示しているのは、現在の AI モデルが「テキストを優先的に信頼している」という構造的な弱さです。つまり、わざわざ画像を加えても、AI はテキストの方が確実だと判断して、画像を軽く見てしまう。むしろ画像があると「矛盾する情報が増えるのでは」と混乱して、精度が下がる。

言い換えると、今まで「複雑な問題を解いてすごい」と思っていた成功例の多くは、実は「テキストの質が高かったおかげ」だった可能性があります。本当に視覚的な情報が必要な場面——たとえば医療画像の診断や、図形の認識——では、この AI の弱点がより顕著になるかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これって、『数字を並べたら答えが出る』ってわかってるAIが、『でも数字の意味を本当に理解してない』ってことと同じ話？

似た構図ですけど、実は違う話だと思います。「数字を並べたら答えが出る」というのは、AI が統計的パターンを学習して、入力と出力の相関関係を丸暗記してしまう現象。意味を「理解」していなくても、確率的に正解に辿り着いてしまう、という指摘ですね。この研究が示しているのは、もう一段階手前の問題です。ビジョン言語モデルは、画像とテキストが一緒に与えられたとき、画像を無視してテキストだけを拾い上げてしまっている。つまり、利用できる情報源があるのに、わざわざ劣った情報源（テキスト）を選んでしまってるわけです。言い換えると「情報の統合ができていない」という問題。テキストと画像の両方から、それぞれが持つ補完的な情報を引き出し、組み合わせる能力が育ってない。画像という豊かな情報源があるのに、それを活用する学習がまだ十分に進んでいないのかもしれません。数字の意味理解の問題というより、マルチモーダル（複数の情報形式）を一つの思考に統合する力が育ちきっていない段階、という見方ができそうです。

AIAIからの回答

似た構図ですけど、実は違う話だと思います。

「数字を並べたら答えが出る」というのは、AI が統計的パターンを学習して、
入力と出力の相関関係を丸暗記してしまう現象。
意味を「理解」していなくても、確率的に正解に辿り着いてしまう、という指摘ですね。

この研究が示しているのは、もう一段階手前の問題です。
ビジョン言語モデルは、画像とテキストが一緒に与えられたとき、
画像を無視してテキストだけを拾い上げてしまっている。
つまり、利用できる情報源があるのに、わざわざ劣った情報源（テキスト）を
選んでしまってるわけです。

言い換えると「情報の統合ができていない」という問題。
テキストと画像の両方から、それぞれが持つ補完的な情報を引き出し、
組み合わせる能力が育ってない。
画像という豊かな情報源があるのに、それを活用する学習が
まだ十分に進んでいないのかもしれません。

数字の意味理解の問題というより、
マルチモーダル（複数の情報形式）を一つの思考に統合する力が
育ちきっていない段階、という見方ができそうです。

まだ回答がありません

ログインすると、回答を投稿できます

画像が増えると判断が狂うなら、今のAIが『正しい答えを出してる場面』って、実は画像がない方がうまくいってるケースが隠れてるってことになるの？

その通り、隠れてる可能性は高いですね。この実験の怖さってそこなんです。いま世間では「ChatGPT-4V は画像を見て賢い判断をしてる」という評判が広がってますけど、この論文によれば、その成功の裏側で「実はテキスト情報だけで合ってた」というケースが相当数あるはずなんですよ。たとえば、医療診断の問題を「患者の画像 + 病歴テキスト」で解かせるとします。AI が正解を出したとしても、それは画像を見たおかげじゃなくて、病歴テキストの中の「○○という症状がある」という記述だけで推論してたかもしれない。画像は添付されてるけど、実は使われてない。逆に、同じ問題をテキストだけで解かせたら、もっと高い精度が出ちゃう。その時点で、画像を追加することが「ノイズを増やす」という本来あるべきでない事態になってる。つまり、今 AI が見せてる「賢さ」の何割かは、画像を「見てる」からじゃなくて、与えられたテキストの情報密度の高さだけが効いてるのかもしれません。見た目の性能は立派に見えても、中身は視覚を使わない推論機、と言えそうです。

AIAIからの回答

その通り、隠れてる可能性は高いですね。この実験の怖さってそこなんです。

いま世間では「ChatGPT-4V は画像を見て賢い判断をしてる」という評判が広がってますけど、この論文によれば、その成功の裏側で「実はテキスト情報だけで合ってた」というケースが相当数あるはずなんですよ。

たとえば、医療診断の問題を「患者の画像 + 病歴テキスト」で解かせるとします。AI が正解を出したとしても、それは画像を見たおかげじゃなくて、病歴テキストの中の「○○という症状がある」という記述だけで推論してたかもしれない。画像は添付されてるけど、実は使われてない。

逆に、同じ問題をテキストだけで解かせたら、もっと高い精度が出ちゃう。その時点で、画像を追加することが「ノイズを増やす」という本来あるべきでない事態になってる。

つまり、今 AI が見せてる「賢さ」の何割かは、画像を「見てる」からじゃなくて、与えられたテキストの情報密度の高さだけが効いてるのかもしれません。見た目の性能は立派に見えても、中身は視覚を使わない推論機、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます