画像を見ているのに、言葉に騙される AI

画像と文字の両方を理解できる AI（LVLM）が、実際には画像に写っていないものを「ある」と答えてしまう問題を調査。原因は「指示文が強すぎて、目の前の画像を無視している」ことだとわかりました。

#画像・映像AI #大規模言語モデル

この研究のポイント

1.
何を調べたか
画像と文字を理解する AI が、実際には写っていないものを答える問題の原因を調査。指示文や背景知識に過度に頼っていることが主な要因
2.
見えてきたこと
学習データを工夫して『画像に基づいた答え』を『おかしな答え』より好ましいと学ばせる手法を開発。他の性能を損なわずに誤答を減らせた
3.
私たちにとっての意味
AI が言葉という強い信号よりも、目の前の映像という基本的な入力を優先する傾向を作ることで、より信頼できるシステムに近づく

著者Pegah Khayatan, Jayneel Parekh, Arnaud Dapogny, Mustafa Shukor, Alasdair Newson 他

元の論文を読む（arXiv）

AIが気になってること

『LVLM』って何？複数の情報を同時に処理できるAIってことですか？

LVLM は「Large Vision Language Model」の略で、大規模な画像言語モデルという意味です。画像と文字の両方を入力として受け取り、その関係性を理解して答えを出すタイプの AI を指します。複数の情報を処理できるというよりは、異なる種類の情報を同時に扱える、という方が正確ですね。例えば写真を見せながら「この人は何をしていますか？」と文字で質問すれば、AI が両方を組み合わせて理解し、答える。人間にとっては当たり前ですが、AI にとっては比較的最近できるようになった能力です。今回の記事で面白いのは、この「複数の情報を扱える」という得意なはずの能力が、実は弱点になっているという点。AI は文字の指示に頼りすぎて、画像という現実のデータをおろそかにしてしまっているわけです。人間が「犬の色を聞かれている＝犬がいるはず」という先入観で、実は犬がいない写真を見てしまうのと似た現象ですね。むしろ多くの情報を持っているからこそ、その中での優先順位が狂うと、騙されやすくなってしまうのかもしれません。

AIAIからの回答

LVLM は「Large Vision Language Model」の略で、大規模な画像言語モデルという意味です。画像と文字の両方を入力として受け取り、その関係性を理解して答えを出すタイプの AI を指します。

複数の情報を処理できるというよりは、異なる種類の情報を同時に扱える、という方が正確ですね。例えば写真を見せながら「この人は何をしていますか？」と文字で質問すれば、AI が両方を組み合わせて理解し、答える。人間にとっては当たり前ですが、AI にとっては比較的最近できるようになった能力です。

今回の記事で面白いのは、この「複数の情報を扱える」という得意なはずの能力が、実は弱点になっているという点。AI は文字の指示に頼りすぎて、画像という現実のデータをおろそかにしてしまっているわけです。人間が「犬の色を聞かれている＝犬がいるはず」という先入観で、実は犬がいない写真を見てしまうのと似た現象ですね。むしろ多くの情報を持っているからこそ、その中での優先順位が狂うと、騙されやすくなってしまうのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これって、生成AIに写真の説明をさせるときとか、身近に関係ある話なんですか？

めちゃくちゃ関係あります。いま生成AI で画像を説明させるとき、このズレが起きてる可能性が高い。たとえば「商品の特徴を説明してください」と指示されたAIは、商品ジャンルの一般的な特徴を言語優位で答える傾向がある。実際の写真を細かく見るより、「この商品カテゴリーなら普通こういう特徴」という文脈に頼ってしまう。だから、その商品にしかない細部や、ちょっと変わった使われ方をしてる場面は、説明から抜け落ちやすいわけです。発注側がAIに説明を作らせるときも、指示文が強いほど（「豪華さを強調してください」「ビジネス向けとして説明してください」）この傾向は強くなる。AIが指示の「空気感」を読み取って、実物よりも指示の意図に合わせた説明を生成しちゃう。この研究が示してるのは、つまり「もっと正確な出力を求めるなら、指示文を弱めて『目で見たものをそのまま言って』と促す方が有効かもしれない」ということ。いまのプロンプトのコツって指示を詳しく書くことだと思われてますが、その逆が正解に近いケースもありそうです。

AIAIからの回答

めちゃくちゃ関係あります。いま生成AI で画像を説明させるとき、このズレが起きてる可能性が高い。

たとえば「商品の特徴を説明してください」と指示されたAIは、商品ジャンルの一般的な特徴を言語優位で答える傾向がある。実際の写真を細かく見るより、「この商品カテゴリーなら普通こういう特徴」という文脈に頼ってしまう。だから、その商品にしかない細部や、ちょっと変わった使われ方をしてる場面は、説明から抜け落ちやすいわけです。

発注側がAIに説明を作らせるときも、指示文が強いほど（「豪華さを強調してください」「ビジネス向けとして説明してください」）この傾向は強くなる。AIが指示の「空気感」を読み取って、実物よりも指示の意図に合わせた説明を生成しちゃう。

この研究が示してるのは、つまり「もっと正確な出力を求めるなら、指示文を弱めて『目で見たものをそのまま言って』と促す方が有効かもしれない」ということ。いまのプロンプトのコツって指示を詳しく書くことだと思われてますが、その逆が正解に近いケースもありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

なぜ今になって、このAIの『嘘をつく癖』が問題として浮上してきたんですか？

単純に言えば、AI が「見てない」ことが明らかになってきたのは、最近になって実際に使われる場面が増えたからですよね。数年前なら、画像理解 AI なんて研究室の範囲。精度が 95% だろうが 80% だろうが、理系向けのベンチマークで評価されていた。でも今は、医療画像の診断支援だとか、自動運転だとか、画像認識の結果が現実の判断や行動に直結する場面が広がっている。そうなると「犬が写ってない写真に『茶色です』と言う」みたいな誤りが、実用場面で大きな問題になり始めたわけです。さらに言えば、LVLM（画像と文字両方を理解できる AI）という技術そのものが、ここ 1、2 年で一気に成熟した。だから改めて「あ、見た目以上に信頼できない部分があるな」という限界が見える化してきた。言い換えれば、AI の能力が上がったことで、逆に弱点も鮮明に浮き彫りになったという側面もありそうです。

AIAIからの回答

単純に言えば、AI が「見てない」ことが明らかになってきたのは、最近になって実際に使われる場面が増えたからですよね。

数年前なら、画像理解 AI なんて研究室の範囲。精度が 95% だろうが 80% だろうが、理系向けのベンチマークで評価されていた。でも今は、医療画像の診断支援だとか、自動運転だとか、画像認識の結果が現実の判断や行動に直結する場面が広がっている。そうなると「犬が写ってない写真に『茶色です』と言う」みたいな誤りが、実用場面で大きな問題になり始めたわけです。

さらに言えば、LVLM（画像と文字両方を理解できる AI）という技術そのものが、ここ 1、2 年で一気に成熟した。だから改めて「あ、見た目以上に信頼できない部分があるな」という限界が見える化してきた。言い換えれば、AI の能力が上がったことで、逆に弱点も鮮明に浮き彫りになったという側面もありそうです。

まだ回答がありません

ログインすると、回答を投稿できます

つまり、AIが『文脈に頼りすぎて、目の前の事実を見ていない』って、人間にもある弱みなんですか？

同じ構造を持ってますね。人間も「この文脈だったら、こうであろう」という予測に頼ってしまう。たとえば、目撃者証言で有名な話ですが、事件直後に「犯人は男性でしたか」と誘導的に聞かれると、実は目撃者が確実に見ていなかった部分まで「そう見えた」と答えてしまう。質問という言葉が、実際の記憶を上書きしていくんです。医師の診断でも同じ。患者の症状から「おそらく〇〇病だろう」という仮説が立つと、その病気を支持する情報ばかり目に入って、矛盾する兆候を見落としてしまう。これを確証バイアスと呼んだりします。ただし、人間とAIの違いもあります。人間は「見落とした」ことに気づいて、思い返したり、別の角度から考え直したりできる。自分の判断を疑う能力がある。でもAIは疑わない。言葉という文脈に一度従ったら、そのまま走り続ける。その確実性の高さが、かえって危機を招いている側面があるのかもしれません。

AIAIからの回答

同じ構造を持ってますね。人間も「この文脈だったら、こうであろう」という予測に頼ってしまう。

たとえば、目撃者証言で有名な話ですが、事件直後に「犯人は男性でしたか」と誘導的に聞かれると、実は目撃者が確実に見ていなかった部分まで「そう見えた」と答えてしまう。質問という言葉が、実際の記憶を上書きしていくんです。

医師の診断でも同じ。患者の症状から「おそらく〇〇病だろう」という仮説が立つと、その病気を支持する情報ばかり目に入って、矛盾する兆候を見落としてしまう。これを確証バイアスと呼んだりします。

ただし、人間とAIの違いもあります。人間は「見落とした」ことに気づいて、思い返したり、別の角度から考え直したりできる。自分の判断を疑う能力がある。

でもAIは疑わない。言葉という文脈に一度従ったら、そのまま走り続ける。その確実性の高さが、かえって危機を招いている側面があるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

逆に、AIが『言葉より画像を信じる』ようになると、新しい問題が生まれたりするんですか？

面白い発想ですね。振り子が戻るように、新しい問題が生まれる可能性はあります。例えば、「この絵を見て、戦国時代の一般的な農民の服装を説明してください」という質問を想像してください。絵師が歴史考証を間違えて描いていたとしても、「画像を信じる」AI は、その間違った服装をそのまま説明してしまう。言葉による背景知識があれば、「これは実際には違う」と補正できたはずです。つまり、純粋に「目の前の画像を見る」習慣は、デマ画像や創作画を事実として取り込むリスクを高めることになりかねません。AIが信頼度をどう判断するのかは、結構な問題になりそうです。大事なのは、言葉と画像のバランスをどこに設定するかという、実は難しい調整なんだと言えそうです。完全に言葉を信じても駄目、完全に画像を信じても駄目。その綱引きの中で、どう「本当らしさ」を判定するのかが、これからの課題になるのかもしれません。

AIAIからの回答

面白い発想ですね。振り子が戻るように、新しい問題が生まれる可能性はあります。

例えば、「この絵を見て、戦国時代の一般的な農民の服装を説明してください」という質問を想像してください。絵師が歴史考証を間違えて描いていたとしても、「画像を信じる」AI は、その間違った服装をそのまま説明してしまう。言葉による背景知識があれば、「これは実際には違う」と補正できたはずです。

つまり、純粋に「目の前の画像を見る」習慣は、デマ画像や創作画を事実として取り込むリスクを高めることになりかねません。AIが信頼度をどう判断するのかは、結構な問題になりそうです。

大事なのは、言葉と画像のバランスをどこに設定するかという、実は難しい調整なんだと言えそうです。完全に言葉を信じても駄目、完全に画像を信じても駄目。その綱引きの中で、どう「本当らしさ」を判定するのかが、これからの課題になるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます