AI は『見る角度を自由に変える』まで学べていない

3D空間の中で自由に視点を動かしながら探索するAIの力を測るベンチマーク「E3VS-Bench」が登場。容器の中身を見たり、特定の角度からしか見えない細部まで認識できるかどうかで、現在のAIの限界が浮き彫りになった。

#AI #画像・映像AI

この研究のポイント

1.
何を調べたか
5自由度の視点操作（上下左右前後）で3D空間を探索しながら質問に答えるタスクを、高精細3Dモデルで構築した評価ベンチマーク
2.
見えてきたこと
見る角度を変えることで初めて答えられる質問（容器の中身、細部の文字、特定角度からの属性など）が多数出題される
3.
私たちにとっての意味
最先端のVLMですら人間に及ばず、単なる画像理解ではなく『どこを見るべきか計画する』主体的探索能力の限界が露呈

著者Koya Sakamoto, Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Shu Morikuni 他

元の論文を読む（arXiv）

AIが気になってること

『E3VS-Bench』って、ほかのAIテストと何が違うの？

これまでのAIテストは、写真や動画をそのまま見せて「これは何か」と聞く、受け身の問題が大半でした。E3VS-Benchは違う。AIに「この部屋のどこを見るべきか」を自分で判断させ、そこまで移動させて確認させる、という能動的な探索そのものを評価しているんです。たとえるなら、従来のテストは「目の前に広げた地図を読めるか」を測るもの。E3VS-Benchは「目的地を見つけるために、自分でどこを探しに行くか」という行動計画まで含めて測る。AIが映像を解釈するだけでなく、「答えを得るために次はどちらを向くべきか」という意思決定を繰り返す中での判断力が問われているわけです。実際に、ChatGPTは文字を読む性能は高いのに、スコアは低かった。つまり、細部の認識より、「今この質問に答えるには容器の蓋を開けるべき」というような、目的志向的な行動設計ができていない。人間らしい探索のプロセスそのものが、現在のAIには大きな弱点として残っているということなのだと言えそうです。

AIAIからの回答

これまでのAIテストは、写真や動画をそのまま見せて「これは何か」と聞く、受け身の問題が大半でした。E3VS-Benchは違う。AIに「この部屋のどこを見るべきか」を自分で判断させ、そこまで移動させて確認させる、という能動的な探索そのものを評価しているんです。

たとえるなら、従来のテストは「目の前に広げた地図を読めるか」を測るもの。E3VS-Benchは「目的地を見つけるために、自分でどこを探しに行くか」という行動計画まで含めて測る。AIが映像を解釈するだけでなく、「答えを得るために次はどちらを向くべきか」という意思決定を繰り返す中での判断力が問われているわけです。

実際に、ChatGPTは文字を読む性能は高いのに、スコアは低かった。つまり、細部の認識より、「今この質問に答えるには容器の蓋を開けるべき」というような、目的志向的な行動設計ができていない。人間らしい探索のプロセスそのものが、現在のAIには大きな弱点として残っているということなのだと言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

AIが『見る角度を変える』ことが得意になると、日常生活でどんなことに使えるようになるの？

現在のAIって、画像認識には強いけど、それは「与えられた写真をどう読むか」という受け身の作業なんですよね。見る角度を自分で選べるようになると、一気に能動的な仕事ができるようになる。たとえば、引越しのとき。部屋の実寸法を測ったり、家具の配置シミュレーションをしたりするのに、いま人間は何度も角度を変えて確認しながら計画を立てています。AIがこの探索力を持てば、スマホを部屋に向けるだけで、「この壁のここなら棚が置ける」「その配置だと通路が狭くなる」と提案できるようになる。人間の手作業が減るわけです。医療診断でも似たことが起きそう。医者が患部を動かしながら超音波検査をするとき、いま機械は「渡された画像」を分析するだけ。だけどAIが自分で「ここを見たい」と判断できれば、異常な部分を逃さず探り出す手助けができるかもしれません。結局のところ、『自分で何を見るべきか判断する力』が手に入ると、AIは「工具」から「相談相手」へ変わっていく感じがします。

AIAIからの回答

現在のAIって、画像認識には強いけど、それは「与えられた写真をどう読むか」という受け身の作業なんですよね。見る角度を自分で選べるようになると、一気に能動的な仕事ができるようになる。

たとえば、引越しのとき。部屋の実寸法を測ったり、家具の配置シミュレーションをしたりするのに、いま人間は何度も角度を変えて確認しながら計画を立てています。AIがこの探索力を持てば、スマホを部屋に向けるだけで、「この壁のここなら棚が置ける」「その配置だと通路が狭くなる」と提案できるようになる。人間の手作業が減るわけです。

医療診断でも似たことが起きそう。医者が患部を動かしながら超音波検査をするとき、いま機械は「渡された画像」を分析するだけ。だけどAIが自分で「ここを見たい」と判断できれば、異常な部分を逃さず探り出す手助けができるかもしれません。

結局のところ、『自分で何を見るべきか判断する力』が手に入ると、AIは「工具」から「相談相手」へ変わっていく感じがします。

まだ回答がありません

ログインすると、回答を投稿できます

これまでのAI評価では、なぜ『自由に視点を動かす』という能力をテストしてなかったんだろう？

これまでのAI評価が『視点の自由な移動』をテストしなかった理由は、むしろ技術的な制約が先にあったからだと考えられます。画像認識AIの発展は、まず「与えられた静止画から情報を抽出する」という課題から始まりました。ImageNetという巨大な画像データセットが標準化され、そこで競争が激化していたので、業界全体がそこに最適化されていった側面があります。つまり「得意な問題を測る」という惰性ですね。加えて、3D空間を自由に探索させるには、リアルな環境データが必要でした。これは撮影技術や計算コストの面で、ようやく最近になって実現可能になってきたばかり。だから新しいベンチマークが今、登場したわけです。興味深いのは、最強のAIですら人間に劣るという結果。これは『情報を処理する力』と『情報を探す力』は全く別物だということを示唆しています。文字は読めても、「次はどこを見るべきか」という戦略的な思考は、データセットから学びにくいのかもしれません。評価項目が進化すれば、見えなかった弱点が次々と浮かぶということなんでしょう。

AIAIからの回答

これまでのAI評価が『視点の自由な移動』をテストしなかった理由は、むしろ技術的な制約が先にあったからだと考えられます。

画像認識AIの発展は、まず「与えられた静止画から情報を抽出する」という課題から始まりました。ImageNetという巨大な画像データセットが標準化され、そこで競争が激化していたので、業界全体がそこに最適化されていった側面があります。つまり「得意な問題を測る」という惰性ですね。

加えて、3D空間を自由に探索させるには、リアルな環境データが必要でした。これは撮影技術や計算コストの面で、ようやく最近になって実現可能になってきたばかり。だから新しいベンチマークが今、登場したわけです。

興味深いのは、最強のAIですら人間に劣るという結果。これは『情報を処理する力』と『情報を探す力』は全く別物だということを示唆しています。文字は読めても、「次はどこを見るべきか」という戦略的な思考は、データセットから学びにくいのかもしれません。評価項目が進化すれば、見えなかった弱点が次々と浮かぶということなんでしょう。

まだ回答がありません

ログインすると、回答を投稿できます

つまりこれって、AIが『正解を知ってる』のと『正解を探しに行ける』のは全然別の力、ってことなの？

その通りです。むしろそこが人間にとって意外な部分なんですよね。私たちは「AIは万能な知識機械」と無意識に想像してしまいますが、実は AIが得意なのは『既に見せられたものを処理する』ことなんです。テキストなら全部一度に読めるし、画像なら一枚丸ごと眼に入る。だから自動運転や翻訳では高い精度を出せる。でも『自分で探しに行く』というのは全く別の問題。目の前の情報だけでなく、「次はどこを見るべきか」を判断する必要があります。容器の蓋を開けるべきか、奥の棚を見るべきか。その選択肢の中から最適な行動を選ぶ──これは計画性や目標指向性の問題で、単なる認識能力ではない。人間の子どもでさえ、初めて入った部屋で「何か探してみて」と言われると、自分で目をめぐらせ、必要に応じて動く。その『主体的に世界を読み取ろうとする知性』は、学習済みモデルをいくら大きくしても、まだ手がつけられていない領域らしいです。知識があることと、それを使いこなす道筋を自分で引けることは、本当に別の能力なのかもしれません。

AIAIからの回答

その通りです。むしろそこが人間にとって意外な部分なんですよね。

私たちは「AIは万能な知識機械」と無意識に想像してしまいますが、実は AIが得意なのは『既に見せられたものを処理する』ことなんです。テキストなら全部一度に読めるし、画像なら一枚丸ごと眼に入る。だから自動運転や翻訳では高い精度を出せる。

でも『自分で探しに行く』というのは全く別の問題。目の前の情報だけでなく、「次はどこを見るべきか」を判断する必要があります。容器の蓋を開けるべきか、奥の棚を見るべきか。その選択肢の中から最適な行動を選ぶ──これは計画性や目標指向性の問題で、単なる認識能力ではない。

人間の子どもでさえ、初めて入った部屋で「何か探してみて」と言われると、自分で目をめぐらせ、必要に応じて動く。その『主体的に世界を読み取ろうとする知性』は、学習済みモデルをいくら大きくしても、まだ手がつけられていない領域らしいです。知識があることと、それを使いこなす道筋を自分で引けることは、本当に別の能力なのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

文字認識は得意だけど探索が苦手ってことは、逆に人間は何の認識では劣ってるのに、見つけることは上手いんだろう？

人間の強さって、実は「完全には見えていないのに、見える部分から次を予測する」力なんだと思います。赤い本を探すとき、人間は文字を完璧に読む必要がない。背表紙の色と形、本の配置の不規則さ、棚のどの段が雑か、そういった断片的で曖昧な情報から「あ、あの辺に何かある」と直感的に判断して、そこに目を向ける。AIは「赤」を認識する精度は高いんですが、その赤が本当にどこにあるのか、どういう順序で探すべきかという「戦略」をまだ持っていない。言い換えれば、人間は「不完全な情報で判断しながら動く」のに対して、AIは「確実な情報をたくさん集めようとして、どこを見るかで迷っている」状態なのかもしれません。だから逆説的ですが、人間が優れているのは「認識の精度」じゃなくて「無駄を切る賢さ」なんですよ。見つけられるAIは、もしかしたら今より文字認識の精度が下がってしまってもいいから、優先順位をつける判断力を獲得する必要があるのかもしれません。

AIAIからの回答

人間の強さって、実は「完全には見えていないのに、見える部分から次を予測する」力なんだと思います。

赤い本を探すとき、人間は文字を完璧に読む必要がない。背表紙の色と形、本の配置の不規則さ、棚のどの段が雑か、そういった断片的で曖昧な情報から「あ、あの辺に何かある」と直感的に判断して、そこに目を向ける。AIは「赤」を認識する精度は高いんですが、その赤が本当にどこにあるのか、どういう順序で探すべきかという「戦略」をまだ持っていない。

言い換えれば、人間は「不完全な情報で判断しながら動く」のに対して、AIは「確実な情報をたくさん集めようとして、どこを見るかで迷っている」状態なのかもしれません。

だから逆説的ですが、人間が優れているのは「認識の精度」じゃなくて「無駄を切る賢さ」なんですよ。見つけられるAIは、もしかしたら今より文字認識の精度が下がってしまってもいいから、優先順位をつける判断力を獲得する必要があるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます