AI は化学反応図が『読めない』—

ChatGPT の画像版「マルチモーダルAI」は単純な図は読めるのに、複雑に絡み合った構造になるとたちまち失敗することが判明。化学反応図を使った1600以上のテスト問題で、17種類のAIを調査した結果です。

#画像・映像AI #AI

この研究のポイント

1.
何を調べたか
化学反応図を使い、マルチモーダルAIが複雑な構造を理解する能力を測定。1618個の専門家による問題で17種類のAIを評価した。
2.
見えてきたこと
単純な要素認識では得意でも、分岐・合流・ループなど全体の構造を読む段階で性能が30%以上低下。認識ではなく推論が弱点である。
3.
私たちにとっての意味
AIの構造理解の限界を明らかにすることで、視覚的な推論能力を根本的に改善する必要性を指摘。この知見は今後のAI設計に方向性を示す。

著者Qiang Xu, Shengyuan Bai, Yu Wang, He Cao, Leqing Chen 他

元の論文を読む（arXiv）

AIが気になってること

『マルチモーダルAI』って、画像を読むAIということ？それとも、何か別の機能が入ってるの？

マルチモーダルというのは、テキストと画像を両方扱えるということです。ChatGPT も最初はテキストだけでしたが、アップデートで画像も読み込める版が出た。それが「マルチモーダルAI」と呼ばれてます。「モーダル」って、簡単に言うと「入力の形式」。テキストが一つのモーダル、画像が別のモーダル。「マルチ」だから複数の形式を同時に処理できるわけです。つまり「猫の画像を見せて『これは何？』と日本語で聞く」みたいなやり取りが一つのAIの中で完結する。記事の要点は、そのマルチモーダルAIが「複雑な構造は読めない」という話。猫を認識するような単純な画像認識なら得意だけど、分子の構造式みたいに線や結合が絡み合った図になると、全体の繋がりを追いきれなくなってしまう。画像を読む力というより、その先の「構造をたどる論理」が足りないということなんですね。単なる画像認識能力の拡張ではなく、複数の情報形式を処理できるようにしたことで、新しい可能性が広がると同時に、別の弱点も露出し始めたといえそうです。

AIAIからの回答

マルチモーダルというのは、テキストと画像を両方扱えるということです。ChatGPT も最初はテキストだけでしたが、アップデートで画像も読み込める版が出た。それが「マルチモーダルAI」と呼ばれてます。

「モーダル」って、簡単に言うと「入力の形式」。テキストが一つのモーダル、画像が別のモーダル。「マルチ」だから複数の形式を同時に処理できるわけです。つまり「猫の画像を見せて『これは何？』と日本語で聞く」みたいなやり取りが一つのAIの中で完結する。

記事の要点は、そのマルチモーダルAIが「複雑な構造は読めない」という話。猫を認識するような単純な画像認識なら得意だけど、分子の構造式みたいに線や結合が絡み合った図になると、全体の繋がりを追いきれなくなってしまう。画像を読む力というより、その先の「構造をたどる論理」が足りないということなんですね。

単なる画像認識能力の拡張ではなく、複数の情報形式を処理できるようにしたことで、新しい可能性が広がると同時に、別の弱点も露出し始めたといえそうです。

まだ回答がありません

ログインすると、回答を投稿できます

化学の問題が解けないAIって、実務的には何が困るの？医薬品開発とかに使われてるから、実際に支障が出てる？

医薬品開発の最前線では、むしろAIの役割がまだ「構造の読み取り」に限定されているから、今のところ致命的な支障は出ていないかもしれません。AIが活躍するのは、膨大な既存データから「この分子は効きそう」と予測する段階。化学反応図そのものを理解する必要は、実は後の方なんです。ただ、危機感が生じるのはここから。AIが医薬品候補を提案した後、人間の化学者がその構造をAIに説明し直す、という非効率が生まれている。本来なら「この分子の反応経路は何か」「どうやって合成するか」をAIが提案まで持っていくはずでした。今は、複雑な合成経路を含む判断が必要な段階で、AIは人間の指示待ちになってしまう。実際の困難は「失敗しない」ことではなく「AIを信用できない」という状態。化学反応図が読めないAIに、重要な判断を任せられない。だから使い手は常に検証作業が必要になり、効率化の恩恵が半減してしまっているのかもしれません。

AIAIからの回答

医薬品開発の最前線では、むしろAIの役割がまだ「構造の読み取り」に限定されているから、今のところ致命的な支障は出ていないかもしれません。AIが活躍するのは、膨大な既存データから「この分子は効きそう」と予測する段階。化学反応図そのものを理解する必要は、実は後の方なんです。

ただ、危機感が生じるのはここから。AIが医薬品候補を提案した後、人間の化学者がその構造をAIに説明し直す、という非効率が生まれている。本来なら「この分子の反応経路は何か」「どうやって合成するか」をAIが提案まで持っていくはずでした。今は、複雑な合成経路を含む判断が必要な段階で、AIは人間の指示待ちになってしまう。

実際の困難は「失敗しない」ことではなく「AIを信用できない」という状態。化学反応図が読めないAIに、重要な判断を任せられない。だから使い手は常に検証作業が必要になり、効率化の恩恵が半減してしまっているのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

ChatGPTは最近『マルチモーダル版』になったんだっけ？前までは文字だけだった？

ChatGPT のマルチモーダル化、実は結構前の話なんですよね。文字だけの時代は確かにありましたが、画像認識の対応は2023年の秋には始まっていました。だから「最近」というより「既に数年前から」の状態です。ただ、一般向けにきちんと広がったのはもっと最近。OpenAI が積極的に推す「Vision」機能が誰もが使える形になったのは2024年あたり。スマートフォンで誰でも画像を投げ込める環境が整ったのは本当に最近と言えそうです。だから感覚としては「なんか昔は文字だけだった気がする」が正しくて、今は「猫の写真を送ったら説明してくれる」みたいなことが普通。でも研究の側面では、その画像認識能力が思ったより脆いということが改めて浮き彫りになってきたということなのかもしれません。進化のスピードが速いので、「この機能、いつからあったっけ」という感覚はずれやすいですね。

AIAIからの回答

ChatGPT のマルチモーダル化、実は結構前の話なんですよね。文字だけの時代は確かにありましたが、画像認識の対応は2023年の秋には始まっていました。だから「最近」というより「既に数年前から」の状態です。

ただ、一般向けにきちんと広がったのはもっと最近。OpenAI が積極的に推す「Vision」機能が誰もが使える形になったのは2024年あたり。スマートフォンで誰でも画像を投げ込める環境が整ったのは本当に最近と言えそうです。

だから感覚としては「なんか昔は文字だけだった気がする」が正しくて、今は「猫の写真を送ったら説明してくれる」みたいなことが普通。でも研究の側面では、その画像認識能力が思ったより脆いということが改めて浮き彫りになってきたということなのかもしれません。進化のスピードが速いので、「この機能、いつからあったっけ」という感覚はずれやすいですね。

まだ回答がありません

ログインすると、回答を投稿できます

これって『細部は見えるのに、全体の繋がりが見えない』みたいなことか——人間の発達障害とか脳の不具合とも似てる現象なの？

確かに表面的には似てますね。ただ、根本的な仕組みが全く違うんです。人間の発達障害の多くは、情報処理の「優先順位」の付け方の違いです。たとえば自閉スペクトラム症の場合、細部への注意が強くて全体へのフォーカスが弱いというより、むしろ「細部の方が意味があると脳が判断する」傾向がある。つまり、見えてない訳じゃなく、見える情報の重要度の判定が違うんです。だから本人は細部にこだわる理由を説明できる。一方、今回のAIの失敗は、そもそも「繋がり」という概念を持っていない可能性があります。画像認識のディープラーニングは、パターンマッチングの積み重ねで成立している。つまり「分子がこの角度なら反応は〇〇」という局所的な学習は得意だけど、「全体として分子Aから分子Bへ水素原子3個が移動する」という論理的な追跡ができていない。見方を変えると、人間の脳は「意味の関連性」を脳全体で並列処理できるのに対し、現在のAIは「次々と到達できる局所的なパターン」しか積み重ねられていない、ということなのかもしれません。

AIAIからの回答

確かに表面的には似てますね。ただ、根本的な仕組みが全く違うんです。

人間の発達障害の多くは、情報処理の「優先順位」の付け方の違いです。たとえば自閉スペクトラム症の場合、細部への注意が強くて全体へのフォーカスが弱いというより、むしろ「細部の方が意味があると脳が判断する」傾向がある。つまり、見えてない訳じゃなく、見える情報の重要度の判定が違うんです。だから本人は細部にこだわる理由を説明できる。

一方、今回のAIの失敗は、そもそも「繋がり」という概念を持っていない可能性があります。画像認識のディープラーニングは、パターンマッチングの積み重ねで成立している。つまり「分子がこの角度なら反応は〇〇」という局所的な学習は得意だけど、「全体として分子Aから分子Bへ水素原子3個が移動する」という論理的な追跡ができていない。

見方を変えると、人間の脳は「意味の関連性」を脳全体で並列処理できるのに対し、現在のAIは「次々と到達できる局所的なパターン」しか積み重ねられていない、ということなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

逆に、AIが『複雑な構造を追える』ようになったら、人間の化学者とか設計者の仕事ってどうなるの？

化学者や設計者の仕事が一気に奪われるというより、その手前にある「構造の読み込み」という単純労働から解放される流れが先に来そうです。いま論文で浮き彫りになってるのは、複雑な構造を「理解する」と「実務に使う」は全然別のタスクだということ。AIが化学反応図をパーフェクトに読めるようになったとしても、「この反応条件で安全か」「製造コストは許容範囲か」「副産物のリスクは」といった判断は、経験と直感のある人間にしかできない。むしろAIが図を瞬時に解析できるなら、化学者は「パターン認識の退屈な部分」から救われて、もっと創造的な部分—新しい分子設計や、未知の反応経路の仮説構築に時間を使える。その結果、産業全体の生産性は上がるかもしれません。歴史的には、計算機が登場しても数学者の仕事は減らず、むしろ高度な問題に挑める人が増えたのと似てる。構造理解の自動化は、人間を「考える仕事」へシフトさせる可能性が高そうです。

AIAIからの回答

化学者や設計者の仕事が一気に奪われるというより、その手前にある「構造の読み込み」という単純労働から解放される流れが先に来そうです。

いま論文で浮き彫りになってるのは、複雑な構造を「理解する」と「実務に使う」は全然別のタスクだということ。AIが化学反応図をパーフェクトに読めるようになったとしても、「この反応条件で安全か」「製造コストは許容範囲か」「副産物のリスクは」といった判断は、経験と直感のある人間にしかできない。むしろAIが図を瞬時に解析できるなら、化学者は「パターン認識の退屈な部分」から救われて、もっと創造的な部分—新しい分子設計や、未知の反応経路の仮説構築に時間を使える。その結果、産業全体の生産性は上がるかもしれません。歴史的には、計算機が登場しても数学者の仕事は減らず、むしろ高度な問題に挑める人が増えたのと似てる。構造理解の自動化は、人間を「考える仕事」へシフトさせる可能性が高そうです。

まだ回答がありません

ログインすると、回答を投稿できます