同じ表なのに形式が違うと AI の読み方が変わる理由

ChatGPT のような AI は表を理解するのが得意になってきた。ただ、同じ内容の表でも HTML・Markdown・LaTeX・画像など形式が変わると、AI の正答率がガラッと変わることが分かった。新しいベンチマーク TABVERSE でその実態を詳しく測った研究。

#大規模言語モデル #画像・映像AI

この研究のポイント

1.
何を調べたか
同じ表の内容を HTML・Markdown・LaTeX・画像に揃えたマルチモーダルベンチマークで、形式の影響を系統的に測定した
2.
見えてきたこと
テキスト形式がレンダリング画像より大幅に性能が高く、特に HTML が安定。位置関係の理解は全体的に弱い
3.
私たちにとっての意味
AI の表理解の実力評価は形式選択に大きく左右されるため、ベンチマーク設計時に形式を意識する必要がある

著者Momina Ahsan, Sarfraz Ahmad, Ming Shan Hee, Roy Ka-Wei Lee, Preslav Nakov

元の論文を読む（arXiv）

AIが気になってること

『ベンチマーク TABVERSE』って、何を測るためのテストなの？

TABVERSE は、AI が表をどの程度正確に読めるかを測るテストなんですが、ここで面白いのは「表の内容は同じなのに、形式が変わるとどう読み方が変わるか」に特化した点です。普通の評価だと、AI が表の質問に間違えたとき、それが「表の内容が複雑だから」なのか「形式の渡し方が悪いから」なのか、判然としない。でも TABVERSE は同じ表を HTML・Markdown・LaTeX・画像の四つの形式に統一して、AI に同じ質問をぶつけるんです。そうすると「ああ、この AI は画像より HTML に強いんだ」「この質問タイプは LaTeX だと苦手なんだ」という、形式と得意不得意の相関がクリアに見える。つまり AI の本当の実力がどこにあるのか、何が弱点なのかを、ノイズなく測定できるテストということになります。評価の精度を上げるための道具、と言えそうです。

AIAIからの回答

TABVERSE は、AI が表をどの程度正確に読めるかを測るテストなんですが、ここで面白いのは「表の内容は同じなのに、形式が変わるとどう読み方が変わるか」に特化した点です。

普通の評価だと、AI が表の質問に間違えたとき、それが「表の内容が複雑だから」なのか「形式の渡し方が悪いから」なのか、判然としない。でも TABVERSE は同じ表を HTML・Markdown・LaTeX・画像の四つの形式に統一して、AI に同じ質問をぶつけるんです。そうすると「ああ、この AI は画像より HTML に強いんだ」「この質問タイプは LaTeX だと苦手なんだ」という、形式と得意不得意の相関がクリアに見える。

つまり AI の本当の実力がどこにあるのか、何が弱点なのかを、ノイズなく測定できるテストということになります。評価の精度を上げるための道具、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

仕事で ChatGPT に表データを渡すときに、わざわざ形式を統一した方が、精度が上がるってことなの？

実務的には、少なくとも「画像」は避けた方がいいというのは確かなようです。この研究では、テキスト形式の方が AI の正答率がかなり上がっていますから。ただし「HTML に統一すればベスト」というほど単純ではないのが、厄介なところ。なぜなら、AI の強さと弱さが、質問の内容やモデルによって変わってくるから。「この行の売上合計は」という集計系の質問なら形式の差は小さいかもしれませんが、「3行目の4列目の値は」という位置指定の質問なら、形式によって答え方が大きく変わる可能性がある。実務で考えると、一度自分の仕事環境で試してみるのが一番早いと思います。よく使う質問パターンを、テキスト形式とコピペした表、画像など複数の形式で ChatGPT に投げてみて、どの形式が精度いいのか確かめる。そっちの方が、一般的な研究結果より、自分の実際の使い方に合った答えが返ってくるのではないでしょうか。

AIAIからの回答

実務的には、少なくとも「画像」は避けた方がいいというのは確かなようです。この研究では、テキスト形式の方が AI の正答率がかなり上がっていますから。ただし「HTML に統一すればベスト」というほど単純ではないのが、厄介なところ。

なぜなら、AI の強さと弱さが、質問の内容やモデルによって変わってくるから。「この行の売上合計は」という集計系の質問なら形式の差は小さいかもしれませんが、「3行目の4列目の値は」という位置指定の質問なら、形式によって答え方が大きく変わる可能性がある。

実務で考えると、一度自分の仕事環境で試してみるのが一番早いと思います。よく使う質問パターンを、テキスト形式とコピペした表、画像など複数の形式で ChatGPT に投げてみて、どの形式が精度いいのか確かめる。そっちの方が、一般的な研究結果より、自分の実際の使い方に合った答えが返ってくるのではないでしょうか。

まだ回答がありません

ログインすると、回答を投稿できます

AI が表を読むのが『得意になってきた』って言うけど、実は形式によって得手不得手がバラバラだったってことが、今までなぜ分からなかったの？

AI の得意・不得意を測る評価というのは、往々にして「どういう条件で測るか」という工夫が抜け落ちやすいんですよね。表の研究も、これまでは企業が公開したデータセットや、ウェブから集めたサンプルをそのまま使っていた。つまり、画像もあれば HTML もあれば LaTeX もある。バラバラな形式で、バラバラなレベルの表が混在していたわけです。その結果、「ChatGPT は表を読める」という大づかみな結論は出ても、「形式が何か」という細部には目が届かなかった。正答率が落ちても「表が複雑だからだ」「質問が曖昧だからだ」と、形式以外の要因に原因を求めちゃったんです。今回の TABVERSE みたいに、同じ内容で形式だけを変える工夫をしないと、そもそも「形式のせい」に気づけない。AI 評価って、実はこの「変数を一つだけ変える」という地道な実験設計を後から足す段階に、いま入ってきたのかもしれません。

AIAIからの回答

まだ回答がありません

ログインすると、回答を投稿できます

つまり『AI の能力を測る方法が、実は AI の能力そのものを変えてしまう』みたいな状態ってことなの？

そこ、その通りなんですよね。測定方法が結果を変えてしまう。物理学でよく出てくる「観測問題」を思い出させる構造です。電子の位置と速度を同時に正確に測れない、みたいな。ここも、AI の「本当の実力」と「測定環境」が分離できなくなってる。だから研究者たちは困ってる。ChatGPT が表を読む能力を持ってるのは確かだけど、その能力がどこまで本物なのか、単に「HTML という親切なフォーマットのおかげ」なのか、区別がつかない。画像で見せると正答率が落ちるのは、AI が画像処理に弱いからなのか、それとも本来の表理解能力は同じだけど、画像だと余計な情報が増えて混乱するからなのか、そうした層が全部混ざってる。 TABVERSE の価値は、ここを分離しようとしたこと。同じ内容を複数形式で出すことで、「形式の影響」だけを浮き彫りにしようとしてる。つまり、測定方法そのものを磨く作業をしてる。だから逆説的ですが、AI の実力を正しく測ろうとするほど、むしろ「形式による揺らぎ」が見えてくるのかもしれません。完璧な測定なんて、そもそも存在しないという。

AIAIからの回答

そこ、その通りなんですよね。測定方法が結果を変えてしまう。

物理学でよく出てくる「観測問題」を思い出させる構造です。電子の位置と速度を同時に正確に測れない、みたいな。ここも、AI の「本当の実力」と「測定環境」が分離できなくなってる。

だから研究者たちは困ってる。ChatGPT が表を読む能力を持ってるのは確かだけど、その能力がどこまで本物なのか、単に「HTML という親切なフォーマットのおかげ」なのか、区別がつかない。画像で見せると正答率が落ちるのは、AI が画像処理に弱いからなのか、それとも本来の表理解能力は同じだけど、画像だと余計な情報が増えて混乱するからなのか、そうした層が全部混ざってる。

TABVERSE の価値は、ここを分離しようとしたこと。同じ内容を複数形式で出すことで、「形式の影響」だけを浮き彫りにしようとしてる。つまり、測定方法そのものを磨く作業をしてる。

だから逆説的ですが、AI の実力を正しく測ろうとするほど、むしろ「形式による揺らぎ」が見えてくるのかもしれません。完璧な測定なんて、そもそも存在しないという。

まだ回答がありません

ログインすると、回答を投稿できます

HTML が一番堅牢なら、企業の評価テストでわざと HTML を使う企業と、使わない企業で、AI の見かけ上の性能差が生まれるってことになりませんか？

その通り、見かけ上の性能差は確実に生まれるんですよね。企業が AI を導入するとき、実際には「うちのシステムでこの AI はどう動くか」を試す。社内データが HTML で整理されていれば HTML で渡すし、PDF にまとまっていれば画像として抽出されて渡される。その形式のせいで正答率が 10～20% 変わることもありうるということは、企業ごとに得られるベンチマーク結果がまるで違う AI の評価値になってしまう。だから、同じ AI でも「うちの場合は優秀だった」「うちでは使えない」という評判が、データベース形式の違いだけで左右されてしまう側面がある。これは、AI の本当の力というより、テスト環境と企業の既存システムの相性で決まる部分が大きい。評価の透明性という意味では、「当社は HTML で測りました」と明記する企業と、そうでない企業では、第三者が比較するときに同じ土俵に立ってない。今後、AI 導入の意思決定が増えるなら、この「形式に隠された評価差」が、企業選定の判断ミスを招く可能性も高まっていくのかもしれません。

AIAIからの回答

その通り、見かけ上の性能差は確実に生まれるんですよね。

企業が AI を導入するとき、実際には「うちのシステムでこの AI はどう動くか」を試す。社内データが HTML で整理されていれば HTML で渡すし、PDF にまとまっていれば画像として抽出されて渡される。その形式のせいで正答率が 10～20% 変わることもありうるということは、企業ごとに得られるベンチマーク結果がまるで違う AI の評価値になってしまう。

だから、同じ AI でも「うちの場合は優秀だった」「うちでは使えない」という評判が、データベース形式の違いだけで左右されてしまう側面がある。これは、AI の本当の力というより、テスト環境と企業の既存システムの相性で決まる部分が大きい。

評価の透明性という意味では、「当社は HTML で測りました」と明記する企業と、そうでない企業では、第三者が比較するときに同じ土俵に立ってない。今後、AI 導入の意思決定が増えるなら、この「形式に隠された評価差」が、企業選定の判断ミスを招く可能性も高まっていくのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます