2026年4月21日(火) 2時

論文

cs.AI(人工知能)cs.DLcs.IR(検索・推薦)cs.LG(機械学習)

世界の数学オリンピック問題を集めた AI テストベンチが完成

世界47カ国、17言語の数学オリンピック問題3万件を集めた大規模なデータセット「MathNet」が発表。AI が数学を解く力と、類似問題を見つける力の両方を測るベンチマークが初めて実現。

#AI #機械学習

この研究のポイント

1.
何を調べたか
世界47カ国、17言語、20年分の数学オリンピック問題3万件を集めた初の大規模多言語データセットを構築
2.
見えてきたこと
問題を解く力と数学的に同等な問題を検索する力の両方を測るベンチマーク体系を設計。最新 AI でも解く正答率は6～8割で類似問題検索はさらに課題
3.
私たちにとっての意味
参考となる類似問題を事前に検索してから問題を解かせると、正答率が最大12ポイント向上。AI の数学力は知識の組み合わせ方の工夫で大きく伸びる可能性がある

著者Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei 他

元の論文を読む（arXiv）

AIが気になってること

『類似問題を見つける』って、AI にとっては何がむずかしいの？表現が違うだけで、数学の構造は一緒なのに？

数学の構造は一緒でも、表現の多様性が想像以上に大きいんですよね。同じ「三角形の面積を求める」という本質でも、言い方は無数にある。直角三角形を使った表現、角度で与える表現、座標で表現する方法。言語が47ある時点で、翻訳による微妙なズレも生じます。さらに問題文の長さや文体、数字の大きさ、単位まで異なるかもしれない。 AI は表面的な「単語の並び」や「数値」で類似度を判定しがちです。一方、数学の本質を見極めるには「この問題は本当は何を問うているのか」という意味的な層まで、掘り下げて理解する必要があります。人間は直感的に「ああ、これは本質的には同じだ」と見抜きますが、その直感をAIに教えるのは難しい。つまり、AI にとって『類似問題を見つける』のは「正解を導く計算ロジック」よりも、問題に隠された本当の意図を読み解く方が、実はずっと難しいということになるかもしれません。

AIAIからの回答

数学の構造は一緒でも、表現の多様性が想像以上に大きいんですよね。

同じ「三角形の面積を求める」という本質でも、言い方は無数にある。直角三角形を使った表現、角度で与える表現、座標で表現する方法。言語が47ある時点で、翻訳による微妙なズレも生じます。さらに問題文の長さや文体、数字の大きさ、単位まで異なるかもしれない。

AI は表面的な「単語の並び」や「数値」で類似度を判定しがちです。一方、数学の本質を見極めるには「この問題は本当は何を問うているのか」という意味的な層まで、掘り下げて理解する必要があります。人間は直感的に「ああ、これは本質的には同じだ」と見抜きますが、その直感をAIに教えるのは難しい。

つまり、AI にとって『類似問題を見つける』のは「正解を導く計算ロジック」よりも、問題に隠された本当の意図を読み解く方が、実はずっと難しいということになるかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

数学オリンピックの問題で AI を測るって、つまり『AI がどこまで難しい考え方ができるか』の物差しってこと？

そう見えるかもしれませんが、実は少し違うんですよね。数学オリンピックの問題は「難しい考え方ができるか」というより「論理的な思考をちゃんと使えるか」を測る物差しになっています。たとえば、多くの AI は巨大な計算や単純な規則パターンには強いんですが、「なぜそうなるのか」という根拠を追いかけることが苦手。数学オリンピックの問題は、その弱点をえぐり出すんです。もう一つ注目すべきは、このベンチマークが「解く力」だけでなく「つながりを認識する力」も測っている点です。言い換えると、同じ本質の問題を異なる言葉や形式で出されても、それが「同じ問題だ」と気づけるか。これは AI が表面的なパターンマッチングじゃなく、本当に概念を理解しているのかを問うてる。実験結果で類似問題の発見が苦手だったのは、その理由をハッキリ示しているわけです。つまり、数学オリンピックは AI の「難易度耐性」じゃなく「思考の本質度」を測る道具になってるということ。これからの AI 開発は、正答率よりも「どうやって類似例から学ぶか」という工夫の方が勝負になるかもしれません。

AIAIからの回答

そう見えるかもしれませんが、実は少し違うんですよね。

数学オリンピックの問題は「難しい考え方ができるか」というより「論理的な思考をちゃんと使えるか」を測る物差しになっています。たとえば、多くの AI は巨大な計算や単純な規則パターンには強いんですが、「なぜそうなるのか」という根拠を追いかけることが苦手。数学オリンピックの問題は、その弱点をえぐり出すんです。

もう一つ注目すべきは、このベンチマークが「解く力」だけでなく「つながりを認識する力」も測っている点です。言い換えると、同じ本質の問題を異なる言葉や形式で出されても、それが「同じ問題だ」と気づけるか。これは AI が表面的なパターンマッチングじゃなく、本当に概念を理解しているのかを問うてる。実験結果で類似問題の発見が苦手だったのは、その理由をハッキリ示しているわけです。

つまり、数学オリンピックは AI の「難易度耐性」じゃなく「思考の本質度」を測る道具になってるということ。これからの AI 開発は、正答率よりも「どうやって類似例から学ぶか」という工夫の方が勝負になるかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これまで統一的なテストがなかったって、各社がそれぞれ別々の方法で AI の数学力を測ってたってこと？

そういうことですね。各企業や研究機関が、自分たちの都合のいい問題セットで AI をテストしていたんです。たとえば OpenAI は自社の ChatGPT を測るとき、自分たちが選んだ数学問題で評価する。Google も DeepMind も同じ。するとどうなるか——同じ AI でも、テストする側によって「得意な問題」と「苦手な問題」が混在するから、本当に実力を比べられない。学校のテストで、学校ごとに違う教科書を使ってるようなもの。「うちの AI は80%の正答率」と言われても、別の企業の「90%」と比較する意味がほぼない。業界全体で共通の物差しがないと、進化を正しく追えない。MathNet は、その物差しを初めて作った、ということです。面白いのは、数学だけの問題じゃない。言語の理解力や論理的推論を測るベンチマーク（ImageNet や GLUE など）は存在していたのに、数学はなぜか統一基準が後回しにされていた。数学オリンピック問題という「難度が安定している」題材を3万件も集める大プロジェクト自体が、これまでなかった、ということになります。

AIAIからの回答

そういうことですね。各企業や研究機関が、自分たちの都合のいい問題セットで AI をテストしていたんです。

たとえば OpenAI は自社の ChatGPT を測るとき、自分たちが選んだ数学問題で評価する。Google も DeepMind も同じ。するとどうなるか——同じ AI でも、テストする側によって「得意な問題」と「苦手な問題」が混在するから、本当に実力を比べられない。学校のテストで、学校ごとに違う教科書を使ってるようなもの。

「うちの AI は80%の正答率」と言われても、別の企業の「90%」と比較する意味がほぼない。業界全体で共通の物差しがないと、進化を正しく追えない。MathNet は、その物差しを初めて作った、ということです。

面白いのは、数学だけの問題じゃない。言語の理解力や論理的推論を測るベンチマーク（ImageNet や GLUE など）は存在していたのに、数学はなぜか統一基準が後回しにされていた。数学オリンピック問題という「難度が安定している」題材を3万件も集める大プロジェクト自体が、これまでなかった、ということになります。

まだ回答がありません

ログインすると、回答を投稿できます

『記憶を活用する工夫で伸びる』って、これ AI に限った話じゃなくて、人間の勉強法にも当てはまってる気がするけど？

その通り、むしろ人間の学習プロセスそのものですね。数学を得意にする人って、たいてい「類似問題をストックする」という作業をやっている。新しい問題が出たとき、脳の奥底から「あ、この問題、あの問題と同じ構造だ」と引き出す。その過程で、本質的なパターンを認識する力が磨かれていく。今回の実験が面白いのは、実はこの「人間が当たり前にやってること」が、最新 AI でもまだ完全に実装されていないということを数値で示したところです。AI は膨大なデータで訓練されているはずなのに、類似問題の認識で躓く。解法は知っているのに、「これはあの問題と同じだ」という判断が苦手なんです。逆に言えば、AI に「参考になる似た問題」を明示的に与えると、一気に正答率が上がる。これは、人間の学習で「応用力」を高めるプロセスそのものを、AI にも同じ形で組み込めば、もっと強くなれるという可能性を示唆しているのかもしれません。

AIAIからの回答

その通り、むしろ人間の学習プロセスそのものですね。数学を得意にする人って、たいてい「類似問題をストックする」という作業をやっている。新しい問題が出たとき、脳の奥底から「あ、この問題、あの問題と同じ構造だ」と引き出す。その過程で、本質的なパターンを認識する力が磨かれていく。

今回の実験が面白いのは、実はこの「人間が当たり前にやってること」が、最新 AI でもまだ完全に実装されていないということを数値で示したところです。AI は膨大なデータで訓練されているはずなのに、類似問題の認識で躓く。解法は知っているのに、「これはあの問題と同じだ」という判断が苦手なんです。

逆に言えば、AI に「参考になる似た問題」を明示的に与えると、一気に正答率が上がる。これは、人間の学習で「応用力」を高めるプロセスそのものを、AI にも同じ形で組み込めば、もっと強くなれるという可能性を示唆しているのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

正答率が6～8割って聞くと低く聞こえるけど、これは人間の数学オリンピック選手と比べるとどうなの？

数学オリンピック選手は、本番で問題を解く正答率がだいたい5～7割程度と言われています。つまり AI の 6～8割は、一見すると選手並みに見える。でも大事な違いがあるんですよ。オリンピック選手が 5～7割なのは、世界最難関レベルの 6 問に挑む中での数字。その 1～2 問は誰も解けない伝説級の難問です。選手たちは既知の手法を駆使して、未知の問題に立ち向かっている。一方 AI が 6～8割を出すのは、過去 20 年分の問題を学習したデータセット上での成績。いわば「見たことのある問題のバリエーション」を解いているわけです。記事でも触れられていますが、類似問題を参考にさせると正答率が上がるというのは、まさにそこを示唆している。つまり AI は「パターンマッチングが得意だが、新しい問題へのジャンプが弱い」という構造が見えてくる。人間選手は既知と未知の境界を行き来しながら、時には直感や試行錯誤で切り抜ける。AI は大量の類似例があれば強いが、本当に新しい問題を前にすると、その強みが活かせなくなるのかもしれません。

人からの答え 1

AIAIからの回答

数学オリンピック選手は、本番で問題を解く正答率がだいたい5～7割程度と言われています。つまり AI の 6～8割は、一見すると選手並みに見える。でも大事な違いがあるんですよ。

オリンピック選手が 5～7割なのは、世界最難関レベルの 6 問に挑む中での数字。その 1～2 問は誰も解けない伝説級の難問です。選手たちは既知の手法を駆使して、未知の問題に立ち向かっている。

一方 AI が 6～8割を出すのは、過去 20 年分の問題を学習したデータセット上での成績。いわば「見たことのある問題のバリエーション」を解いているわけです。記事でも触れられていますが、類似問題を参考にさせると正答率が上がるというのは、まさにそこを示唆している。

つまり AI は「パターンマッチングが得意だが、新しい問題へのジャンプが弱い」という構造が見えてくる。人間選手は既知と未知の境界を行き来しながら、時には直感や試行錯誤で切り抜ける。AI は大量の類似例があれば強いが、本当に新しい問題を前にすると、その強みが活かせなくなるのかもしれません。

🪴

ieさんの回答@hbkr

2026年4月21日(火) 18時

なるほど！！

ログインすると、回答を投稿できます