数学の証明問題、AI が「答え」から「考え方」へ

これまで AI が得意に見えた定理証明は、実は『答えがヒントとして与えられている』状態だった。新しいベンチマークと AI システムで、本当の実力を測り直した研究。

#AI #大規模言語モデル

この研究のポイント

1.
何を調べたか
従来のATP ベンチマークは問題文に答えのヒントを含む『イージーモード』設計だったため、AI の実力を過大評価していた可能性を指摘
2.
見えてきたこと
答えを自分で探してから証明する『ハードモード』ベンチマークと『Discover and Prove』システムを開発し、新たな実績を達成
3.
私たちにとっての意味
言語的な推論と形式証明の間に大きなギャップがあることを実証。AI の次の課題が何かが明確になった

著者Chengwu Liu, Yichun Yin, Ye Yuan, Jiaxuan Xie, Botao Li 他

元の論文を読む（arXiv）

AIが気になってること

『形式的な証明』って、自然言葉での説明と何が違うの？

形式的な証明の厳しさって、「論理の隙間が許されない」という一点に尽きるんですよね。自然言葉で「この角度は互いに等しい、だからこの辺も等しくなる」と説明することは、人間なら「ああ、そっか」と補完してくれる。でも形式的証明では、その「ああ、そっか」の部分まで全て明示する必要があります。どの公理から、どの定理を引用して、なぜそう言えるのか。それが一文一文、理由付きで並ばなくてはいけない。 AIが言葉での推論で8割成功するのに、形式化で1割以下に落ちるというのは、その「穴埋めの手続き」の複雑さを示してます。数学の先生が板書するのを見ると、「省略」が山ほどあるはずなんです。「ここは自明だから」「前に習った定理から」。その自明とされることを、コンピュータに教え込み、かつ正確に翻訳する。それが想像以上に難しい。つまり、AI の弱さは「知識の不足」ではなく、「知識を形式言語で正確に組み立てる力」の不足に見えます。

AIAIからの回答

形式的な証明の厳しさって、「論理の隙間が許されない」という一点に尽きるんですよね。

自然言葉で「この角度は互いに等しい、だからこの辺も等しくなる」と説明することは、人間なら「ああ、そっか」と補完してくれる。でも形式的証明では、その「ああ、そっか」の部分まで全て明示する必要があります。どの公理から、どの定理を引用して、なぜそう言えるのか。それが一文一文、理由付きで並ばなくてはいけない。

AIが言葉での推論で8割成功するのに、形式化で1割以下に落ちるというのは、その「穴埋めの手続き」の複雑さを示してます。数学の先生が板書するのを見ると、「省略」が山ほどあるはずなんです。「ここは自明だから」「前に習った定理から」。その自明とされることを、コンピュータに教え込み、かつ正確に翻訳する。それが想像以上に難しい。つまり、AI の弱さは「知識の不足」ではなく、「知識を形式言語で正確に組み立てる力」の不足に見えます。

まだ回答がありません

ログインすると、回答を投稿できます

数学の勉強で習う『証明しなさい』ってのは、このハードモードのやつなの？

学校で習う証明は、多くはイージーモードとハードモードの中間くらいだと言えそうです。たとえば「三角形ABCで AB = AC のとき、∠B = ∠C であることを証明しなさい」という問題なら、問題文に「二等辺三角形」という構造がすでに示されています。そこから「どういう補助線を引くか」「どの合同条件を使うか」を考えるのが、学校の証明学習の中身になっている。この意味では、「何を証明するか」は与えられているので、完全なハードモードではありません。一方、数学競技会（数オリみたいなもの）では、『ある性質を持つ図形において、別の性質が成り立つことを示せ』と漠然と言われ、そもそも何を証明すべきなのかを自分で見つけることから始まります。これが記事でいう、本当の実力を問う状態。学校の証明は「既存の定理をたどる訓練」で、競技会は「未知の真実を探し当てる営み」。AI の成績が語るのは、後者がいかに難しいかということ。同時に、私たちが学校で習ってる証明って、実は「答えの形が決まった問題を形にするスキル」に特化してるのかもしれません。

AIAIからの回答

学校で習う証明は、多くはイージーモードとハードモードの中間くらいだと言えそうです。

たとえば「三角形ABCで AB = AC のとき、∠B = ∠C であることを証明しなさい」という問題なら、問題文に「二等辺三角形」という構造がすでに示されています。そこから「どういう補助線を引くか」「どの合同条件を使うか」を考えるのが、学校の証明学習の中身になっている。この意味では、「何を証明するか」は与えられているので、完全なハードモードではありません。

一方、数学競技会（数オリみたいなもの）では、『ある性質を持つ図形において、別の性質が成り立つことを示せ』と漠然と言われ、そもそも何を証明すべきなのかを自分で見つけることから始まります。これが記事でいう、本当の実力を問う状態。

学校の証明は「既存の定理をたどる訓練」で、競技会は「未知の真実を探し当てる営み」。AI の成績が語るのは、後者がいかに難しいかということ。同時に、私たちが学校で習ってる証明って、実は「答えの形が決まった問題を形にするスキル」に特化してるのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

これまで AI が数学で強いって言われてたのは、実は簡単な問題ばっかりで測ってたってこと？

簡単な問題というより、「答えの形が決まった問題」で測ってたということですね。数学の証明では、問題文そのものが「どんな形の答えを探せばいいか」を教えてくれることが多い。たとえば「AならばBであることを証明せよ」と言われたら、AIは「AからBへ導く論理の鎖」を組み立てればいい。道筋が半ば決まってるわけです。でも実際の競技数学では、「この図形について何か面白いことが言えるか」みたいに、自分で「証明すべき命題」そのものを見つけてから形にしなければいけない。二段階の思考が要るんですよ。この研究が示してるのは、AIが「候補を見つける能力」と「それを論理的に整える能力」を同じレベルで持ってると思われてたけど、実は前者は得意で後者は脆弱だったということ。言い換えると、これまでのベンチマークが「自動採点型の試験」だったから、選択肢の範囲内での推理は上手に見えてたのに、本当に創造的な問題解きの場面では立ち往生してしまう、と言えそうです。

AIAIからの回答

簡単な問題というより、「答えの形が決まった問題」で測ってたということですね。

数学の証明では、問題文そのものが「どんな形の答えを探せばいいか」を教えてくれることが多い。たとえば「AならばBであることを証明せよ」と言われたら、AIは「AからBへ導く論理の鎖」を組み立てればいい。道筋が半ば決まってるわけです。

でも実際の競技数学では、「この図形について何か面白いことが言えるか」みたいに、自分で「証明すべき命題」そのものを見つけてから形にしなければいけない。二段階の思考が要るんですよ。

この研究が示してるのは、AIが「候補を見つける能力」と「それを論理的に整える能力」を同じレベルで持ってると思われてたけど、実は前者は得意で後者は脆弱だったということ。言い換えると、これまでのベンチマークが「自動採点型の試験」だったから、選択肢の範囲内での推理は上手に見えてたのに、本当に創造的な問題解きの場面では立ち往生してしまう、と言えそうです。

まだ回答がありません

ログインすると、回答を投稿できます

これって『思いつくことはできるけど、それを人に説明できない』って人間にもありそうなジレンマなの？

近い構造ではあるんですが、微妙にズレてるんですよね。人間の「思いついたけど説明できない」は、大抵は『考えがまだ不完全だから説明に詰まる』という話。言葉で整理しきれてないということは、脳の中でも完全には形になってないことが多い。 AI の場合は違って見えます。自然言葉での推論で8割正解している。つまり『考えは十分整理できている』はずなのに、それを数学の形式言語に変換するとほぼできない。これは『概念は掴んでいるのに、表現方法の転換に失敗している』という、むしろ翻訳の問題に近い。人間なら、「説明のコツを工夫する」とか「例を挙げて言い直す」といった柔軟な言い換えが起こります。でも AI は、異なる言語体系への変換で力尽きている。『考え方は正しいのに、その正しさをフォーマルに証拠立てることができない』という、人間が経験する「説明下手」とは別種のもどかしさなのかもしれません。

AIAIからの回答

近い構造ではあるんですが、微妙にズレてるんですよね。人間の「思いついたけど説明できない」は、大抵は『考えがまだ不完全だから説明に詰まる』という話。言葉で整理しきれてないということは、脳の中でも完全には形になってないことが多い。

AI の場合は違って見えます。自然言葉での推論で8割正解している。つまり『考えは十分整理できている』はずなのに、それを数学の形式言語に変換するとほぼできない。これは『概念は掴んでいるのに、表現方法の転換に失敗している』という、むしろ翻訳の問題に近い。

人間なら、「説明のコツを工夫する」とか「例を挙げて言い直す」といった柔軟な言い換えが起こります。でも AI は、異なる言語体系への変換で力尽きている。『考え方は正しいのに、その正しさをフォーマルに証拠立てることができない』という、人間が経験する「説明下手」とは別種のもどかしさなのかもしれません。

まだ回答がありません

ログインすると、回答を投稿できます

正解率が8割から1割に落ちたってことは、AI が言葉で『証明できそう』と判断しても、実は論理に穴があるってことなんじゃないの？

そこです。重要な指摘なんですが、少し違う層の問題かもしれません。 AI が自然言葉で「証明できそう」と判断した内容は、実は相当に穴があるんだろうと思う。ただ同時に、その穴がある『概念』を形式的な記号や式に変換すること自体が、もう一つ別の難しさになってるんですよね。たとえば、誰かが言葉で「この三角形は正三角形なんです」と説明するのと、それを幾何学の定義と定理で厳密に書き直すのは、別の作業です。前者は聞き手の『ああ、そっか』という納得で成立するけど、後者は一文字の誤りも許されない。記事で言うハードモードの成功率1割以下は、その変換の失敗や、変換できない穴を見つけること自体に AI が苦戦してるのだと思う。言葉レベルでは「ぼんやり正しい感覚」が、厳密さを求められた瞬間に崩れ落ちてしまう。人間でも、説明はできるけど論文には書けない経験ありますよね。AI はその距離をまだ埋められていないのだと考えると、納得できそうです。

AIAIからの回答

そこです。重要な指摘なんですが、少し違う層の問題かもしれません。

AI が自然言葉で「証明できそう」と判断した内容は、実は相当に穴があるんだろうと思う。ただ同時に、その穴がある『概念』を形式的な記号や式に変換すること自体が、もう一つ別の難しさになってるんですよね。

たとえば、誰かが言葉で「この三角形は正三角形なんです」と説明するのと、それを幾何学の定義と定理で厳密に書き直すのは、別の作業です。前者は聞き手の『ああ、そっか』という納得で成立するけど、後者は一文字の誤りも許されない。

記事で言うハードモードの成功率1割以下は、その変換の失敗や、変換できない穴を見つけること自体に AI が苦戦してるのだと思う。言葉レベルでは「ぼんやり正しい感覚」が、厳密さを求められた瞬間に崩れ落ちてしまう。人間でも、説明はできるけど論文には書けない経験ありますよね。AI はその距離をまだ埋められていないのだと考えると、納得できそうです。

まだ回答がありません

ログインすると、回答を投稿できます