ML Bench · 总报告

基于 Lean 4 + Mathlib 的机器学习理论 benchmark · 评测 LLM 的形式化判别与证明能力

目录 1 题目纵览 2 主实验1 多选题 3 主实验2 Proof 4 Insight 5 ML Lib 6 下一步

本报告的三个核心点

1. 题目纵览

正式题库 70 题,取自统计学习理论教材 ch2 至 ch17:

题库主题分布
主题题数占比主题题数占比
Complexity & Unif. Conv.2029%Concentration1014%
Online & Bandits1724%Info-Theory & PAC-Bayes811%
Optimization1319%Kernel & Non-param.23%
题目纵览详情 →

2. 主实验 1:Statement Verification(多选题)已完成

四选一:哪个 Lean 选项忠实形式化,或「以上都不对」。主表为平衡设定(一半题目正解是「以上都不对」):

模型总正确率acc·real
(有真解)
acc·「都不对」
(无真解)
Claude sonnet-4.60.8000.9710.629
GPT-5.50.7710.9430.600
GPT-5.4-mini0.5860.2290.943
GPT-5.4-nano0.4860.5140.457
主实验 1 详情 →

3. 主实验 2:Proof Verify(定理证明)初步 · 30 题

给定形式化陈述,模型生成 Lean 证明,以编译通过判对(proved / 30):

模型One-shot
(wo/lib)
#iter=5
(wo/lib)
One-shot
(w/lib)
#iter=5
(w/lib)
gpt-5.4-mini1/302/302/304/30
claude-code (sonnet 4.6)4/307/306/309/30
codex (GPT-5.5)3/304/30N/AN/A

注:上周数据(本周 claude-code 与 codex 额度受限);仅 30 题且主题有偏;70 题完整版下周更新。

主实验 2 详情 →

4. Insight(with ablation)

NOTA Ablation(占比 sweep / 校准 / precision-recall / 扰动奏效率)→
错题 Case Study(5 个真实漏报 + Lean diff)→

5. ML Lib(MLMath)已完成

ML Lib 统计详情 →

6. 下一步

各子报告左上角有「← 返回总览」。数学公式由 MathJax(CDN)渲染,查看需联网。