← 返回总览

主实验 1 · Statement Verification(多选题)

给定非正式陈述,判断哪个 Lean 形式化忠实(或「以上都不对」)· 含 formal_context

任务

结果(「都不对」占比 = 50%,70 题)

模型总正确率acc·real
(有真解)
acc·「都不对」
(无真解)
Claude sonnet-4.60.8000.9710.629
GPT-5.50.7710.9430.600
GPT-5.4-mini0.5860.2290.943
GPT-5.4-nano0.4860.5140.457

要点

更难、更有意思的在 ablation:把「都不对」占比从 0% 扫到 100%(大模型正确率单调下降、mini 反而上升)、各模型校准与 precision/recall、不同扰动类型的"奏效率"。见 NOTA Ablation错题 Case Study
数据:nota_results/<model>-hard_ctx/050/ · 主题分布见 题目纵览