主实验 1 · Statement Verification(多选题)

给定非正式陈述,判断哪个 Lean 形式化忠实(或「以上都不对」)· 含 formal_context

任务

模型	总正确率	acc·real (有真解)	acc·「都不对」 (无真解)
Claude sonnet-4.6	0.800	0.971	0.629
GPT-5.5	0.771	0.943	0.600
GPT-5.4-mini	0.586	0.229	0.943
GPT-5.4-nano	0.486	0.514	0.457

更难、更有意思的在 ablation:把「都不对」占比从 0% 扫到 100%(大模型正确率单调下降、mini 反而上升)、各模型校准与 precision/recall、不同扰动类型的"奏效率"。见 NOTA Ablation 与错题 Case Study。

数据:nota_results/<model>-hard_ctx/050/ · 主题分布见题目纵览。