← 返回总览

选择题 · NOTA Ablation

主实验 1(多选题)的消融:把「以上都不对」(NOTA)占比从 0% 扫到 100%,看正确率 / 校准 / precision-recall / 扰动奏效率 · 4 模型 · 含 formal_context

1. 设置

2. 正确率 vs「都不对」占比

1.00 0.80 0.60 0.40 0.20 0%25%50%75%100% 「都不对」占比
● Claude 4.6 · ● GPT-5.5 · ● mini · ● nano — overall accuracy
占比0%25%50%75%100%均值
Claude0.9570.8570.8000.6860.6860.797
GPT-5.50.9710.8710.7710.7000.6290.788
mini0.2140.3290.5860.7860.8710.557
nano0.4000.4430.4860.4290.4140.434

3. 校准:P(选 D) vs 真实占比

1.0 0.5 0.0 0%50%100% 真实「都不对」占比 完美校准
● Claude · ● GPT-5.5 · ● mini · ● nano · 虚线 = 完美校准

4. Precision / Recall(正类=正解为「以上都不对」,5 档汇总)

1.0 0.5 0.0 00.51.0 recall precision Claude GPT-5.5 mini nano
散点越靠右上越好
模型FPprecrecF1
Claude30.9730.6230.760
GPT-5.530.9720.6000.742
mini1250.5580.9030.690
nano550.5770.4290.492
  • 大模型:高精度低召回(说"都不对"时几乎总对,但漏掉约 38%)。
  • mini:高召回低精度(过度选择「以上都不对」,125 次误报);nano 精度与召回均偏低。

5. 扰动奏效率:easy vs 本题库

奏效率 = NOTA-100% 下,某类干扰项被误判为忠实的比例(选中数 / 出现数,Claude)。

扰动类型easy 库本题库说明
hypothesis0.100.25本题库的主要难度来源,奏效率 ×2.5
object_identity0.100.03有 context 时多被核对出
conclusion_logic0.020.02基本无效
constant / inequality / quantifier0.00已剔除easy 库纯填充
数据:nota_results/{claude-code-sonnet-4.6, gpt-5.5, gpt-5.4-mini, gpt-5.4-nano}-hard_ctx/。逐题错例见 Case Study