选择题 · NOTA Ablation

主实验 1(多选题)的消融:把「以上都不对」(NOTA)占比从 0% 扫到 100%,看正确率 / 校准 / precision-recall / 扰动奏效率 · 4 模型 · 含 formal_context

1. 设置

● Claude 4.6 · ● GPT-5.5 · ● mini · ● nano — overall accuracy

● Claude · ● GPT-5.5 · ● mini · ● nano · 虚线 = 完美校准

Claude / GPT-5.5:跟趋势但整体在对角线下方 → 系统性少选 D(保守)。
mini:几乎水平在 0.8 高位 → 高频选择「以上都不对」,基本不随真实占比变化(校准差);nano:稳定在约 0.4(近似常数响应)。

散点越靠右上越好

奏效率 = NOTA-100% 下,某类干扰项被误判为忠实的比例(选中数 / 出现数,Claude)。

扰动类型	easy 库	本题库	说明
hypothesis	0.10	0.25	本题库的主要难度来源,奏效率 ×2.5
object_identity	0.10	0.03	有 context 时多被核对出
conclusion_logic	0.02	0.02	基本无效
constant / inequality / quantifier	0.00	已剔除	easy 库纯填充

数据:nota_results/{claude-code-sonnet-4.6, gpt-5.5, gpt-5.4-mini, gpt-5.4-nano}-hard_ctx/。逐题错例见 Case Study。