选择题 · NOTA Ablation
主实验 1(多选题)的消融:把「以上都不对」(NOTA)占比从 0% 扫到 100%,看正确率 / 校准 / precision-recall / 扰动奏效率 · 4 模型 · 含 formal_context
1. 设置
- 5 个变体:正解为「以上都不对」的题目比例 = 0 / 25 / 50 / 75 / 100%。
- 占比越高,越考验"主动鉴别缺陷"(而非挑一个最像的)。
- 模型:Claude 4.6(Claude Code seat)· GPT-5.5(codex seat)· GPT-5.4-mini / nano(API)。
2. 正确率 vs「都不对」占比
● Claude 4.6 · ● GPT-5.5 · ● mini · ● nano — overall accuracy
| 占比 | 0% | 25% | 50% | 75% | 100% | 均值 |
| Claude | 0.957 | 0.857 | 0.800 | 0.686 | 0.686 | 0.797 |
| GPT-5.5 | 0.971 | 0.871 | 0.771 | 0.700 | 0.629 | 0.788 |
| mini | 0.214 | 0.329 | 0.586 | 0.786 | 0.871 | 0.557 |
| nano | 0.400 | 0.443 | 0.486 | 0.429 | 0.414 | 0.434 |
- 大模型随占比单调下降(0.96→0.65):不擅长"判定全是缺陷"。
- mini 反而上升(倾向于选择「以上都不对」,占比越高越易偶然命中);nano 平坦在 0.4(接近随机)。
3. 校准:P(选 D) vs 真实占比
● Claude · ● GPT-5.5 · ● mini · ● nano · 虚线 = 完美校准
- Claude / GPT-5.5:跟趋势但整体在对角线下方 → 系统性少选 D(保守)。
- mini:几乎水平在 0.8 高位 → 高频选择「以上都不对」,基本不随真实占比变化(校准差);nano:稳定在约 0.4(近似常数响应)。
4. Precision / Recall(正类=正解为「以上都不对」,5 档汇总)
散点越靠右上越好
| 模型 | FP | prec | rec | F1 |
| Claude | 3 | 0.973 | 0.623 | 0.760 |
| GPT-5.5 | 3 | 0.972 | 0.600 | 0.742 |
| mini | 125 | 0.558 | 0.903 | 0.690 |
| nano | 55 | 0.577 | 0.429 | 0.492 |
- 大模型:高精度低召回(说"都不对"时几乎总对,但漏掉约 38%)。
- mini:高召回低精度(过度选择「以上都不对」,125 次误报);nano 精度与召回均偏低。
5. 扰动奏效率:easy vs 本题库
奏效率 = NOTA-100% 下,某类干扰项被误判为忠实的比例(选中数 / 出现数,Claude)。
| 扰动类型 | easy 库 | 本题库 | 说明 |
| hypothesis | 0.10 | 0.25 | 本题库的主要难度来源,奏效率 ×2.5 |
| object_identity | 0.10 | 0.03 | 有 context 时多被核对出 |
| conclusion_logic | 0.02 | 0.02 | 基本无效 |
| constant / inequality / quantifier | 0.00 | 已剔除 | easy 库纯填充 |
- easy 库一半干扰项奏效率为 0(常数/不等号/量词),几乎不构成挑战;本题库已剔除。
- hypothesis 是真陷阱(0.10→0.25);object_identity 在有 context 时反被核对出。