# P1 瓶颈攻坚 · 判分语义修正 (D V2.1) + 域外/叙事清线 — 2026-06-11 · 续 35

> 任务: 115 条 unchanged-fail "多字段同时错" 根因分型 (next-round-plan-2026-06-11-post-v050 §1 P1)。
> 结论: **最大根因不是分类器, 是判分语义** — 负样本在旧度量下结构性必败; 修正后再做两刀分类器手术。
> **rules-only: 35.5% (旧口径) → 42.4% (D V2.1 度量修正) → 47.8% (+分类器修复, 25 修 0 伤)**

## §1 分型结果 (rules-only, 131 失败 / 203)

| 失败字段组合 | 条数 | 备注 |
|---|---:|---|
| threads + focus | 52 | impact/strategy 全对 — threads 是唯一病灶 |
| 全 4 字段 | 50 | threads 错 → 全链传导 |
| threads + strategy + focus | 13 | 同上 |
| 其余组合 | 16 | impact/strategy 孤立错 |

**threads 参与 123/131 (94%)** — 上游决定论实锤 (V1.4 结论的镜像)。

## §2 根因 #1: 判分语义缺陷 (49/131 结构性必败)

`_compare_threads` 把 **gt=[] (显式负样本标注) 当 n/a**, `_compare_scalar` 把
**focus=null 同样当 n/a** → 负样本只剩 2 个可计字段, 在 "≥3/4 exact" 的 overall
规则下**永远不可能 pass**; 且幻觉挂线 (判了主线) 同记 n/a, **不受任何惩罚**。

corpus v3.0 有 49 条负样本失败属此类, 其中 12 条 agent 判得**全对**(正确拒识 +
impact + strategy 三全) 却被记 fail。

**D V2.1 修正**: 显式空标注可评判 — 判空=exact (正确拒识), 判非空=mismatch
(幻觉挂线, 此前不可见的错误现在如实扣分); n/a 只留给字段真缺失。
效果: **35.5% → 42.4% (+6.9pp, 纯度量修正, 模型零改动)**。
新口径同时更严 (幻觉可见) 也更公平 (拒识有分), 历史数字不可直接对比。

## §3 根因 #2: 域外任务/叙事幻觉挂线 (修正后可见的真靶子)

负样本幻觉挂线 10 条主力分两通道:
- **关键词单发**: 月球着陆器新闻顺带提及 "搭乘 Falcon 9" (t046/t047/t063), 神舟
  "入轨" (t018), 研报 "星座" 一词挂核心网 (t001) — 每主线证据仅 1 个泛词/火箭名;
- **公司反哺**: 诺格/ULA/Blue Origin 等种子公司出现在域外任务新闻 (Artemis 月面
  着陆器合同 u026 / 在轨加油 u011), 关键词零命中但反哺硬塞运载发射。

**两刀**:
1. `OFF_DOMAIN_MISSION_KEYWORDS` (ontology) + classifier 弱证据清线: 域外词或
   叙事词命中 且 每条已命中主线证据 ≤1 → 清空 threads。三道防误伤门 (全部 corpus
   实证调出): ① 强证据 (≥2 词) 不清; ② 叙事路径 neg==0 否决 ("行政令 + Starship
   IFT 失败" 混合事件不清, t051/u007); ③ 叙事路径 len(threads)≤2 (行业综述研报
   扫 4 主线是真覆盖, 合成集 r030)。
2. 公司反哺域外门 (repository): 分类器标记 off_domain 且关键词主线为空时跳过反哺。

效果: **42.4% → 47.8% (25 修 0 伤)** · 合成基线维持 1.00 · 533 tests 全绿。

## §4 各字段新基线 (D V2.1 口径, rules-only)

| 字段 | exact_rate | 旧口径对照 |
|---|---:|---:|
| threads | 39.9% | 34.4% (n/a 不计) |
| thesis_impact | 69.5% | 69.5% |
| strategy | 58.6% | 57.1% |
| thread_in_focus | 58.6% | 53.9% |
| **overall (≥3/4)** | **47.8%** | 35.5% |

## §5 联动更新

- 锚定测试 0.355 → **0.478** (理由如上, 双步分解可复现)
- 月度守护线 `min_overall_exact_rate` 0.30 → **0.40**
- +LLM 基线 37.4% 为旧口径作废, 全量重测进行中 (结果落
  `validation-d-v2-2026-06-11-v21-llm-zhipu.md`)

## §6 剩余瓶颈 (下轮候选)

修复后 106 失败的下一层: threads 超集 (政策文 over-fire, g003 类) /
漏判 (运营支撑 9 条词典缺口) / impact 中性↔增强 残余 ~45 条。
单字段孤立错 (impact/strategy) 16 条是 LLM 兜底最易传导的目标。

---

## 第二轮 (同日续): 47.8% → 56.2% (18 修 1 伤)

| 步骤 | overall | 改动 |
|---|---:|---|
| ③ 词典/SEED 加法 | 51.7% | Golden Dome/Iron Dome for America 计划名 · 发射许可/整流罩/太空港/发射提供商 · 用户突破 · SEED +5 并购运营商 (Orbcomm/Swarm/国智恒/中科凯普/Sky and Space) — 9 修 1 伤 (t051 计划名附带代价, near-dup 对 u007 仍 pass) |
| ④ 极性与传导 | **56.2%** | 负面词 +爆炸/坠毁/火灾/破产 · 域外语境+无主线 → impact 强制中性 (月球着陆失败 gt 中性) · 反哺后补跑经营动作 tie-break (只认 corporate_action, 不认裸"发射"里程碑 — t022 Bandwagon 弱信号教训) — 9 修 0 伤 |

字段级: threads 44.3% · **impact 80.3%** · strategy 67.5% · focus 62.6%。

**工程踩坑 (高检索价值)**: `test_apply_idempotent` 会对仓库真实 seed.py/ontology.py
重跑 wiki-import `--apply`, **重写整个 appendix 哨兵区** — 任何手工插进 appendix
区的条目会在下一次全量测试时被静默冲掉 (本轮 SEED 5 家两次"凭空消失"的真凶)。
规矩: **人工 curated 条目只进基础区** (appendix 哨兵之前)。

---

## 第三轮 (续 36): 56.2% → 60.6% (14 修 0 伤) · labeled_real 0.52 → 0.64

| 步骤 | overall | 改动 |
|---|---:|---|
| ⑤ 词典: 试车/级段/型号 | 58.6% | 一级/二级火箭·上面级·发动机试车·SLS·Artemis·Epsilon S·长征常用型号 (RFA 试车爆炸/Vega/Artemis 判空反推); Artemis 不破坏 u026 — 域外抑制器把"月面着陆器"单证据正确清掉 (防误伤门复用) |
| ⑥ 反哺修剪 | 59.6% | 关键词证据已 ≥2 主线时跳过公司反哺 (u021/u023 Viasat-3 发射事件多挂运营支撑); 单线/零线无条件反哺保留 (合成集 n001 依赖) |
| ⑦ 弱多挂修剪 | **60.6%** | 主导主线证据 ≥3 时丢弃单证据陪跑线 (hf "芯片和终端模组"标题并列只挂主导线); dominance=3 经 K∈{2,3,4,5} 网格 + 全量 diff (2 修 0 伤) 选出 — **该参数在考卷上选的, 换 corpus 需复核** |

字段级: threads 54.7% · impact 81.3% · strategy 69.0% · focus 65.5%。

**泛化证据**: labeled_real 25 条真实新闻盲测集 **0.52 → 0.64 (+12pp)** —
续 35/36 改动并非只对 validation corpus 过拟合, 在独立评测集上同向受益。

**escalate 门收紧实验处置**: 暂缓 — v22/v23 已证 "LLM 覆盖" 范式在强规则下
整体净负, 门收紧只是减少伤害不创造收益; 下一次 LLM 集成应换形态
("LLM 出建议+规则裁决" 弱耦合 / 或只做 threads 为空时的补判), 列下轮候选。

**今日全程**: 35.5% → 60.6% (**+25.1pp**), 判分修正 +6.9 / 分类器手术 +18.2,
全程合成基线 1.00, 三轮共 47 修 1 伤。

---

## 第四轮 (续 37): 60.6% → 62.1% + 原则性停止判断

| 步骤 | overall | labeled_real | 改动 |
|---|---:|---:|---|
| ⑧ 核心网轨道噪声词移除 | **62.1%** | **0.68** | 移除 CORE_NETWORK 的 `低轨/高轨/LEO/GEO/MEO` 裸词 — 轨道高度与"是否核心网事件"正交, 任何提 LEO/GEO 的发射/运营/终端事件都被误带核心网; +6 修 3 伤 (3 伤是 GT 对轨道词归属不一致的税), labeled_real 0.64→0.68 印证泛化。复合词 "GEO/LEO/MEO operator" 在 OPERATIONS 不受影响 |

**为什么到此为止 (原则性停止)**: 剩余 78 失败经逐条核查, 主力已非"分类器可修"而是
**GT 本身的标注哲学不一致** + 多业务年报的兄弟主线共激:
- "星座/组网" 归属在 GT 里不一致 (千帆星座有的标核心网、有的标运营支撑), 移除净负 —
  这不是分类器能赢的, 是 corpus 需要重新统一标注口径;
- hf 年报 (铖昌/国博/北斗星通) 描述跨边界多业务, GT 取主营, 而"相控阵/模组/T-R 组件"
  让兄弟主线 (终端) 与主营 (芯片) 共激 — 弱多挂修剪够不到 (主营未必证据占优);
- 政策长文 (g003 工信部指导意见) 列举核心网/终端/运营支撑, GT 取实质 — 需"列举 vs 实质"
  的语义判断, 已超规则边界。

**继续磨的边际成本 > 收益**: 下一个 +1pp 需要 corpus 重标 (人工口径统一) 或公司主线先验
消歧 (用 SEED thread 锚年报, 但风险高且对 RSS 实时流无直接收益)。**判断质量攻坚至此收束。**

**今日全程**: 35.5% → **62.1%** (**+26.6pp**, 四轮), labeled_real 真实盲测 0.52 → **0.68** (+16pp),
全程合成基线 1.00, 53 修 4 伤。质量已推到公网首页看板 (snapshot 重生成)。
