真实数据基线: 25 条公开新闻 / 公告 / 政策, 每条带 source_url 可追溯。回答 roadmap §5 的第 1 候选——「真实数据盲测, 决定要不要立刻加 LLM」。不需要重写分类器, 不需要引入语义检索 / embedding; 词典扩展(rules v1)已把三项全过从 40% 拉到 64%, 剩下 9 个失败 case 需要 LLM 兜底。
所有四项指标显著提升, 合成集 30 条仍保持 100% / 1.000 不退化。
运营支撑大幅改善, 其他三个主线持平。核心网 over-precision 没有改善, 关键词漂移问题需要 LLM 才能解。
| thread | TP | FP | FN | P | R | F1 | vs v0 |
|---|---|---|---|---|---|---|---|
| 核心网 | 7 | 4 | 0 | 0.64 | 1.00 | 0.78 | 持平 |
| 终端 | 12 | 2 | 0 | 0.86 | 1.00 | 0.92 | 持平 |
| 芯片 | 2 | 0 | 0 | 1.00 | 1.00 | 1.00 | 持平 |
| 运营支撑 | 8 | 3 | 1 | 0.73 | 0.89 | 0.80 | +0.21 |
v0 基线时, 关闭 enrich_with_company_threads 把 thread exact-match 从 56% 拉到 60%。原因: 种子公司列表里 "中国卫通" 是 OPERATIONS, 导致 n001 / n024 等新闻被强行挂"运营支撑"。
→ 公司反哺应改为弱信号: 只在 thread 列表为空时补充, 或者补充的同时降一档置信度, 而不是无条件追加。本轮未改, 因为 test_enrich.py 与 fallback 语义直接冲突, 推迟到与 LLM 兜底同一轮统一改造。
按修复成本 / 可行性分组。第一类词典扩展已修, 第二类需要 LLM, 第三类是标注争议。
| ID | 问题 | 缺漏词 | v1 状态 |
|---|---|---|---|
| n004 | 政策正面动词 | 上线 · 正式 | ✓ 修复 |
| n005 | 许可证类 | 颁发 · 获许可 · 经营许可 · 配齐 | ✓ 修复 |
| n007 | 政策推动类 | 印发 · 促进 · 鼓励 · 推动 · 出台 | ⚠ impact 修, threads 仍 over-fire |
| n017 | 财报负向 | 下滑 · 承压 | ✓ 修复 |
| n019 | 监管警示 | 警示 · 信息披露不准确 · 风险提示不充分 | ⚠ impact 修, threads 仍漏 OPS |
| n020 | 试点经营 | 批复 · 试点经营 · 卫星物联网业务 | ⚠ OPS 命中, 仍多挂核心网 |
| n021 | 卫星服务运营 | 卫星通信服务 · 卫星导航服务 · 电信运营 | ✓ 修复 |
| n022 | 出海落地 | 出海 · 卫星业务落地 · 手机直连卫星业务 | ✓ 修复 |
| ID | over-fire 主线 | 漂移触发词 | 标注本意 |
|---|---|---|---|
| n001 | 多挂运营支撑 | "中国卫通" 公司反哺无条件追加 | 事件本质是核心网 + 终端 |
| n002 | 多挂终端 | "手机直连卫星" 作为应用场景 | 项目本质是核心网模拟系统 |
| n006 | 多挂终端 | "手机直连卫星" 在政策列表提及 | 牌照颁发本质是运营支撑 |
| n007 | 多挂核心网 | "核心网" 在政策长文里被列举 | 政策利好终端 + 运营支撑 |
| n010 | 多挂核心网 + 运营支撑 | "三大运营商" "低轨星座地面网络" | 终端公司订单事件 |
| n012 | 对冲句 thesis 误判 | "FPGA 是公司拳头产品, 广泛应用于卫星通信" — 无动作词, POS=0 但 thread 命中 | — |
| n018 | 对冲句 + 整星制造无主线 | "营收增长 + 净利润亏损放大" 同时命中 | — |
| n019 | thread 召回边界 | thresh 漏 "运营支撑" — "商业航天" 是泛词不入词典 | — |
| n020 | 多挂核心网 | "天启星座" 触发 — "星座" 在这里是公司名一部分 | — |
| ID | 争议 | v1 状态 |
|---|---|---|
| n007 | "工信部指导意见" 是否归核心网 | ⚠ impact 修, threads 归类 1 |
| n024 | "中国卫通推出消费级终端" 反哺挂运营支撑 | ✓ exact-match 通过 |
| n025 | 北方导航澄清 "未发布、无业务" | ✓ 修复(_NEGATION_PAIRS 加 未发布→发布) |
四类词典扩展, 直接对应失败 case 类 1 的根因。
100% 合成集分数不代表上线表现 —— 这条早在 regression.md §6 已写明, 真实数据把这句话坐实了。
| 维度 | 合成集 100% 是因为 | 真实集掉下来是因为 |
|---|---|---|
| 词典覆盖 | 样本里出现的词典里都有 | 真实新闻措辞远比合成丰富 |
| 极性词 | 合成时刻意放了正反 keyword | 真实"对冲句"普遍, "上线/颁发"等不在词典 |
| Thread 集合 | 合成只挂明确主线 | 真实政策文 / 公告往往跨多主线, exact-match 太严苛 |
| 标注 | 合成是 round-trip(规则与样本一起调) | 真实是人工先判, classifier 后跑, 边角案例多 |