InvesResearch DocsAgent回归 · 真实集 25 条
Real-data Regression · docs/regression-real.md

25 条真实公开新闻 · v1 三项全过 64%

真实数据基线: 25 条公开新闻 / 公告 / 政策, 每条带 source_url 可追溯。回答 roadmap §5 的第 1 候选——「真实数据盲测, 决定要不要立刻加 LLM」。不需要重写分类器, 不需要引入语义检索 / embedding; 词典扩展(rules v1)已把三项全过从 40% 拉到 64%, 剩下 9 个失败 case 需要 LLM 兜底。

§1 一句话结论 · v0 vs v1

词典扩展前后 · 整体指标

所有四项指标显著提升, 合成集 30 条仍保持 100% / 1.000 不退化。

三项全过
40.0%64.0%
+24 pp
thesis 准确率
64.0%92.0%
+28 pp
macro F1
0.8220.875
+0.053
运营支撑 F1
0.590.80
+0.21
§2 数据集

25 条真实新闻组成

时间窗
2024-12 ~ 2026-04 以 2025-Q3 至 2026-Q2 为主
主线覆盖
核心网 7 · 终端 12 · 芯片 2 · 运营支撑 9(含多主线)
Thesis 分布
增强 17 · 削弱 5 · 中性 2 · 主线零命中 2
边角 case
公司澄清公告(n025) · 整星制造无主线(n018) · 监管警示(n019) · 对冲句(n017) · 公司反哺耦合测试(n024)
数据源
工信部 · 上交所 · 公司公告(震有 / 海格 / 复旦微电 / 中国卫星 / 北方导航 / 思瑞浦)· 财经媒体 · 行业研报
样本字段
title / content / occurred_at / source / source_url / expected.threads / expected.thesis_impact / expected.min_confidence / max_confidence
§3.2 per-thread

per-thread P / R / F1 (v1)

运营支撑大幅改善, 其他三个主线持平。核心网 over-precision 没有改善, 关键词漂移问题需要 LLM 才能解。

threadTPFPFNPRF1vs v0
核心网7400.641.000.78持平
终端12200.861.000.92持平
芯片2001.001.001.00持平
运营支撑8310.730.890.80+0.21
!

§3.3 反直觉发现 · 关闭公司反哺反而拉升 thread exact-match

v0 基线时, 关闭 enrich_with_company_threads 把 thread exact-match 从 56% 拉到 60%。原因: 种子公司列表里 "中国卫通" 是 OPERATIONS, 导致 n001 / n024 等新闻被强行挂"运营支撑"。
→ 公司反哺应改为弱信号: 只在 thread 列表为空时补充, 或者补充的同时降一档置信度, 而不是无条件追加。本轮未改, 因为 test_enrich.py 与 fallback 语义直接冲突, 推迟到与 LLM 兜底同一轮统一改造。

§4 失败 case · 三类根因

v0 15 条失败 → v1 9 条残留

按修复成本 / 可行性分组。第一类词典扩展已修, 第二类需要 LLM, 第三类是标注争议。

类 1 · 词典扩展即可解决

v0 占失败 60% · v1 已修复 6 条

POS / NEG 词典缺漏 + OPERATIONS 政策牌照域
ID问题缺漏词v1 状态
n004政策正面动词上线 · 正式✓ 修复
n005许可证类颁发 · 获许可 · 经营许可 · 配齐✓ 修复
n007政策推动类印发 · 促进 · 鼓励 · 推动 · 出台⚠ impact 修, threads 仍 over-fire
n017财报负向下滑 · 承压✓ 修复
n019监管警示警示 · 信息披露不准确 · 风险提示不充分⚠ impact 修, threads 仍漏 OPS
n020试点经营批复 · 试点经营 · 卫星物联网业务⚠ OPS 命中, 仍多挂核心网
n021卫星服务运营卫星通信服务 · 卫星导航服务 · 电信运营✓ 修复
n022出海落地出海 · 卫星业务落地 · 手机直连卫星业务✓ 修复
类 2 · 必须 LLM 兜底

v1 残留 9 条失败的主体

关键词漂移 + 对冲句 + thread 召回边界
IDover-fire 主线漂移触发词标注本意
n001多挂运营支撑"中国卫通" 公司反哺无条件追加事件本质是核心网 + 终端
n002多挂终端"手机直连卫星" 作为应用场景项目本质是核心网模拟系统
n006多挂终端"手机直连卫星" 在政策列表提及牌照颁发本质是运营支撑
n007多挂核心网"核心网" 在政策长文里被列举政策利好终端 + 运营支撑
n010多挂核心网 + 运营支撑"三大运营商" "低轨星座地面网络"终端公司订单事件
n012对冲句 thesis 误判"FPGA 是公司拳头产品, 广泛应用于卫星通信" — 无动作词, POS=0 但 thread 命中
n018对冲句 + 整星制造无主线"营收增长 + 净利润亏损放大" 同时命中
n019thread 召回边界thresh 漏 "运营支撑" — "商业航天" 是泛词不入词典
n020多挂核心网"天启星座" 触发 — "星座" 在这里是公司名一部分
类 3 · 标注 / 设计争议

v0 占失败 13% · v1 已全部修复

ID争议v1 状态
n007"工信部指导意见" 是否归核心网⚠ impact 修, threads 归类 1
n024"中国卫通推出消费级终端" 反哺挂运营支撑✓ exact-match 通过
n025北方导航澄清 "未发布、无业务"✓ 修复(_NEGATION_PAIRS 加 未发布→发布)
§4.1 关键修法

rules v1 关键修法

四类词典扩展, 直接对应失败 case 类 1 的根因。

POSITIVE_KEYWORDS · 增 14 个
上线全国上线颁发获许可经营许可业务许可配齐印发出台鼓励推动促进批复出海签署授权
NEGATIVE_KEYWORDS · 增 14 个
下滑承压业绩下滑利润下滑营收下滑亏损放大毛利率下降扣非亏损警示监管警示信息披露不准确风险提示不充分披露不及时招标失败
THREAD_KEYWORDS[OPERATIONS] · 增 9 个
卫星通信服务卫星导航服务卫星遥感经营许可业务许可卫星物联网业务卫星移动通信业务试点经营卫星网络运营
_NEGATION_PAIRS · 增 4 对
(未发布, 发布)(未取得, 获得)(未签订, 签订)(招标失败, 中标)
§5 关键 takeaway

与合成集对比 · 核心教训

100% 合成集分数不代表上线表现 —— 这条早在 regression.md §6 已写明, 真实数据把这句话坐实了。

维度合成集 100% 是因为真实集掉下来是因为
词典覆盖样本里出现的词典里都有真实新闻措辞远比合成丰富
极性词合成时刻意放了正反 keyword真实"对冲句"普遍, "上线/颁发"等不在词典
Thread 集合合成只挂明确主线真实政策文 / 公告往往跨多主线, exact-match 太严苛
标注合成是 round-trip(规则与样本一起调)真实是人工先判, classifier 后跑, 边角案例多