合成-领域真实(synthetic-but-realistic)的 30 条 labeled regression。规则与样本是一起调出来的, 会有过拟合, 100% 不代表上线表现——这条早在 §6 写明, 真实数据(25 条公开新闻基线 64%)把它坐实了。
4 主线全部 TP=N, FP=0, FN=0, P=R=F1=1.00。这反映合成集是 round-trip 过的, 每个 thread 上的关键词词典对样本表达完全覆盖。
| thread | TP | FP | FN | P | R | F1 |
|---|---|---|---|---|---|---|
| 核心网 | 9 | 0 | 0 | 1.00 | 1.00 | 1.00 |
| 终端 | 16 | 0 | 0 | 1.00 | 1.00 | 1.00 |
| 芯片 | 8 | 0 | 0 | 1.00 | 1.00 | 1.00 |
| 运营支撑 | 8 | 0 | 0 | 1.00 | 1.00 | 1.00 |
一个样本可同时挂多个 thread, 所以下面合计大于 30。注意终端覆盖最广(16 条), 包含 D2C、车载、海事、应急、IoT 等多个场景。
9 类边角案例都有对应样本验证, 这是合成集设计良好的标志。
| 边角类型 | 样本 ID | 用途 |
|---|---|---|
| 未中标 (负向反义) | r011 | 验证 _NEGATION_PAIRS |
| 召回 (law/risk) | r015 | 验证 NEG 扩词 |
| 诉讼 | r022 | 验证 NEG 扩词 |
| 裁员 | r025 | 验证 NEG 扩词 |
| 多主线 D2C | r008 / r028 / r030 | 验证多 thread 同时打 |
| 公司主线反哺 | r001 (中国卫通 → 运营支撑) | 验证 enrich_with_company_threads |
| 风险维度但无极性词 | r029 (短文本"被监管") | 验证 RISK fallback |
| 低信号噪音 | r024 (市场普涨) | 验证零主线 + 低 confidence |
| 标注争议 | r027 (招标重启) | 在 _note 字段标理由 |
第一次跑出 83.3% 三项全过, 5 个 failure → 复盘后定位 5 类根因, 修完得到 100%。教训沉淀到 ontology.md §7 词典维护原则。
留有缓冲, 接真实数据时会先掉到这里再回升。如果加新样本后跌破, 要么补词典, 要么调阈值, 不允许"先注释掉 test 等会儿再说"。
| 局限 | 影响 | 后续 |
|---|---|---|
| 合成数据自调 | 100% 是 round-trip, 不代表上线表现 | 接 25 条真实新闻盲测(已完成) |
| 关键词长尾 | 没见过的新词直接漏(新公司、新缩写) | LLM 兜底 conf<0.55 触发 |
| 无语义理解 | "对 B 的诉讼没有依据" 会被打成削弱 | LLM 兜底 + 否定句检测 |
| 共指消解 | "该公司" 指代谁要靠上下文 | LLM 必要 |
| 时态/语态 | "曾被罚款" vs "被罚款" 当前同等 | 暂可接受 |
| 评估缺 scenario / dimension | 当前只评 threads + thesis | Phase 2 加入 |