这一页把 抓取 → 分类 → 入库 → 判断 → 决策 的端到端流程, 加上当前完成度、真实数据回归基线、失败 case 根因、roadmap 时间线、schema 演进、决策层输出 mockup, 全部图示化。用于人工检查整个流程是否对齐 PRD 的双视角定位。
这不是"自动分类 + 自动文档"的工具, 是"产业决策辅助系统"。决策由人来下, agent 把核心变量摆清楚、把信号提炼到位。
从左到右: 抓取层 → 输入侧 → 持久化 → 判断层 → 决策层。每个方块的颜色对应是否已交付(绿)、进行中(金)、未启动(蓝)。
Phase 1 完成的是 PRD §3.1 输入侧。Phase 2 是 LLM 兜底 + schema 扩展 + 抓取(关键路径)。Phase 3 是双视角决策层。
本体是分类器的唯一真实来源。改分类规则只动 ontology.py 一个文件。每条主线下面是它的代表关键词与真实集 F1。
输入是一段中文文本, 输出是 threads / scenarios / dimensions / thesis_impact / confidence + evidence。无状态, 无 DB 依赖, 可被任意层调用。
25 条真实公开新闻 / 公告 / 政策, 每条带 source_url 可追溯。v0 是首轮无调整的基线, v1 是补充词典 + 反义对后的成绩。合成集 30 条在 v1 下保持 100% / 1.000 不退化。
| thread | TP | FP | FN | Precision | Recall | F1 (v1) | vs v0 |
|---|---|---|---|---|---|---|---|
| 核心网 | 7 | 4 | 0 | 0.64 | 1.00 | 0.78 | 持平 |
| 终端 | 12 | 2 | 0 | 0.86 | 1.00 | 0.92 | 持平 |
| 芯片 | 2 | 0 | 0 | 1.00 | 1.00 | 1.00 | 持平 |
| 运营支撑 | 8 | 3 | 1 | 0.73 | 0.89 | 0.80 | +0.21 |
v1 失败的 9 条按根因分三类: thread over-fire(关键词漂移)、对冲句(POS/NEG 主从不识别)、召回边界(标注主观性)。词典扩展无法再修, 必须 LLM 语义理解。
len(threads) ≥ 3confidence < 0.55按"完成 / 进行中 / 未启动"三态, 标出依赖与关键路径。schema 扩展是 Phase 3 启动前的硬卡点, 不是 LLM 兜底。
numeric_fields (订单金额 / capex / opex / 客户)、companies 加 orders / revenue_mapping / peer_rank / position_signal。必须先于抓取层动手, 否则抓回数据要二次回填。confidence < 0.55 或 len(threads) ≥ 3。后者捕捉 over-fire 类(本身 confidence 高所以纯阈值漏)。同步把公司反哺改为"反哺挂上 → confidence *= 0.85"弱信号化。目标真实集三项全过 ≥ 85%。金色字段是 Phase 2 待扩, 都是 Phase 3 决策层的硬依赖。schema 扩 → 抓取层填字段 → 判断层读字段 → 决策层产仓位信号。
Phase 3 还未启动, 这里是目标产出的样板, 用于在动手前对齐"做出来应该长这样"。数据是用本周新闻样本反推的示意, 仅作格式演示。
LLM 兜底很重要, 但它只改善"输入侧分类准确率"——这条线优化到 85% 三项全过, Phase 3 决策层仍然没法启动, 因为仓位信号必须基于真实的订单金额 / capex / 客户主体数据, 而 events 表当前根本没有这些字段。
因此正确的依赖链是:
schema 扩展只需 1-2 天, 是最低工作量 / 最高解锁价值的下一步。LLM 兜底可以与 schema 扩展并行, 但 schema 必须先到位才能启动 Phase 3。
本页是图示层, 文字论述与代码细节请回到对应 markdown。
产品定位 · 双视角用户 · 输入侧 / 判断层 / 决策层三层功能 · Phase 1/2/3 边界
Phase 1 已交付 · Phase 2 拆解 · Phase 3 重定义(3a CEO / 3b 投资 / 3c 分发) · 关键路径
三层分离 · 数据流 · 关键决策 · 数据模型(含 P2 待扩字段) · 扩展指引
4 主线 / 6 场景 / 6 维度 / Thesis 三态 · 关键词词典完整 · 词典维护原则
30 条样本组成 · 评估指标 · round 1 复盘 · 阈值断言 · 已知 limitations
25 条真实新闻 · v0 / v1 对比 · 失败 case 根因 · Phase 2.1 LLM 兜底设计
9 个 CLI 子命令 + 8 个 FastAPI 业务端点 + /health · 调用示例
设计哲学 · 架构图 · Phase 进展 · 指标 · 文档索引 · 视觉化总览
JSONL 标注集 · 每条带 source_url 可追溯 · 包含 thread / thesis / confidence 标准