不看 PRD,不看 roadmap,只看「系统里有什么数据 / 怎么流 / 缺什么」三个问题。 持久化 4 表 · 静态种子 90 行 · 样本集 63 条 · 词典 365 词 · 数据流 6 步。 最重要的一节在 §7 — Phase 3 决策层缺的字段是当前关键路径上的瓶颈。
Satellite Agent 的全部数据资产可分四类:持久化层(SQLite 4 表)、静态种子(初始化用)、样本集(回归 / demo)、关键词词典(规则分类器的"大脑")。
来自 db.py 的 SCHEMA 块。● 是必填,RESERVED 是字段已存在但 Phase 1 未写入。
| id● | INTEGER PK | 自增 |
| title● | TEXT | 事件标题 |
| content● | TEXT | 正文 |
| source | TEXT | 来源 |
| url | TEXT | 原文链接 |
| occurred_at● | TEXT | ISO8601 发生时间 |
| created_at● | TEXT | 入库时间 |
| threads | TEXT (JSON) | 命中主线数组 |
| scenarios | TEXT (JSON) | 命中场景 |
| dimensions | TEXT (JSON) | 命中维度 |
| thesis_impact | TEXT | 增强 / 削弱 / 中性 |
| confidence | REAL | [0, 1] |
| next_indicators | TEXT (JSON) | 跟踪指标 |
| companies | TEXT (JSON) | 反哺公司 |
| order_amount_cny_yiNEW | REAL | 订单金额(亿元), NULL = 无数字 |
| capex_cny_yiNEW | REAL | 资本开支(亿元) |
| opex_cny_yiNEW | REAL | 运营开支(亿元) |
| time_windowNEW | TEXT | e.g. "2026-04..2026-12" |
| customer_subjectNEW | TEXT | 客户主体 |
| numeric_evidenceNEW | TEXT (JSON) | 解析痕迹 |
| id● | INTEGER PK | 自增 |
| name● | TEXT UNIQUE | 公司名 |
| thread | TEXT | 所属主线 |
| products | TEXT (JSON) | 代表产品 |
| customers | TEXT (JSON) | 主要客户 |
| revenue_mappingRESERVED | TEXT | 订单 → 主线 → 财报科目映射 |
| moat | TEXT | 护城河 |
| risk | TEXT | 风险 |
| score | REAL | 综合评分 |
| aliases | TEXT (JSON) | 反哺用别名 |
| ordersNEW | TEXT (JSON) | [{amount_cny_yi, customer, date, source}] |
| peer_rankNEW | INTEGER | 同主线当前排名 |
| peer_rank_deltaNEW | INTEGER | 本周排名变化 |
| last_quarter_revenue_cny_yiNEW | REAL | 最近一期营收(亿元) |
| id● | INTEGER PK | 自增 |
| thread● | TEXT | 主线 |
| year● | INTEGER | 2025-2031 |
| scenario● | TEXT | conservative / base / optimistic |
| value_cny_yi● | REAL | 单位 亿元 |
| note | TEXT | 默认 "seed v0.1 (placeholder)" |
| id● | INTEGER PK | 自增 |
| thread● | TEXT | 主线 |
| statement● | TEXT | thesis 文本 |
| score● | REAL | 实时得分(默认 0) |
| updated_at● | TEXT | 最近更新 |
下面只展示 base 情景。芯片增速最快(2025 → 2031 ×23.9),终端市场最大(2031 base 1,150 亿),核心网和运营支撑增速温和(×8 左右)。⚠️ 全为 MVP 占位估算,Phase 2 抓取上线后用真实 capex / opex 数字滚动修正。
当前 6 家覆盖 4 主线(核心网 2 / 终端 2 / 芯片 1 / 运营支撑 1)。仍偏少 —— Phase 2 需扩到至少 20 家,补星网 / 时空道宇 / 国电高科 / 中国电信卫星 / 中科星图 / 信科移动 等。
demo 用来 smoke test,合成集用来快速回归(100% 不退化),真实集用来盲测上线表现。三组角色互不重叠。
这 25 条是当前唯一的"上线压力测试"。每条都来自公开新闻 / 公告 / 政策文件,带 source_url。下面四张图分别从主线 / thesis / 时间 / 来源 四个角度刻画分布。
三类词典加起来 242 词,极性词典 111 词,反义对 12 对。运营支撑词典最大(35 词)— Phase 2.0 词典扩展时新增最多,把 F1 从 0.59 拉到 0.80。
从原文到周报六步。第 1-2 步是 classifier 内部,第 3-4 步是 repository 反哺 + 持久化,第 5-6 步是聚合输出。每条事件最终落 JSON 数组到 SQLite 的 text 字段。
confidence = min(1.0, (2×threads + dims + 0.5×scenarios + 1.5×max(pos,neg)) / 10) · 主线零命中再 ×0.4 折扣。confidence ×= 0.85 弱信号。
这一节原本是"数据缺口"——现在变成"已落地"。roadmap §5 Item 5 完成,events 加 6 个数字字段、companies 加 4 个,migration 幂等。下一步可以直接开 Phase 3a 决策层。
| 决策输出 | 依赖字段 | 现状 |
|---|---|---|
| 主线评分(本周 vs 上周) | events.confidence + 时间窗 | ✓ 已有(Phase 1) |
| 主驱动变量识别(CEO 视角) | events 的 capex / opex / 订单金额 | ✓ schema 落地 |
| 公司相对位势矩阵(投资视角) | companies.orders + revenue_mapping + peer_rank | ✓ schema 落地 + 6 家种 orders |
| 市场模型动态修正 | 真实 capex / opex 聚合 → market_model 更新 | ⏳ 修正管线待 Phase 3b |
| 仓位调节信号 + 证据链 | ≥ 4 周主线评分 + 公司订单变化 | ⏳ 时间未累积 |
2026-06-02 一次词典扩展把真实集三项全过从 40% 拉到 64%,thesis 准确率从 64% 拉到 92%,合成集 100% 不退化。这是当前的"上线表现底线"。