docs agent/docs data-viz
From the Data · 数据视角

把 Agent 当成
一份数据资产来盘点

不看 PRD,不看 roadmap,只看「系统里有什么数据 / 怎么流 / 缺什么」三个问题。 持久化 4 表 · 静态种子 90 行 · 样本集 63 条 · 词典 365 词 · 数据流 6 步。 最重要的一节在 §7 — Phase 3 决策层缺的字段是当前关键路径上的瓶颈。

§2 · DATA INVENTORY

四象限 · 数据全景

Satellite Agent 的全部数据资产可分四类:持久化层(SQLite 4 表)、静态种子(初始化用)、样本集(回归 / demo)、关键词词典(规则分类器的"大脑")。

Persistent · SQLite
4
tables · 53 columns (events 20 / co 14)
events · companies · market_model · thesis_state
Phase 2 schema 已扩 · migrate_schema() 幂等
Static · Seeds
90
rows · in code
市场模型 84 + 公司 6
seed.py · 一次性灌入
Samples · JSONL
63
items
8 demo / 30 合成 / 25 真实
跑回归 + smoke test
Dictionaries
365
keywords + 12 pairs
主线 102 · 场景 51 · 维度 89
极性 61+50 · 反义对 12
§3 · SCHEMA

4 张表 · 当前 schema

来自 db.py 的 SCHEMA 块。 是必填,RESERVED 是字段已存在但 Phase 1 未写入。

events

20 fields · 3 indexes
idINTEGER PK自增
titleTEXT事件标题
contentTEXT正文
sourceTEXT来源
urlTEXT原文链接
occurred_atTEXTISO8601 发生时间
created_atTEXT入库时间
threadsTEXT (JSON)命中主线数组
scenariosTEXT (JSON)命中场景
dimensionsTEXT (JSON)命中维度
thesis_impactTEXT增强 / 削弱 / 中性
confidenceREAL[0, 1]
next_indicatorsTEXT (JSON)跟踪指标
companiesTEXT (JSON)反哺公司
order_amount_cny_yiNEWREAL订单金额(亿元), NULL = 无数字
capex_cny_yiNEWREAL资本开支(亿元)
opex_cny_yiNEWREAL运营开支(亿元)
time_windowNEWTEXTe.g. "2026-04..2026-12"
customer_subjectNEWTEXT客户主体
numeric_evidenceNEWTEXT (JSON)解析痕迹
idx_events_occurred · idx_events_impact · idx_events_order_amount

companies

14 fields · 6 rows seeded
idINTEGER PK自增
nameTEXT UNIQUE公司名
threadTEXT所属主线
productsTEXT (JSON)代表产品
customersTEXT (JSON)主要客户
revenue_mappingRESERVEDTEXT订单 → 主线 → 财报科目映射
moatTEXT护城河
riskTEXT风险
scoreREAL综合评分
aliasesTEXT (JSON)反哺用别名
ordersNEWTEXT (JSON)[{amount_cny_yi, customer, date, source}]
peer_rankNEWINTEGER同主线当前排名
peer_rank_deltaNEWINTEGER本周排名变化
last_quarter_revenue_cny_yiNEWREAL最近一期营收(亿元)

market_model

6 fields · 84 rows seeded
idINTEGER PK自增
threadTEXT主线
yearINTEGER2025-2031
scenarioTEXTconservative / base / optimistic
value_cny_yiREAL单位 亿元
noteTEXT默认 "seed v0.1 (placeholder)"
UNIQUE (thread, year, scenario)

thesis_state

5 fields · 0 rows (Phase 2)
idINTEGER PK自增
threadTEXT主线
statementTEXTthesis 文本
scoreREAL实时得分(默认 0)
updated_atTEXT最近更新
⚠ Phase 1 不写入,Phase 2 Tracking Agent 启动后开始累计
§4 · MARKET MODEL · 84 ROWS

市场模型 · 4 主线 × 7 年 × 3 情景

下面只展示 base 情景。芯片增速最快(2025 → 2031 ×23.9),终端市场最大(2031 base 1,150 亿),核心网和运营支撑增速温和(×8 左右)。⚠️ 全为 MVP 占位估算,Phase 2 抓取上线后用真实 capex / opex 数字滚动修正

核心网 终端 芯片 运营支撑 单位:亿元 · base 情景
1200 960 720 480 240 0 2025 2026 2027 2028 2029 2030 2031 650 1150 430 290
2031 BASE 合计
2,520 亿元
2031 CONSERVATIVE 合计
1,205 亿元
2031 OPTIMISTIC 合计
4,820 亿元
§5 · COMPANY CARDS · 6 SEEDED

代表公司 · 种子卡片

当前 6 家覆盖 4 主线(核心网 2 / 终端 2 / 芯片 1 / 运营支撑 1)。仍偏少 —— Phase 2 需扩到至少 20 家,补星网 / 时空道宇 / 国电高科 / 中国电信卫星 / 中科星图 / 信科移动 等。

上海瀚讯
300762
核心网
产品宽带核心网设备 · 信关站
客户运营商 · 总体单位
"宽带卫星组网设备核心供应商"
震有科技
688418
核心网
产品5G NTN 核心网 · 信关站方案
客户总体单位 · 运营商
"5G NTN 核心网早期玩家"
华力创通
300045
终端
产品北斗+天通双模终端 · 模组
客户军工 · 应急 · 政企
"北斗+天通早期双模终端供应商"
海格通信
002465
终端
产品卫星通信终端 · 无线电基带
客户军工 · 政企
"军工通信底层能力 + 多模终端"
复旦微电
688385
芯片
产品基带 · 射频 · FPGA
客户终端厂商 · 军工
"国产化基带 + 射频 + FPGA 平台"
中国卫通
601698
运营支撑
产品卫星通信服务 · 高通量运营
客户三大运营商 · 广电 · 民航
"国家队稀缺频轨与高通量资源"
§6 · SAMPLE SETS

样本集 · 3 组对比

demo 用来 smoke test,合成集用来快速回归(100% 不退化),真实集用来盲测上线表现。三组角色互不重叠。

demo · events.jsonl

8 条 smoke 样本

字段:title · content · source · occurred_at · next_indicators
用途CLI ingest-file 演示
expected 标签
能回归
仅用于跑 ingest 管线 / 验证 schema
synthetic · labeled_regression.jsonl

30 条合成回归集

threads: 终端 16 · 核心网 9 · 芯片 8 · 运营支撑 8
thesis 分布增 19 · 减 10 · 中 1
expected 字段threads + impact + min_conf
能回归
三项全过100.0%
macro F11.000
thesis 准确率100.0%
real · labeled_real.jsonl

25 条真实回归集

threads: 终端 12 · 运营 9 · 核心 7 · 芯片 2
时间窗2024-12 → 2026-04
每条带source_url 可追溯
能回归
三项全过 (v1)64.0%
macro F1 (v1)0.875
thesis (v1)92.0%
§7 · REAL-SET BREAKDOWN · 25 ITEMS

真实集 · 4 个维度分布

这 25 条是当前唯一的"上线压力测试"。每条都来自公开新闻 / 公告 / 政策文件,带 source_url。下面四张图分别从主线 / thesis / 时间 / 来源 四个角度刻画分布。

主线分布(允许 1 条多挂)

核心网7
终端12
芯片2
运营支撑9
多主线分布 · 单主线 16 · 双主线 7 · 无主线 2 (公司澄清类)

thesis 影响方向

25 ITEMS
  • 增强17 ·68%
  • 削弱6 ·24%
  • 中性2 ·8%

时间分布(按月)

12-24 02-25 04-25 05-25 08-25 09-25 10-25 11-25 12-25 01-26 03-26 04-26 1 1 1 1 1 2 2 3 3 2 2 6
时间窗 17 个月,2026-Q2 最密集 — 真实抓取上线后这一节会自然扩展

来源 top 域名

cww.net.cn (通信世界)7
stcn.com (证券时报)3
finance.sina (新浪财经)3
zhuanlan.zhihu.com2
tradeinservices.mofcom.gov.cn1
m.xincheping.com1
cn.chinadaily.com.cn1
view.inews.qq.com1
其余分散 · 含上交所通报 / 公司公告6
§8 · KEYWORD DICTIONARIES · 365 + 12

关键词词典 · 规则分类器的大脑

三类词典加起来 242 词,极性词典 111 词,反义对 12 对。运营支撑词典最大(35 词)— Phase 2.0 词典扩展时新增最多,把 F1 从 0.59 拉到 0.80。

主线词典 · 102

核心网26
终端19
芯片22
运营支撑35

场景词典 · 51

低空9
车载10
海事航空10
工业IoT9
应急8
具身智能5

维度词典 · 89

技术13
产品12
市场空间11
商业模式10
公司竞争力14
风险29
Positive
61
中标 / 通过 / 配齐 …
Negative
50
下滑 / 警示 / 推迟 …
Negation pairs
12
未中标→中标 …
§9 · DATA FLOW · ONE EVENT END-TO-END

一条事件的数据流

从原文到周报六步。第 1-2 步是 classifier 内部,第 3-4 步是 repository 反哺 + 持久化,第 5-6 步是聚合输出。每条事件最终落 JSON 数组到 SQLite 的 text 字段。

STEP 1 · INPUT 原文 title + content STEP 2 · CLASSIFY classify(text) threads · scenarios · dims · impact STEP 3 · ENRICH match + enrich aliases → companies → threads STEP 4 · PERSIST insert_event SQLite events 表 STEP 5 · AGGREGATE weekly_report window · per-thread · risks STEP 6 · RENDER markdown | json CLI · FastAPI 输出 + confidence 公式 公司主线追加 (弱信号待改) 默认窗口 7 天
confidence = min(1.0, (2×threads + dims + 0.5×scenarios + 1.5×max(pos,neg)) / 10) · 主线零命中再 ×0.4 折扣。
Step 3 的公司反哺当前是无条件追加,真实集 v0 显示反而拉低 thread exact-match — 待 Phase 2.1 改成 confidence ×= 0.85 弱信号。
§10 · SCHEMA EXTENSION · PHASE 3 PRE-REQ

Schema 扩展 · 已落地 2026-06-02

这一节原本是"数据缺口"——现在变成"已落地"。roadmap §5 Item 5 完成,events 加 6 个数字字段、companies 加 4 个,migration 幂等。下一步可以直接开 Phase 3a 决策层。

Phase 3 输出 数据依赖映射

关键路径已通
决策输出依赖字段现状
主线评分(本周 vs 上周) events.confidence + 时间窗 ✓ 已有(Phase 1)
主驱动变量识别(CEO 视角) events 的 capex / opex / 订单金额 ✓ schema 落地
公司相对位势矩阵(投资视角) companies.orders + revenue_mapping + peer_rank ✓ schema 落地 + 6 家种 orders
市场模型动态修正 真实 capex / opex 聚合 → market_model 更新 ⏳ 修正管线待 Phase 3b
仓位调节信号 + 证据链 ≥ 4 周主线评分 + 公司订单变化 ⏳ 时间未累积
-- Phase 2 schema migration · 已合入 -- events 加 6 个数字字段: ALTER TABLE events ADD COLUMN order_amount_cny_yi REAL; -- 订单金额(亿元), NULL = 无数字 ALTER TABLE events ADD COLUMN capex_cny_yi REAL; -- 资本开支 ALTER TABLE events ADD COLUMN opex_cny_yi REAL; -- 运营开支 ALTER TABLE events ADD COLUMN time_window TEXT; -- ISO8601 区间 e.g. "2026-04..2026-12" ALTER TABLE events ADD COLUMN customer_subject TEXT; -- 客户主体 ALTER TABLE events ADD COLUMN numeric_evidence TEXT; -- JSON · 原始数字解析痕迹 -- companies 加 4 个新字段: ALTER TABLE companies ADD COLUMN orders TEXT; -- JSON · 历次订单 ALTER TABLE companies ADD COLUMN peer_rank INTEGER; -- 同主线当前排名 ALTER TABLE companies ADD COLUMN peer_rank_delta INTEGER; -- 本周排名变化 ALTER TABLE companies ADD COLUMN last_quarter_revenue_cny_yi REAL; -- 最近一期营收 -- 入口: -- · 新建 DB:db.py 的 SCHEMA 直接建好 -- · 老 DB:db.init_db() 自动调用 migrate_schema() · 逐列幂等 -- · CLI:satagent ingest --order-amount 5.2 --customer "某军种" --time-window "2026-04..2026-12" -- · API:POST /events/ingest 接受 numeric 子对象 -- · 测试:23/23 (含 5 条新 schema 回归)
§11 · QUALITY BASELINE · v0 → v1

数据质量 · 词典扩展前后

2026-06-02 一次词典扩展把真实集三项全过从 40% 拉到 64%,thesis 准确率从 64% 拉到 92%,合成集 100% 不退化。这是当前的"上线表现底线"。

三项全过
40.0%64.0%
+24 pp
thesis 准确率
64.0%92.0%
+28 pp
macro F1
0.8220.875
+0.053
运营支撑 F1
0.590.80
+0.21
v1 残留 9 条失败 case 的根因
● 关键词漂移 over-fire 5 条(主线高频词在政策列表 / 应用场景中被列举)· ● 对冲句 2 条(增长+亏损 / 描述性"拳头产品")· ● 召回边界 2 条(主线命中过严 / "星座"作公司名一部分)。
三类全部超出规则可解范围,必须 LLM 兜底 — 见 regression-real-viz.html §4
§12 · DOC INDEX

更深一层 · 源文档