阶段 A 全量在线:每 6h 数据刷新 + 每日中文日报 + 周一决策周报 + 失败自动告警。中文产业活水受 GFW 架构约束,通过 operator 桥接入。
| 来源 | 条数 | 类型 |
|---|---|---|
| wiki-timeline | 487 | 静态历史 |
| HarnessFarm | 125 | 静态种子 |
| SpaceNews | 48 | RSS 英文 |
| SatNews | 41 | RSS 英文 |
| Space Intel Report | 14 | RSS 英文 |
| Spaceflight Now | 11 | RSS 英文 |
| European Spaceflight | 9 | RSS 英文 |
| ShockEvents | 20 | 静态种子 |
| 国家航天局 CNSA | 6 | operator 桥 |
| X 推文 (待接入) | 0 | 代码已建 待 operator |
agent/ = Satellite Agent (events/companies/threads schema,已在线);web/ = InvesResearch Agent (纸面 PRD,未开工)。
Tier 1 我可独立推进;Tier 2 需 operator 一次性动作(代码已就绪);Tier 3 战略级有触发条件。
无外部依赖,可随时启动。代码改动 + 测试 + 推送即可完成。
代码已完整建好,仅差 operator 本机执行脚本 + commit。
不为没人用的功能先做。触发条件到了照计划走。
制定于 2026-06-25。三件事按优先级排列:T1-A 最高优先级,T1-B 跟进,T2-A 等 operator。
InvestorManifestSource)灌入 +334 events,但命中主线 0 条。
334 条事件白白闲置,是当前最明确的数据洞。两个独立根因已定位,修复成本低。
SEED_COMPANIES 中 → classifier 公司反哺不触发,所有 InvestorManifest 事件无法命中主线source_date 字段缺失 → ingest_pipeline 过滤掉(要求 occurred_at 非空),295 行直接 0 入库investor_manifest.py 里实际出现的公司名,确定需加入 SEED 的北美标的列表(CRS 承包商 / MDA Space / Viasat / SES 等)seed.py 基础区扩 SEED_COMPANIES:每家加 name / thread / aliases / score / data_quality=seed-placeholdersources/investor_manifest.py:VOYG customer schema 加 source_date fallback(用 manifest 文件日期兜底)8f75fb1 已建 daily-report action,落盘复用 weekly_report(7d) + by_source 段,cron 链尾自动跑。
但看板 index.html / live.html 当前只展示最新快照,无历史趋势。
加近 7 日主线热度趋势小组件,让用户直观看到各主线热度变化。
agent/docs/sample/(或新建 data-live/daily-reports/ 归档)thread_heat 字段,写入 trend.jsontrend.json,渲染 5 主线 × 7 天的迷你折线图(纯 SVG,零依赖)scripts/export_x_events.py + refresh_live_data.py 管线。
X 信号是当前最差异化的数据优势(95 个航天账号 × 航天分类),仅差 operator 本机执行 3 步 + commit。
完整操作手册见 agent/docs/x-bridge-operator-runbook.md。
refresh_live_data.py 每次重建都读取该归档(operator 一 commit 下次就吃到)DEVELOPMENT-PLAN.md(路线图 + 排期 + 记录格式规范)和本网页 dev-plan.html(可视化跟踪)。
SATAGENT_FEISHU_WEBHOOK_EXTRA 环境变量,日报/周报同时推送到两个飞书群。
daily-report 落盘:新增 daily-report EH-1 action,复用 weekly_report(7d) + by_source 段,在 cron 链尾自动落盘每日报告,为后续趋势视图铺路。
enabled=false;交付 scripts/export_cnsa_events.py(operator 桥脚本)。
我方沙箱可达,bootstrap 首批 6 条(通信技术试验卫星/千帆星座组网/朱雀手机直连)commit 进仓库 → Actions 直接读到。
架构结论:中国侧数据(gov 站/x.sqlite3)美区 Actions 都够不着,这是 GFW 决定的,非工程能绕的。
sources/html_news.py · HtmlNewsSource:配置驱动的中文新闻 HTML 抓取源,浏览器 UA / utf-8/gb18030 兜底 / 关键词过滤。
实测抓取 12 条 → 过滤留 7 条对口,入库后分到"运载发射"+"运营支撑"主线。中文卫星互联网信号正式进决策闭环。
data-refresh.yml 提交去掉 [skip ci];agent-ci.yml paths 加排除 !agent/data-live/**(纯数据提交不触发测试)。
顺带:refresh_live_data 接 update_inline_snapshot 同步更新 index.html + live.html 内嵌快照,让离线兜底也是当前真实数据。
zh_cache.py:递归覆盖快照所有节点补 title_zh(事件再补 summary_zh),持久缓存 data-live/title-translations.json(只译新标题,省 LLM 调用)。无 LLM key 优雅降级(用已有缓存,前端回退英文)。
前端:ztl(o)=title_zh||title helper,4 处渲染改用中文,hover tooltip 显示英文原文。
test_rss_config.py 新增"英文 verified 公司必有关键词可命中"断言。
wiki_index.py + x_to_wiki.py 代码半完整(operator 本机跑,x.sqlite3 gitignored)。
D (阶段 B 服务器):tests/test_deploy_scripts.py 用 bash -n 守护 setup_server.sh 语法 + 文档↔脚本一致性;服务器本体待 operator 买机器装。
E (Postgres):postgres-migration-design-2026-06-17.md 全量兼容性审计(17 模块/90 处 sqlite3)+ 触发条件 + 3 轮计划 + 回滚;现在不迁(cron 串行写 SQLite 够)。
decision.py 输出加 data_quality 字段,看板 verified 营收标绿色 ✓。
Tier-1 B(千帆组网漏判):一半否决一半保留。strategy 侧:组网=加速启发式 corpus 62.1%→63.1% (+2pp),保留。threads 侧:补运营支撑实测 labeled_real 0.68→0.60 (−8pp),全量 revert。核心发现:两份标注集对千帆组网 threads 口径直接冲突,续 37 原则性停止在跨集层面再次实证。
scripts/export_x_events.py(operator 侧:读 x.sqlite3 → 脱敏 → 关键词降噪 → 写 data-live/x-events-archive.jsonl)+
refresh_live_data.py 每次重建都读该归档(operator 一 commit 下次就吃到)+
完整操作手册 agent/docs/x-bridge-operator-runbook.md。
X 信号变成"operator 一次 commit 即插即用"。
failure-alert.yml(workflow 失败推飞书红卡)。
制定 dev-roadmap-2026-06-15.md(Tier 1/2/3 详细拆解)。
同日实测 LLM 空主线补判(classify_empty_fallback):glm-4.6 全量 overall 62.1%→62.1%(净 0.0pp),机制安全建好,默认 opt-in(env 可开)。
cloud-server-deployment.md + 网页版:阿里云选型 / setup_server.sh 一键装机 / 与 Cloudflare 三种连接关系 / 运维巡检 + 故障表 + 安全清单。
| 变量 | 用途 |
|---|---|
| SATAGENT_DB | SQLite 数据库路径(生产必填) |
| SATAGENT_LLM_API_KEY | LLM key(日报翻译/debate) |
| SATAGENT_FEISHU_WEBHOOK_URL | 飞书主通道 webhook |
| SATAGENT_FEISHU_WEBHOOK_EXTRA | 飞书副通道(v0.6.1 双通道) |
| SATAGENT_API_TOKEN | Bearer 鉴权 token |
| X_SQLITE_PATH | X 推文 SQLite 路径 |
| SATAGENT_LLM_EMPTY_FALLBACK | LLM 空主线补判(on/off,默认 off) |
| 文件 | 说明 |
|---|---|
| agent/satellite_agent/seed.py | 公司种子库(92 家,29 verified) |
| agent/satellite_agent/ontology.py | 主题词典(5 主线 + 6 维度) |
| agent/satellite_agent/classifier.py | 事件分类器(rules-only) |
| agent/satellite_agent/jobs.py | EH-1 调度(ACTIONS registry) |
| agent/satellite_agent/notify.py | 飞书通知(双通道 + 卡片) |
| agent/data-live/events-archive.jsonl | RSS 事件归档(761 条) |
| agent/data-live/cn-events-archive.jsonl | 中文 gov 事件(operator 桥) |
| agent/scripts/export_x_events.py | X 推文导出脚本(operator 桥) |
| DEVELOPMENT-PLAN.md | 本页 Markdown 源文件 |
| DEVLOG.md | 完整历史开发流水账 |
| 页面 | 说明 |
|---|---|
| index.html | 实时看板(主入口) |
| dev-plan.html | 本页 · 开发计划与记录 |
| plan.html | 全貌门户(四问索引) |
| sources.html | 数据源质量视角 |
| docs.html | 文档总览 |
| blueprint.html | 系统全景信息图 |
| walkthrough.html | 端到端 10 步演示 |
| live.html | agent 演示前端 |
| DEVELOPMENT-PLAN.md | 本页 MD 源文件(权威) |
| DEVLOG.md | 历史开发流水账 |