把 Satellite Agent 当前在吃 / 已经吃过 / 还没吃的数据,逐一摊开。 4 条 Source 实现 + 1 层 wiki 种子层 → 6 条 skill know-how → 7 步处理流水线 → 沉淀进 agent.db / samples / wiki 三大产物。 每条都标了实测量、跑通状态、剩余缺口,直接对应"下次开发挑哪条"。
每条 Source 都实现 fetch() → Iterable[RawEvent] 协议(sources/base.py),
通过 load_source(name) 工厂注册。下面是 5 条数据通路的现状摊开 —
2 条 live、1 条受阻、1 条本地友好、1 条种子层已灌完。
agent/config/rss_feeds.json。
标题/正文按 shared_keywords(starlink/kuiper/NTN/D2C/LEO/FCC/ITU 等 25 词)过滤后入库,关键词命中 ≥1 即收。
b8e3xxx);现网 satagent fetch --source rss --config config/rss_feeds.json 每次抓回 ~24 条,关键词过滤后 ~10 条入 events 表。
expert/X/data/x.sqlite3(macOS WAL 用 mode=ro&immutable=1),
按 first_seen_at > since 增量,9 大账号分类白名单可选,翻译表 translations 自动拼中文。
com.invesresearch.satagent-x-ingest 03:00 daily;首跑 357 推文入 events / 25 命中主线。最新一次 (06-09 03:00) ingested=0 / duplicates=355 — scrape 上游 1-2 天没新数据,符合 runbook。
RawEvent schema。
用于本地手写事件、回测样本投喂、corpus 注入。无网络依赖,跑测试用最多。
agent/samples/ 4 份 jsonl: labeled_validation.jsonl 96 条 (P0-C 3/4 扩) · labeled_real.jsonl 26 条 · labeled_regression.jsonl 31 条 · labeled_global_satellite_internet_202606.jsonl 31 条。
SEED_COMPANIES 公司种子 (2) ontology.py 词典 (3) samples/labeled_validation.jsonl 验证 corpus。
来源是商业航天 117 份异构素材经 7-agent 并行抽取的知识库。
SEED_COMPANIES 20→33→47(commit a55745d + 4bdc4a8)· ontology.py +15 词 + 第 5 主线 LAUNCH_VEHICLE +103 词(83c56b6 + 4bdc4a8)· labeled_validation.jsonl 10→96 sub-agent 标注(2c2f631)。
每步都有对应的代码入口和 skill know-how。状态徽章对应当前 baseline:✅ 跑通 · ◐ 部分(stub 占位)· ⚠ 需要 LLM key。
Skill = 把 agent 内部的隐藏判断逻辑显式化的产品可见 know-how。5 条 know-how skill在 agent/skills/,
覆盖产业总览 / 5 级策略 / 论点影响 / 触发器设计 / WYHTB 写法;1 条 process skill 在仓库根 skills/expert-wiki-ingest/,沉淀 wiki 增量入库流水线。
_infer_strategy 的 know-how。65aa7f3) baseline 23%→57%satagent trigger set/check2eec025 · 67 新文件入 wiki · 7 wiki 脚本路径修所有 Source 抽取 + skill 加工的结果,最终落在 3 类产物里。agent.db 是运行时单一信息源, samples/ 是验证 / 回归 / corpus,wiki/ 是构建期素材库。
| 表名 | 行数 |
|---|---|
| events | 376 |
| event_threads | 42 (4 主线分流) |
| companies | 47 (seed) |
| thesis_state | 0 (待挂) |
| market_model | 0 |
| jobs / job_runs | 1 / 6 |
| token_usage_log | 0 (待跑 LLM) |
| 文件 | 条数 |
|---|---|
| labeled_validation | 96 |
| labeled_real | 26 |
| labeled_regression | 31 |
| labeled_global_satellite | 31 |
| 规则版 baseline:real 60% · validation v2 27% → 留 LLM 兜底 | |
| 维度 | 条数 |
|---|---|
| entities | 425 |
| concepts | 392 |
| people | 64 |
| reports | 103 |
| timeline (all.md) | 931 行 |
| 已灌 agent · 3/4 子项(seed/ontology/corpus) | |
每行一条数据通路 / skill / 决策步骤,给三态徽章:✅ 跑通(有 cron / 真实回归 / 测试覆盖) · ◐ 部分(stub demo 跑通 / 等 LLM key) · ⏳ 未做(明确排期但还没启动)。
| 组件 | 状态 | 证据 · 实测 · 测试 · commit |
|---|---|---|
| RSS · SpaceNews | ✅ | 每次抓 ~24 items,关键词过滤后 ~10 入库;CLI satagent fetch --source rss 跑通 |
| RSS · Satellite Today | ⚠ 403 | Fastly Varnish anti-bot,UA/cookies 都被 block;enabled=false 留存档 |
| RSS · 中文产业站 | ❌ | 工信部 / 通信世界 / 通信产业网 2020 后 RSS 全部下架(404 或返 HTML) |
| X · SQLite ingest | ✅ cron | launchd 03:00 daily · 累计 376 events · 25 命中主线;13 单测 (test_x_sqlite_source.py) |
| JSONL · 投喂 | ✅ | 4 份 jsonl 共 185 条;run_validation_compare 主路径;真实集 25 条 macro F1=0.857 |
| Text · 本地 | ✅ | events 反查 7 条来自 公司公告/工信部/媒体报道/IR;低频但通路 OK |
| extract · 主线 + dimension | ✅ | extract.py + ontology.py 103+ 关键词;5 主线全枚举(2026-06-08 加 LAUNCH_VEHICLE) |
| classify · 规则版 | ◐ 27% | v2.0 corpus 96 条 baseline overall_exact 27% (从 60% 暴露盲点);strategy V1.1 已落 (65aa7f3) |
| classify · LLM 兜底 | ◐ stub | LiteLLMClient 5 provider 通 (5573b79);stub demo 66.7%;真 LLM E2E 待 user 填 key |
| ingest · events 入库 | ✅ | events 376 行 · event_threads 4 主线分流 · idx_events_occurred / impact / order_amount 三索引 |
| decide() · 双视角 | ✅ | CEO + Investor panel · 5 层 emoji · 反方矛盾 · WYHTB Status;FE Round 1 三件套 (9566bda / 906478e / e239e44) |
| debate · LLM Bull/Bear/Judge | ◐ stub | 骨架就位 (Tier 1.2 LiteLLM)· 168 tests · 真 key 后切真 LLM 零改动 |
| triggers · 证伪 | ✅ | triggers.py · 3 内置 check · 24h cooldown · CLI satagent trigger set/check (906478e) |
| notify · 飞书 | ✅ | notify.py · FeishuClient · render_decision_to_feishu_card · 12 单测 · disclaimer 强制(调用方无法绕过) |
| validation · 对比脚本 | ◐ | run_validation_compare + diff 三视角 (b57598b) · stub demo 跑通 · 真 LLM 跑通后能拉回 50%+ |
| EH-1 调度 · jobs 表 | ✅ | jobs + job_runs 两表 · 7 subcommand CLI · 失败重试 · 自动 disable · token_budget_monthly (335db95) |
| EH-3 飞书 hook | ✅ | decision-notify-feishu 单 action 串行;jobs 一行表达完整链路 |
| cron · scrape→ingest 4 链 | ⏳ AC1 | 目前仅 x-ingest 单点;blueprint AC1 排 4-6h 扩 scrape→ingest→rss→validate→decide→notify |
| wiki · X → wiki 双向回写 | ⏳ Tier 3 | NEXT-STEPS §3.1.X 排期 5-7 天 · 把 X 推文回写到 wiki/entities/<slug>.md 的 ## X 动态段 |
把数据流程的 6 个维度切开看进度。整体加权 ≈ 72%(数据采集 / 处理 / 沉淀 / 验证 / 通知 / 自动化), 留 28% 集中在"LLM 兜底 + cron 4 链 + 中文源补救"三块。
每个 gap 卡都标了"缺什么 / 为什么 / 下一步动作 / 工期估算 / 关联 NEXT-STEPS 候选"。 按 ROI 排:G1 真 LLM 跑通 → G2 cron 扩链 → G3 启发式调优 → 其余排长尾。
cp .env.example .env 填 SATAGENT_LLM_API_KEY · satagent validate --compare-llm · 出 diff 报告 + 飞书推 · 目标 27% → 50%+scrape→ingest→rss→validate→decide→notify 完整闭环。运维价值,不在判断层。run_x_scrape.sh wrapper。runbook 显式 1-2 天手动跑节奏。bash run_x_scrape.sh → 看 expert/X/data/x.sqlite3 新增数 → 等 cron 第二天自动 ingest