2026-06-03 晚晚 · 基于 new/advice.md 第三方外部评估 · 把可吸收项沉淀成 PRD 改进 · 准备下一步引入开发

跑得通 判断得准
把外部评估的 4 问 变成代码可落地的 改进路径

评估的核心论点:投研产品价值不在管道,而在判断是否可信、可验证。 工程团队的精力天然集中在"能跑通吗",但价值与壁垒住在"判断对吗 / 被信任吗 / 有护城河吗"。 本仓库本会话 10 commits (7 工程 + 3 文档) 几乎全住在 ① 工程层 — 是时候把重心转向 ②③④。

评估视角4 问 / 5 主线 / 5 风险 本仓库匹配① 强 / ② 缺 / ③ 半 / ④ 待建 最高 ROID 验证回路 V1 当前等待拍板
0 · 关系定位

外部评估 看见 工程精力 看不见

评估是给智坊团队整体写的, 本仓库 InvesResearch agent/ 是其中工程部分。两者关系不是对立, 是互补 — 外部视角看的是"价值是否可被验证", 内部工程视角看的是"管道是否能跑通"。把评估能吸收到代码层的部分沉淀成 PRD 改进, 就是本文档的目的。

我们 · InvesResearch agent

工程闭环 + 证据纪律

本会话 10 commits (7 工程改动 + 3 文档同步) 把 LiteLLM + FE Round 1 三件套 + A v2 + 5 色全部闭环 (159 → 262 tests, +103)。证据纪律 (evidence.llm 审计 / quality_checks self-audit / triggers cooldown / hard-coded 免责) 是本仓库当前最被低估的资产。

  • FE Round 1 闭环: C / A V1 / B / A v2 / 5 色
  • Tier 1.2 LiteLLM 路由 + last_usage 计量
  • 5 步语法 + 5 层 layer (📌 / 📊 / 💭 / 🎯 / ⚠️)
  • 11 条 red flags (5 实施 / 6 stub 透明标依赖)
  • 3 内置 trigger + 24h cooldown + dry-run
  • 架构图 + checklist 已成 NEXT-STEPS / FE-SKILLS / MEMORY 三件套
评估 · new/advice.md 2026-06-03

判断是否准 + 数据是否独到

第三方外部评估, 给智坊团队整体的诚实反馈。核心论点: 一个错误的投研判断比没有判断更危险 — 在拿出"判断与研报/真实走势吻合度"证据前, "我们判断很准"都还只是假设。这正是我们最大的缺口。

  • 4 问框架: 跑通 / 判断对 / 被信任 / 有护城河
  • 5 工作主线: A 严谨 / B 判断 / C 数据 / D 验证 / E 落地
  • 5 风险: 验证缺口 / 范围蔓延 / 数据无壁垒 / 难易倒挂 / 受众错配
  • 最高杠杆: D 验证回路 → 吻合度对照表
  • 战术建议: 窄而深 demo > 宽而浅全场景
  • "框架借, 案例不借" — 同 FE 集成原则
1 · 评估的 4 问框架

四问 × 本仓库当前位置

评估提出的 4 个递进问题, 共同特点是:价值与壁垒从左往右递增, 但一个工程团队的精力, 往往天然集中在最左边。把本仓库放进去, 就能看清精力和价值是否错配。

价值 · 低

能跑通吗?

管道工程完整度: 能否稳定地喂入、结构化、入库、出报告。
✅ 基本达成 · 引入 + 3 source + LiteLLM + FE Round 1 + 5 色
价值 · 高

判断得对吗?

输出是否准确, 能否证明它准 — 对一个事件影响了谁、强化/削弱了哪条主线, 判断对不对?
❌ 尚未建立 · labeled_real 25 条只测分类, 没测影响传导
价值 · 高

被信任、被使用吗?

产出是否契合 CEO/投资人决策, harness 能否产出"工作级"而非"学生级"。
△ 半步 · 5 步语法 + Quality Check 落地"分析师纪律"层, demo 仍宽而浅
价值 · 最高

有护城河吗?

商业可防御性 — 独到数据、把分析师 know-how 沉淀成的 skill、AI 层之下的行业层。
❌ 未建 · SpaceNews 公网爬, judgment 启发式偏简单

关键洞察(精力与价值的倒挂): 本会话 10 commits (7 工程 + 3 文档) 几乎全部住在 ①, 把工程纪律做到了 FE 框架推荐的程度, 但 ②③④ 完全没动。这是早期 AI 团队最常见、也最危险的错配 — 把最多的时间花在最容易被复制的那一层(管道), 把最难、最值钱的几层(可验证的判断、独到数据、分析师 skill)留在了后面。

2 · 5 工作主线 + 5 风险映射

评估的 5 主线 × 5 风险 vs 本仓库

评估把团队工作主线收敛成 5 条, 它们之间有依赖顺序: A 提供严谨与规模, B 提供判断, C 提供独到性, D 提供可信度, E 把前四者变成生意。下面把每条映射到本仓库能不能做、做了多少。

▎5 条工作主线现状

工作主线 "做好"的样子 本仓库现状 仓库可做?
A · 严谨引擎 可溯源 / 护栏 / 失败可分类 evidence.llm 审计 / quality_checks 5+6 / triggers 24h cooldown / _layers 元数据 / 5 步语法 / 飞书 hard-coded 免责 ✅ 持续打磨
B · 判断库 (skills) 把分析师 know-how 沉淀成可复用 skill ontology 分类层 / decision._strategy_recommendations 启发式 5 档 / wyhtb operator 录入 — 没沉淀成命名 skill 文档 △ 可做
C · 数据层 (护城河) 一两类别人难复刻的一手数据 SpaceNews 公网爬 / 中文 RSS 生态全死 / satellitetoday 反爬 ❌ 难做 (反爬 + 法务 + 团队资源)
D · 验证回路 "吻合度对照表":N 个历史事件判断 vs 研报 / 实际走势 完全没建 — 评估明示最高杠杆 ⭐⭐⭐ 强烈可做
E · 产品落地 窄而深、可验证、可审计的纵切片 live.html 仍 4 主线全场景仪表盘 — 没纵切片专题 △ 部分可做 (demo + 切换)

▎5 条风险 vs 本会话现状

风险 评估描述 本会话状态 命中?
验证缺口 投研工具错判 > 没判, 在拿出吻合度证据前"判断准"都是假设 本会话 10 commits 全工程纪律 + 文档, 没做"判断对不对" ⚠️ 直接
范围蔓延 agent 拆 7-9 子 agent, MWC 只 3 周 本仓库克制, 但本会话也是 5 大 feature 连推 △ 警惕
数据无壁垒 公网爬人人可做 SpaceNews + 中文死 = 无壁垒 ⚠️ 直接
难易倒挂 报告/前端是最简单也最易被复制的层 5 色渲染 / 飞书卡片 / 5 步语法 = ①+③ 半步, ②④ 完全没碰 ⚠️ 本会话对应
关键人 + 上下文疲劳 单点 + context 频繁耗尽 NEXT-STEPS / FE-SKILLS / MEMORY 三件套已经在缓解 ✅ 做得相对好
受众错配 CEO 要决策依据, 不是仪表盘 investor.position_signals 接近, ceo.strategy_recommendations 偏分析师 △ 半命中
3 · 高 ROI 详细方案 (可直接开干)

D / B / E 三张卡 · 含 schema + 模块设计 + CLI + 验收

下面是可吸收到代码层的 3 张落地卡, 准备下一步引入开发。推荐 D V1 + B skill 双轨 (5-7 天, 1-2 commit), 然后 E demo 收尾 — 这样既有"吻合度对照表"作 MWC 素材, 又有 skill 文档把判断 know-how 沉淀下来。

D
⭐⭐⭐ 高 ROI · 评估最高杠杆 · MWC 素材

验证回路 V1 · 吻合度对照表

直接回应评估核心论点 — 投研价值在"判断对不对"。新建 samples/labeled_validation.jsonl 5-10 条历史事件 + ground truth, 跑 agent 判断对比真实结果, 输出 markdown 对照表 + 总览指标。**反推 thesis 规则盲点, 自动指向下一轮要改的代码。**

工期
3-5 天
Schema
0 改动 (文件)
阻塞
需 5-10 条数据
现状
  • labeled_real.jsonl 25 条 + labeled_regression.jsonl 30 条只测分类 (threads / dimensions / impact)
  • 没测判断 / 影响传导对错 — 不知道"事件 → 哪条主线 → 增强/削弱多少 → 仓位调多少" 是否准
  • 无法回答评估问"在 N 个历史事件上, 你们判断与研报/实际走势的吻合度是多少"
任务拆解 (D1-D5)
  1. D1 数据集准备 (5-10 条历史事件 + ground truth 人工标注): 0.5-1 天
  2. D2 validation.py 模块 + compare 4 种 match_kind: 1 天
  3. D3 CLI satagent validate + EH-1 jobs action validate-baseline: 0.5 天
  4. D4 render 表格 + 反推盲点逻辑: 0.5 天
  5. D5 测试 + 真实集跑通 + 文档: 0.5-1 天
数据集 + 模块接口
{
  "id": "v001",
  "title": "中国卫通完成 5G NTN 试验",
  "occurred_at": "2025-Q1",
  "ground_truth": {
    "threads_actual": ["核心网", "运营支撑"],
    "thesis_impact_actual": "增强",
    "market_reaction_5d": {
      "sector": "+3.2%",
      "top_movers": ["中国卫通", "信科移动"]
    },
    "research_consensus": "看多核心网设备 + 服务",
    "verified_by": ["xx 卖方研报"]
  },
  "agent_judgment": null
}

# validation.py
def load_validation_set(path): ...
def run_judgment(conn, event, llm=None): ...
def compare(judgment, gt) -> dict:
  """逐字段 {field, agent, gt, match_kind}
  match_kind ∈ exact|partial|mismatch|n/a"""
def run_validation(conn, samples_path, llm=None): ...
def render_validation_table(result): ...
验收
  • 10 条 sample 跑完, 产出 markdown 吻合度对照表 (4 字段对比 + 总览)
  • exact_rate ≥ 50% (V1 工程目标, 后续打磨)
  • 识别 ≥ 2 条 mismatch 模式 → 写进 follow-up
  • test_validation.py: compare 4 种 match_kind + run_validation 端到端 + render 非空
FOLLOW-UP (V2-V5): V2 接时序数据 (板块涨跌幅) · V3 跑 agent 判断 vs 多份研报语义对比 (需 LLM) · V4 对照表挂 live.html 交互查看 · V5 mismatch 自动汇总加 quality_checks.E_LOW_VALIDATION_FIT
B
⭐⭐ 中高 ROI · 让 skill 成为可见产品价值

判断库 · 5 个 skill 文档沉淀

评估指出 "agent ≠ skill 分层"是产品分层关键。本仓库已经有 agent (管道) 和部分 skill (ontology / decision 启发式), 但没显式沉淀成命名 skill 文档。沉淀后让"判断 know-how"成为产品可见价值, 而不只是 agent 内部逻辑。

工期
2-3 天
Schema
0 改动
价值
可见 know-how
现状
  • ontology.py 是分类层, 不是 judgment skill
  • decision._strategy_recommendations 启发式 5 档散落在 docstring
  • WYHTB / trigger 最佳实践只在 wyhtb_writing_guide / trigger_design_patterns 留白
  • 没有 agent/skills/ 目录, 缺命名 skill 文档
任务拆解
  1. 新建 agent/skills/ 目录 + 5 个 skill 文档
  2. satellite_internet_research.md - 总览 (4 主线 + 决策启发式)
  3. thesis_impact_judgment.md - 单事件 → 主线影响传导
  4. strategy_recommendation_5_levels.md - 进入/加速/等待/退出/观察触发条件
  5. wyhtb_writing_guide.md - operator 怎么写好 bull/bear 条件
  6. trigger_design_patterns.md - 3 内置 check 典型 params 参考
skill 文档骨架
# Skill: Thesis Impact Judgment

## 目的
把单事件映射到 "对哪条主线的
thesis 是增强 / 削弱 / 中性"

## 决策启发式
1. 直接主线 (one-hop)
2. 应用场景过滤 (防 over-fire)
3. 政策长文列举 (例 5G NTN 政策含核心网, 但事件本质是终端)
4. 对冲句 (判主从给净方向)

## 错误模式 (对应 FE C)
- E_INVALID_DIMENSION
- E_CASTLE_IN_AIR
- ...

## 与代码对应
- classifier.classify(text) 规则版
- llm.LiteLLMClient 触发门兜底
- decision._top_drivers 聚合
验收
  • 5 个 skill 文档落地, 每个 ≥ 200 字, 含"启发式 + 错误模式 + 与代码对应"3 段
  • agent/README.md 加"skill 入口"章节链到 agent/skills/
  • agent/docs/architecture.md 加分层说明 (agent 严谨引擎 vs skill 判断库)
  • 各 skill 可独立引用、版权清晰 (跟 FE Skills 同款风格)
E
⭐ 短工期高曝光 · MWC 演示素材

窄而深 demo · 运营支撑专题纵切片

评估指出"宽而浅是陷阱, 窄而深才是出路"。现 live.html demo 是 4 主线全场景仪表盘, 该加专题模式。选运营支撑 (对齐评估里"亚信本命主线", seed 已有 8 家) 或火箭爆炸类高冲击事件, 准备 8-10 条相关事件灌库, 跑 decide() 出专题报告。

工期
0.5-1 天
Schema
0 改动
用途
MWC + 客户拜访
现状
  • live.html 是 4 主线 + 全信号"宽而浅"仪表盘
  • ?demo=1 模式注入示例数据但没有专题切换
  • 没有运营支撑专题数据集
  • 客户 (CEO) 看不到"我能据此决策的依据"
任务拆解
  1. 新建 samples/scenario_operations_focus.jsonl (8-10 条运营支撑事件)
  2. satagent fetch --source jsonl --path ... 灌库 (零改动)
  3. live.html URL 加 ?focus=运营支撑 参数, CSS 简单隐藏其他主线
  4. ?demo=1&focus=运营支撑 走专题 INLINE_SNAPSHOT
  5. 配套 agent/docs/scenario-operations.md 说"这一专题怎么读"
专题事件参考
# 8-10 条运营支撑相关事件
- 工信部 A13-1 卫星移动业务许可
- 国电高科 NB-IoT 卫星物联网商用试验
- 中国卫通 5G NTN 端到端打通
- 中科星图 / 航天宏图 招标中标
- 时空道宇 + 极氪 / 星网集团 投资
- 频谱争议 / 频轨协调失败 (反方)
- ...

# URL 参数
?focus=运营支撑      # 真 API
?demo=1&focus=运营支撑 # demo + 专题
验收
  • 灌库 → 运营支撑专题报告 markdown, 每条结论可点开看 evidence
  • live.html ?focus=运营支撑 只渲染该主线, 其他浅灰 / 隐藏
  • 专题模式下 5 步语法 + 5 层颜色仍正常
  • 能给 CEO 演示: "本周运营支撑主线评分 + 触发器距离 + WYHTB 条件 + 建议动作"
4 · 推荐执行顺序

ADVICE 插入 NEXT-STEPS 哪里?

不打乱现有路线图。推荐 D V1 + B skill 双轨 → E demo → FE Round 1 follow-up → P1 + Tier 2。关键决策: D V1 优先于 FE Round 2 — 没验证回路就是"在没验证的判断上再加结构"。

Tier 1.2 LiteLLM
✅ 5573b79
FE Round 1 (C/A V1/B/A v2)
✅ 4 commits
live.html 5 色 + gitignore
✅ 8580b54 + f374372
文档套件全部同步
✅ c31b637 + 3bc8e9d
⭐⭐⭐ D 验证回路 V1
3-5 天 · 当前推荐
⭐⭐ B skill 沉淀 5 文档
2-3 天 · 并行可做
⭐ E 运营支撑专题 demo
0.5-1 天 · MWC 收尾
FE Round 1 follow-up
2-3 天 (v3 / met 联动 / sample)
EH-1 token budget
~1 天 (last_usage 已就位)
P1 扩 20→30 + segment
7-10 天 (合并 FE Round 2 D)
Tier 2 Postgres + Timescale
~1 周
FE Round 2 (E + F)
3-7 天
C 数据壁垒 (长期 / 团队)
不在仓库主线 · 长期方向
5 · 不做 · 仓库外

评估部分建议 不在 本仓库范围

评估是给智坊团队整体写的, 涉及团队 / MWC / 商业化 / 客户开发等议题。下面列明明确不在本仓库 InvesResearch 代码范围的项, 防止把建议照搬到代码层。框架借, 案例不借, 团队建议归团队。

不做 · MWC

MWC 落地 (三周内)

评估强调 deadline 紧迫, MWC 演示要"窄而深"。这件事的工程基础本仓库可以提供 (E demo + D 吻合度对照表), 但团队工程组织 / 演示设计 / 客户拜访不在仓库范围。

不做 · 关键人

Lawrence 单点 + context 疲劳

评估指出"关键人 + 上下文疲劳"风险。本仓库通过 NEXT-STEPS / FE-SKILLS / MEMORY 三件套 + 详细 commit message 已经在缓解, 但更深层的团队协作 / 流程改进是组织问题, 不是代码问题。

不做 · 商业化

Pricing / pitch / 亚信落地

评估提到亚信田总 / 欧阳博士这样的真实受众, 是评估认可的"有受众的工程团队"加分项。但具体客户开发 / pricing / pitch / 商务谈判全部仓库外

不做 · 拆子 agent

agent 拆 7-9 个子 agent

评估明示这是"范围蔓延"的体现。本仓库当前是单 agent + 模块化 (classifier / decision / triggers / wyhtb / quality_checks), 不该跟进拆分, 模块化已经足够。

不做 · 全网最全

"全网最全"数据覆盖

评估明示"一两类做不好的数据 > 全网最全"。本仓库对齐这一原则: 短期不追求 N 个 RSS 源覆盖, 而是把 SpaceNews 这一条做扎实 + 中长期探索独到数据 (工信部 / 招标 / IR)。

不做 · 学生水平

"MBA 学生水平"研报输出

评估暗示竞品被吐槽"学生水平"。本仓库的 5 步语法 + Quality Check + WYHTB + 5 层 layer + hard-coded 免责 已经主动避免这一风险, 不再放大这一层的工程投入。

6 · 等用户拍板

下一步怎么走?

四选一 · 由你定

下面四个选项是当前可推进的下一步, 按 ROI / 工期 / MWC 紧迫度排。等你拍板后, 我会直接开干 + 按"小活 → 大 feature → push → 问下一步"的节奏推进。

推荐

① D V1 单独做

3-4 天 1 commit, 直接回应评估最高杠杆论点。产出吻合度对照表 + 反推盲点。最聚焦最干净。

双轨

② D V1 + B skill 双轨

5-7 天 1-2 commit。D 验证数据 + B 沉淀 skill 文档, 互相补充: skill 文档可以引用 D 出的 mismatch 模式做经验沉淀。

MWC 优先

③ E demo 抢素材

0.5-1 天 1 commit。先做运营支撑专题 demo 拿 MWC 素材, D V1 + B 排到下一轮。适合 deadline 紧迫场景。

归档

④ 本文档作排期, 不立即开干

把 ADVICE-INTEGRATION.md 当排期文档存档, 先做 FE Round 1 follow-up 或 Tier 2, 等下下轮再启动 D / B / E。