InvesResearch · 外部评估建议集成 (PRD 改进)

0 · 关系定位

外部评估看见工程精力看不见

评估是给智坊团队整体写的, 本仓库 InvesResearch agent/ 是其中工程部分。两者关系不是对立, 是互补 — 外部视角看的是"价值是否可被验证", 内部工程视角看的是"管道是否能跑通"。把评估能吸收到代码层的部分沉淀成 PRD 改进, 就是本文档的目的。

我们 · InvesResearch agent

工程闭环 + 证据纪律

本会话 10 commits (7 工程改动 + 3 文档同步) 把 LiteLLM + FE Round 1 三件套 + A v2 + 5 色全部闭环 (159 → 262 tests, +103)。证据纪律 (evidence.llm 审计 / quality_checks self-audit / triggers cooldown / hard-coded 免责) 是本仓库当前最被低估的资产。

FE Round 1 闭环: C / A V1 / B / A v2 / 5 色
Tier 1.2 LiteLLM 路由 + last_usage 计量
5 步语法 + 5 层 layer (📌 / 📊 / 💭 / 🎯 / ⚠️)
11 条 red flags (5 实施 / 6 stub 透明标依赖)
3 内置 trigger + 24h cooldown + dry-run
架构图 + checklist 已成 NEXT-STEPS / FE-SKILLS / MEMORY 三件套

评估 · new/advice.md 2026-06-03

判断是否准 + 数据是否独到

第三方外部评估, 给智坊团队整体的诚实反馈。核心论点: 一个错误的投研判断比没有判断更危险 — 在拿出"判断与研报/真实走势吻合度"证据前, "我们判断很准"都还只是假设。这正是我们最大的缺口。

4 问框架: 跑通 / 判断对 / 被信任 / 有护城河
5 工作主线: A 严谨 / B 判断 / C 数据 / D 验证 / E 落地
5 风险: 验证缺口 / 范围蔓延 / 数据无壁垒 / 难易倒挂 / 受众错配
最高杠杆: D 验证回路 → 吻合度对照表
战术建议: 窄而深 demo > 宽而浅全场景
"框架借, 案例不借" — 同 FE 集成原则

2 · 5 工作主线 + 5 风险映射

评估的 5 主线 × 5 风险 vs 本仓库

评估把团队工作主线收敛成 5 条, 它们之间有依赖顺序: A 提供严谨与规模, B 提供判断, C 提供独到性, D 提供可信度, E 把前四者变成生意。下面把每条映射到本仓库能不能做、做了多少。

▎5 条工作主线现状

工作主线	"做好"的样子	本仓库现状	仓库可做?
A · 严谨引擎	可溯源 / 护栏 / 失败可分类	evidence.llm 审计 / quality_checks 5+6 / triggers 24h cooldown / _layers 元数据 / 5 步语法 / 飞书 hard-coded 免责	✅ 持续打磨
B · 判断库 (skills)	把分析师 know-how 沉淀成可复用 skill	ontology 分类层 / decision._strategy_recommendations 启发式 5 档 / wyhtb operator 录入 — 没沉淀成命名 skill 文档	△ 可做
C · 数据层 (护城河)	一两类别人难复刻的一手数据	SpaceNews 公网爬 / 中文 RSS 生态全死 / satellitetoday 反爬	❌ 难做 (反爬 + 法务 + 团队资源)
D · 验证回路	"吻合度对照表":N 个历史事件判断 vs 研报 / 实际走势	完全没建 — 评估明示最高杠杆	⭐⭐⭐ 强烈可做
E · 产品落地	窄而深、可验证、可审计的纵切片	live.html 仍 4 主线全场景仪表盘 — 没纵切片专题	△ 部分可做 (demo + 切换)

▎5 条风险 vs 本会话现状

风险	评估描述	本会话状态	命中?
验证缺口	投研工具错判 > 没判, 在拿出吻合度证据前"判断准"都是假设	本会话 10 commits 全工程纪律 + 文档, 没做"判断对不对"	⚠️ 直接
范围蔓延	agent 拆 7-9 子 agent, MWC 只 3 周	本仓库克制, 但本会话也是 5 大 feature 连推	△ 警惕
数据无壁垒	公网爬人人可做	SpaceNews + 中文死 = 无壁垒	⚠️ 直接
难易倒挂	报告/前端是最简单也最易被复制的层	5 色渲染 / 飞书卡片 / 5 步语法 = ①+③ 半步, ②④ 完全没碰	⚠️ 本会话对应
关键人 + 上下文疲劳	单点 + context 频繁耗尽	NEXT-STEPS / FE-SKILLS / MEMORY 三件套已经在缓解	✅ 做得相对好
受众错配	CEO 要决策依据, 不是仪表盘	investor.position_signals 接近, ceo.strategy_recommendations 偏分析师	△ 半命中

完整对照见 ADVICE-INTEGRATION.md §1-§3

3 · 高 ROI 详细方案 (可直接开干)

D / B / E 三张卡 · 含 schema + 模块设计 + CLI + 验收

下面是可吸收到代码层的 3 张落地卡, 准备下一步引入开发。推荐 D V1 + B skill 双轨 (5-7 天, 1-2 commit), 然后 E demo 收尾 — 这样既有"吻合度对照表"作 MWC 素材, 又有 skill 文档把判断 know-how 沉淀下来。

⭐⭐⭐ 高 ROI · 评估最高杠杆 · MWC 素材

验证回路 V1 · 吻合度对照表

直接回应评估核心论点 — 投研价值在"判断对不对"。新建 samples/labeled_validation.jsonl 5-10 条历史事件 + ground truth, 跑 agent 判断对比真实结果, 输出 markdown 对照表 + 总览指标。**反推 thesis 规则盲点, 自动指向下一轮要改的代码。**

工期

3-5 天

Schema

0 改动 (文件)

阻塞

需 5-10 条数据

现状

labeled_real.jsonl 25 条 + labeled_regression.jsonl 30 条只测分类 (threads / dimensions / impact)
没测判断 / 影响传导对错 — 不知道"事件 → 哪条主线 → 增强/削弱多少 → 仓位调多少" 是否准
无法回答评估问"在 N 个历史事件上, 你们判断与研报/实际走势的吻合度是多少"

任务拆解 (D1-D5)

D1 数据集准备 (5-10 条历史事件 + ground truth 人工标注): 0.5-1 天
D2 validation.py 模块 + compare 4 种 match_kind: 1 天
D3 CLI satagent validate + EH-1 jobs action validate-baseline: 0.5 天
D4 render 表格 + 反推盲点逻辑: 0.5 天
D5 测试 + 真实集跑通 + 文档: 0.5-1 天

数据集 + 模块接口

{
  "id": "v001",
  "title": "中国卫通完成 5G NTN 试验",
  "occurred_at": "2025-Q1",
  "ground_truth": {
    "threads_actual": ["核心网", "运营支撑"],
    "thesis_impact_actual": "增强",
    "market_reaction_5d": {
      "sector": "+3.2%",
      "top_movers": ["中国卫通", "信科移动"]
    },
    "research_consensus": "看多核心网设备 + 服务",
    "verified_by": ["xx 卖方研报"]
  },
  "agent_judgment": null
}

# validation.py
def load_validation_set(path): ...
def run_judgment(conn, event, llm=None): ...
def compare(judgment, gt) -> dict:
  """逐字段 {field, agent, gt, match_kind}
  match_kind ∈ exact|partial|mismatch|n/a"""
def run_validation(conn, samples_path, llm=None): ...
def render_validation_table(result): ...

验收

10 条 sample 跑完, 产出 markdown 吻合度对照表 (4 字段对比 + 总览)
exact_rate ≥ 50% (V1 工程目标, 后续打磨)
识别 ≥ 2 条 mismatch 模式 → 写进 follow-up
test_validation.py: compare 4 种 match_kind + run_validation 端到端 + render 非空

FOLLOW-UP (V2-V5): V2 接时序数据 (板块涨跌幅) · V3 跑 agent 判断 vs 多份研报语义对比 (需 LLM) · V4 对照表挂 live.html 交互查看 · V5 mismatch 自动汇总加 quality_checks.E_LOW_VALIDATION_FIT

⭐⭐ 中高 ROI · 让 skill 成为可见产品价值

判断库 · 5 个 skill 文档沉淀

评估指出 "agent ≠ skill 分层"是产品分层关键。本仓库已经有 agent (管道) 和部分 skill (ontology / decision 启发式), 但没显式沉淀成命名 skill 文档。沉淀后让"判断 know-how"成为产品可见价值, 而不只是 agent 内部逻辑。

工期

2-3 天

Schema

0 改动

价值

可见 know-how

现状

ontology.py 是分类层, 不是 judgment skill
decision._strategy_recommendations 启发式 5 档散落在 docstring
WYHTB / trigger 最佳实践只在 wyhtb_writing_guide / trigger_design_patterns 留白
没有 agent/skills/ 目录, 缺命名 skill 文档

任务拆解

新建 agent/skills/ 目录 + 5 个 skill 文档
satellite_internet_research.md - 总览 (4 主线 + 决策启发式)
thesis_impact_judgment.md - 单事件 → 主线影响传导
strategy_recommendation_5_levels.md - 进入/加速/等待/退出/观察触发条件
wyhtb_writing_guide.md - operator 怎么写好 bull/bear 条件
trigger_design_patterns.md - 3 内置 check 典型 params 参考

skill 文档骨架

# Skill: Thesis Impact Judgment

## 目的
把单事件映射到 "对哪条主线的
thesis 是增强 / 削弱 / 中性"

## 决策启发式
1. 直接主线 (one-hop)
2. 应用场景过滤 (防 over-fire)
3. 政策长文列举 (例 5G NTN 政策含核心网, 但事件本质是终端)
4. 对冲句 (判主从给净方向)

## 错误模式 (对应 FE C)
- E_INVALID_DIMENSION
- E_CASTLE_IN_AIR
- ...

## 与代码对应
- classifier.classify(text) 规则版
- llm.LiteLLMClient 触发门兜底
- decision._top_drivers 聚合

验收

5 个 skill 文档落地, 每个 ≥ 200 字, 含"启发式 + 错误模式 + 与代码对应"3 段
agent/README.md 加"skill 入口"章节链到 agent/skills/
agent/docs/architecture.md 加分层说明 (agent 严谨引擎 vs skill 判断库)
各 skill 可独立引用、版权清晰 (跟 FE Skills 同款风格)

⭐ 短工期高曝光 · MWC 演示素材

窄而深 demo · 运营支撑专题纵切片

评估指出"宽而浅是陷阱, 窄而深才是出路"。现 live.html demo 是 4 主线全场景仪表盘, 该加专题模式。选运营支撑 (对齐评估里"亚信本命主线", seed 已有 8 家) 或火箭爆炸类高冲击事件, 准备 8-10 条相关事件灌库, 跑 decide() 出专题报告。

工期

0.5-1 天

Schema

0 改动

用途

MWC + 客户拜访

现状

live.html 是 4 主线 + 全信号"宽而浅"仪表盘
?demo=1 模式注入示例数据但没有专题切换
没有运营支撑专题数据集
客户 (CEO) 看不到"我能据此决策的依据"

任务拆解

新建 samples/scenario_operations_focus.jsonl (8-10 条运营支撑事件)
用 satagent fetch --source jsonl --path ... 灌库 (零改动)
live.html URL 加 ?focus=运营支撑 参数, CSS 简单隐藏其他主线
?demo=1&focus=运营支撑 走专题 INLINE_SNAPSHOT
配套 agent/docs/scenario-operations.md 说"这一专题怎么读"

专题事件参考

# 8-10 条运营支撑相关事件
- 工信部 A13-1 卫星移动业务许可
- 国电高科 NB-IoT 卫星物联网商用试验
- 中国卫通 5G NTN 端到端打通
- 中科星图 / 航天宏图 招标中标
- 时空道宇 + 极氪 / 星网集团 投资
- 频谱争议 / 频轨协调失败 (反方)
- ...

# URL 参数
?focus=运营支撑      # 真 API
?demo=1&focus=运营支撑 # demo + 专题

验收

灌库 → 运营支撑专题报告 markdown, 每条结论可点开看 evidence
live.html ?focus=运营支撑 只渲染该主线, 其他浅灰 / 隐藏
专题模式下 5 步语法 + 5 层颜色仍正常
能给 CEO 演示: "本周运营支撑主线评分 + 触发器距离 + WYHTB 条件 + 建议动作"

5 · 不做 · 仓库外

评估部分建议不在本仓库范围

评估是给智坊团队整体写的, 涉及团队 / MWC / 商业化 / 客户开发等议题。下面列明明确不在本仓库 InvesResearch 代码范围的项, 防止把建议照搬到代码层。框架借, 案例不借, 团队建议归团队。

不做 · MWC

MWC 落地 (三周内)

评估强调 deadline 紧迫, MWC 演示要"窄而深"。这件事的工程基础本仓库可以提供 (E demo + D 吻合度对照表), 但团队工程组织 / 演示设计 / 客户拜访不在仓库范围。

不做 · 关键人

Lawrence 单点 + context 疲劳

评估指出"关键人 + 上下文疲劳"风险。本仓库通过 NEXT-STEPS / FE-SKILLS / MEMORY 三件套 + 详细 commit message 已经在缓解, 但更深层的团队协作 / 流程改进是组织问题, 不是代码问题。

不做 · 商业化

Pricing / pitch / 亚信落地

评估提到亚信田总 / 欧阳博士这样的真实受众, 是评估认可的"有受众的工程团队"加分项。但具体客户开发 / pricing / pitch / 商务谈判全部仓库外。

不做 · 拆子 agent

agent 拆 7-9 个子 agent

评估明示这是"范围蔓延"的体现。本仓库当前是单 agent + 模块化 (classifier / decision / triggers / wyhtb / quality_checks), 不该跟进拆分, 模块化已经足够。

不做 · 全网最全

"全网最全"数据覆盖

评估明示"一两类做不好的数据 > 全网最全"。本仓库对齐这一原则: 短期不追求 N 个 RSS 源覆盖, 而是把 SpaceNews 这一条做扎实 + 中长期探索独到数据 (工信部 / 招标 / IR)。

不做 · 学生水平

"MBA 学生水平"研报输出

评估暗示竞品被吐槽"学生水平"。本仓库的 5 步语法 + Quality Check + WYHTB + 5 层 layer + hard-coded 免责 已经主动避免这一风险, 不再放大这一层的工程投入。

从跑得通到判断得准
把外部评估的 4 问变成代码可落地的改进路径

外部评估看见工程精力看不见

工程闭环 + 证据纪律

判断是否准 + 数据是否独到

四问 × 本仓库当前位置

能跑通吗?

判断得对吗?

被信任、被使用吗?

有护城河吗?

评估的 5 主线 × 5 风险 vs 本仓库

▎5 条工作主线现状

▎5 条风险 vs 本会话现状

D / B / E 三张卡 · 含 schema + 模块设计 + CLI + 验收

验证回路 V1 · 吻合度对照表

判断库 · 5 个 skill 文档沉淀

窄而深 demo · 运营支撑专题纵切片

ADVICE 插入 NEXT-STEPS 哪里?

评估部分建议不在本仓库范围

MWC 落地 (三周内)

Lawrence 单点 + context 疲劳

Pricing / pitch / 亚信落地

agent 拆 7-9 个子 agent

"全网最全"数据覆盖

"MBA 学生水平"研报输出

下一步怎么走?

三件套全部交付, 下一步 D V1.1 修盲点

strategy 启发式 by-weight 修复

时序数据接入

多研报 LLM 语义对比

live.html 对照表交互

外部评估 看见 工程精力 看不见

工程闭环 + 证据纪律

判断是否准 + 数据是否独到

四问 × 本仓库当前位置

能跑通吗?

判断得对吗?

被信任、被使用吗?

有护城河吗?

评估的 5 主线 × 5 风险 vs 本仓库

▎5 条工作主线现状

▎5 条风险 vs 本会话现状

D / B / E 三张卡 · 含 schema + 模块设计 + CLI + 验收

验证回路 V1 · 吻合度对照表

判断库 · 5 个 skill 文档沉淀

窄而深 demo · 运营支撑专题纵切片

ADVICE 插入 NEXT-STEPS 哪里?

评估部分建议 不在 本仓库范围

MWC 落地 (三周内)

Lawrence 单点 + context 疲劳

Pricing / pitch / 亚信落地

agent 拆 7-9 个子 agent

"全网最全"数据覆盖

"MBA 学生水平"研报输出

下一步怎么走?

三件套 全部交付, 下一步 D V1.1 修盲点

strategy 启发式 by-weight 修复

时序数据接入

多研报 LLM 语义对比

live.html 对照表交互

外部评估看见工程精力看不见

评估部分建议不在本仓库范围

三件套全部交付, 下一步 D V1.1 修盲点