MCP 服务端的隐藏设计:结论性数据如何改变

Agent 的工作方式

我们以为 MCP 服务只是查数据的管道,拆开一看,发现服务端已经把分析结论都算好了。这个发现改变了我对 Agent 架构的理解。


起因:一次对 MCP 服务的逆向探索

最近在研究 MCP(Model Context Protocol)的实际应用,我选了一个真实的商业 MCP 服务 —— 某电商卖家流量分析平台作为研究对象。该服务提供了 27 个工具,覆盖关键词分析、流量运营、广告洞察等领域。

最初的预期很简单:MCP 服务就是一个数据接口,Agent(LLM)调用它拿到原始数据,然后自己分析、得出结论、给用户建议。

实际拆开一看,完全不是这么回事。


第一个发现:返回数据里藏着完整的分析结论

我写了一个 Python 脚本,绕过所有 AI 客户端,直接用 MCP SDK 连上该服务,调用工具,看原始返回数据。

以关键词需求分析工具为例,查询某个关键词,服务端返回的不是一堆搜索量数字,而是:

{
  "diagnosis": "structural_declining_seasonal_dip",
  "interpretation": "搜索量长期下滑(年均-7%),同时当前处于季节性低谷。两者叠加,不应将淡季结束后的反弹误判为趋势逆转,年度总需求仍在持续收缩。",
  "action_phase": "prepare",
  "action_hint": "旺季还有约 12 周,现在是布局自然排名的窗口——养权重、铺评价,旺季靠自然流量收割",
  "ad_strategy_hint": "功能型:买家关注产品特性与参数,产品力和评分是核心竞争维度,SP 广泛匹配抢曝光"
}

诊断结论、行动建议、广告策略 —— 全部算好了,直接给你。

而用户在 AI 客户端里看到的那段分析报告,几乎就是这些字段的中文转述。LLM 做的事情只是把 JSON 变成了人话。


第二个发现:几乎所有工具都带结论,只是浓度不同

该服务一共暴露了 27 个工具。我全部调了一遍,逐个分析返回数据的性质。结果出乎意料:

类型 数量 占比
纯数据(零结论) 2 个 10%
轻量结论(趋势标签 + 引流链接) 10 个 50%
重度结论(诊断 + 解读 + 建议) 8 个 40%

真正的"纯数据"工具只有 2 个。 其余全部或多或少带了结论性字段。

即使是看起来最"纯数据"的广告流量趋势工具,返回的 JSON 末尾也悄悄塞了:

"trend_analysis": {
    "SP_trend": "growing",
    "SB_trend": "declining",
    "SBV_trend": "growing",
    "overall_trend": "declining",
    "dominant_channel": "SB"
}

该服务的策略不是"高频做重、低频做轻",而是全面渗透,浓度分级


第三个发现:服务端在跑自己的 Agent

最让我震撼的是流量异常诊断工具。它的返回数据里包含一条完整的推理链:

"reasoning_path": [
  {
    "hypothesis": "现象观察",
    "evidence": ["异常周跌幅 22%", "某核心词自然贡献跌幅 +11%"],
    "inference": "该核心词是主要拖累词",
    "verdict": "confirmed"
  },
  {
    "hypothesis": "市场需求是否在萎缩",
    "evidence": ["异常周搜索量基本持平,跌幅仅 2%"],
    "inference": "需求端平稳,无法解释本次暴跌——排除需求萎缩",
    "verdict": "rejected"
  },
  {
    "hypothesis": "自身排名是否在下滑",
    "evidence": ["当前自然排名第 3 位,仍在结果页但持续弱化"],
    "inference": "排名仍存在但在弱化——自身排名防守问题",
    "verdict": "confirmed"
  },
  {
    "hypothesis": "竞争压力来源",
    "evidence": ["排名弱化通常由竞品加大投入或Listing竞争力下降引起"],
    "inference": "需要竞争格局数据确认",
    "verdict": "unresolved",
    "next_tool": "market_get_keyword_competition"
  }
]

假设 → 找证据 → 推断 → 确认或排除 → 未解决的问题推荐下一步工具。

这本质上就是一个 ReAct 模式的 Agent,只不过跑在服务端,而不是你的本地 LLM 里。


对比实验:有结论 vs 无结论,LLM 的表现差异

为了验证结论性数据对 LLM 的影响,我做了一组对比实验。

实验一:调用带结论的工具

让 Claude Code 查询某个关键词的市场需求(带结论的工具)。

Claude 的输出几乎原文搬运了服务端返回的 interpretationaction_hint。换任何 LLM 接入,输出质量都一样。

实验二:调用纯数据的工具

让 Claude Code 查询某个关键词的历史搜索量(纯数据工具)。该工具返回的是 291 周的纯数字数组,零结论。

Claude 自己补上了:

  • 峰值识别:"历史峰值 205,575(某年12月当周)— 圣诞季"
  • 季节性规律:"Q4 全年最高峰,Q3 全年最低谷"
  • 行动建议:"预计 9 月开始回升,11-12 月迎来全年高峰"

LLM 确实能独立分析纯数据。 但对比质量:

服务端给结论的工具 LLM 自己分析纯数据
结论深度 "structural_declining_seasonal_dip",年均衰减率、需求结构类型 "当前处于淡季回落期"
可操作性 "旺季还有约12周,现在是布局自然排名的窗口" "预计9月开始回升"
稳定性 换任何 LLM 结论一致 换个弱模型可能分析不出来

服务端给的结论更深、更可操作、更稳定。LLM 自己的分析更浅、更泛、依赖模型能力。


还有一个隐藏的提示词机制

该服务的部分工具返回数据里有一个 _render_hint 字段:

"_render_hint": "本接口为原始数据接口,字段名为技术标识符。向用户展示时请使用业务语言描述含义,禁止直接暴露英文字段名(如 launch_rhythm、top_1_share 等)"

这是直接在返回数据里给 LLM 下指令。不是通过 MCP 协议的 instructions 字段(该服务没用这个),而是藏在数据里。

LLM 读到这段文字后,会自动把 launch_rhythm: sparse 翻译成"投放节奏:稀疏",而不是直接暴露英文字段名。

这种"数据里的提示词"比全局 instructions 更精准 —— 它只在特定工具的返回结果中生效,不会污染其他工具的上下文。


这意味着什么

对 MCP 服务开发者

如果你在做 MCP 服务,不要只返回原始数据。在返回数据里加入结论性字段(diagnosis、interpretation、action_hint),可以:

  1. 保证输出质量 —— 不管用户用什么 LLM 接入,核心分析结论都是你的算法给的,质量可控
  2. 减轻 LLM 负担 —— LLM 只需要做翻译和排版,不需要做复杂的数据分析
  3. 保护核心壁垒 —— 用户通过 MCP 拿到的是结论,看不到你的算法和计算过程

该服务的做法是一个很好的参考:高频场景给重结论(诊断 + 解读 + 建议),低频场景给轻结论(趋势标签),极少数场景给纯数据。

对 Agent 开发者

接入第三方 MCP 服务之前,先 dump 原始返回数据。搞清楚服务端给你的是原始数据还是加工结论,这决定了:

  • 你的 Agent 需要做多少推理工作
  • 你的分析质量上限在哪(如果服务端给的结论有偏差,你的 Agent 没有能力纠正)
  • 你是否需要接入多个数据源做交叉验证

对 AI 产品设计者

"MCP 服务只是数据接口"这个假设是错的。一个设计良好的 MCP 服务,本身就是一个分析引擎。LLM 在这个架构里的角色不是"分析师",而是"翻译官" —— 把用户的自然语言翻译成 API 调用,再把结构化的分析结论翻译成用户能读懂的报告。

真正的分析能力在服务端,不在 LLM。


一句话总结

我们以为 LLM 是大脑,MCP 服务是手脚。拆开一看,MCP 服务才是大脑,LLM 只是嘴。


本文基于对某商业 MCP 服务的实际连接、全量工具调用和原始数据分析。所有代码和数据导出均为真实操作记录。

Read more

传统 SaaS 转向 AI 时代,我目前的一点理解:先把数据能力变成 Agent 可调用的基础设施

最近我一直在思考一个问题:传统 SaaS 到底应该怎么转向 AI? 一开始很容易想到的方向是:给原来的系统加一个 AI 助手。 比如在页面右下角放一个聊天框,让用户可以问数据、生成报告、总结内容、解释指标。这个当然有价值,但我现在越来越觉得,这只是比较表层的一种转型。 真正的变化,可能不是“在 SaaS 里面加 AI”,而是 SaaS 本身的能力形态发生变化。 过去的 SaaS,核心是给人使用。 人登录系统,看页面、点按钮、筛选数据、导出报表、判断问题,然后再去做决策。数据库是给 Web 页面供数的,后端 API 是给前端页面服务的,整个产品的中心是“人如何操作软件”。 但 AI 时代,尤其是 Agent 逐渐发展之后,

By ladydd

对 Python 应用场景的一次重新思考:FastAPI、协程、线程、数据库与任务系统边界

最近在重新设计一个任务系统时,我顺便把自己对 Python,尤其是 CPython 应用场景的理解重新梳理了一遍。 这次讨论的背景是一个典型的异步任务服务: 上游提交任务 API 立即返回 task_id 后台 worker 慢慢执行 用户通过 task_id 查询任务状态 任务主要是 LLM 调用、图片下载、外部 HTTP 请求这类 I/O 型工作。 一开始关注的是队列、Redis、PostgreSQL、worker 并发控制这些问题。但聊到后面,其实更核心的问题变成了: Python 到底应该放在什么位置? 哪些并发适合 Python? 哪些并发不要硬塞给 Python? FastAPI、协程、线程、数据库之间应该怎么分工? 这篇文章就是这次思考的整理。 一、我不想抛弃 Python,

By ladydd

Go 和 Python 的并发模型对比:进程、线程、协程、并发和并行到底怎么理解?

最近我在写 worker 任务系统的时候,重新理解了一遍 Python 和 Go 的并发差异。 以前写 Python,多 worker 经常要考虑: 多进程怎么管理? 日志会不会串? 一个 worker 崩了怎么办? 怎么吃满多核心? 后来换成 Go,发现一个进程里开多个 goroutine worker 就很自然: go worker(1) go worker(2) go worker(3) go worker(4) 日志也好管,状态也好管,而且单进程还能利用多个 CPU 核心。 一开始很容易误会成: Python 不行,Go 行 但更准确的理解应该是: Python 和

By ladydd

Python 进程和 Go 进程的区别:为什么 Go 单进程多 worker 用起来更爽?

最近我在做 worker 任务系统的时候,突然意识到一个很关键的问题: 以前写 Python,多 worker 的时候经常要小心日志串、文件切割乱、时间不好管理。 但是换成 Go 以后,一个进程里开多个 goroutine worker,反而可以比较自然地写到同一个日志文件里。 一开始我以为这是“Python 和 Go 写日志能力不一样”,后来想明白了,核心不是日志本身,而是: Python 常见 worker 模型:多进程 Go 常见 worker 模型:单进程 + 多 goroutine 这背后其实是两个语言在并发模型上的巨大差异。 一、进程、线程、goroutine 先分清楚 先把几个概念捋一下。 进程:操作系统分配资源的单位 线程:CPU 调度执行的基本单位

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号