快手 KAT-Coder-Pro V2 模型测试

ladydd

02 Apr 2026 — 7 min read

市面上几乎没人聊这个模型，反倒让我很好奇，我决定全面测评使用一下

付完款发现上下文只有256K , 到今天来说已经落后了

而且不支持视觉，也没有mcp接入联网搜索之类的东西

确实是远远落后了

时隔半年再次看快手模型的官网，发现现在几乎就主打这一个模型了 coding plan用这个，然后api 调用这个是，接入openclaw 也是这个，总之一个模型走天下，看上去太穷了，像是随时跑路的状态，但其实我很喜欢这种方式, 一个模型通杀所有场景哈哈哈

接入 opencode 中使用

开了一个新的项目，决定保守一点，先让写文档，之后再生成代码

下面是实际的体验

不断 chat 需求来说，我觉得理解能力没问题，和市面上的一流模型没有明显差距
表现好的地方是我在开始强调他需要的时候可以追问和批判精神的来接受后续的需求说明，他确实按照要求做了，虽然有些死板了，但是确实是朝着正确的方向在努力，这说明在听从指令方面做得优化很好，如果是 opus 4.6 的话，会有更多模型本身的想法，对用户输入的更多是参考，不会像这么像是作为系统级的指令来对待，快手模型在很多场景下这个会是优势，短平快的时候，很容易让人想到 api 调用

项目很小，我的一条又一条的 prompt 非常的耐心，所以最后它是明白了整体的需求的，当模型最终理解了我的需求之后，能感受到它和市面上的一流模型的差别了，就是它的肚子里东西不太多，没有掏出非常一流的方案来，并且有一种想要匆匆结束的感觉，就是说那种觉得任务结束了，在最需要思考斟酌补充信息思考是否真实可行的时候表现的太保守了，当然也可能我对这个新的项目太熟悉了是我能力范围内的，总之快手模型没有让我表现出新鲜感来
做的很不好的地方就是工具调用了，我已经十分明确说明了他需要落地文档，没想到它居然控制台直接输出了，当我再次强调落地本地的时候，它居然先去获取了路径居然让我确认路径是什么，作为付费的商用模型可以说是让人大跌眼镜了，或许这个里面有opencode本身的原因，之前用 gpt5.4 的时候就调用工具比较保守，但是口头让用户确认路径这个体验太差了，纯纯的官方浪费token

看最后落地的文档来说，目的肯定是达到了，缺点：它甚至没有写要用到什么技术栈，也没有让我补充这一信息，纯粹把这个最重要的东西忽略过去了，然后对于入参的某些很重要的属性也是自己自己瞎编。
还有一个最大的问题信息更新的太慢了，至少是三个月前的，对现在日益更新的 LLM VLM 能力不了解，出方案就会很保守

总结：能感觉到快手模型接入 opencode 明显水土不服，上下文消耗也没法看，但是模型本身的能力还远远没有被释放出来

接入 claude code 使用

生成代码的部分我们换 claude code，文档就用上次生成的

直观感受是慢生代码慢只是简单的项目 build 起来都这么慢，而且我本身就是国内网络，这个表现让人难以理解，但是矛盾的事打字chat 需求的时候又挺快的
生成的后端代码错误频出，连续修改了两次都没办法直接运行
发生了一次直接中断

最后的默认情况下自己使用了 sqllite ，我觉得其他模型的话会直接放到内存，后期用什么具体的数据库再和人商量
前端代码至少已经修改两次了也没和后端对接上

我没有耐心再继续调教了我决定换 codex 了

不过在 claude 里面这个模型的工具调用好了很多，这个和agent 本身的能力有关

生成代码最大的体会就是技术积累太老旧了，想在这样的模型身上擦出一些火花是很难的事情，也没有机会跟他头脑风暴和学到一些东西了

最后

买这个最大目的是我觉得国内的肯定会是速度快很多的，但是在claude code 里面生成代码的时候没有感受到速度，这个是最令我失望的，没人聊这个模型是有原因的

后续我有三个计划更合理的使用快手模型:

做个中间件，搞mcp 或者其他形式让其他模型来指挥它干活，完成一些具体的事情，搞成永动机
接入 openclaw , 官网上写了对龙虾做了优化，但是经过今天的测试后我不太相信它的具体能力会有多强了
纯当接口用，做api 调用清洗我本地的一些离线数据，做数据标注

降级为这个模型之后干活不给力纯浪费人世间，很容易情绪上产生波动，这个时候耐心是很重要的，并不是快手模型弱，而是我没有把它放到对的地方上

Mac 上 Skill CLI 无法执行的坑：最后其实一条命令就够了

我在做 Amazon skills 的过程中，逐步把本地 CLI 从 Python 脚本切到 Go 二进制。这样做的好处很明显：用户不用装 Python、不用配依赖，解压 skill 后直接运行。但在 macOS 上，我们反复遇到一个看起来很玄的问题：同一个二进制，在 Linux/Windows 上正常，在 Mac 上就是执行不了。当时遇到的现象常见报错大概有几类： * 双击或 agent 调用 CLI 时，系统提示文件来自未知开发者，无法打开。 * 终端里执行时提示 Permission denied。 * 已经 chmod +x 了，仍然被 macOS 拦截。 * Apple

当我把全世界人群的基因 PCA 跑出来后，看见了一个倒 L 型

最近我把之前学的一些分子人类学知识，终于真正落地了。不是停留在看论文、看别人画图、看别人解释“人群结构”这些概念，而是自己把数据处理完，自己跑 PCA，自己把全世界不同人群放到一张图上。然后那一刻，我真的被击中了。图上出现了一个非常漂亮的倒 L 型。一端是非洲，另一端逐渐拉向东亚，中间有中东、欧洲、南亚、欧亚大陆上的各种过渡人群。它不是那种随机散点图，而是有方向、有骨架、有历史感的结构。我第一眼看到的时候，脑子里直接冒出一句话：这不像是一张普通统计图，这像是人类迁徙史在二维空间里留下的影子。当然，后来我也提醒自己，PCA 不能被过度浪漫化。它不是地图，也不是时间轴，更不是“谁从哪里走到哪里”的直接证据。PCA 本质上是把高维基因差异压缩到几个主成分上，用最大方差方向把样本摊开。它可以帮助我们观察人群结构、相似性、分化和混合，但不能单独承担全部历史解释。PCA 在群体遗传学里常用于观察 population structure

吞吐与延迟:一个厨房比喻讲透性能压测

写于 2026-06-26。背景: MCP 服务跑在 3 台 ClickHouse(每台 16 核 / 64G,1 分片 3 副本)上。我们花了一整轮做公网压测,把这套系统的极限、天花板和杠杆全摸清了。这篇把"吞吐 / 延迟 / 排队"这三个最容易混的概念讲透,配我们自己的真实实测数据。一句话结论我们这套系统的吞吐天花板 ≈ 76 req/s。往里塞再多并发(100、200、300、500),每秒"做完"的还是大约 76 个,多出来的全在排队。系统不会崩,只会让每个人等得更久。天花板能不能抬?

四卡 3090 本地模型部署复盘：Ollama 跑通 35B，以及 GPU0 掉卡问题

这次做的是一轮真实的本地模型部署摸底。目标不是搭一个临时 Demo，而是把一台四卡 3090 GPU 机器接进自己的日常 AI 使用环境：本机跑 Open WebUI，负责账号、会话和前端配置；GPU 机器只负责模型推理。这样以后换模型、换推理框架、重启服务，都尽量不影响本机的使用入口。最后结论比较清楚：qwen3.5:35b 的 GGUF Q4_K_M 量化版已经通过 Ollama 跑通，本机 Open WebUI 可以接入，热加载后的聊天速度也能用；但 GPU0 存在明显稳定性问题，重启后能短暂恢复，跑过负载后又会掉到 NVML 异常状态。状态快照当前能用的部分： * 本机 Open WebUI 已部署，