8 万行代码,kimi k2 thinking 能 hold 住吗?
大家估计看过很过大模型的评测。基本上都是设想几个编程场景,然后用几个不同的模型进行对比。
但在真实的工作场景中,我们面对的更多是一个已经存在、可能庞大复杂的代码库。要在这样的代码库中理解架构、找到关键信息、做出正确修改,这才是真正的挑战。
这次,我让kimi k2 thinking 面对了一个地狱级考验:在拥有 8 万行代码、500 多个文件的 MkSaaS 模板库中,开发一个”纳瓦尔语录”网站。

一、为什么选择这个测试?
MkSaaS 是一个功能完整的 SaaS 应用模板,包含了用户系统、支付、积分、newsletter、AI 生图、博客、文档等SaaS应用常见的功能。
这个测试的核心挑战在于:模型能否在理解海量代码的基础上,做出合理的“减法”和“加法”?
一个用于呈现纳瓦尔语录的网站根本不需要这些复杂功能,只需要基础框架即可。关键问题是——我没有明确要求删除哪些功能,模型需要“自己意识到”哪些功能是多余的,并正确的精简。
这不仅仅考量模型的代码生成能力,还会考察模型的一下4个核心能力:
- 代码探索能力:在 8 万行代码中快速理解架构
- 架构判断力:识别哪些功能是不必要的
- 自我优化能力:主动精简而非机械执行
- 细节把控力:处理好模块间的依赖关系
这四点正好可以很好地用来评估一个 reasoning 模型
二、测试结果:一次成型
我使用的是 claude code + k2 thinking 这个组合,整个开发过程我只在最开始输入了要求(具体要求放在了文章最后),中间没有任何人工干预。最后我只需要在本地运行项目就能看到结果。
先来看整体效果:


1. 精简不必要的功能和代码
k2 thinking 几乎精准地去除了所有不相关的功能。
原始 Header:

优化后的 Header:

可以看到,优化后的 header 只有一个Quotes按钮,其他功能入口都被去掉了。
更重要的是,这些被去掉的功能中,有17 个可以通过配置 disable 的功能全部被找到并正确禁用,而不是通过修改大量代码而实现。
这需要模型能找到配置文档和对于的代码,并且理解每个配置项的作用,还要判断和分析哪些与当前项目无关,最后正确地修改配置
这正是提现模型能力的地方。
2. 社交分享的实现
这个功能其实比较简单,做的也不错。
每条语录卡片都有分享按钮,可以一键分享到社交媒体,按钮布局也合理。
我在这里其实更想说的是,k2 thinking 在这次开发中表现出来的“审美”很好,不论是 UI 布局还是颜色搭配都不错,尤其是颜色,在我4次测试过程中,没有一次使用其他大模型都很偏爱的“蓝紫渐变色”,懂得都懂……

3. 两个小问题
虽然整体效果很好,但是也有两个小问题。
首先是登陆模块。
对于这个“纳瓦尔语录”展示网站来说,应该完全移除登录功能,采用匿名访问。
即便要保留,也需要配置 GitHub/Google/邮箱验证。但 k2 thinking 只保留了登录入口,却没有提示我进行相应配置。
另外就是 Footer 区域的slogan 和社媒按钮还是 MkSaaS 的模板内容,没有针对“纳瓦尔语录”进行优化。
不过这部分代码分散在 4 个不同文件中,没有明显入口,模型没修改也可以理解。这反映出当前大模型的另一个局限:对分散、隐晦的代码关联,识别能力还不够强。
三、 结论
kimi k2 是我日常写代码使用的第一个国产大模型;k2 thinking 在此基础上更进一步,能力更强,是目前开源最强的思考模型,但是价格没有上涨。
而且从我这次的测试情况来看,它在复杂代码库中的理解和修改能力已经足够强大,可以实实在在地用于生产项目开发了,而不仅仅是只能用于开发一个脚本或者一个“玩具”
最后贴一下我发给 Claude Code(搭配 k2 thinking)的要求,如果你也购买了 MkSaaS,也可以用这个 prompt 测试:
