8 万行代码，kimi k2 thinking 能 hold 住吗？

发表于 2025-11-08 阅读次数： Waline：本文字数： 1.3k 阅读时长 ≈ 5 分钟

大家估计看过很过大模型的评测。基本上都是设想几个编程场景，然后用几个不同的模型进行对比。

但在真实的工作场景中，我们面对的更多是一个已经存在、可能庞大复杂的代码库。要在这样的代码库中理解架构、找到关键信息、做出正确修改，这才是真正的挑战。

这次，我让kimi k2 thinking 面对了一个地狱级考验：在拥有 8 万行代码、500 多个文件的 MkSaaS 模板库中，开发一个”纳瓦尔语录”网站。

MkSaaS代码行数统计

一、为什么选择这个测试？

MkSaaS 是一个功能完整的 SaaS 应用模板，包含了用户系统、支付、积分、newsletter、AI 生图、博客、文档等SaaS应用常见的功能。

这个测试的核心挑战在于：模型能否在理解海量代码的基础上，做出合理的“减法”和“加法”？

一个用于呈现纳瓦尔语录的网站根本不需要这些复杂功能，只需要基础框架即可。关键问题是——我没有明确要求删除哪些功能，模型需要“自己意识到”哪些功能是多余的，并正确的精简。

这不仅仅考量模型的代码生成能力，还会考察模型的一下4个核心能力：

这四点正好可以很好地用来评估一个 reasoning 模型

我使用的是 claude code + k2 thinking 这个组合，整个开发过程我只在最开始输入了要求（具体要求放在了文章最后），中间没有任何人工干预。最后我只需要在本地运行项目就能看到结果。

先来看整体效果：

kimi k2 thinking 一次成型开发效果 01

kimi k2 thinking 一次成型开发效果 02

k2 thinking 几乎精准地去除了所有不相关的功能。

原始 Header：

mksaas 预置header

优化后的 Header：

kimi k2 thinking 修改后header

可以看到，优化后的 header 只有一个Quotes按钮，其他功能入口都被去掉了。
更重要的是，这些被去掉的功能中，有17 个可以通过配置 disable 的功能全部被找到并正确禁用，而不是通过修改大量代码而实现。

这需要模型能找到配置文档和对于的代码，并且理解每个配置项的作用，还要判断和分析哪些与当前项目无关，最后正确地修改配置

这正是提现模型能力的地方。

这个功能其实比较简单，做的也不错。

每条语录卡片都有分享按钮，可以一键分享到社交媒体，按钮布局也合理。

我在这里其实更想说的是，k2 thinking 在这次开发中表现出来的“审美”很好，不论是 UI 布局还是颜色搭配都不错，尤其是颜色，在我4次测试过程中，没有一次使用其他大模型都很偏爱的“蓝紫渐变色”，懂得都懂……

虽然整体效果很好，但是也有两个小问题。

首先是登陆模块。
对于这个“纳瓦尔语录”展示网站来说，应该完全移除登录功能，采用匿名访问。
即便要保留，也需要配置 GitHub/Google/邮箱验证。但 k2 thinking 只保留了登录入口，却没有提示我进行相应配置。

另外就是 Footer 区域的slogan 和社媒按钮还是 MkSaaS 的模板内容，没有针对“纳瓦尔语录”进行优化。

不过这部分代码分散在 4 个不同文件中，没有明显入口，模型没修改也可以理解。这反映出当前大模型的另一个局限：对分散、隐晦的代码关联，识别能力还不够强。

kimi k2 是我日常写代码使用的第一个国产大模型；k2 thinking 在此基础上更进一步，能力更强，是目前开源最强的思考模型，但是价格没有上涨。

而且从我这次的测试情况来看，它在复杂代码库中的理解和修改能力已经足够强大，可以实实在在地用于生产项目开发了，而不仅仅是只能用于开发一个脚本或者一个“玩具”

最后贴一下我发给 Claude Code（搭配 k2 thinking）的要求，如果你也购买了 MkSaaS，也可以用这个 prompt 测试：

kimi k2 thinking 测试提示词