Qwen3.7-Max，我觉得应该叫Ultra，很强

网易专栏5小时前发布 nxnqh

1 0 0

发布时间：2026-05-22 21:59:24

#AI | #Qwen3.7-Max

来源：网易专栏作者：AI异类
🔗 查看原文

🤖 AI总结

主题

阿里Qwen3.7-Max大模型评测及能力分析

摘要

阿里Qwen3.7-Max在盲测中表现优异，编程和推理能力强，能自主优化内核，展现Agent时代潜力。

关键信息

1 Qwen3.7-Max在盲测中排名全球第五、国产第一。
2 编程能力突出，能解决真实Bug和复杂推理问题。
3 具备长周期自主迭代能力，可优化推理内核。
4 开源模型生态活跃，全栈协同优势显现。

Qwen3.7-Max，我觉得应该叫Ultra，很强

印象里，Qwen模型，一向是盲测表现更好的。

蒙上眼睛，不说别的，只看效果；真实环境里，抛开先入为主的偏见，是骡子是马拉出来溜溜。

阿里最近发了新模型，Qwen3.7-Max。

在Arena全球大模型盲测总榜上，Qwen3.7-Max排到了全球第五，国产第一。

Qwen3.7-Max，我觉得应该叫Ultra，很强

超过Kimi-K2.6，超过DeepSeek-v4-pro，超过GLM-5.1。和GPT、Claude、Gemini那几位的差距也很小。

盲测这个东西，水分相对少。

模型叫什么名字、谁家出的，评测者看不到，纯粹靠回答质量打分。

能在这种榜单上冲到这个位置，说明真有点东西。

连夜把Qwen3.7-Max接进了我的测试环境，给大家说说感受。

Qwen3.7-Max，我觉得应该叫Ultra，很强

https://chat.qwen.ai/

01修了几个真Bug，编程能力很顶

这几年做AI应用开发，从GPT-3.5时代一路用过来，见过太多模型在宣传文案里封神，一上真实项目就露怯。

所以我评测模型的方式很简单：丢给它真实的烂摊子。

看看遇到Bug的时候，能不能搞得定。

Qwen3.7-Max，我觉得应该叫Ultra，很强

我直接把最近遇到的问题拿了过来。

是一个开源项目里，搁置了两周的一个Issue，关于Python异步任务内存泄漏的问题。

Qwen3.7-Max跑第一轮的时候，我没有太高预期。

但它给出的异步泄漏诊断出乎我意料地准。

它没有泛泛地说用weakref或者gc.collect，而是直接指出了问题可能出现在某个具体的事件循环上下文里，协程对象没有被正确销毁。

我按照它的建议加了两个补丁，bug消失了，内存曲线稳住了。

Qwen3.7-Max，我觉得应该叫Ultra，很强

第二个是遇到的React白屏问题，我自己排查了好久，找人帮忙也没搞定。

那个Bug其实挺恶心，涉及到useEffect的依赖数组和子组件渲染时序的交织问题。

我见过Claude Opus 4.7给出的解决方案，偏重理论推导。

Qwen3.7-Max的解法更工程化，它甚至建议我在某个关键位置加一段防御性代码，在特定条件下重绘。

这个手法很老练，像是写了8年前端的老手会用的招数。

Qwen3.7-Max，我觉得应该叫Ultra，很强

代码质量不错，unsafe块用得也很克制。

我翻了翻它的测评数据，指标都非常好，和实际测试的效果也是匹配的：

在编程智能体方面，Qwen3.7-Max在Terminal Bench 2.0-Terminus得分69.7，超过了DeepSeek-v4-pro-Max、Claude-Opus4.6等一众模型；

在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试里，超越GLM5.1、Kimi-K2.6等，创下国产新高；

推理能力上，Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心测评中，均超越了Claude-Opus4.6及所有国产模型；在多语言理解和翻译的WMT24++、MAXIFE评测中领先。

这个数据结构很有意思。

Claude在英文为主的代码仓库上依然强，但Qwen在多语言尤其是中英文混合的代码场景里已经反超。

我的实际体验也印证了这一点，在处理国内某些混杂着中文注释、拼音变量名、英文文档的技术栈时，Qwen3.7-Max的适应性的确更好。

02推理能力这件事，奥数题和人类考试都测过了

编程能力的提升往往伴随推理能力的增强。

这两个能力在底层是相通的，都需要模型具备长链路的逻辑推导和工具调用能力。

Qwen3.7-Max在数学推理HMMT 2026 Feb评测里拿了98.0分，超过了Kimi-K2.6。

在IMOAnswerBench这个奥数级别评测里是90.5分，超过了DeepSeek-V4-Pro-Max。

还有一个更硬核的测试叫人类最后的考试HLE，涵盖数学、物理、化学等多学科的高难度问题，它也超过了Claude Opus 4.7。

我用自己的方式验证了一下。我找了一道2025年全国高中数学联赛的几何题，还找了一道北大物理学院某次作业里的热力学问题。这两道题都挺偏，不太可能在训练数据里高频出现。

Qwen3.7-Max，我觉得应该叫Ultra，很强

Qwen3.7-Max做几何题的时候，辅助线选得不错，三步推下来思路清晰。

最终也能得出正确答案。

物理题它完成得更好，从状态方程推导到熵变计算，整个过程逻辑闭环。

Qwen3.7-Max，我觉得应该叫Ultra，很强

思考过程很严谨全面，虽然多了一些相关但不必要的内容，但胜在算无遗漏。

Qwen3.7-Max，我觉得应该叫Ultra，很强

相比之下，我之前测过的Kimi-K2.6在这道物理题上卡在了中间步骤，DeepSeek-v4-pro计算过程正确但最后答案单位写错了。

就推理的完整度和细节把握来说，Qwen3.7-Max是目前国产模型里我体验过的最强者。

这背后其实有一个技术点值得说。

Qwen3.7-Max是面向智能体Agent全新设计的架构。

传统大模型擅长对话和单轮问答，但Agent需要多步推理、工具调用、结果验证、错误修正。

这个链条越长，对模型的要求越高。

Qwen3.7-Max能处理超长程的智能体复杂任务，说明它在记忆保持、状态跟踪、目标维持这些底层能力上确实做了针对性优化。

03从做网站到优化内核，都不在话下

尝试了一下用Qwen3.7-Max画网站、做表格，效果比之前更上了个台阶。

我让模拟科研网站，做一个动态的神经网络监测结构，数值要实时变化、可调整。

之前的Qwen以及其他模型，能把表面功夫做到位，但交互细节会欠缺。

Qwen3.7-Max，我觉得应该叫Ultra，很强

今天做的版本，明显比其他模型更好了。

动态呈现，数据和逻辑的严谨性，都比较令人满意。

做表格，当然效果也不错。

Qwen3.7-Max，我觉得应该叫Ultra，很强

可视化追踪看板，完成度也非常高。

能够把跨行业的数据，具体的计算公式和新数据处理办法，在一个看板上都搞明白。

用代码能力和数学能力为基础，在应用中去解决这些场景化的问题，可以说都是更强的技术能力的下方。

Qwen3.7-Max，我觉得应该叫Ultra，很强

阿里给Qwen3.7-Max布置了一个极端任务。

他们在平头哥真武M890芯片上，一个模型训练时从未接触过的全新硬件平台，要求Qwen3.7-Max自主完成推理内核的优化。

起始条件非常苛刻：没有任何性能分析数据，没有硬件文档，没有新架构的示例内核。只有一个空白工作空间，里面有一段任务描述、一个SGLang Triton参考实现和评测脚本。

Qwen3.7-Max从零开始，持续编程了35个小时。

它独立进行了432次内核评估，1158次工具调用，完全自主地完成了编写、编译、性能分析与迭代改进的全流程。

Qwen3.7-Max，我觉得应该叫Ultra，很强

最终优化后的推理内核，比官方的SGLang Triton参考实现快了10倍。

测试轨迹里有个细节特别打动我。

在运行超过30小时后，模型仍然发现了有效的优化点，甚至主动发起了一次架构重设计。

说明它不是在执行一个预设的固定脚本，而是在整个过程中持续保持目标感，不断寻找改进空间。

这种长周期自主迭代能力，放在真实开发环境里，很有价值了。

比如现在接手的遗留系统可能需要重构，涉及几百个文件，前后要改两星期。传统做法是你自己写方案，拆解成多个小任务，让AI分别完成，你来串联。

但如果模型能像Qwen3.7-Max这样，给你干满35个小时，自己调试、自己跑测试、自己发现问题再优化，那你基本上只需要最后验收就行了。

当然这里也有局限性。35小时连续运行，API调用成本不低。

而且这个任务虽然复杂，但目标相对明确，就是优化推理内核。

真实世界的需求往往更模糊，需要来回沟通确认。

但从技术演进的方向看，这条路是对的。模型正在从回答问题走向解决问题，从辅助工具走向自主执行者。

04千问的加速度

过去三个月，千问旗舰模型迭代了三个大版本。

3月20日Qwen3.5-Max-Preview亮相，4月20日Qwen3.6-Max-Preview登场，5月20日Qwen3.7-Max正式发布。

Qwen3.7-Max，我觉得应该叫Ultra，很强

中小模型的表现，也值得说说。

开源的Qwen3.6-27B和Qwen3.6-35B-A3B，在HuggingFace上登顶全球开源大模型榜首。

Unsloth的创始人5月13日还在社交媒体上，展示了他基于千问的魔改成果，说明这个模型的潜力和可塑性得到了社区认可。

我自己的服务器上跑的是Qwen3.6-27B的量化版本，显存占用大概14GB，在一块消费级显卡上就能跑。

代码补全、轻量级Agent任务都够用，响应速度也快。

这种以小胜大的路线，对中小开发者和企业来说意义更大，不是每个人都有几十张A100。

调用量数据，也能说明问题。

Qwen3.6-Plus在OpenRouter平台上的日调用量突破了1.4万亿Token，打破了平台单日单模型调用量的全球纪录。

只觉得，似乎从硅谷到欧洲，从中东到东南亚，都在买中国模型的Token。

注意到一个变化。

半年前参加技术会议，大家讨论的都是Claude和GPT。

Qwen3.7-Max，我觉得应该叫Ultra，很强

现在同一个圈子，千问、Kimi也成为了高频词。

在编程场景里，Claude依然是标杆，但千问在很多细分任务上已经不输甚至反超。

尤其是在中文为主的技术文档和代码混合场景里，国产模型的天然优势开始显现。

阿里几个月前成立了ATH，打通芯片、云、模型、应用几个层面。

这也是我比较期待的，因为大模型的研发从来不单单是算法问题，它也需要芯片层的算子优化，需要云基础设施的调度配合，需要应用层的反馈闭环。

把这几个层次捏在一起，才可能跑出更快的迭代速度和更及时的调整验证。

从最早的规则引擎到深度学习，从CNN到Transformer，每次技术跃迁都会产生新的赢家和输家。

大模型前两年，国内外的差距一度拉得很大。

去年这个时候，国产模型在SWE-bench上的分数还在20分上下徘徊，Claude和GPT已经是40分以上。

今年5月，Qwen3.7-Max在部分编程评测中已经能和Claude Opus 4.7掰手腕，在多语言场景甚至领先。

Qwen3.7-Max，我觉得应该叫Ultra，很强

https://qwen.ai/

这次千问3.7的发布，让我看到几个清晰的信号。

第一，编程能力已经成为大模型竞争的核心战场。

第二，Agent是下一个确定性的方向。

第三，全栈协同的体系优势正在显现。

接下来的看点，我觉得还是在于生态。

阿里的优势在于有云、有芯片、有应用场景，现在足够活跃的第三方开发者生态也在发展。

千问开源策略的持续推进，可能会成为撬动这个生态的支点。

Qwen3.7-Max，我觉得应该叫Ultra，很强

不管是写代码、做数据分析，还是日常的信息整理，Qwen3.7-Max驱动的各类应用已经开始落地。

这可能就是LLM x Agent时代最让人兴奋的地方。

技术不再高高在上，它变成了每个人都可以调用的能力。

有一个开放且扎实的底座，叫千问。

网易专栏 # AI # Qwen3.7-Max

文章版权归作者所有，未经允许请勿转载。

DeepSeek急招Agent方向！一口气放17个岗位，重度Vibe Coding优先

网易专栏 # AI # DeepSeek

2个月前

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

网易专栏 # AI # CursorBench

2个月前

哈萨比斯传记里讲了好多八卦啊

网易专栏 # AI # 哈萨比斯

2个月前

Linux内核AI辅助代码新规发布，开发者必读

网易专栏 # Linux内核 # 软件开发

1个月前

Qwen3.7-Max，我觉得应该叫Ultra，很强

🤖 AI总结

主题

摘要

关键信息

李飞飞再出手，空间智能的ImageNet来了

Anthropic每年支付150亿美元租用马斯克旗下数据中心

相关文章

DeepSeek急招Agent方向！一口气放17个岗位，重度Vibe Coding优先

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

哈萨比斯传记里讲了好多八卦啊

Linux内核AI辅助代码新规发布，开发者必读