Qwen3.7-Max,我觉得应该叫Ultra,很强

网易专栏5小时前发布 nxnqh
1 0 0

🤖 AI总结

主题

阿里Qwen3.7-Max大模型评测及能力分析

摘要

阿里Qwen3.7-Max在盲测中表现优异,编程和推理能力强,能自主优化内核,展现Agent时代潜力。

关键信息

  • 1 Qwen3.7-Max在盲测中排名全球第五、国产第一。
  • 2 编程能力突出,能解决真实Bug和复杂推理问题。
  • 3 具备长周期自主迭代能力,可优化推理内核。
  • 4 开源模型生态活跃,全栈协同优势显现。

Qwen3.7-Max,我觉得应该叫Ultra,很强

印象里,Qwen模型,一向是盲测表现更好的。

蒙上眼睛,不说别的,只看效果;真实环境里,抛开先入为主的偏见,是骡子是马拉出来溜溜。

阿里最近发了新模型,Qwen3.7-Max。

在Arena全球大模型盲测总榜上,Qwen3.7-Max排到了全球第五,国产第一。

Qwen3.7-Max,我觉得应该叫Ultra,很强

超过Kimi-K2.6,超过DeepSeek-v4-pro,超过GLM-5.1。和GPT、Claude、Gemini那几位的差距也很小。

盲测这个东西,水分相对少。

模型叫什么名字、谁家出的,评测者看不到,纯粹靠回答质量打分。

能在这种榜单上冲到这个位置,说明真有点东西。

连夜把Qwen3.7-Max接进了我的测试环境,给大家说说感受。

Qwen3.7-Max,我觉得应该叫Ultra,很强

https://chat.qwen.ai/

01修了几个真Bug,编程能力很顶

这几年做AI应用开发,从GPT-3.5时代一路用过来,见过太多模型在宣传文案里封神,一上真实项目就露怯。

所以我评测模型的方式很简单:丢给它真实的烂摊子。

看看遇到Bug的时候,能不能搞得定。

Qwen3.7-Max,我觉得应该叫Ultra,很强

我直接把最近遇到的问题拿了过来。

是一个开源项目里,搁置了两周的一个Issue,关于Python异步任务内存泄漏的问题。

Qwen3.7-Max跑第一轮的时候,我没有太高预期。

但它给出的异步泄漏诊断出乎我意料地准。

它没有泛泛地说用weakref或者gc.collect,而是直接指出了问题可能出现在某个具体的事件循环上下文里,协程对象没有被正确销毁。

我按照它的建议加了两个补丁,bug消失了,内存曲线稳住了。

Qwen3.7-Max,我觉得应该叫Ultra,很强

第二个是遇到的React白屏问题,我自己排查了好久,找人帮忙也没搞定。

那个Bug其实挺恶心,涉及到useEffect的依赖数组和子组件渲染时序的交织问题。

我见过Claude Opus 4.7给出的解决方案,偏重理论推导。

Qwen3.7-Max的解法更工程化,它甚至建议我在某个关键位置加一段防御性代码,在特定条件下重绘。

这个手法很老练,像是写了8年前端的老手会用的招数。

Qwen3.7-Max,我觉得应该叫Ultra,很强

代码质量不错,unsafe块用得也很克制。

我翻了翻它的测评数据,指标都非常好,和实际测试的效果也是匹配的:

在编程智能体方面,Qwen3.7-Max在Terminal Bench 2.0-Terminus得分69.7,超过了DeepSeek-v4-pro-Max、Claude-Opus4.6等一众模型;

在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试里,超越GLM5.1、Kimi-K2.6等,创下国产新高;

推理能力上,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心测评中,均超越了Claude-Opus4.6及所有国产模型;在多语言理解和翻译的WMT24++、MAXIFE评测中领先。

这个数据结构很有意思。

Claude在英文为主的代码仓库上依然强,但Qwen在多语言尤其是中英文混合的代码场景里已经反超。

我的实际体验也印证了这一点,在处理国内某些混杂着中文注释、拼音变量名、英文文档的技术栈时,Qwen3.7-Max的适应性的确更好。

02推理能力这件事,奥数题和人类考试都测过了

编程能力的提升往往伴随推理能力的增强。

这两个能力在底层是相通的,都需要模型具备长链路的逻辑推导和工具调用能力。

Qwen3.7-Max在数学推理HMMT 2026 Feb评测里拿了98.0分,超过了Kimi-K2.6。

在IMOAnswerBench这个奥数级别评测里是90.5分,超过了DeepSeek-V4-Pro-Max。

还有一个更硬核的测试叫人类最后的考试HLE,涵盖数学、物理、化学等多学科的高难度问题,它也超过了Claude Opus 4.7。

我用自己的方式验证了一下。我找了一道2025年全国高中数学联赛的几何题,还找了一道北大物理学院某次作业里的热力学问题。这两道题都挺偏,不太可能在训练数据里高频出现。

Qwen3.7-Max,我觉得应该叫Ultra,很强

Qwen3.7-Max做几何题的时候,辅助线选得不错,三步推下来思路清晰。

最终也能得出正确答案。

物理题它完成得更好,从状态方程推导到熵变计算,整个过程逻辑闭环。

Qwen3.7-Max,我觉得应该叫Ultra,很强

思考过程很严谨全面,虽然多了一些相关但不必要的内容,但胜在算无遗漏。

Qwen3.7-Max,我觉得应该叫Ultra,很强

相比之下,我之前测过的Kimi-K2.6在这道物理题上卡在了中间步骤,DeepSeek-v4-pro计算过程正确但最后答案单位写错了。

就推理的完整度和细节把握来说,Qwen3.7-Max是目前国产模型里我体验过的最强者。

这背后其实有一个技术点值得说。

Qwen3.7-Max是面向智能体Agent全新设计的架构。

传统大模型擅长对话和单轮问答,但Agent需要多步推理、工具调用、结果验证、错误修正。

这个链条越长,对模型的要求越高。

Qwen3.7-Max能处理超长程的智能体复杂任务,说明它在记忆保持、状态跟踪、目标维持这些底层能力上确实做了针对性优化。

03从做网站到优化内核,都不在话下

尝试了一下用Qwen3.7-Max画网站、做表格,效果比之前更上了个台阶。

我让模拟科研网站,做一个动态的神经网络监测结构,数值要实时变化、可调整。

之前的Qwen以及其他模型,能把表面功夫做到位,但交互细节会欠缺。

Qwen3.7-Max,我觉得应该叫Ultra,很强

今天做的版本,明显比其他模型更好了。

动态呈现,数据和逻辑的严谨性,都比较令人满意。

做表格,当然效果也不错。

Qwen3.7-Max,我觉得应该叫Ultra,很强

可视化追踪看板,完成度也非常高。

能够把跨行业的数据,具体的计算公式和新数据处理办法,在一个看板上都搞明白。

用代码能力和数学能力为基础,在应用中去解决这些场景化的问题,可以说都是更强的技术能力的下方。

Qwen3.7-Max,我觉得应该叫Ultra,很强

阿里给Qwen3.7-Max布置了一个极端任务。

他们在平头哥真武M890芯片上,一个模型训练时从未接触过的全新硬件平台,要求Qwen3.7-Max自主完成推理内核的优化。

起始条件非常苛刻:没有任何性能分析数据,没有硬件文档,没有新架构的示例内核。只有一个空白工作空间,里面有一段任务描述、一个SGLang Triton参考实现和评测脚本。

Qwen3.7-Max从零开始,持续编程了35个小时。

它独立进行了432次内核评估,1158次工具调用,完全自主地完成了编写、编译、性能分析与迭代改进的全流程。

Qwen3.7-Max,我觉得应该叫Ultra,很强

最终优化后的推理内核,比官方的SGLang Triton参考实现快了10倍。

测试轨迹里有个细节特别打动我。

在运行超过30小时后,模型仍然发现了有效的优化点,甚至主动发起了一次架构重设计。

说明它不是在执行一个预设的固定脚本,而是在整个过程中持续保持目标感,不断寻找改进空间。

这种长周期自主迭代能力,放在真实开发环境里,很有价值了。

比如现在接手的遗留系统可能需要重构,涉及几百个文件,前后要改两星期。传统做法是你自己写方案,拆解成多个小任务,让AI分别完成,你来串联。

但如果模型能像Qwen3.7-Max这样,给你干满35个小时,自己调试、自己跑测试、自己发现问题再优化,那你基本上只需要最后验收就行了。

当然这里也有局限性。35小时连续运行,API调用成本不低。

而且这个任务虽然复杂,但目标相对明确,就是优化推理内核。

真实世界的需求往往更模糊,需要来回沟通确认。

但从技术演进的方向看,这条路是对的。模型正在从回答问题走向解决问题,从辅助工具走向自主执行者。

04千问的加速度

过去三个月,千问旗舰模型迭代了三个大版本。

3月20日Qwen3.5-Max-Preview亮相,4月20日Qwen3.6-Max-Preview登场,5月20日Qwen3.7-Max正式发布。

Qwen3.7-Max,我觉得应该叫Ultra,很强

中小模型的表现,也值得说说。

开源的Qwen3.6-27B和Qwen3.6-35B-A3B,在HuggingFace上登顶全球开源大模型榜首。

Unsloth的创始人5月13日还在社交媒体上,展示了他基于千问的魔改成果,说明这个模型的潜力和可塑性得到了社区认可。

我自己的服务器上跑的是Qwen3.6-27B的量化版本,显存占用大概14GB,在一块消费级显卡上就能跑。

代码补全、轻量级Agent任务都够用,响应速度也快。

这种以小胜大的路线,对中小开发者和企业来说意义更大,不是每个人都有几十张A100。

调用量数据,也能说明问题。

Qwen3.6-Plus在OpenRouter平台上的日调用量突破了1.4万亿Token,打破了平台单日单模型调用量的全球纪录。

只觉得,似乎从硅谷到欧洲,从中东到东南亚,都在买中国模型的Token。

注意到一个变化。

半年前参加技术会议,大家讨论的都是Claude和GPT。

Qwen3.7-Max,我觉得应该叫Ultra,很强

现在同一个圈子,千问、Kimi也成为了高频词。

在编程场景里,Claude依然是标杆,但千问在很多细分任务上已经不输甚至反超。

尤其是在中文为主的技术文档和代码混合场景里,国产模型的天然优势开始显现。

阿里几个月前成立了ATH,打通芯片、云、模型、应用几个层面。

这也是我比较期待的,因为大模型的研发从来不单单是算法问题,它也需要芯片层的算子优化,需要云基础设施的调度配合,需要应用层的反馈闭环。

把这几个层次捏在一起,才可能跑出更快的迭代速度和更及时的调整验证。

05

从最早的规则引擎到深度学习,从CNN到Transformer,每次技术跃迁都会产生新的赢家和输家。

大模型前两年,国内外的差距一度拉得很大。

去年这个时候,国产模型在SWE-bench上的分数还在20分上下徘徊,Claude和GPT已经是40分以上。

今年5月,Qwen3.7-Max在部分编程评测中已经能和Claude Opus 4.7掰手腕,在多语言场景甚至领先。

Qwen3.7-Max,我觉得应该叫Ultra,很强

https://qwen.ai/

这次千问3.7的发布,让我看到几个清晰的信号。

第一,编程能力已经成为大模型竞争的核心战场。

第二,Agent是下一个确定性的方向。

第三,全栈协同的体系优势正在显现。

接下来的看点,我觉得还是在于生态。

阿里的优势在于有云、有芯片、有应用场景,现在足够活跃的第三方开发者生态也在发展。

千问开源策略的持续推进,可能会成为撬动这个生态的支点。

Qwen3.7-Max,我觉得应该叫Ultra,很强

不管是写代码、做数据分析,还是日常的信息整理,Qwen3.7-Max驱动的各类应用已经开始落地。

这可能就是LLM x Agent时代最让人兴奋的地方。

技术不再高高在上,它变成了每个人都可以调用的能力。

有一个开放且扎实的底座,叫千问。

© 版权声明

相关文章