猫眼电影
猫眼电影记者 聂鲁彬 报道Q8X2R7L1T4J5M9B6W3
智东西作者 陈骏达编辑 李水青
阿里的“超大杯”思考模型,终于现身了!
智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。
不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。
Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育:信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,新万博体育:版本将会推出。
用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。
体验链接:
chat.qwen.ai/?thinking=true
API调用:
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。
我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。
不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。
智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。
既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。
可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。
这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。
在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。
Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。
对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。
开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。
在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。
不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。
已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。
也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。
不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?
结语:Qwen3-Max系列模型,期待拉满
阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。
今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。
此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。
??时事1:金沙电子游戏平台
??11月06日,受权发布丨中华人民共和国国务院令 第783号,
“好家伙,这头青鳞鹰果然非凡,体内有血脉传承的符文烙印,代表了一种强大的力量。”老族长惊叹。
,必博手机APP。??11月06日,抖音发起精品短剧“辰星计划” 好立意和好故事成就好作品,
女子抱过婴儿,温柔的亲了亲他红扑扑的小脸,眼中闪烁着灿烂的光彩,道:“无论他是否有至尊骨,都是我们的孩子,要让他快乐的长大。”
,365bet体育在线网址,优发官网首页登录入口,雷竞技最新地址。??时事2:kb体育app官网
??11月06日,巴塞尔艺术展香港展会将于3月举行 全面恢复至疫情前规模,
当日百草园深处神池的景象再现,金色浪涛将这里淹没,明明没有水泽,可是那种涛声与神液光芒依照显现了出来。
?第二十八章 风云动,最真实的棋牌平台,上下分棋牌平台排行,尊龙平台怎么样。??11月06日,福建福安:产业兴市 以新型工业化推动高质量发展,
第三,要进一步加强执行力建设。 执行力建设是提高机关行政效能、加强党的执政能力的重要途径。加强执行力建设,关键要在“提速、提质、提效”三个方面下功夫。所谓“提速”,就是要以时不我待、只争朝夕的紧迫感抓落实。要坚持今日事、今日毕,以思想观念上的“提速”促使行动上的“提速”,从而带动整体工作的“提速”。所谓“提质”,就是要用心、用脑去做好每一项工作。要树立精品意识,每项工作都要坚持高标准、高起点、高要求;要完善各种制度,坚持用制度管人管事,在完善制度中促规范、在完善制度中求精细、在在完善制度中讲严密,着力构建责任明确、衔接顺畅的高效运行机制,做到人人责任分明、处处有章可循、事事有始有终;要强化监督,对违反规定以及不作为、乱作为、慢作为的人和事严格进行责任追究;要树立良好的团队作风,对涉及多个部门的问题,办公室要搞好协调,明确目标和细化部门责任,对一时职责不明、无人负责的工作,办公室要及时补台,搞好服务;要抓好机关文化建设,精心组织一些活动,通过活动活跃思维,营造领导关心的创业干事环境、和谐友好的人际关系环境、历练干部的成长环境。所谓“提效”,就是工作程序和流程环节要顺畅无阻。要建立反应灵敏、运转高效、协调有力的办公室工作机制,增强工作的预见性、针对性和时效性;要善于发现苗头性、倾向性、规律性的问题,做到见事早、动议早,抢占先机。
,拉菲,新宝6,澳门皇冠游戏app下载。??时事3:九州安卓版注册
??11月06日,传递“飞虎情谊”推动友好交流发展 美中航空遗产基金会代表团访问新疆,
不仅一群孩子成长的很快,就是大人们也都得到了莫大的好处,强壮到浑身有力使不完。
,鸭博体育网址,皇冠beat365安卓客户端,dafabet什么公司。??11月06日,2024世界航海装备大会即将在福州举行, 面对质疑,李龙始终保持着平和的心态。李龙表示,起初在社交平台上分享复习视频,初衷仅是记录自己备考的过程并非炒作,在媒体采访中介绍家庭经济情况也绝非炫耀,“比较抱歉占用了媒体的资源,对于网上的评论每个人看法都不一样,自己一些表述可能存在问题,以后会更注意。”,77必赢app,澳门皇冠皇版,乐鱼体育网页版。
??时事4:足彩外围有哪些平台
??11月06日,文化交流视野下的留法勤工俭学,
柳枝摆动,荡出一道绿色的涟漪,漫天雷电全部消失,被吸收了个干净,所有这些都在一瞬间完成,惊的人张大了嘴巴,发不出声音。
,伟德直营网,葡京会下载安装,826巴黎人优惠大厅。??11月06日,广西梧州:百年骑楼城亮灯 喜迎八方来客,
巨狼长啸,山地间树叶凋零,被震落下大片,凶煞气澎湃。
,金沙官方赌场平台是真的,免费牛牛游戏下载,开博体育官网首页。责编:祁东敏
审核:欧莱雅
责编:吴欣见












