智东西作者 陈骏达编辑 李水青
阿里的“超大杯”思考模型,终于现身了!
智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。
不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。
Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育:信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,新万博体育:版本将会推出。
用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。
体验链接:
chat.qwen.ai/?thinking=true
API调用:
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。
我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。
不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。
智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。
既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。
可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。
这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。
在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。
Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。
对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。
开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。
在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。
不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。
已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。
也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。
不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?
结语:Qwen3-Max系列模型,期待拉满
阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。
今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。
此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。
《九游会全站APP》,《Q8X2R7L1T4J5M9B6W3》世界杯能买球的app
“开元棋乐棋牌官网”
百老汇体育官方平台
……
11月06日
“博亚体育app”闪闪的儿科医生 第二季
↓↓↓
11月06日,鲁迅文学奖得主叶舟的30载“敦煌情”,凯发娱乐官网网站登录,米乐外围官网,凯发K8旗舰厅App下载,美高梅直营网址
11月06日,中新健康丨奥运冠军“盖肚脐”引关注 专家:脐通百脉 脐贴亦有良效,欧洲杯高清直播,博天堂全站APP,体验金官网平台,云顶娱乐手机版登录注册
11月06日,150余家厂商亮相巴西圣保罗国际纺织服装采购展,皇冠官方app客户端,w66利来官网app下载,直营赌博游艺平台,杏彩网页注册
11月06日|2024年台湾地区两项选举结果对两岸关系走向将产生怎样影响?国台办回应中国驻比利时使馆提醒中国公民加强安全防范|ag真人游戏官方|3133拉斯维加斯正版|彩6官方|篮球即时比分直播
11月06日|一箭18星 中国成功发射千帆极轨01组卫星|三张牌在线玩|365备用|真钱赌大小|心乐棋牌
11月06日|活力喷涌!辽宁夏日消费季暨“国潮臻品馆”项目启动|电子游艺平台大全|乐动体育足球|全民斗地主炸金花棋牌|和记娱乐注册App……
11月06日,把中国特色社会主义事业继续推向前进 习近平提出明确要求,BOB博鱼体育官网入口,环宇互娱怎么样,拉斯维加斯官方手机版,亚洲bet356的网址
11月06日,11月14日人民币对美元中间价报7.1966元 上调25个基点,正版bbin直营平台,九州娱乐官网,俄罗斯网球比分直播,金世豪AG真人大厅
11月06日|加拿大蒙特利尔:太阳马戏团演员惊险杂技表演迎中国新年|2020年欧洲杯版权|亿博体育电子网投|kok官方体育ios|澳门威廉希尔中文网站
11月06日,加拿大温哥华市区发生持刀伤人案 嫌疑人被警方击毙,888真人手机APP,云顶娱乐足球,世界杯竞猜投注违法吗,亚洲各大赌场排行榜
11月06日,江西发布5件涉外法律服务典型案事例,滚球体育即时比分,永乐国际登录入口,电子AG捕鱼王网址,lc8乐橙手机版
11月06日,天津发布暴雨、雷雨大风蓝色预警信号,bet36体育在线备用网,球王会体育注册,k1体育平台链接,AXS游戏下载
11月06日|特稿|“比天空更宽阔的胸怀”——习近平主席与法国文化|乐鱼官方网站在线登录|天博在哪注册|世界杯竞猜 投注网站|大发手机版买球
11月06日|共赏中国年味 “有一种叫云南的生活·年味儿”图片展走进孟加拉国首都达卡|银河519657|vwin德赢登录充值|必发APP安卓|雪缘园足球即时比分
11月06日|水利部印发《丹江口水库岸线保护与利用规划》|威尼斯游戏网站|bob全站下载官网app|bbin可靠吗|正规赌场手机
与爱同居,优酷限免仙剑一三五|文化中国行丨守住千年文脉 他们用更年轻的方式“激活”姑苏城|濠江会安卓下载|阳光A|天博克罗地亚官网在线登录|威尼斯赌城官网网站
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺