2026世界杯投注表,无论你在哪,都能随时体验高速与便捷的服务

首页 >新闻 >社会新闻

给阿里千问一个“客观估计”——围绕QWen3的大模型横评

2025-11-21 00:47:46

来源：

猫眼电影

作者：

周秀红

手机查看

　　猫眼电影记者周霁报道Q8X2R7L1T4J5M9B6W3

导语：Qwen3 旗舰模型已进入全球第一梯队、国内Top 2–3的行列：综合能力略低于Gemini3、GPT-5.1和Kimi K2 Thinking，但与Grok 4.1、Claude Opus 4.1属于同档。

阿里近期发布的千问App引发了外界的关注，其背后的Qwen3大模型与国际和国内几大模型的性能对比，到底水平如何？对用户来说又该如何根据不同的任务来选择不同的大模型？今天给大家做个对比与总结。

01 Qwen3的基本面

阿里在今年推出的第三代大模型Qwen3，是千问App的核心底座。它有几个关键特点：

一、体量和架构

Dense模型：从0.6B一直到32B；

MoE旗舰：Qwen3-235B-A22B（235B 总参数、22B 活跃参数），相当于“参数巨舰+算力省电”。

二、训练规模

训练数据约36万亿token，覆盖119种语言/方言。对数学、代码、STEM推理做了额外强化。提供“Thinking 模式”，类似GPT-o1 / DeepSeek-R1那种显式推理版。

三、应用形态

包括文本对话、写作、代码、多模态（图像/文档/表格），长上下文版本能支持百万级token，对长文档场景很友好。

千问App由于面向C端，通常会使用类似“Qwen3-Max / Qwen3-235B旗舰+ Thinking版”的组合。

02 拿什么“尺子”来衡量Qwen3？

使用如下指标来测评Qwen3的水平：

Artificial Analysis Intelligence Index（AA 指数）

AA指数把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十几个高含金量基准融合，

最后给每个模型一个0–100 的综合“智能分”。这个分数目前是国际上最常被引用的大模型“总评分”之一。

LMArena / Text Arena（人类盲评Elo榜）

采用大量真实用户不看模型名，只看回答，投票哪一个更好的方法，用Elo评分来排名，更偏“真实使用体验”的维度。

除此以外，还会使用一些单项基准来进行评测：

AIME2025：竞赛级数学；HLE（Humanity’s Last Exam）：极难综合考试；LiveCodeBench/SciCode：偏实战的软件工程与科学代码；以及其它经典的MMLU、GSM8K、HumanEval 等。

本次评测主要围绕AA榜+人类盲评榜，再辅以少量专项基准，尽量做到客观公正。

进入“顶级区”，但天花板依旧。

AA指数：按目前公开信息，各主流大模型的AA指数得分可以见下表：

注：在AA《State of AI: China Q2 2025》里被列为“最佳非推理 LLM”之一，分数带星号表示部分基于厂商数据估计

就以上得分看，Qwen3的旗舰版本已经站在Grok 4.1和Claude 4.1的身边，但和Gemini3 Pro、GPT-5.1、K2 Thinking之间，还维持着7–10分左右的差距——这在顶尖模型之间，依然是能感知的差距。

人类盲评Elo榜:评测结果是Gemini3 Pro和Grok4.1（Thinking）轮流占据榜首附近。GPT-5.1、Claude 4家族也稳居头部。Qwen3旗舰的打分虽然略低于这些“榜一大哥”，但确实已经混在第一梯队前列，和它们同一张榜单抢票。

更直观的表述是：真正让海外开发者和研究者投票时，用户已经可以感受到：“Qwen3是强模型，和GPT-5 / Gemini3这一线对比，体验上不会拉开巨大差距。”

再看几个单项评测：

AIME 2025：竞赛数学

测试结果大致排序是：GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。

可以理解为，Qwen3在高难数学上是第一梯队，只是在“竞赛数学+推理特化”的场景中，GPT-5.1 / K2 / Grok 4这些“卷数学的怪物”更强。

HLE：超难综合推理

在这个测试中，Kimi K2 Thinking和GPT-5家族在HLE里表现最扎眼。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro这一代差不多，略有提升。测试结果意味着，Qwen3在极限综合推理上没拉胯，但也不是拿第一的那个。

LiveCodeBench / SciCode：工程代码&科学代码

在工程代码方面,GPT-5.1?K2 Thinking? Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科学代码（SciCode）测试中，差距更缩小，大家都在40%多一点的区间里挤。

也就是说，如果你用千问写代码，它的水平大致就是“略弱一点的GPT-5.1 / K2 / Grok4”，但绝不是上一代那种明显掉队。

03 中国四强对比：Kimi、Qwen3、DeepSeek、豆包

Kimi K2 Thinking的综合智能得分约67分，在AA榜上直接冲进全球前五，由于模型专门强调浏览、工具调用、Agent任务，所以在HLE、BrowseComp等偏“代理”的基准上特别强。

Qwen3的综合智能得分60 分左右，各方面比较均衡。DeepSeek-V3.2-Exp的综合智能约57分，特点是国产芯片适配、长上下文性能、推理能效方面做了优化，为中国算力环境量身定制。

豆包1.5 Pro（非推理版），AA China Q2 报告中给出的智能指数约 48*，在非推理模型里属于头部，且被列为“最佳非推理大模型”之一；但其推理版（Thinking）目前还没有完整的AA综合分公开。

综合分数上：K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但如果从“算力成本+国产芯片环境”出发，DeepSeek就有独特位置，而Qwen3则在“生态+稳健通用能力”上更加均衡。

04 用户的视角

日常问答、写作与知识检索

对中文/中英混合的日常用法来说，Qwen3 + 千问App 基本已经是世界级的体验之一。回答速度、知识覆盖、上下文记忆、写作风格都很成熟。和GPT-5.1 / Gemini 3 Pro相比，差距主要在极限长链推理和一些特定专业英文领域。豆包则在自然中文表达、口语化对话、社交媒体语境下的风格更自然，适合做聊天、轻量问答和内容创作。

数学&竞赛级题目

如果用户的使用场景是：竞赛数学、高级逻辑题、极端复杂链式推理等，GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 目前仍然略强。

代码开发

Qwen3 在LiveCodeBench / SciCode 这类基准上的表现，已经是“工程可用”的一线水平。真正大规模做代码重构、复杂调试时，GPT-5.1、K2 Thinking、Grok4在一些数据里略有优势，但Qwen3+好的工具链（IDE插件、CI集成）足以支撑绝大多数团队的日常开发工作。

多模态、文档和表格

这一块是Qwen家族的强项之一：Qwen2.5-VL和Qwen3-Omni在图像理解、PDF/文档解析、表格/图表任务上，经常在论文和评测里拿高分。对用户来说意味着你把PPT、PDF、扫描件、复杂报表丢给千问，它一般能看得比较明白。

??时事1：银河澳门登陆

??11月21日,“促进各民族像石榴籽一样紧紧抱在一起”,

　　令人吃惊的是，这条紫金蛇速度极快，竟人立而起，尾巴一弹，迅速飞跃出去二十几米远，避过了这一击。

,真人葡京国际。

??11月21日,（乡村行·看振兴）六年试种曲沃建成山西最大的生姜生产基地,

　　老师们、同学们，新的挑战在迎接着我们，未来的美好蓝图等待我们用勤劳和智慧去描绘，我衷心希望每一位老师、每一位同学在今后的学习生活中，用我们的实干精神、拼搏进取精神去创造腰陂中心小学的辉煌发展。同学们，只要你们做到青春无悔，不惜汗水，努力耕耘，刻苦学习，就一定能铸就明天的辉煌，创造美丽人生，就一定能成为学校明天的骄傲。

,浩博手机网站怎么进入,爱博入口登录,世界杯足彩在线购买。

??时事2：易胜博的正规网址

??11月21日,四川省内江市资中县政协原党组书记、主席曾祥超因严重违纪违法被开除党籍,

新高一的致辞篇7

,必博体育官网,28彩票平台开户,365电子平台。

??11月21日,国务院台办发言人评论台湾地区选举结果,

　　三是态度端正，学习认真。本次镇村干部培训会议学风较好，所有培训人员学习劲头足，参与积极性高。大家都十分珍惜这次学习机会，在三天的学习中能够始终保持热情，真正做到从干部到学员，从工作到学习的角色转变，学习态度端正，动机好。在学习中，同志们始终坚持理论联系实际的学风，着眼于对高铁新区和东沙河镇发展等实际问题的思考，紧密联系自身工作实际和分管工作，刻苦自学，深入思考，开展交流和思想碰撞，表现出极高的学习积极性和刻苦精神。

,百老汇电子游戏官网,2018世界杯足彩购买,伯爵网站是多少。

??时事3：英国威廉希尔中文网

??11月21日,法院支持爱心人士监护，“野娃儿”开心了,

?不用前后置摄像头，手机也能偷拍,ob捕鱼网,新2网址,世界杯投注在哪投注的。

??11月21日,中国国防部对肯尼亚国防军司令等罹难表达哀悼和慰问,

　　“别动，金翅大鹏乃是半血神禽，这样吃掉太浪费，我这里有张古方，等寻到宝药，熬炖在一起，可以发挥出神效。”火灵儿开口阻止大红鸟等。

,E世博网址,vwin德赢登录网点,MT电子。

??时事4：闲和庄网站

??11月21日,人民论坛网评｜人才培育当多管齐下,

　　公司将建立科技项目的申报、咨询、立项、下达、进度跟踪、评审、后评估的常态机制，即项目可以随时申报;申报完成后立即组织专家咨询;咨询通过的分批下达;下达的项目必须每季报完成情况、务期必成;项目完成后进行评审和后评估。进一步完善科技项目软、硬件的招标制，以后发展为科技项目的招标制、合作单位的招标制。希望大家要有做好科技、信息工作的责任感和紧迫感。我们还将建立类似成果发布形式的科技项目发布方式，以利于科技成果的推广利用，防止重复上报项目。淘淘版权所有!　　⒌要高度重视网络与信息安全工作。随着信息系统应用的不断深入，网络与信息安全日益重要，公司已把网络安全运行率纳入公司的综合考核指标体系，因此我们必须重视网络与信息的安全工作。在下一步公司安全项目统一实施中，各单位要积极做好配合，整体完成网络与信息安全建设工作。

,威尼斯游戏手机版,KU游娱乐登录入口,让一球什么意思。

??11月21日,国务院食安办通报对媒体反映的“罐车运输食用植物油乱象问题”调查处置情况,

　　一名村人半边身子都在淌血，一条手臂连带着肩头都被巨狼一爪子撕了下去，遭遇了可怕的重创。

,银河国际官方app,hth华体会在线注册,币游国际下载。

【印尼北马鲁古省发生洪灾已致7人死亡】

【冰雪赛事全民同乐——“十四冬”群众比赛开赛】

责编：米歇尔·桑森

审核：罗隆基

责编：波多尔斯基

新万博体育

给阿里千问一个“客观估计”——围绕QWen3的大模型横评

新高一的致辞 篇7

新高一的致辞篇7