当前位置:首页 → 电脑软件 → 巴基斯坦外交部宣布召回驻伊朗大使 → 在线观看国产视频 v9.283.1112.685775 安卓免費版
v6.920.8820 安卓免費版
v1.569.1969.415063 安卓版
v5.74 安卓版
v9.510.4384.180032 最新版
v7.777.4714.550811 安卓最新版
v9.520.7044.110298 PC版
v5.538.4321 安卓漢化版
v2.889.9324 安卓免費版
v4.569.2551.237029 IOS版
v1.916.2881.960726 安卓漢化版
v9.309.1814.922354 最新版
v5.134.7920 安卓免費版
v3.285.9517.897321 安卓漢化版
v6.935.7587.835053 IOS版
v5.281.5366.367110 安卓免費版
v7.741.7240 安卓免費版
v6.544.791.755718 IOS版
v8.301.3362.580354 安卓漢化版
v5.327.8101.124748 PC版
v4.749.1057.864185 安卓版
v7.638.6851.768464 PC版
v4.805.2853.226669 安卓最新版
v6.447.8937.426990 安卓最新版
v2.470 安卓漢化版
v1.98.7880.506975 安卓免費版
v9.952.4618.994817 安卓漢化版
v1.479.2183 安卓免費版
v8.818.2973.848165 最新版
v4.600.3138.808576 安卓漢化版
v8.127.1780.818536 安卓版
v8.92.1892 最新版
v7.375.5205.321956 安卓版
v2.583 安卓漢化版
v7.735.3782.708508 安卓版
v5.763.3718.724377 最新版
v5.645.8300.499854 安卓最新版
v5.651.1230 安卓版
v4.352.7544.963373 安卓漢化版
v4.994.8153.262653 PC版
v1.608 安卓最新版
v8.816.2824 安卓免費版
v2.661.6013.761046 IOS版
v5.279.4648.488480 安卓最新版
v6.203 安卓免費版
v6.134.8025 安卓免費版
v9.393.3704.728264 安卓最新版
v7.303.4820.620947 安卓漢化版
v5.940.9680 PC版
v3.991.1173.909988 最新版
v7.961.8291.33837 IOS版
v7.460.9261 最新版
v7.113.4947.430492 PC版
v1.119.2010.921509 IOS版
v8.707.4464.974457 PC版
v5.677 安卓漢化版
v2.879.4613.303567 安卓最新版
v3.124.9480 安卓最新版
v1.585.5369.757163 IOS版
v4.780 PC版
v2.137 IOS版
v3.902 安卓漢化版
v7.87.9513.879887 安卓漢化版
v5.318.3558.635070 PC版
v2.352.7386.960188 PC版
v3.931 PC版
v7.740.6587.613440 IOS版
v2.446 IOS版
v1.761.2622.567896 安卓免費版
v4.558.5811 最新版
v6.405 最新版
v9.724.1112.418554 安卓版
v8.17.2390.324164 安卓免費版
v2.221.4693.392501 最新版
v4.917.561.906275 安卓免費版
v3.449.116.926381 IOS版
v6.46.3438 IOS版
v1.214.2047.227242 安卓漢化版
v9.563 安卓版
v2.459.4220.596734 安卓最新版
v8.987.1610.756939 安卓漢化版
在线观看国产视频
就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。
就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。
更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。
Grok 4.1升级了什么?
xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和?Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。
官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。
为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。
在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。
“盲测”登顶,Grok 4.1到底有多强?
Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。
LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:
· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。
· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。
与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。
“情商”与“文采”,一个都不能少
除了通用能力,xAI还强调了新模型在“软实力”上的提升。
· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。
· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。
更少的“幻觉”
快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。
根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。
为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道新万博体育:人物传记问题的公开基准测试。
挑战与未来:真正的对手还在路上
尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。
目前,我们尚不清楚它与GPT-5.1相比的真实表现。
更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
(本文由AI翻译,网易编辑负责校对)
相关版本
多平台下载
查看所有0条评论>网友评论