新智元报道
编辑:KingHZ 艾伦
【新智元导读】DeepSeek最新模型DeepSeek-V3.1-Terminus来了!此前在输出中随机掺入「极」字的问题得到解决,Humanity's Last Exam成绩也较V3.1提升1/3!Terminus这个名字是否在暗示DeepSeek-V4也快要来了?
DeepSeek-V3.1-Terminus来了!
DeepSeek API文档、官方微信均已正式确认本次更新:
此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
· 语言一致性:缓解了中英文混杂、偶发异常字符等情况;
· Agent能力:进一步优化了Code Agent与Search Agent的表现。
目前,官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。
开源版本下载地址如下:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
多项测评胜过Gemini 2.5 Pro
在理能力和智能体工具使用上,本次更新在多个基准上得到提升。
DeepSeek上次更新为8月21日,短短一个月,取得这一成绩来之不易,可喜可贺。
值得一提的是,新模型在Humanity's Last Exam(人类最后的考试)中,成绩提升幅度高达36.48%!
告别「极你太美」
之前,有网友发现:DeepSeek V3.1输出中随机带有「极」字。网友称:
这一Bug已经导致DeepSeek V3.1无法从事编程或对输出结构敏感的相关工作。希望官方早日修复。
这次更新明确已解决「偶发异常字符等情况」,结合「Code Agent优化」,希望这次更新能完美解决DeepSeek无法从事编程或对输出结构敏感的相关工作的Bug。
至于中英文混杂,是LLM的老毛病了,比如OpenAI o3-mini等模型被曝使用中文推理。
在DeepSeek-R1的Nature论文中,DeepSeek坦言:
语言混杂(language-mixing)问题,留待未来更新解决。
这次DeepSeek更新解决了中英文混杂问题。
我们也对之前在网上流传最广的会触发「极你太美」Bug的Prompt进行了测试:
之前,time.Second会被DeepSeek-V3.1在输出中破坏成time.Se极 / time.Se極 / time.Seextreme。
现在,新模型给出了5种定时器实现方法,多处都使用了time.Second。
我们经过多次尝试,均未能复现出该Bug,说明Bug确实可能已经被修复了。
此外,非Agent(Thinking模式)测评中,多项基准测试成绩得到提升:MMLU-Pro、GPQA-Diamond、Humanity's Last Exam。
同时,Agent相关测评也来了。
图源:https://x.com/karminski3/status/1970129020382826758
Agent能力超过Gemini
与DeepSeek-V3.1相比,新模型在工具使用与Agent任务中的表现有较大提升:
BrowseComp:30.0 -> 38.5
SimpleQA:93.4 -> 96.8
SWE-bench Verified: 66.0 -> 68.4
SWE-bench Multilingual: 54.5 -> 57.8
Terminal-bench: 31.3 -> 35.7
DeepSeek上次更新发布了DeepSeek-V3.1,称之为「迈向Agent时代第一步」。
短短一个月,Agent能力再次得到提升,年底的高级Agent还会远吗?
奇怪的是,并非全部基准测试成绩都得到提升,Codeforces、Aider-Polypglot、BrowseComp测评成绩有1%左右的小幅下降。
不过,新模型DeepSeek-V3.1-Terminus总体上进步明显,特别是在Humanity's Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified评测中,胜过了Gemini 2.5 Pro,补齐了Humanity's Last Exam这块最大的短板。
DeepSeek-V4/R2还远吗?
Terminus这个单词的中文意思是:终点。
在计算机术语中,终端(Terminal)也称终端设备,是计算机网络中处于网络最外围的设备,主要用于用户信息的输入以及处理结果的输出等。
或许,DeepSeek借用Terminus暗指编程能力的提升。
DeepSeek这波更新理所应当地引起了网友的关注。网友在线催更:
DeepSeek-V4什么时候要来?
DeepSeek-R2什么时候要来?
期待DeepSeek-V4和DeepSeek-R2给我们带来更大的震撼!
参考资料:
https://x.com/deepseek_ai/status/1970117808035074215
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
《黄忠.我爰你》,《P6F3X2M7T9QJ8L1B4WZR》伍六七之乱婬h侵犯在线观看
“韩国女主金艺贞仙桃影视”
小子cao妈妈使劲cao视频
……
09月21日
“国产精品🔞❌❌❌❌”正排老公
↓↓↓
09月21日,德国索林根市持刀袭击事件已致3死多伤,14小箩利无套内精视频,仙桃韩宝贝19禁vip在线观看,国产精品❌❌❌🔞🔞10,神里凌华白丝袜❌❌video
09月21日,国际奥委会委员:中法文化在奥林匹克美学中交融互鉴|中法老友记,裸体小青被❌吸乳羞羞漫画,Free日本vodio,温迪被❌娇喘流白色液体,扒开🐻让我❌❌❌无码
09月21日,演“村晚”、购年货……腊八将至,一起去各地寻找不一样的年味!,FerrPorno💋👙16,美女露出🐻让男生喝(视频),国产➕高潮➕呻吟➕红桃,小医仙翘臀娇喘呻吟粉嫩翘臀
09月21日|台学者:台湾主流民意希望两岸和平|无尽 触手 3D 粗暴 H 夹|羞辱调教扒开🍑女仆动态图|扒开真人❌狂揉❌难受|西施裸双奶头屁股无遮挡
09月21日|让人才安心省心暖心 江西吉水打造人才发展新高地|女性裸体㊙️不遮胸平台|男被搓澡工搓飞机✈️视频|三级卜卜|女同学裸体趴下光屁股
09月21日|国铁集团:2024年春运预计全国铁路将发送旅客4.8亿人次|唐三强扒小舞裤子摸小内内|原神温迪cp漫画羞羞的事|美女🍆👄🍆💦|2B被❌到爽🔞流触手游戏……
09月21日,法国国民议会通过对政府不信任动议 总理巴尼耶将辞职,❌吸乳18禁男男漫画网站,男生把困困放到女生困困里的视频动漫,51成人🔞在线观看喷潮,教官解开裤裆吃我j男男小说
09月21日,数字人民币在微信内应用“扩容” 已接入数百万家商户,小志和林姨全文阅读,日本猛少妇色XXXXX猛交图片,扒开纲手疯狂揉❌难受3b,美女裸体㊙️无遮内裤
09月21日|欧盟发布初裁披露 拟对中国电动汽车征收临时反补贴税|扒开雏田❌狂揉naruto|挠裸体女同学乳尖到崩溃|裸体高中生开❌被躁流白❌|疯狂喷水自慰爽www竹菊
09月21日,德国数千名大学附属医院的医生举行警告性罢工,一次找两个鸭子来添,偷偷鲁2020精品偷拍视频,男生摸jiji的㊙️视频,少年骇客同人游戏和温德一起玩
09月21日,35名“熊猫小记者”开启全球文化追访之旅:向他乡介绍家乡,欧孕交Ⅹ❌❌❌,美女挤奶㊙️无遮掩,交换成人调教母狗,3D动漫动画美女高潮视频
09月21日,时习之丨重温2023年中央政治局集体学习 习近平总书记的讲话催人奋进,柳神3D被❌吸乳在线观看,流萤脱了内裤打开腿让人桶,国产足控免费网站❌Xx,春丽裸体被爆❌
09月21日|广州警方通报多车碰撞事故:肇事司机已被控制|孕妇孕交视频|俩个美女❌狂揉❌网站|少年骇客同人漫画小班小玫|蝴蝶忍被强❌自慰爽
09月21日|(乡村行·看振兴)山西石楼托管农田27万亩 零散“巴掌田”变整片“增收田”|美女❌吸乳舌吻羞羞小说|美女裸身㊙️免费网站jk|好爽⋯好紧⋯闺蜜别夹H百合动漫|光脚踩命跟子pk视频网站
09月21日|东盟国家大V齐聚广州 共话“现代化的模样”|二次元裸体❌开腿本子18禁|南梁资源站官方入口|扒开❌狂揉❌喷水视频动图|操鸡视频
习近平对云南山体滑坡作出重要指示,熊家餐馆 第三季|武汉海关保障农食产品源源不断供应港澳市场|原神❌原神18禁照片同人|裸小男生露生殖网站|小学六年级嗟嗟嗟|好紧⋯宝贝别夹男男
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺