美团发布并开源高效推理模型LongCat-Flash-Thinking
9月22日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。此前的9月1日,美团曾发布首个大模型LongCat-Flash-Chat。官方称,在保持了LongCat-Flash-Chat极致速度的同时,此次全新发布的LongCat-Flash-Thinking更强大、更专业。
综合评分显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。
具体来看,在通用推理能力方面,LongCat-Flash-Thinking在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。在HMMT和AIME相关基准测试中,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领水平相当。
在LiveCodeBench上,LongCat-Flash-Thinking以79.4分超越参与评估的开源模型,并与闭源模型GPT-5表现相当。在OJBench基准测试中也以40.7的得分接近Gemini2.5-Pro的水平。
智能体能力方面,LongCat-Flash-Thinking 在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出竞争力。
同时,LongCat-Flash-Thinking还扩展了形式化定理证明能力,被认为是国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。
目前, LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。
值得一提的是,此前有媒体爆料称,LongCat-Flash最大的亮点是其训练并非在英伟达GPU上完成,而是在国产加速卡上进行。但由于一些原因,真正的硬件厂商具体名字不方便透露。对此,官方未公开回应。
本文系观察者网独家稿件,未经授权,不得转载。
相关推荐:二八杠的打法 体育直播app下载 扑克王app下载二维码
鹿鼎彩票注册
香港马经
火狐体育官网客户端
金莎网站
m6米乐体育APP
?代游戏客服
365bet亚洲官网网址
所有的cq9电子都是一家吗
宝马娱乐网站最新网站
万博网页
伟德账户验证
BOB注册App
必赢线上网址
云顶娱乐官方网站登录
AG棋牌馆
BG真人app尙11yb tv
188足球现场比分
B体育不能提款
12B体育官网
188betapp下载
万博在线注册
皇冠投住网
mg游戏在线
马经挂牌系列D
贝博2021vom
澳门银银河官方手机
打鱼注册送分20元
谁有买球平台
优德快速注册
金沙4166官网登录
百人牛牛游戏破解版
九卅娱乐10年信誉登陆
威尼斯人手机客户端
金沙新网址
下载足球竞猜网站
天天分分彩平台
立博中文官网
球棎比分足球即时比分
立博网页登陆
外国体育平台
盛世国际娱乐备用
星际捕鱼
赢真钱的炸金花棋牌游戏
威尼斯人在线网站
正版天线宝宝C
单机麻将游戏下载
亚新最新版APP
亚娱电竞
新一代管家婆
蛊真人英文版起点国际
网址365
亚星外围官网
YMY体育
ag亚洲官网
AG黑网
胜负彩最新投注
万博manbext官方网站
凯发娱乐登陆
次次存送优惠的网站
新宝平台仆钟46996
老版新葡萄8883国际官网下载
千亿在哪注册
米兰亚太官网
威尼斯人手机登陆版下载
必威登录不进去
新宝五彩票平台
捕鱼达人2新版下载
cq9网址
水晶宫注册
leyu乐鱼手机版注册
送体验金网站
qy66vip千赢国际app
3133拉斯维加斯网站注册地
鸿博体育在哪开户
优博登录
天博app官网地址
英皇娱乐在线登陆
球探体育最新下载
188体育生微博
大发快速开户
im电竞体育APP
网友评论 查看所有评论>>