v1.606.6242.596448 最新版
v2.565.159.450167 PC版
v3.645.2221.911510 PC版
v9.601 PC版
v7.221.2497 IOS版
v3.575.1185.500997 最新版
v1.694 PC版
v7.38 安卓最新版
v8.135.7028.265600 安卓版
v3.323 安卓最新版
v6.577.6268.708421 安卓免費版
v7.367.9541.811345 安卓免費版
v7.108 安卓版
v1.543.6928.952696 安卓免費版
v6.204 PC版
v6.160 最新版
v5.576.3465.6101 PC版
v5.876.4062 PC版
v4.917.4574.554016 安卓版
v9.557.3005 安卓版
v1.516.7490.100609 安卓免費版
v1.556.9008.32607 安卓免費版
v3.823.9141.257917 最新版
v5.224 安卓最新版
v2.114 最新版
v3.380.9180.195934 安卓版
v6.983 PC版
v9.143 安卓漢化版
v6.932.6514 最新版
v3.243.1471.223398 PC版
v1.728.1489.43105 安卓版
v3.361.820 安卓免費版
v9.490.4190.765590 安卓版
v5.931.4676.763515 安卓免費版
v1.125 安卓漢化版
v7.292.1903 IOS版
v3.838.6322.146734 安卓免費版
v6.992.7463 安卓版
v1.581.9948.701987 安卓最新版
v5.178.7642.899832 安卓最新版
v2.403.5927.873535 安卓免費版
v9.312.2924.967369 安卓最新版
v6.402.2531 安卓版
v9.939.8271.544478 IOS版
v5.198.2503.763277 IOS版
v1.622.549.338653 PC版
v2.792.5107 安卓免費版
v5.524 安卓漢化版
v1.265.1793 PC版
v1.924.5258.425097 安卓漢化版
v5.361 PC版
v5.97.8230 最新版
v7.894.6250 安卓版
v4.651.8039.100542 IOS版
v4.926 IOS版
v8.279 最新版
v4.783.6004.941197 安卓免費版
v3.715 安卓免費版
v7.45 安卓免費版
v9.963 安卓漢化版
v2.538.6524.131013 安卓版
v7.951 最新版
v3.983.4431 最新版
v1.637.7238.899350 PC版
v4.265 PC版
v4.291 最新版
v5.799 安卓最新版
v4.937.9458 安卓免費版
v5.329.7919.611347 IOS版
v8.389.2162.920558 安卓最新版
v2.906.505.435669 安卓最新版
v8.114.1227 PC版
v8.917.8333.404921 安卓最新版
v3.516.5119.663403 最新版
v7.826.3471.431758 安卓最新版
v8.441 安卓版
v4.835.1552.747452 安卓漢化版
v9.991 安卓最新版
v8.92.9743.616593 安卓版
v1.553.7203 IOS版
365bet体育备用
9月22日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。此前的9月1日,美团曾发布首个大模型LongCat-Flash-Chat。官方称,在保持了LongCat-Flash-Chat极致速度的同时,此次全新发布的LongCat-Flash-Thinking更强大、更专业。
综合评分显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。
具体来看,在通用推理能力方面,LongCat-Flash-Thinking在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。在HMMT和AIME相关基准测试中,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领水平相当。
在LiveCodeBench上,LongCat-Flash-Thinking以79.4分超越参与评估的开源模型,并与闭源模型GPT-5表现相当。在OJBench基准测试中也以40.7的得分接近Gemini2.5-Pro的水平。
智能体能力方面,LongCat-Flash-Thinking 在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出竞争力。
同时,LongCat-Flash-Thinking还扩展了形式化定理证明能力,被认为是国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。
目前, LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。
值得一提的是,此前有媒体爆料称,LongCat-Flash最大的亮点是其训练并非在英伟达GPU上完成,而是在国产加速卡上进行。但由于一些原因,真正的硬件厂商具体名字不方便透露。对此,官方未公开回应。
本文系观察者网独家稿件,未经授权,不得转载。
相关版本
多平台下载
查看所有0条评论>网友评论