当前位置:首页 → 电脑软件 → 坡子街派出所民警表情管理失败 → 鸭脖.com v8.615 PC版
v1.929 IOS版
v2.796.5966.631344 安卓免費版
v3.80 安卓漢化版
v6.824.7556.268247 PC版
v4.657.6768 安卓漢化版
v7.620 安卓免費版
v3.228.8812 安卓版
v9.696.5589.234648 安卓最新版
v9.898 安卓漢化版
v8.377.6445.518518 最新版
v4.621.1516.576386 PC版
v2.380.8675.84980 IOS版
v7.787.6795.547863 安卓版
v7.545 安卓漢化版
v3.352.6915.40306 安卓最新版
v5.212.4396 PC版
v5.150.7585.709644 安卓版
v2.69.1914.790161 安卓版
v4.815 IOS版
v2.651.2755.128714 安卓版
v4.244.4106.594713 安卓漢化版
v5.449.9982.43468 安卓最新版
v2.481.3827.631181 IOS版
v9.812 安卓版
v7.511.8979.153655 安卓最新版
v5.381.5889.459347 最新版
v6.623.6408.652718 安卓漢化版
v8.402 PC版
v4.916.1111.582115 安卓漢化版
v4.450.5321.602030 安卓漢化版
v1.410.2137.49397 安卓最新版
v7.567 IOS版
v5.732.2673.300712 IOS版
v8.975.6156 最新版
v4.573.8468.50614 安卓最新版
v9.893.3137.82357 最新版
v6.767.4560.281376 PC版
v2.620.7994 IOS版
v6.873.2625.83221 PC版
v4.499.6260 安卓版
v1.334.7865 PC版
v1.855.3548 PC版
v4.374.1453.420545 IOS版
v2.902.6627 安卓免費版
v2.699.6046.155841 IOS版
v9.36 最新版
v9.932.7718.159927 安卓免費版
v4.308.5675.468854 安卓最新版
v4.151.6024.100910 安卓版
v5.652.9358.28092 最新版
v7.567 安卓漢化版
v6.545.2157.772080 最新版
v8.691.503.511426 PC版
v7.324.343.801928 最新版
v1.594.1091.151047 安卓漢化版
v5.799 安卓漢化版
v8.874.3082.159330 安卓免費版
v5.830.6715.580907 IOS版
v2.155.8721.30673 安卓版
v8.866 最新版
v5.660 最新版
v9.800.3453.235608 PC版
v5.21 安卓版
v4.58 安卓漢化版
v1.360 PC版
v5.274 最新版
v4.67.1980.789291 安卓最新版
v5.613.5482.833654 安卓最新版
v8.203.5176 安卓免費版
v4.73.4527.804079 安卓版
v5.617.4082.591290 最新版
v8.12 安卓最新版
v2.299.2990.421912 安卓免費版
v4.673.1055 PC版
v1.741 最新版
v4.720.3596.578422 IOS版
v4.867.3742.422680 PC版
v2.106.6023.87525 安卓漢化版
v4.661.438.912130 安卓版
v1.940.8428.614801 PC版
鸭脖.com
尽管近年来AIGC关键技术不断突破,但图像生成领域始终面临着一个“两难困境”:闭源模型性能强大但难以私有化部署;开源方案在轻量化与高性能之间难以取舍,且缺乏面向商用的专项能力。
针对这一行业痛点,美团LongCat团队近日宣布,开源其最新研发的LongCat-Image模型。该模型通过高性能模型架构设计、系统性的训练策略和数据工程,以6B的紧凑参数规模,在文生图与图像编辑核心能力上逼近了更大尺寸的头部模型,为开发者与产业界提供了一个“高性能、低门槛、全开放”的全新选择。
▲模型架构
据介绍,LongCat-Image的核心优势在于其架构设计与训练策略。
具体来看,模型采用文生图与图像编辑同源的架构,结合渐进式学习策略,成功在6B参数下实现了指令遵循精准度、生图质量与文字渲染能力的高效协同。
在图像编辑方面,LongCat-Image的“可控性”表现突出,而性能突破的关键在于一套紧密协同的训练范式和数据策略。
为有效继承文生图模型的知识和美感,同时避免文生图后训练阶段收窄的状态空间对编辑指令多样性的限制,团队一方面基于文生图Mid-training阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解;另一方面,通过预训练阶段的多源数据及指令改写策略,以及结合SFT阶段引入的人工精标数据,最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。
在GEdit-Bench和ImgEdit-Bench等权威基准测试中,LongCat-Image均达到开源SOTA(当前最佳)水平,可精准响应用户的多样化修改需求。
在中文文本渲染这一长期困扰业界的难题上,LongCat-Image也取得了很大进展,通过课程学习策略提升字符覆盖度和渲染精准度:预训练阶段基于千万量级合成数据学习字形,覆盖通用规范汉字表的8105个汉字;SFT 阶段引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力;在RL(强化学习)阶段,引入OCR与美学双奖励模型,进一步提升文本准确性与背景融合自然度。
该模型在ChineseWord评测中以90.7的得分领先同类产品。无论是商业海报中的复杂笔画,还是古诗词插图中的生僻字,LongCat-Image均能实现精准、自然的渲染,进一步拓展AI在设计领域的应用边界。
为了提升生成图像的审美与真实感,LongCat团队还构建了系统性的数据筛选与对抗训练框架。团队在预训练阶段严格过滤低质量AIGC数据,并在RL阶段创新性引入AIGC内容检测器作为奖励模型,利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感,从而显著改善了AI绘图常见的“塑料感”纹理。
▲客观基准测试性能对比
全面的客观与主观评测数据均验证了LongCat-Image的能力:在客观基准测试中,其图像编辑得分与中文渲染能力均领跑参评模型;在文生图任务上,GenEval与DPG-Bench的优异表现证明了其相比头部开源与闭源模型依然具备强竞争力。
▲人类主观评分对比& 并列对比评估胜率
在更贴近用户体验的主观评测(文生图方面采用大规模的人工主观评分与图像编辑方面采用严格的并列对比评估)中,LongCat-Image在真实度方面相比主流开闭源模型表现出色,同时在文本-图像对齐与合理度上达到开源SOTA水平;至于综合编辑质量和视觉一致性方面,虽然与Nano Banana等商业闭源模型仍有一定差距,但在开源领域已形成领先优势。
值得一提的是,为了构建一个更透明、开放、协作的开源生态系统,美团 LongCat团队此次全面开源了从Mid-training到Post-training的文生图多阶段模型及图像编辑模型,旨在支持从前沿研究到商业应用的全流程。相关资源已在Hugging Face和GitHub上线,用户也可在官网longcat.ai上体验。
与此同时,面向终端用户的“LongCat APP”也迎来重大升级,全新上线的图生图功能与24个零门槛玩法模板,让普通用户也能一键生成海报、精修人像,实现“专业AI创作零门槛”。
美团LongCat团队还表示:“我们坚信,真正的技术进步源于社区的集体智慧。现诚邀广大开发者体验模型、参与共建,与我们共同基于这个高效能模型,探索视觉生成的新万博体育:可能。”
·Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image
·GitHub:https://github.com/meituan-longcat/LongCat-Image
相关版本
多平台下载
查看所有0条评论>网友评论