关于威尼斯人[m]x体育 的软件攻略_新万博体育
威尼斯人mx体育 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件韩国3比1巴林 → 威尼斯人mx体育 v2.894 安卓最新版

威尼斯人mx体育

威尼斯人mx体育

  • 电脑版下载
猜你喜欢
标签: 威尼斯人mx体育 凤凰彩票官网下载
详情
介绍
猜你喜欢
相关版本

内容详情

威尼斯人mx体育

为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力。

然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。

为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL,来创建具备复杂长程推理和网页浏览能力的 Agent。

论文链接:https://arxiv.org/abs/2509.10446

实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。

图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。

此外,除了上述方法和数据,研究团队还开源了一项新万博体育:半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。

值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。

最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。

(地址:https://github.com/THUDM/DeepDive)

DeepDive 是怎样练成的?

深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。

研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。

在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限。

知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。

由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。

随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。

图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。

在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。

实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。

图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。

为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。

效果怎么样?

研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:

表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。? 表示通过函数调用实现浏览功能。

图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。

图|DeepDive 在简单搜索基准上的泛化效果。? 表示通过函数调用来实现浏览功能。

以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。

不足与未来方向

当然,DeepDive 并非完美,依然存在一些局限性。

例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。

此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    华体汇app 乐鱼leyu官网登录app 现金网站皇冠 百姓彩票官网平台 ag真人游戏平台注册 龙8国际app官方 vwin德赢体育登陆 癞子斗地主倍数 双赢棋牌网站 欧博app下载 和记娱乐苹果版 正版2800信封 九游会外围官网 上庄猎人国际真人cs 365投注上限 必威app手机版 国际跳棋真人秀作文 博鱼开户网址 澳门官方网址登录 918游戏 九游会官网登录首页 365休育投注 尊龙AG旗舰官网 亚赢体育官网下载 必博体育网站是多少 AG旗舰厅是玩什么的 杏彩 手机上怎么买体育彩 盈乐博国际娱乐真人 HG0088官网 万博开户 欧宝网址 天博网站登录中心 斗牛明牌抢庄最好牌型 心博天下在哪里玩 澳门澳利澳网站 亚娱体育app官网 新宝gg在线登陆 beat365官方最新版 三d字谜 网上怎么赚钱 天博国际网站是多少 金宝博188官网入口 雷火竞技 宝马会怎么注册 be体育下载 大发体育网官方网 ybo赢博 天博官网在线登陆 杏彩平台手机版登录 新黄金城hjc222 百老汇注册 万博网投 亿博平台网址 财神娱乐网址 网投平台网站大全 威尼斯游戏在线平台ios 网上二八杠哪家好 优发娱乐平台靠谱吗 365app体育 365体育比分iphone版 美高梅手机版登录 九游会老哥俱乐部登录 MG电子官网APP 环球体育官网 ManBetX官网手机 球盟会官网app下载 亚星注册开户 澳门永利皇宫充值 ybvipcom 12bet网址 hth华体会备用网址 下载手机赌场app 富易堂app下载 牛牛在线玩 kok在线试玩 金利来真人国际赌场 ROR网页登陆 雷竞技raybet下载 云鼎真人 千赢官网手机客户端 必威登陆不了 乐鱼最新版下载 极速彩网址 澳门威斯尼斯人wns8336app 买球有正规平台吗 正版银河游戏中心 乐鱼手机网站入口 大发888app下载 网上电玩 伟德最新地址 三亿体育ios 宝博网址是多少 pg麻将胡了在线玩免费网页版 天博体育手机APP 马经财经A(新图推荐) 365账号 水果老虎机游戏下载 天齐网正版藏机图 bbin体育手机版 刺激战场国际服真人多不多 MG电子app官方 冒泡社区 雷速返还率怎么算 注册送金币的牛牛 网上正规买球 tvt体育手机app下载 新宝gg官网是多少 天天体育平台官网下载 永胜在线平台 赌钱app排行榜 必赢亚洲官网登陆页面 八达国际真人娱乐国际 hth华体会真人百家乐 正规买球网站有哪些 M6在线试玩 365滚球体育 欧宝网站 mg游戏大厅 im体育官方下载
    热门网络工具