热门追踪凯时登陆集{纳|}中国体育代表团巴黎奥运会精彩表现系列述评3.82.70医药动态_新万博体育
凯时登陆 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件张博恒回应被送错场馆 → 凯时登陆 v8.362.7868.42075 PC版

凯时登陆

凯时登陆

  • 电脑版下载
猜你喜欢
标签: 凯时登陆 大益娱乐网
详情
介绍
猜你喜欢
相关版本

凯时登陆截图P6F3X2M7T9QJ8L1B4WZR

内容详情

凯时登陆

为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力。

然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。

为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL,来创建具备复杂长程推理和网页浏览能力的 Agent。

论文链接:https://arxiv.org/abs/2509.10446

实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。

图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。

此外,除了上述方法和数据,研究团队还开源了一项新万博体育:半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。

值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。

最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。

(地址:https://github.com/THUDM/DeepDive)

DeepDive 是怎样练成的?

深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。

研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。

在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限。

知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。

由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。

随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。

图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。

在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。

实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。

图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。

为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。

效果怎么样?

研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:

表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。? 表示通过函数调用实现浏览功能。

图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。

图|DeepDive 在简单搜索基准上的泛化效果。? 表示通过函数调用来实现浏览功能。

以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。

不足与未来方向

当然,DeepDive 并非完美,依然存在一些局限性。

例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。

此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    贝博官方下载 ManBetx在线试玩 obj竞博体育下载 上葡京网站app yabo快速注册 365彩票网站正规 视讯真人游戏最新地址 打鱼棋牌游戏平台 大发线路检测 澳门亚洲网站 乐发彩票网 MG电子网址登录 天亚娱乐官网app leyu乐鱼手机APP 天天德州没了玩什么 亚新体育平台首页 必威手机网 马经挂牌系列C 开云备用网址 澳门捕鱼游戏 天博不能提现 买球大全 太阳2在线登录 赌王投注解密记录 威尼斯注册登录主页 巴黎人app最新版 168体育网页版 莲花国际 抢庄牛牛体验 同城游斗牛规则 新宝6达七九九47 亚星官网开户 pg电子游戏试玩模拟器 盛世集团登录入口 视讯真人游戏 太阳2官网 杏彩平台官网登录 365亚洲版可靠吗 曾道人致福财经 bv伟德入口 欧博快速注册 永乐国际平台下载 博易博官方网站 88bifa网站 千亿国际qy88vip下载 必发登陆 宝博官网 ysb体育在线 博鱼体育官方登录页面 濠江会app 澳门威斯尼斯线上 大嬴家彩票平台 韦德国际 澳博体育登陆 正规cq9电子 亚娱入口登录 新濠天地快速开户 凯时娱乐网址 w66利来官网app下载 12bet买球 188宝金博电竞 亚星网址登录入口 m6下载安装 伟德怎么开户 888集团真人电子游戏 澳门哪家有牛牛 新暗语报 去哪里赌博 欧洲杯附加赛直播 美高梅线上电子 新澳门金沙城娱乐场官网 奥博平台官方网站 视讯真人游戏免费试玩 ca88网赌 九游会小金库 华体育官网下载 玩足球外围哪个平台稳 天博直播视讯 威廉客户端app下载 188体育快速注册 伟德最新官网 百苑国际 炸金花最火的游戏 mg游戏官网线路检测 爱博在哪里玩 澳门永利登录网址 188体育登录官网 bet9九州体育信誉 欧洲女子篮球杯赛直播 澳门新葡亰公司官网手机版 深航尊鹏俱乐部 凤凰彩票官网是多少 bet在线 AG真人百家下载 哪个平台玩球比较好赢 AOA体育平台 彩票快三在线官网 升博下载 云鼎正规网址 yabo22vip网站是什么 杏彩官方平台 b0b体育平台咋样 4837ag 线上真人登录 泛亚电竞官网 dafacasino手机客户端下载 竞技宝网址 二八杠拿牌口诀 bibo必博体育网 在线AG真人网址 网上现金炸金花网站 HB火博体育APP登录 RORAPP安卓 百家乐赌场网站 百家乐必羸 雷速体育ios扫码下载 KTO亚洲娱乐 大赢家手机足球比分 分析足球平台软件 威尼斯人游戏安卓官方版最新下载
    热门网络工具