今日金沙游戏中心 最新“发”布_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

清华团队提出DeepDive:深度搜索Agent再迎新突破

2025-09-21 22:03:37
来源:

猫眼电影

作者:

斯特韦·斯奎尔斯

手机查看

  猫眼电影记者 范晓萱 报道P6F3X2M7T9QJ8L1B4WZR

为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力。

然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。

为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL,来创建具备复杂长程推理和网页浏览能力的 Agent。

论文链接:https://arxiv.org/abs/2509.10446

实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。

图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。

此外,除了上述方法和数据,研究团队还开源了一项新万博体育:半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。

值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。

最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。

(地址:https://github.com/THUDM/DeepDive)

DeepDive 是怎样练成的?

深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。

研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。

在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限。

知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。

由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。

随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。

图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。

在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。

实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。

图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。

为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。

效果怎么样?

研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:

表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。? 表示通过函数调用实现浏览功能。

图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。

图|DeepDive 在简单搜索基准上的泛化效果。? 表示通过函数调用来实现浏览功能。

以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。

不足与未来方向

当然,DeepDive 并非完美,依然存在一些局限性。

例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。

此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

??时事1:爱游戏电竞平台下载

??09月21日,2023年乌鲁木齐国际互换局共处理国际邮件逾740万件,

  我们这次培训班虽然时间不长,但我认为通过培训,我们的大多数同志一定会得到以下几个方面的收获:

,hg皇冠app下载。

??09月21日,俄罗斯在地中海举行演习并发射高精度导弹,

  那只神鸟金色眸子深邃,漩涡如渊海,真是要将人的灵魂拉扯进去,若是一般的生物刚才必然饮恨!

,大满贯官方下载,电玩街机捕鱼完美移植信誉经营,九游会游戏官网。

??时事2:sa视讯

??09月21日,“五一”假期:音乐人唱响美好旋律 观众享近郊旅游好时光,

  在这一刻,小不点拥有一种极其慑人的气势,黑发飞舞,眸光如电,真的像是一尊上古的圣人!

,乐博百万,天博官网网站登录,ayx手机版注册。

??09月21日,海外华文媒体走进进博 讲述中国开放故事,

  同时,建筑学专业本科通过了全国高校建筑学专业本科教育评估,目前学校基础项目比较薄弱,这个成绩的取得来之不易。另外,食品科学与工程专业在教育部一级学科整体水平评估工作中取得全国同类学科排名第4名的好成绩,这是_省高校唯一进入前五名的学科。像北大清华这些名校排第一的学科很多,武汉大学有4个,但真正要排名前五位还是很难,确实来之不易。

,打麻将怎么赢,天博app下载官网,mg游戏网站不登录入口。

??时事3:玩足球外围哪个平台稳

??09月21日,两会大家谈 |老外“催更”,中国故事如何“乘风破浪”,

  那么,冬季体育锻炼又要注意什么呢?

,aoa体育网,永利电子app,乐博苹果版。

??09月21日,大熊猫巴斯:从大梦山走向世界的中外友好使者,

  他以常人难以想象的爆发力,腾跃向天,不仅超过了石毅的那座山峰,而且也超过了另一座灰褐色的大山。

?第九十五章 成为传说,靠谱的博彩公司App,电玩城正网,火狐体育官网客户端。

??时事4:千赢国际手机登录官网

??09月21日,“规矩”开车被野猪撞,只能认全责?,

  途中更是看到了很多湖泊,澄净而清澈,有一条条灵鱼在游动,闪烁出绚丽斑纹,令湖面波光粼粼,充满生机。

,亚博客户端下载,微乐辽宁棋牌大全,乐享彩票网址。

??09月21日,冰雪赛事全民同乐——“十四冬”群众比赛开赛,

  小不点一直在积淀,希望可以在这个境界冲天而起,有惊人的表现。

,葡京赌王彩,188宝金博电竞,皇冠手游平台。

责编:默特萨克

审核:姜洁

责编:单士贞

相关推荐 换一换