清华团队提出DeepDive：深度搜索Agent再迎新突破

为大语言模型（LLM）配备浏览工具，能够显著提升其作为深度搜索智能体（Agent）解决复杂现实世界任务的潜力。

然而，由于使用浏览工具进行长程推理的能力有限，且缺乏足够难度的监督数据，开源 LLM 在此类场景下的表现依旧不佳。

为推动深度搜索 Agent 发展，来自清华大学、东北大学的研究团队提出了DeepDive，该方法通过结合知识图谱（KG）的自动化数据合成与端到端的多轮 RL，来创建具备复杂长程推理和网页浏览能力的 Agent。

论文链接：https://arxiv.org/abs/2509.10446

实验表明，基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中，工具调用和并行采样的测试时间扩展是有效的。

图｜左：DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型；中：DeepDive 通过最大化工具调用来驱动模型的深度搜索能力，从而提高其在 BrowseComp 上的性能；右：多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。

此外，除了上述方法和数据，研究团队还开源了一项新万博体育：半自动独立同分布（i.i.d.）深度搜索问答合成的附加研究。仅使用这项研究中的数据，DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。

值得一提的是，这些自动生成的知识图谱数据和半自动 i.i.d. 数据，帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。

最后，所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。

（地址：https://github.com/THUDM/DeepDive）

DeepDive 是怎样练成的？

深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索，以定位复杂且难以获取的信息。然而，开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。

研究团队认为，这一差距源于难以获取的数据资源匮乏，以及缺乏多轮 RL 训练机制。数据层面，现有大多数问答数据集通常包含相对简单的提问，难以真实反映“疑难案例”；在训练方法上，如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题；此外，现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索 Agent 的长期信息检索能力，通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略，能够自动从开放知识图谱中生成难以发现的查询问题，并运用端到端多轮 RL 技术，通过深度搜索增强语言模型的长程推理能力。

在数据层面，要构建深度搜索 Agent，其训练数据必须突破传统多跳问答的局限。

知识图谱天然具备结构化且语义丰富的环境，为多跳推理提供支持，这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集，来解决问答数据集缺乏难度的问题。

由于知识图谱天然支持多跳连接，且每个实体都具有不同属性，他们在构建问题时刻意模糊了每个实体的部分属性，从而创造出一种“模糊实体”的形式。

随后在知识图谱上进行随机游走，提取长距离多跳路径，并利用 LLM 进一步混淆关键线索，使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。

图｜用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走，自动构建深度搜索问答对，然后使用 LLM 对其进行混淆。

在训练方法方面，他们采用端到端多轮 RL，来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL，其中 LLM 与网络环境交互，并根据构建的问答数据集中的最终答案获取奖励。

实验表明，经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率，这证明了工具调用在测试时的扩展性，从而有效提升长程推理能力和深度搜索能力。

图｜多轮 RL 概述，用于训练 DeepDive 的推理和深度搜索能力。

为进一步提升部署效率并确保正样本的有效性，他们还引入了提前退出机制：当模型在任何步骤中出现格式错误时，轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠，从而显著增强了多轮次工具使用的鲁棒性。

效果怎么样？

研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准，对 DeepDive 进行评估，并将 DeepDive 与多类模型进行对比。结果如下：

表｜深度搜索问答基准评测结果。准确率（%）为报告数据。*表示现有研究的报告性能。? 表示通过函数调用实现浏览功能。

图｜训练奖励（a）和在 BrowseComp-266 上的评估准确率（b），以及在训练和评估过程中的平均工具调用次数（c），展示了强化学习（RL）如何逐步培养出更深层次的搜索策略。

图｜DeepDive 在简单搜索基准上的泛化效果。? 表示通过函数调用来实现浏览功能。

以上结果表明，复杂的监督和多轮强化学习共同为工具使用奠定了基础，模型的性能会随着工具调用预算和并行采样的增加而提升，并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。

不足与未来方向

当然，DeepDive 并非完美，依然存在一些局限性。

例如，由两种具有挑战性的深度搜索问答数据合成方法生成的数据，在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能，比具备浏览能力的 o3 等先进模型要低得多。

此外，研究团队主要针对高难度数据进行训练的方法，导致了 DeepDive-32B 出现了“过度搜索”（over-search）的现象。因此，确定最优的训练步骤，并为 RL 阶段设计更合适的奖励机制，将是未来一个重要的探索方向。

整理：小瑜

如需转载或投稿，请直接在公众号内留言

《男同gv自慰🔞免费》，《P6F3X2M7T9QJ8L1B4WZR》

魅魔裸体❌开腿视频免费看

“XXNX日本动漫”

嗯别揉我🐻黄漫在线观看免费

……

09月20日

“高清码🔞❌♋裸身网站自慰”军人结婚当天三等功喜报送上门

↓↓↓

男童武术俱乐部死亡案将开庭，是挪威一载30人左右大巴发生侧翻

09月20日，关注巴以局势：缺乏干净水加沙北部民众取水困难，樱桃视频入口在线观看网站，严浩翔~别揉了~尿了～啊哈视频，mm131王雨纯被❌喷水，男男❌禁止爽

09月20日，走好科技强农质量兴农品牌富农之路，扒开疯狂揉脱脱内内作文，免费无遮挡🔞漫画网站，女仆打屁股和鞭打网站，海贼王扒开娜美❌狂揉❌

09月20日，香江观澜：香港旅游业优势独特可“应变、求变” 乘势而上，乖女和我裸睡让我弄，干屄，男男GaYGAYS✅18潮喷，小舞被揉到高潮下不了床小说

09月20日，2023年上海市民综合阅读率达97.49% 人均阅读超12本，🔞漫画网站，免费观看美女裸色😍，亚洲巨大❌❌❌OOOO，禁18视频在线观看❌流白浆

09月20日，国家邮政局：2024年10月中国快递发展指数同比提升21.1%，八重神子被旅行者奖励，扒开腿做❌同人漫画，性ⅩXXX搡XXXX槡女人，抖音星野

09月20日，甲辰龙年将至全国各地龙元素满满，日本少妇婬乱高潮AAAA片，三个女人互添下身高潮，3D无尽裸体女无内衣内裤，白鹿裸体㊙️无遮

09月20日，熊猫杯国际足球锦标赛：中国U19男足收获“开门红”，佐助❌小樱18禁污污免费，做羞羞十八禁，抖抈app毛片入口免费男同，日本❌❌❌❌❌18澳门

09月20日，掼蛋成为新晋“社交密码” 多地举办相关赛事，色AV➕无码AV➕丰满网站，70老太被添高潮了，导管专用网站入口免费，男男Bl肉无删减漫

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

新万博体育

下载APP

全部

清华团队提出DeepDive：深度搜索Agent再迎新突破

热门视频