当前位置:首页 → 电脑软件 → 张博恒回应被送错场馆 → 凯时登陆 v8.362.7868.42075 PC版
v7.104.5813.5024 安卓漢化版
v4.223.9083 安卓最新版
v4.224.1848.486415 最新版
v8.870.4678.152997 最新版
v9.308.5675 最新版
v6.842.8548 安卓版
v2.304 安卓版
v8.460 PC版
v6.939.5463.742767 最新版
v4.137.5039.943275 最新版
v2.776.3826.441247 PC版
v3.464.685 PC版
v1.734.5810 安卓免費版
v1.499 安卓版
v2.31.7418.506150 安卓最新版
v4.724.9012.521965 最新版
v6.247.5744.519880 安卓版
v5.520.7209.611976 PC版
v5.897.4174 安卓免費版
v1.235.7232.843619 最新版
v3.254 安卓最新版
v5.455 安卓最新版
v6.874.5560.403593 安卓版
v5.256.4034.388977 安卓最新版
v4.403.3612 安卓最新版
v3.828 安卓最新版
v8.443.1755.526374 最新版
v4.724.6023 安卓漢化版
v2.237.8212.106913 最新版
v1.385.1494 最新版
v1.542.7787.204106 安卓最新版
v9.723.4335.842317 安卓版
v5.539.8795.222394 IOS版
v7.483.9431.179338 安卓版
v3.907.7734.938040 安卓免費版
v3.583 安卓漢化版
v4.49.3999.632559 安卓漢化版
v1.71 IOS版
v9.484.17.567609 安卓漢化版
v3.89.3600.953914 IOS版
v7.177 安卓免費版
v6.552 最新版
v7.997.2863 IOS版
v2.406.4146.236041 安卓漢化版
v4.87.7326 安卓漢化版
v1.716.5075.897953 安卓最新版
v6.203.427.662721 安卓版
v3.859.1237 安卓免費版
v8.489.9353 安卓免費版
v8.149.2887.162713 安卓漢化版
v2.433 PC版
v5.542.5455.733663 IOS版
v7.463.4762.237900 安卓版
v7.459.8053.315243 最新版
v5.226.3477.769535 安卓最新版
v2.888.7169 IOS版
v9.448 IOS版
v2.580.3739.872927 安卓漢化版
v3.871.4666.680882 最新版
v5.526.9698 最新版
v5.573.7623.139465 IOS版
v6.587.1998.983359 PC版
v1.933.727.189796 最新版
v9.291 IOS版
v7.746.5372.556789 安卓漢化版
v5.480.1745 PC版
v1.440.1573 安卓最新版
v5.833.990 最新版
v5.927.5889 安卓漢化版
v6.881.4073 IOS版
v3.344.981.380674 安卓版
v7.668 安卓漢化版
v6.893.7165 安卓版
v1.48.5502.992124 PC版
v3.595 最新版
v1.972.9692 最新版
v3.512.1487 最新版
v5.930.8966 IOS版
v5.419.5271 安卓免費版
v3.323 PC版
凯时登陆
为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力。
然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。
为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL,来创建具备复杂长程推理和网页浏览能力的 Agent。
论文链接:https://arxiv.org/abs/2509.10446
实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。
图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。
此外,除了上述方法和数据,研究团队还开源了一项新万博体育:半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。
值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。
最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。
(地址:https://github.com/THUDM/DeepDive)
DeepDive 是怎样练成的?
深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。
研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。
DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。
在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限。
知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。
由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。
随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。
图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。
在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。
实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。
图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。
为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。
效果怎么样?
研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:
表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。? 表示通过函数调用实现浏览功能。
图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。
图|DeepDive 在简单搜索基准上的泛化效果。? 表示通过函数调用来实现浏览功能。
以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。
不足与未来方向
当然,DeepDive 并非完美,依然存在一些局限性。
例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。
此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。
整理:小瑜
如需转载或投稿,请直接在公众号内留言
相关版本
多平台下载
查看所有0条评论>网友评论