猫眼电影
猫眼电影记者 郭娜 报道P6F3X2M7T9QJ8L1B4WZR
为大语言模型(LLM)配备浏览工具,能够显著提升其作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力。
然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源 LLM 在此类场景下的表现依旧不佳。
为推动深度搜索 Agent 发展,来自清华大学、东北大学的研究团队提出了DeepDive,该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮 RL,来创建具备复杂长程推理和网页浏览能力的 Agent。
论文链接:https://arxiv.org/abs/2509.10446
实验表明,基于该方法训练的 DeepDive-32B 在 BrowseComp 测试中取得了 14.8% 的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。
图|左:DeepDive-32B 在 BrowseComp 上的表现优于开源深度搜索模型和专有模型;中:DeepDive 通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在 BrowseComp 上的性能;右:多轮 RL 持续增强 DeepDive-32B 在 4 个深度搜索基准上的表现。
此外,除了上述方法和数据,研究团队还开源了一项新万博体育:半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B 在 BrowseComp 上的准确率可以进一步提升至 22.2%。
值得一提的是,这些自动生成的知识图谱数据和半自动 i.i.d. 数据,帮助 GLM-4.5 系列开源模型在 BrowseComp 测试中取得了出色的表现。
最后,所有 DeepDive 数据集、模型和代码均已在 GitHub 上开源。
(地址:https://github.com/THUDM/DeepDive)
DeepDive 是怎样练成的?
深度搜索 Agent 需要通过分析数百个在线资源进行推理和检索,以定位复杂且难以获取的信息。然而,开放模型在深度搜索 Agent 方面与 OpenAI DeepResearch 等专有 LLM 存在显著差距。
研究团队认为,这一差距源于难以获取的数据资源匮乏,以及缺乏多轮 RL 训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览 Agent 主要针对直接搜索任务进行设计。
DeepDive旨在提升深度搜索 Agent 的长期信息检索能力,通过数据构建与 RL 两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮 RL 技术,通过深度搜索增强语言模型的长程推理能力。
在数据层面,要构建深度搜索 Agent,其训练数据必须突破传统多跳问答的局限。
知识图谱天然具备结构化且语义丰富的环境,为多跳推理提供支持,这使其特别适合生成训练深度搜索 Agent 所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集,来解决问答数据集缺乏难度的问题。
由于知识图谱天然支持多跳连接,且每个实体都具有不同属性,他们在构建问题时刻意模糊了每个实体的部分属性,从而创造出一种“模糊实体”的形式。
随后在知识图谱上进行随机游走,提取长距离多跳路径,并利用 LLM 进一步混淆关键线索,使问答对更具挑战性。这种数据合成过程生成的数据能够有效激发 LLM 的长程推理能力和深度搜索能力。
图|用于 DeepDive 的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走,自动构建深度搜索问答对,然后使用 LLM 对其进行混淆。
在训练方法方面,他们采用端到端多轮 RL,来整合推理与搜索工具的使用。运用多轮 GRPO 算法进行端到端 RL,其中 LLM 与网络环境交互,并根据构建的问答数据集中的最终答案获取奖励。
实验表明,经过 RL 训练的模型在推理阶段比基线方法更有效地提升工具使用效率,这证明了工具调用在测试时的扩展性,从而有效提升长程推理能力和深度搜索能力。
图|多轮 RL 概述,用于训练 DeepDive 的推理和深度搜索能力。
为进一步提升部署效率并确保正样本的有效性,他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时,轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠,从而显著增强了多轮次工具使用的鲁棒性。
效果怎么样?
研究团队通过 Bro-wseComp、BrowseComp-ZH 等 4 个公开且具有挑战性的深度搜索基准,对 DeepDive 进行评估,并将 DeepDive 与多类模型进行对比。结果如下:
表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。? 表示通过函数调用实现浏览功能。
图|训练奖励(a)和在 BrowseComp-266 上的评估准确率(b),以及在训练和评估过程中的平均工具调用次数(c),展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。
图|DeepDive 在简单搜索基准上的泛化效果。? 表示通过函数调用来实现浏览功能。
以上结果表明,复杂的监督和多轮强化学习共同为工具使用奠定了基础,模型的性能会随着工具调用预算和并行采样的增加而提升,并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。
不足与未来方向
当然,DeepDive 并非完美,依然存在一些局限性。
例如,由两种具有挑战性的深度搜索问答数据合成方法生成的数据,在难度上依然低于 BrowseComp 等数据集。这间接导致了 DeepDive-32B 在 BrowseComp 上的性能,比具备浏览能力的 o3 等先进模型要低得多。
此外,研究团队主要针对高难度数据进行训练的方法,导致了 DeepDive-32B 出现了“过度搜索”(over-search)的现象。因此,确定最优的训练步骤,并为 RL 阶段设计更合适的奖励机制,将是未来一个重要的探索方向。
整理:小瑜
如需转载或投稿,请直接在公众号内留言
??时事1:韩国仙女屋mmwutv金艺贞
??09月20日,春不迟,重逢自有时,
许多同学对火感到新奇,常常背着教师和家长做火的游戏。有的点火烧纸、烧柴草,在野外堆烧废轮胎、废塑料,还有在黑暗处划火柴、点蜡烛照明、弹火柴棍、烧马蜂窝等。可你知道这中间每一种玩法都可能引发火灾。
,霉霉来过中国。??09月20日,儿童孤独症怎么发现?如何治疗?探访安徽首个儿童发育行为中心,
狻猊虽死,但血液凝而不固,很好处理,他们拿银器装真血,地上摆满了光灿灿、超大的银罐,最后全被装满了。
,小🐔🐔戳🍑里,亚洲熟妇色妇军人,男生露出🐔🐔给别人看视频。??时事2:我是主人的贱母狗游戏特色
??09月20日,北京城市副中心出台政策吸引网络视听企业集聚发展,
信用卡逾期银行自动扣款怎么办?自动扣款合法吗?
,家族共妻苏苏(十千)小说,裸体捆绑日本㊙️视频,国产91♥️丝袜在线播放00。??09月20日,巴基斯坦外交部宣布召回驻伊朗大使,
一个数百户人口的村落,所有人都惊恐,这么多凶兽奔腾而来,那领头的离火牛魔远比他们的祭灵强大,怎能抵抗?
,涩涩视频,贺朝谢俞冰块+棉签+牛奶+扇子,麻豆久久久久久。??时事3:男性GAY戴套✅免费视频
??09月20日,春节旅游高峰将到来 机构预测邮轮或是出境游黑马,
我校广大教职工团结一致、爱岗敬业,他们辛勤耕耘、艰苦拼搏、殚精竭虑、呕心沥血,为提高教育教学质量作出了显著的贡献。
,jk天堂入口,免费看男男Gay啪啪动漫,美女校花打开🌸让我❌91。??09月20日,青海省人民检察院依法对汪山泉决定逮捕,
生长在大山中,所有强大的男子都希望有一匹可以日行万里的宝驹,这是男人特有的梦想与癖好。
,未满14初学生裸体视频,尼尔被❌吸奶的羞羞视频,免费人与野鲁❌毛r片国产。??时事4:飘花伊人512连裤袜
??09月20日,食品行业如何减碳?伊利给出中国样板,
京东白条逾期多久信用卡能用,被起诉还可以协商撤诉吗
,把乳夹乖乖戴上被迫文轩,女子被狂揉下部羞羞网站,国产小电影🎬。??09月20日,正阳门箭楼保护修缮等获评北京市文物建筑保护优秀工程,
3、要增强法制观念和群众观念。随着依法治国观念的不断深入,农村基层干部的法制观念也在逐步增强。但也有一些干部法制观念淡薄,不懂法律法规,不依法办事,甚至自觉不自觉地违规违纪。基层干部不依法办事,很容易引发矛盾,甚至酿成大的事件。基层干部只有知法懂法,才能帮群众答疑解惑,出点子、想办法,解决实际问题。农村正在扩大基层民主,实行村民自治,但这种自治是依法自治。农村基层干部不学法,不懂法,就不知道如何发展社会主义市场经济,就不知道怎样搞好基层民主法制建设,就无法真正维护群众的根本利益。农村基层干部直接和群众打交道,农村基层干部群众观念强,处处为群众着想,认真为群众办事,遇事同群众商量,干部的形象就好,党在农民群众中的威望就高。反之,就会直接影响党和政府的形象。因此,大家要通过学习,进一步牢记党的宗旨,想农民所想,办农民所需,努力学会在新的历史条件下做好群众工作的新方法。
,免费无遮挡使劲吃胸,海贼王扒开娜美❌狂揉❌,18禁🍆🍑🔞❌❌。责编:张福志
审核:白蕉
责编:葛晓华