(4秒详细教程)AG旗舰厅首页电脑版v41.47.88.64.14.79.2-2265安卓网_新万博体育
AG旗舰厅首页 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件新加坡门将妻子以为遭诈骗 → AG旗舰厅首页 v7.263.8745.503845 安卓版

AG旗舰厅首页

AG旗舰厅首页

  • 电脑版下载
猜你喜欢
标签: AG旗舰厅首页 凯发k8网址官网备用
详情
介绍
猜你喜欢
相关版本

AG旗舰厅首页截图J8B1X4R6M2L9T5Q3W7PZ

内容详情

AG旗舰厅首页

机器之心报道

编辑:+0、冷猫

目前,所有主流 LLM 都有一个固定的上下文窗口(如 200k, 1M tokens)。一旦输入超过这个限制,模型就无法处理。

即使在窗口内,当上下文变得非常长时,模型的性能也会急剧下降,这种现象被称为「上下文腐烂」(Context Rot):模型会「忘记」开头的信息,或者整体推理能力下降。

这种现象在现实使用中远比在标准化基准测试中更明显。当用户与 ChatGPT 等主流 LLM 进行长时间、多轮的复杂对话时,会明显感觉到模型开始变「笨」,变得难以聚焦、遗忘关键信息。

来自 MIT 的研究者从一个直观的想法出发:也许可以把超长上下文切分,分别交给模型处理,再在后续调用中合并结果,以此避免衰退问题?

基于此,他们提出了递归语言模型(Recursive Language Models,RLMs),这是一种通用的推理策略:语言模型将输入上下文视作变量,对其进行分解并递归式交互。

将上下文视为一个可操作的「变量」:主模型(root LM)在一个类似 Jupyter Notebook 的编程环境(REPL)中工作,完整的上下文只是一个它能用代码访问的变量,而不是直接的输入。递归调用自身或小模型:主模型可以编写代码来查看、切分、过滤(比如用 grep)这个巨大的上下文变量,然后把小块的任务外包给一个个小的、临时的 LLM 调用(递归调用)。综合结果:主模型收集这些「外包」任务的结果,最终形成答案。

研究者还设计了一个具体实现:在一个 Python REPL 环境中调用 GPT-5 或 GPT-5-mini,并将用户的 prompt 存入变量中进行迭代式处理。

结果很惊人:在能获取到的最难的长上下文评测集之一 OOLONG 上,使用 GPT-5-mini 的 RLM 正确答案数量是直接使用 GPT-5 的两倍以上,而且平均每次调用的成本更低。

研究者还基于 BrowseComp-Plus 构建了一个全新的长上下文 Deep Research 任务。在该任务中,RLM 显著优于 ReAct + 推理时索引 / 检索等方法。令人意外的是,即使推理时输入超过 1000 万 tokens,RLM 的性能也没有出现衰减。

他们相信,RLM 很快会成为一个强大的范式

同时,相比于仅依赖 CoT 或 ReAct 风格的代理模型,显式训练以递归式推理为核心机制的 RLM,很可能成为推理时扩展能力领域的下一个里程碑

博客文章:https://alexzhang13.github.io/blog/2025/rlm/原帖压缩总结见推文:https://x.com/a1zhang/status/1978469116542337259

博客作者为 MIT CSAIL 的 Alex Zhang 和 Omar Khattab。

这是一个递归语言模型 (RLM) 调用的示例。它作为一种从文本到文本(text → text)的映射,但比标准的语言模型调用更灵活,并且可以扩展到近乎无限的上下文长度。RLM 允许语言模型与一个环境(在此实例中为 REPL 环境)进行交互,该环境存储着可能非常庞大的上下文。在其中,模型可以递归地子查询「自身」、调用其他 LM 或其他 RLM,从而高效地解析这些上下文并提供最终的响应。

评论区的反馈也非常积极,并且进行了很多深入的讨论。

递归语言模型 RLM

RLM 的通用性与其底层语言模型本身相同。实际上,从用户角度来看,RLM 的调用方式与普通模型调用并没有区别,但它在内部可以生成(递归式的)LM 子调用来完成中间计算。

当你向一个 RLM 发起查询时,「根」语言模型(root LM)可以把整个上下文当作可操作的环境来探索和处理。它会通过递归调用(R)LM,将对任意结构或任意长度上下文的处理任务分解并逐级委托,从而实现可扩展的推理能力。

递归语言模型(RLM)调用取代了传统的语言模型调用。它为用户提供了一种「仿佛上下文无限大」的体验,但在底层,语言模型会自动对上下文进行管理、分区,并根据需要递归调用自身或其他 LM,从而避免出现 context rot(上下文退化)问题。

研究者将这一机制实现为一个类似 Jupyter 的 REPL 环境:

核心思想是:将用户的 prompt 存入一个 Python 变量中,然后提供一个 REPL 循环给 LLM,让它可以在不一次性读取全部内容的前提下,主动尝试理解和操作 prompt。

「根」语言模型(root LM)通过编写代码并查看每个单元格的输出,与这个环境进行交互;在此过程中,它还可以在 REPL 环境中递归调用其他 LM 或 RLM,以此在上下文中进行导航和解析。

这种方式要比任何「分块(chunking)」策略都更加通用且更智能。研究者认为:应该让语言模型自己决定如何探索、拆解并递归地处理长 prompt,而不是由人为制定固定的切分策略。

RLM 框架实例为根 LM 提供了在 Python 笔记本环境中分析上下文的能力,并能在任何存储在变量中的字符串上启动递归 LM 调用(深度 = 1)。LM 通过输出代码块进行交互,并能在其上下文中接收(截断的)输出版本。完成时,它输出带有 FINAL (…) 标签的最终答案,或者可以选择使用代码执行环境中的字符串 FINAL_VAR (…)。

这种结构在实际使用中带来了多项明显的优势:

根语言模型(root LM)的上下文窗口很少被「塞满」 —— 因为它从不直接读取完整上下文,它接收的输入规模增长得很慢。root LM 拥有灵活的上下文访问策略 —— 它可以只查看部分上下文,或者对上下文块进行递归处理。例如,当任务是寻找「needle-in-the-haystack」信息或需要多跳推理时,root LM 可以先通过正则表达式(regex)等方式粗略筛选上下文范围,再对筛选结果发起递归式 LM 子调用。这对于任意长度的上下文输入尤其有价值,因为对整个长文档现检索(on-the-fly indexing)通常代价很高。理论上,RLM 能处理任何可以加载到内存的模态数据 —— root LM 可以完全掌控数据的查看与转换方式,并在此基础上继续向递归 LM 发起子查询。

RLM 框架的一个显著优势在于:可以在一定程度上解释它的行为轨迹,理解它是如何一步步推理并得出最终答案的。研究团队编写了一个简易可视化工具,用来观察 RLM 的推理路径,展示了 RLM 实际在「动手做什么」。

令人振奋的早期结果

研究者一直在寻找能够真实反映长上下文任务场景的基准测试,例如 长时间多轮的 Claude Code 会话。他们希望通过这些任务重点突出当今前沿模型面临的两类核心限制:

1. 上下文退化现象 —— 模型性能随着上下文长度增加而退化;

2. 系统层面的约束 —— 模型在处理超大型上下文时出现的架构或交互瓶颈。

激动人心的成果 — 处理上下文退化

RLMs 旨在解决上下文退化问题,即当你有一个很长的 Claude Code 或 Cursor 实例时,它无法正确处理你的长历史记录的奇怪现象。

OOLONG 是一个具有挑战性的新型长上下文基准,其中模型在极其密集的上下文中回答查询。研究者选择了一个特别困难的分割点,在 OOLONG 基准测试的 trec_coarse 数据集上报告结果,GPT-5 在 132-263k token 上下文中得分约为 33%。

与此同时,一个使用 GPT-5-mini 的 RLM 在 132k 情况下以超过 114%(即超过两倍)的低查询成本优于 GPT-5,在 263k 情况下以49% 的成本优于 GPT-5!

RLM (GPT-5-mini) 比 GPT-5 高出 34 分以上(约增长 114%),并且几乎每个查询的成本都相同(研究者发现中位数查询更便宜,因为有些异常昂贵的查询)。

RLM (GPT-5-mini) 比 GPT-5 高出 15 分以上(约 49% 的提升),并且平均每个查询的成本更低。

令人兴奋的结果 — 超大上下文

RLM 的设计目标之一,就是在无需额外辅助结构的情况下,处理近乎无限长度的上下文。

BrowseComp-Plus(BC+) 是一个 DeepResearch 任务基准,模型需要通过检索多个离线文档,来回答多跳组合性问题(multi-hop compositional questions)。

在目前的初步实验中,研究者从 BC+ 中抽取了一个小规模的查询子集,然后直接将不同数量的文档(从 10 份扩展到 1000 份,对应约 10 万到 1000 万 tokens)原样塞进上下文中。实验结果显示:基于 GPT-5 的 RLM 在跨越这些规模时性能并未下降,甚至优于采用 ReAct + 检索循环(retriever loops)的方法

研究者在 BrowseComp-Plus 上对 20 个随机查询绘制了各种方法的性能和每个答案的 API 成本,随着上下文文档数量的增加。只有迭代方法(RLM、ReAct)在 100 篇文档以上时仍保持合理性能。

这些实验结果令人振奋:在没有进行任何额外的微调或架构改动的前提下,就能够在真实基准上处理超过 1000 万 tokens 规模的上下文,并且完全不依赖检索器(retriever)!

思考与总结

RLM 不是 agent,也不只是作总结。一个系统中使用多次 LM 调用的想法并不新颖 —— 从广义上讲,这正是多数 Agent 框架所做的事情。在现实中,最接近的例子是 ROMA Agent,它会分解问题并运行多个子代理来解决每一部分。另一个常见的例子是 Cursor 和 Claude Code 这样的代码助手,它们会在上下文越来越长时对历史进行摘要或裁剪。这些方法通常是从任务或问题的角度来理解多轮 LM 调用的分解。而研究者们坚持认为,LM 调用可以从上下文的角度进行分解,而分解方式应完全由语言模型自己来决定。

固定格式对 scaling laws 的价值。从 CoT、ReAct、指令微调、推理模型等理念中,得到的经验是:以可预测或固定的格式向模型呈现数据,对于提升性能至关重要。基本思路是,如果能将训练数据的结构约束到模型预期的格式,就可以用合理的数据量显著提升模型性能。将这些理念应用到改进 RLM 之上,或许可以作为另一条扩展轴。

随着 LM 的进步,RLM 也会进步。最后,RLM 调用的性能、速度和成本与底层模型能力的提升直接相关。如果明天最强的前沿语言模型可以合理处理 1000 万 token 的上下文,那么一个 RLM 就可以合理处理 1 亿 token 的上下文(可能成本还只有一半)。

研究者认为,RLM 与现代 Agent 是两种根本不同的押注方向。Agent 是基于人类 / 专家的直觉来设计如何将问题拆分为语言模型可以消化的形式。而 RLM 的设计原则是,应该由语言模型自己决定如何拆分问题,使之可被语言模型消化。

研究者坦言:「我个人并不知道最终什么会奏效,但我很期待看到这个思路会走向何处!」

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    最大的赌博app 银河游戏城手机版下载 万博手机网页登陆 bwin在哪里玩 188宝金博网投 视讯网 贝搏体育登录 皇冠体育网上 新利18体育下载官网 千亿棋牌2020官方网站 永利体育登录官网 体育竞猜买球app哪个好用 澳门黄冠 乐博官方下载 彩票投注世界杯 连环夺宝可以手机玩吗 2020年欧洲杯比分 葡京大转盘官网入口 韦德官网登录入口 万博手机版网页版登 手机怎么买足球比赛 beat365亚洲版官网 cq9电子试玩下载 水晶宫网址 威尼斯博彩手机版 网络彩票平台官方网址 nba买球网站有哪些 利来w66 万博官网登录页进不去怎么办 买球有哪些正规平台 yabo22vip怎么注册 欧宝手机登录 世纪娱乐平台注册 千亿客户端下载 篮球世界杯预选赛下注 利记官网多少 九五至尊注册彩金 两人麻将 凯时首页登录 bet365休育投注备用平台 AG旗舰厅体验 英皇娱乐在哪开户 博鱼官方网入口 钻石娱乐一二三 世界杯足球投注在哪里 体育比分APP 188bet体育亚洲 王者体育苹果版 葡京电子娱乐 下载世界杯视频的网站 沙巴体育在哪开户 王者体育在线app 万博全站官网首页 线上彩票去哪买好 dafa888下载 澳门国际平台 英皇体育开户 世界杯买球平台逾fc3 凯时国际AG 365在线备用 启航国际真人 舟山星空棋牌 新宝游戏 世界杯足球买球攻略图 龙8手机网页版登录 大富豪线上平台官网 牛宝体育快速开户 沙巴体育足球官网 威尼斯人网站登入 米乐m6是什么 野马平台网页登录 老虎机在线 优德88老虎机怎么样 世界杯彩票站投注时间 纬来体育开户网址 bet体育赛事 乐鱼登录地址 云顶娱乐官网手机网页 球探分析开户 AG真人是全网统一吗 明升官方网站 世界杯买球正规网站 百姓彩票官网下载 巴西世界杯外围下注 12betapp官方 凯时怎么开户 彩神ll网页 金沙城娱乐场 官网 足球大赢家90 百老汇真人注册网 高手解迷 新利88 bbin快速开户 线上游戏平台 im电竞备用网址 世界杯投注渠道官网 送彩金平台 新博娱乐 世界杯买球赢钱 xg111太平洋在线官网 优德在哪注册 ob体育下载使用方法 新世纪棋牌 三公押注公式 f66永乐国际官网 买世界杯网站软件 澳门新葡萄新京威尼斯 博亚手机app官方网站入口 AG真人视讯 亿博手机登录 正规炸金花网站 世界杯投注方式介绍 开元平台注册送365 AG环亚真人游戏 365bet注册 球探体育比分app安卓 云顶注册送18 一分钟一开彩票 在线棋牌网站大全 六合传说(玄机版)
    热门网络工具