RAG准确率提升10.6%,多项基准拿下新SOTA!
ACL 2025最新研究提出Lexical Diversity-aware RAG(DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程,提供了一个轻量、通用且易扩展的解决方案。
在多项基准任务中,该方法带来了显著性能提升,尤其在HotpotQA上刷新了当前最优结果。
在大语言模型的浪潮下,Retrieval-Augmented Generation(RAG)已经成为提升模型事实性和时效性的重要手段。然而,现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性(lexical diversity)。
同一个问题,不同的表达方式,往往让检索模型“晕头转向”,最终导致错误答案。
由此,来自北航、北大、中关村实验室的研究团队提出了这项最新工作,他们首次将“词汇多样性”引入检索增强生成的相关性评估过程,并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。
团队认为,该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来,他们计划进一步拓展该方法到新万博体育:专业场景,让大模型不仅能“读懂”,更能“理解”复杂的人类语言表达。
词汇多样性:RAG的隐形痛点
研究团队指出,现有RAG方法大多通过“单一标准”判断检索文档是否相关,但现实情况要复杂得多。如图所示,以问题“What is Hattie McDaniel’s occupation?”为例,其中的语义成分表现出不同程度“词汇多样性”:
不变词(Invariant):人名“Hattie McDaniel”一般不会变形;可变词(Variant):词语“occupation”可以对应“profession”“actress”甚至“Academy Award”;补充信息(Supplementary):答案可能依赖“American celebrity”等扩展语境。
这种词汇多样性往往导致模型错误地将部分相似但无关的文档判为相关,或者忽略了真正有用的信息。
两大关键创新
为解决“词汇多样性”带来的挑战,研究团队提出了该框架,核心在于两个互补模块:
1、Diversity-sensitive Relevance Analyzer(DRA)
传统检索相关性评估往往“一刀切”,把整体查询和检索文档进行比较。该方法则进一步拆解查询语义,针对不同成分采用差异化策略:
不变成分:如人名、地名等必须精确匹配的关键词,该方法强调其检索文档应与该成分严格匹配;可变成分:如“occupation”—“profession”,DRA借助LLM的语义扩展和分析能力,在检索时允许一定语义灵活性;补充成分:如“American celebrity”,该方法通过检索需求的明确程度来判断是否需要真正提供有用的补充证据。
在此基础上,该方法通过该模块对相似度检索结果进行重排序,输出一个更细粒度、多维度的相关性评分,避免检索时存在的“假阳性”和“假阴性”的常见问题。
2. Risk-guided Sparse Calibration
即使有了更精准的检索,生成阶段仍然可能“被干扰”。Risk-guided Sparse Calibration的设计灵感来自“风险控制”:它会实时监控每个生成token的“被误导风险”,并在必要时进行解码校准。
词汇风险(Lexical Risk):检测生成内容是否过度依赖低相关的词汇;注意力风险(Attention Risk):评估模型注意力是否集中在无关段落;预测风险(Prediction Risk):衡量当前预测是否与检索证据存在冲突。
RSC的独特之处在于它的稀疏性(sparse calibration):只对高风险token动态干预,而不会对全局输出强行重写,从而保证了生成质量与效率的平衡。
最终,DRA负责“挑选更靠谱的材料”,RSC负责“防止模型走偏”,形成了检索与生成环节的双保险,让RAG更稳健、更准确。
实验结果:显著超越现有方法
团队在多个开放域问答基准上验证了该方法:
其中,该方法在PopQA/TriviaQA(短文本问答):准确率分别提升4.9%和4.4%;HotpotQA/2WikiMultiHopQA(多跳问答):准确率均提升10.6%,展现出强泛化性;在ASQA(长答案生成):在str-em、QA-F1等指标上刷新SOTA。
不仅如此,该方法在不同类型、大小的模型上均表现出显著增益,如Llama2-7B, Llama2-13B, Qwen2-7B, Alpaca-7B和Mistral-7B等。
论文链接:
https://aclanthology.org/2025.acl-long.1346/代码(即将开源):
https://github.com/Zhange21/DRAG
《国产激情一区小视频》,《P6F3X2M7T9QJ8L1B4WZR》欧美日韩久久精品很黄很暴力
“成年人视频直接进入”
99riav3网站
……
09月27日
“美女曰逼黄色网站”湖人解雇教练组所有成员
↓↓↓
09月27日,奥运冠军宣布退役,新身份明确,少妇性交免费网址,伊人久青草,国外乱伦一区二区视频,A及黄色视频
09月27日,中新健康丨开工成“特累”族 专家支招巧解“节后综合征”,亚洲免费黄色一级片,永久黄页网在线观看,中文字幕在线看视频第33页,手机在线视频观看你懂的
09月27日,国台办:只有实现祖国统一 才能实现台海永久和平,中文字幕精品一区二区日本,欧美性XXXXBBBBB极品,精品视频久久久久,一区二区三区福利视频无码
09月27日|强冷空气导致两条“小三通”航线停航|亚洲免费二区二区号|美女扒开腿让男人桶爽动态|久久久久国产精品片区无码|97人人膜人人操
09月27日|以军称打死一名哈马斯指挥官 哈马斯暂未回应|欧美口爆大量吞精在线网址|靑青草人人人人射人人干|无码毛片高潮一级一|岛国一级二级无码片 www.miy17.com
09月27日|雷军现身珠海航展,并登上运油-20参观|美國一级黃片A片|男女配种视频全部过程解说|中文字幕在线观看第|亚洲一区亚洲二区日韩人妖……
09月27日,海外博主山西朔州体验非遗技艺 感受传统韵味,图片专区视频一区,粗大黄片,免费a色毛片,欧美性ⅩXX影院
09月27日,斗鱼2024“护苗·鱼阅计划”公益活动启动,91麻豆精品国产自产观看日日摸,看免费黄色片,黄色视频在线观看精品,97在线精品视频
09月27日|以更大的决心和力度深化改革开放(继续巩固和增强经济回升向好态势·两会之后看落实⑥)|午夜福利98|99riav国产在线|久久免费网毛片观看|国产睡熟迷奷系列网站软件
09月27日,游西安品古韵 外籍女孩沉浸式体验汉服之美,中文字幕综合国产日韩,www,五月天,com,一级片黄色网站,一级片黄片
09月27日,“桃王”来啦!河北深州上演“桃王争霸赛”,jizz日本,天天天插天天天日b,在线精品日韩一区美女,野狼社区视频
09月27日,第二届链博会将于11月26日至11月30日在北京举行,欧亚激情偷乱人伦在线视频,三级社区在线视频,欧美性xxxx0000,97黄色视频大全
09月27日|还在刮!北京今天大风仍在线阵风6级 最高气温1℃|免费观看人成在线视频|港澳性爰A级兔费视频久久性爱视频|啦啦啦啦WWW在线看免费下载|性一级黄色网站
09月27日|新能源车销售如火如荼 充电老大难有了新解法|欧美一级在线观|性生活视频久久网|XXXX互换人妻网站|日韩偷拍网3区
09月27日|春和景明日 “汉服热”再起|亚洲色清纯|美女隐私无遮挡免费网站|美女频黄|黄色片子一级
00后女生每天打四份工一年攒10万,8成吧友给黑神话悟空打满分|甘肃兰州:八分钟时速接力 只为生命打开救援通道|夜夜揉日日碰视频|中文字幕 在线 一区二区|免费h的视频在线免费看|A一级黄
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺