千亿官网网页版

电脑版下载

74986
3

千亿官网网页版截图J8B1X4R6M2L9T5Q3W7PZ

内容详情

千亿官网网页版

算子（Kernel），作为连接硬件与软件的核心软件层，是软件生态中的重要一环。算子优化是旨在根据硬件架构和芯片设计，优化特定程式代码，以尽可能挖掘硬件潜力，提高程序运行速度的工作。

当前算子优化主要依靠专家通过试错法进行手动优化，这一过程不仅耗时，而且需要跨硬件、软件和指令集架构（ISA，Instruction Set Architecture）的多学科专业专家合作开发，人力和时间成本都十分高昂。对于新兴的 ISA 架构而言，其配套算子库的性能优化缺口已成为阻碍广泛部署的主要瓶颈。

随着大模型的发展，自动化算子优化领域出现了新范式。大模型驱动的方法利用其生成能力，通过最少的人工指导生成或迭代改进算子实现，已经涌现出了一批科研成果。尤其在 CUDA 算子优化领域，这一范式已展现出显著潜力——完备的技术文档和成熟的代码库使得现成的大模型能够在部分算子问题上取得超越人类专家的效果。

然而，在 RISC-V 等新兴架构或指令集上，参考材料的稀缺，限制了这种新兴范式的有效性。

为此，来自香港城市大学的研究人员开展了一项课题，并研发出了一款名为 EoK 的应用。

图 | 研究人员（来源：研究人员）

首先，EoK 通过系统化挖掘成熟开源算子库的开发历史（如 Git 提交记录），构建结构化的优化“想法”池。每个想法包含通用设计原则和一系列可操作思路，其中包括简明技术描述、示例代码和历史效果评估。这种方法为大模型提供了明确的数据驱动指导，弥补了训练数据中 RISC-V 参考材料的缺失。

其次，EoK 采用基于检索增强生成（RAG，Retrieval-Augmented Generation）的并行搜索策略，通过同时沿多个优化方向（由想法池中的不同想法定义）进行并行探索，并结合 RISC-V 特定的上下文信息（包括 ISA 手册和硬件配置文件），显著提高了搜索效率和效果。每个想法引导的搜索都根据历史效果加权采样可操作思路，确保优先验证经过实践检验的技术，同时保持探索多样性。

通过这种方法，EoK 在 80 个算子设计任务中实现了中位数 1.27 倍的加速效果，在几乎所有任务上超越人类专家性能，并将现有大模型方法的性能提升了 20%。这些结果表明，将人类经验系统化地融入新兴领域优化过程的可行性，同时也凸显了大模型驱动的自动化算子优化在 RISC-V 领域的巨大潜力。

（来源：https://arxiv.org/pdf/2509.14265）

在应用前景上：

其一，可用于多架构支持扩展：EoK 的方法论可以扩展到其他开放或专有 ISA（如神经网络异构计算架构、元计算统一系统架构等 AI 加速指令集或其它新兴 ISA），通过适配想法池和参考材料，打破 CUDA 壁垒，实现跨平台算子优化，促进硬件创新和软件创新的协同进化。

其二，可用于 DAY0/DAY1 级适配：EoK 相较于其它大模型方法，其算子优化时间开销更低，能够帮助国产新兴的 AI 加速算力在 Day0/Day1 级别对于类似于 Deepseek v3.2 等新型模型软件架构实现支持，推动新兴软硬件生态正循环。

其三，可用于定制处理器算子优化：针对特定应用场景（如边缘计算、具身智能等），EoK 可以自动生成高度优化的算子，减少开发时间并提升能效。

其四，可用于硬件-软件协同设计：在芯片设计阶段，EoK 可用于快速原型化和评估不同硬件配置下的算子性能，辅助设计决策，缩短产品上市周期。

目前，研究人员正在推进对于知识“想法”池的进一步挖掘，以期能够使大模型在学习人类算子优化经验和自动优化算子过程中，拓展可能的算子优化空间和范式。

参考资料：

https://arxiv.org/pdf/2509.14265