梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。
核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。
消息一出,芯片界传奇人物Jim Keller立即发问:
英伟达是不是亲手终结了CUDA的“护城河”?如果英伟达也转向Tile模型,AI内核将更容易移植到其他硬件上。
Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次到底改了什么?为什么会被认为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要理解这次更新的意义,得先回顾一下传统CUDA编程有多折磨人。
过去20年,CUDA一直采用SIMT(单指令多线程)模型,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步,每一个细节都要自己操心。
想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更是需要深厚的经验积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后定义在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就好像NumPy之于Python。
英伟达为此构建了两个核心组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层抽象,确保基于Tile编写的代码能在不同代际的GPU上运行,从当前的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功能新增的Grouped GEMM API在MoE(混合专家模型)场景下能实现高达4倍加速cuSOLVER的批处理特征分解在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能分析支持,可以把性能指标直接映射回cuTile Python源代码。
目前CUDA Tile仅支持Blackwell架构(计算能力10.x和12.x),开发重点集中在AI算法上。英伟达表示未来会扩展到新万博体育:架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
关键就在于Tile编程模型不是英伟达独有的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程抽象。
过去CUDA难以移植,很大程度上是因为SIMT模型与英伟达硬件深度绑定,开发者要针对具体的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模型天然具有更高的抽象层次。当开发者习惯了“只管定义Tile运算,硬件细节交给编译器”这种思维方式后,理论上同一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也考虑了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建立在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目标是英伟达自家的不同代GPU,而非竞争对手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁移到下一代英伟达GPU,但要迁移到AMD或Intel的平台上,依然需要重写。
不管护城河是加深还是削弱,有一点是确定的:GPU编程的门槛确实在大幅降低。
过去能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥寥无几。
CUDA Tile和cuTile Python打通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大量数据科学家和AI研究者从此可以直接上手写高性能GPU代码,不用再等HPC专家来帮忙优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《ayx爱游戏网页版|AYX体育》,《Q8X2R7L1T4J5M9B6W3》AG亚洲国际官网登录
“泰姬玛哈娱乐场”
万博的官方网站
……
12月05日
“世界杯能买球的app”只有央妈才能做的节目
↓↓↓
12月05日,局地怎么还会“下开水”?!高温酷热将超长待机 江浙沪等多地地表温度将超60℃,真钱赌场上下分,生财有道特码报,博狗买球,蛇报B
12月05日,澳网首轮:中国军团4人晋级,AG视讯,网络ag真人首选75505,365bet体育备用器,腾博会投注世界杯
12月05日,云南镇雄发生山体滑坡 应急管理部启动地质灾害三级应急响应,best365网页版登录,葡京官方注册,凯时官网APP,伟德投注站官网下载
12月05日|文化中国行丨守住千年文脉 他们用更年轻的方式“激活”姑苏城|哪个体育平台好用|凯发娱乐客户端登录注册|九州快速登陆|乐投letou官网
12月05日|海南推动国际旅游消费提档升级|欧宝下载链接|龙8国际体育APP|正版银河游戏中心|九州娱app
12月05日|报告指东盟依然是中国企业拓展海外业务首选地|beat365在线登录|B体育入口|澳门所有电子网络平台|电竞竞猜哪个平台好……
12月05日,粗粮越吃血糖越高?当心“伪”粗粮,世界杯 开户平台网站,羽毛球比分,365bet体育在线滚球正规,爱游戏全站APP
12月05日,茶卡盐湖:高原上的梦幻画卷,万博苹果版,真人代替国际象棋视频,酷彩娱乐平台,在线麻将
12月05日|中国驻赞比亚使馆全力协调恩多拉铜矿事故失联人员搜救|b0b体育平台下载|皇冠官网app下载苹果|申博官网买球|云顶娱乐官网登陆页面
12月05日,2024年中国金鸡百花电影节在厦门开幕,澳门英皇手机版,pt游戏,ob体育官网下载,艾弗森贝博app官方下载
12月05日,中国作协第二届全民阅读季在重庆启动,百老汇电子网投,华夏彩票平台,必威电竞,leyu乐鱼备用网址
12月05日,李政道追思会在上海举行:“细推物理 何用浮名”,大众彩票平台注册登录,注册送金电游平台,m6vip198,新濠天地世界杯功率
12月05日|今年广东旅博会境外参展商数量将恢复至2019年水平|188bet金宝搏体育APP|真人斗地主输赢钱|3m官方网站|真人古装国际象棋比赛
12月05日|京西电竞节在京开幕 设置《黑神话:悟空》线下体验专区|威斯尼斯人娱乐官方网址|体育网下载|棋牌送金币9元|现金赌场手游下载
12月05日|量子面霜、量子治癌、量子油条……到底是怎么回事?|国外看世界杯免费网站|乐动体育在线登陆|十大网赌网址登录|彩票网址平台
赛博烽火戏诸侯,江苏盐城3.0级地震|海口-越南胡志明市航线开通 东盟旅行商组团参访海南|欧宝体彩下载|利赢国际真人|赢三张金币版|万豪娱乐官方网
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺