第974章 员工福利提升,新的一年发展规划 宝宝小蛮腰
阵列,而是一种混合粒度的张量计算单元,粗粒度处理大规模矩阵乘法,细粒度处理稀疏化后的注意力计算。
两者共用同一组片上缓存,但调度逻辑分开。
“传统gpu用sid堆算力,靠暴力计算碾压神经网络。但ai推理任务的瓶颈不是算力,是数据搬运。每一层神经网络的权重都要从外部内存搬进计算单元,搬一次消耗的能量比算一次还多。你们的方案用大容量片上缓存来减少搬运次数,方向对,但片上缓存的容量终归有限,缓存再大,也装不下整个gpt模型的权重。”
他在混合粒度张量计算单元的架构图上添了几笔,在片上缓存和外部dra之间加了一个极简的数据压缩引擎。
“在数据进出片上缓存的时候加一层硬件压缩解压逻辑,不是软件压缩,是直接做在硅片上的专用压缩引擎。神经网络权重本身有大量冗余,稀疏化之后大部分权重是零,非零部分也有很强的规律性。用轻量级的差分编码把权重流压缩到原来的几分之一,数据搬运量就对应降下来了。”
周工盯着那张架构图看了很久,眼神越来越亮。
他拿起红色记号笔在数据压缩引擎旁边写了几行字,差分编码、零值压缩、自适应量化,每一行都是硬件压缩领域的前沿方向,但真正做成硅片的没有几家。
看了一会儿,周工问了一个关键问题:压缩解压本身会带来延迟开销,如果延迟累积超过计算单元的空闲窗口,整体推理时间反而会被拖长。
王东来的回答更是没有丝毫犹豫:压缩解压逻辑和计算流水线做并行化处理,不是先解压再计算,是边解压边计算。解压完一个数据块直接推进计算流水线,不等整个批次解压完成。延迟开销被计算流水线的吞吐率吃掉,净功耗下降,净延迟不增。
他在白板上写下最后一行字,然后转过身把记号笔放回槽里。
周工看着那行字沉默了很长时间。
测试台上那组还在跑的功耗曲线在屏幕上缓慢波动着,每一层神经网络的计算功耗被拆解成数据搬运和矩阵运算两部分,前者占比高得惊人。
他知道如果王东来提出的这个架构能跑通,国内ai芯片在车机端和手机端将实现从无到有的跨越。
他转过身对团队说了一句话:“把王总的混合粒度计算单元方案做成rtl级仿真,三天之内出结果。另外,通知梁总,ai芯片流片排期提前,光刻工厂那边需要单独排产线。”
实验室里顿时响起一片键盘敲击声。
几个年轻工程师围在测试台前七嘴八舌地讨论着硬件压缩引擎的编码方案,有人调出娲之前做过的神经网络权重稀疏性分析报告,把差分编码的压缩比逐层标出来。
那个从英伟达跟周工一起跳过来的年轻工程师对着屏幕看了很久,忽然说了一句:“如果我们真把这东西做出来,以后英伟达的gpu在端侧推理上就没法跟我们打了。不是价格战,是直接从架构上抄近路,他们还在用sid堆算力,我们已经切到数据流驱动的张量计算了。”
周工没有回答。
他只是看着白板上那张被画得密密麻麻的架构图,想起自己在英伟达时期曾经反复呼吁过用近存计算思路来打端侧ai芯片,但每次都被优先级
章节内容不完整,请退出阅读模式查看完整内容!