让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

IO成本赵占祥:绕开HBM依赖,国产AI芯片正在走哪些新道路?丨GAIR 2025
发布日期:2025-12-22 15:12    点击次数:66

“云霄除外,端侧AI亦然国产芯片下一个主战场。”

作家丨赵之皆

裁剪丨包永刚

2025年12月12-13日,第八届GAIR全球东谈主工智能与机器东谈主大会在深圳·博林天瑞喜来登货仓厚爱启幕。

看成AI产学研投界的标杆嘉会,GAIR自2016年创办以来,长久效用“传承+革命”内核,长久悉力于一语气技能前沿与产业奉行。

在东谈主工智能逐步成为国度竞争中枢变量确当下,算力正以前所未有的速率重塑技能旅途与产业结构。13日举办的“AI算力新十年”专场聚焦智能体系的底层中枢——算力,从架构演进、生态构建到产业化落地张开系统商量,试图为畴昔十年的中国AI产业,厘清枢纽变量与发展见解。

IO成本创举联合东谈主赵占祥,专注于硬科技与半导体领域的早期及成历久投资,在大会上,他发表了题为《大模子时间,国产AI芯片破局的几种新技能道路》 的演讲。

历久轻柔半导体与硬科技的他,近几年密切不雅察着国产AI芯片在现实不停下的演进旅途。“本年国产GPU的市集占有率已接近一半,在先进制程受限的布景下,单纯沿着GPU的既有道路接续追逐英伟达,必须依靠新的技能旅途”,他开宗明义。

从这一判断动身,赵占祥系统梳理了当年一年国内透流露的多条探索道路,遮掩云霄、旯旮、端侧、IoT末端以及先进封装等多个层面。

云霄见解,赵占祥要点提到TPU、Hybrid Bonding(羼杂键合)、大容量SRAM推理芯片以及大范围散播式互联等决议。这些道路的共同点,是绕开对HBM和先进工艺的高度依赖,通过系统想象赢得举座性能进步。“英伟达我方流片的成本只占四分之一,一半的成本在HBM上”,他说,“如果带宽能上去,执行上即是用存力去对消算力不及。”

在他看来,许多值得轻柔的变化,也正发生在端侧和末端。除了在演讲中梳理多条新兴端侧芯片道路外,赵占祥在演讲结束后也与雷峰网张开对谈,进一步诠释注解了他为安在格外垂青端侧市集,以及这些见解如安在现实不停下跑互市业闭环。(作家历久轻柔半导体、算力高卑劣等见解,接待添加微信Ericazhao23疏浚。)

01

对话:

端侧芯片市集大,工程师红利是买卖闭环枢纽

雷峰网:您在演讲等共享了好多端侧AI的案例,为什么本年巩固看端侧芯片市集?

赵占祥:接下来AI技能要真实落地,就要靠端侧。这个市集畴昔范围详情亦然海量,全球PC与平板的出货量简单四亿台、手机十几亿台,这些都是端侧芯片广泛需求的基础。

更遑急的是,AI硬件畴昔的契机是中国的。

软件生态的客户群体聚会在国内,这给中国芯片厂商创造了自然上风。就像蓝牙耳机领域——中国占据全球90%的市集份额,中枢芯片也险些都是中国厂商供应。这种生态逻辑和Arm很相同,不错说,如果莫得中国厂商,就莫得今天Arm的产业影响力。

雷峰网:但有一种说法以为,部分端侧芯片的出货量有限、成本利润又比较低,难以遮掩坐蓐成本。那么,端侧芯片想结束买卖闭环,要点会在什么场合?

赵占祥:不错望望瑞芯微的例子,他们咫尺利润说明很好,中枢即是当年十年里,把管事作念到了极致。比如,他们能作念到无原厂接入的情况下平直替换,是以全球在深圳想作念AI硬件,会优先预想瑞芯微。他们多样惩办决议都有,这种重管事的模式即是中国工程师红利的体现。

好意思国厂商就作念不到这少许,他们更擅长把开发平台打磨到极致,但管事智力弱;中国厂商未必在性能上稍失神,但能通过深度适配孤高不同居品需求,这种落地智力在AI买卖化阶段,反而成了中枢上风,不错通过“堆东谈主”作念好管事。

雷峰网:咫尺来说,端侧芯片的发展主要濒临什么瓶颈?

赵占祥:最初是功耗,刻下的AI手机芯片是跑不了大模子的,算力不够、存储容量不够,大模子对内存的消费照旧太大了,这亦然为什么咫尺光羽芯辰和微纳核芯在推PIM+3D DRAM的决议,即是通过存内计较,让内存平直承担计较任务、再用3D堆叠封装进步存储容量,也能训斥举座功耗。

不外,除了技能还有生态的智力。对新入局的NPU创业公司来说,手机生态的壁垒太高了:华为有我方的芯片生态,小米、OPPO高端机主要用高通芯片,vivo X系列高端机用联发科,这些新NPU公司何如和主芯片厂商修复调解,是很遑急的。

雷峰网:瞻望来岁在端侧这边,会有哪些诈欺能率先范围化落地吗?

赵占祥:咫尺末端AI的形式,主如果指环、眼镜等可穿着开辟,还有各类传感器和智能家居、AI硬件。不外,接下来爆发力最强的多模态AI硬件应该即是AI眼镜了,来岁好像率会迎来销量暴涨,保守忖度能卖几千万部,中枢驱能源即是成本着落。

咫尺已有中国厂商在日本卖的一款智能眼镜,售价才几十块钱,固然仅仅加上个耳机功能,但销量相等大。畴昔AI眼镜的发展旅途,应该是“先降成本、再升体验”,畴昔AI眼镜皆备有可能降到芜俚眼镜的价钱,就像咫尺买个太阳镜只须一百块钱那样。

雷峰网:那在末端AI这边,要结束买卖闭环会有哪些比较可行的旅途?

赵占祥:末端终末应该也会跑出极致低功耗的AI芯片公司,或者Arm这样的IP供应商。比如智源匠芯,即是卖IP授权的,作念SoC、电源经管、传感器、MCU等芯片的厂商不错买他们的IP集成进去,这种IP的伸缩性特殊好,能撑握起无缺的生态供应链。

况兼,IP模式之是以能变成闭环,枢纽在于“量大”。低功耗AI IP成本很低,芯片公司如果我方研发,不仅要费钱招东谈主,恶果还未必好,平直采购反而更合算。就像蓝牙耳机芯片一年出货三十亿颗,哪怕每颗收一毛钱授权费,也能有三个亿的收入了。

02

演讲全文

精彩演讲讲求

以下是赵占祥演讲的精彩内容,雷峰网作了不改革喜悦的整理与裁剪:

前边几位嘉宾主要共享了国产GPU的发展旅途。正如刚才罗总提到的,本年国产GPU的市集占有率已接近一半。在先进制程受限的布景下,单纯沿着GPU的既有道路接续追逐英伟达,很难在性能上高出英伟达,是以必须依靠新的技能旅途。

自客岁起,国内又透露了一二十家革命的芯片公司,尝试通过新的架构想象和工艺道路,探索大模子时间AI芯片的发展见解。今天,我将围绕这些技能道路张开共享。

最初咱们讲求下好意思国对华出口管制的演进。

2022至2024年间,联系截至“变本加厉”,中枢聚会在先进计较与先进制程领域,包括光刻机、HBM、先进封装,还有羼杂键合和东谈主员流动截至等枢纽方法。在这样的环境下,中国要依赖EUV工艺向2nm等先进制程演进,难度照旧很大的。

我也列一下国内在不同方进取的革命技能道路,包括云霄的AI芯片、旯旮的AI芯片、端侧的AI芯片、IoT末端的AI芯片和先进封装。中国真实强的是,咱们不错把诈欺作念好,有工程师红利,咱们在各个领域都有不同的定制化决议和革命的惩办道路。

三正途线破制程截至:TPU、Hybrid Bonding、SRAM

最初,是数据中心的AI芯片。

第一条道路,是超维无垠的TPU道路。Google最新发布的Gemini3模子,即是基于TPU进行测验。咫尺,包括OpenAI、Anthropic、xAI在内的多家AI巨头,已向Google下单采购TPU。咫尺Google厚爱对外售售TPU芯片了,曾经是全球出货量仅次于英伟达的AI芯片居品。

TPU的中枢特征在于以“超节点性能”为策画,而非单卡性能。其上风包括更大范围的超节点架构、更高性价比,以及相对友好的软件生态。在不依赖CUDA的前提下,通过系统级想象赢得举座性能进步,同期减少对先进制程、HBM以及NV/IBSwitch的依赖,从而权贵训斥成本——以致达到远超英伟达十倍以上的超高性价比。

之后,是算苗科技的3D-TokenPU,这条道路的中枢在于Hybrid Bonding(羼杂键合)技能。参预大模子时间后,对数据存储的要求是更高的。其实英伟达我方流片的成本只占1/4,1/2的成本则花在HBM上。如果咱们用Hybrid Bonding的神气,比较HBM的带宽是更高的,咫尺HBM的带宽即是几个TB/s,等于是用存力对消了算力不及的问题。

第三,是芯感畴昔的大容量SRAM推理芯片。这个决议以SRAM为中枢,比较于GPGPU,具备三项权贵上风:

低时延,可结束毫秒级反应;低成本,单元性能成本比较传统GPGPU提高了10倍;低功耗,无需HBM,也不依赖先进制程,从而权贵训斥制造难度和能耗。

接下来,是比特智路的百万卡散播式互联决议。在超大范围集群中,采集成为枢纽瓶颈,传统无损采集在万卡范围下可用性着落显着。比特智路就弃取基于以太网、允许丢包的互联决议,使系统具备更强的可彭胀性,有望支握百万卡级别的散播式集群。

再来望望旯旮芯片的发展。

最初,英伟达近期发布Spark AI Station,搭载GB10芯片。畴昔家庭场景中,NAS有可能从单纯的存储中心演进为计较中心,就都要配一个旯旮AI芯片。录像头等开辟也会从被迫监控变成主动领悟,当然就需要大模子的计较智力,这一变化为国产决议提供了落地上风。

Nanotrix公司冷落的LPU架构,弃取四层3D DRAM堆叠,内存带宽可达24TB/s。GB10处理的Token在每秒个位数,但这个比较传统决议,其Token处贤人力不错达到每秒上百个。

在机器东谈主等领域,刻下芯片仍是被英伟达Orin把持的,国产芯片咫尺最大的问题即是算力莫得那么高,用得最多的瑞芯微唯有几个TOPS,智能体的GPU算力不错作念得更高。

存算一体+三维架构,跑通端侧AI芯片的“不行能三角”

而端侧AI芯片,主如果手机以及多样智能终局。

最初是烨知芯道路,他们走的是苹果NPU道路。苹果的NPU从2017年开动作念,作念到咫尺8年的时候了,迭代了好多代,曾经是很奏效的NPU了。

它的上风在于强通用性,能支握总计AI采集;其次是高能效比,苹果的NPU曾经不需要比参数了,它的能耗比比较于传统的CPU和GPU,有10倍以上的上风,比较其他的AI芯片,面积唯有1/2至1/4。

此外,还有高效编译器以及精雅的可彭胀性。是以苹果主如果易用性作念得相等好,而不是一味地追求算力的性能和参数。

之后,是光羽芯辰的端侧AI芯片,这亦然燧原参与的一家公司。他们用的是3D DRAM+PIM。3D DRAM是堆叠封装的技能,而 PIM 在此基础上引入计较逻辑,使端侧开辟在更小面积、更低成本和功耗条目下结束更高算力。

微纳核芯则弃取了全球草创的三维存算一体3D-CIM架构,兼顾了高性能、低功耗与低成本这个“不行能三角”。在存储芯片中引入计较逻辑,十分于将NPU中枢平直集成至DRAM中。这样作念的上风在于,手机系统无需寥落增多AI芯片,内存芯片自己即可承担计较功能,与CPU协同使命,举座芯片数目不增多,功耗较低,Token生成智力可达每秒百级。

还有一种决议,是韧槃科技的 LPDDR-PIM决议,能够结束高带宽、低功耗。在DDR的DRAM里面,每个Bank阁下放了一个计较板块,合起来之后,带宽不错作念到1-2TB/s,在手机上不错跑30-70亿大模子。

接下来,是末端AI芯片。

末端AI芯片的中枢诉求是超低功耗处贤人力。

举例,智源匠芯作念的是模子、架构与电路多层协同的“深度自妥当”处理器核,推出两类居品:一类为mW(毫瓦)级功耗,可结束10–300 GOPS;另一类为μW(微瓦)级功耗,面向对能耗要求极致的诈欺场景,算力可达几个GOPS。举例在枢纽传感器等场景中,可平直集成该类AI核。

此外,3D DRAM的发展高度依赖先进封装。最近我看到一家深圳的公司,他们即是作念先进封装开辟中枢零部件的,咫尺通盘产能都拉满了。芯片公司让先进封装厂扩产,先进封装厂让开辟公司扩产,开辟公司让上游模块厂商、组件厂商扩产,通盘产业链从前几年的无东谈主问津、到咫尺产能拉爆,来岁的产能还会愈加病笃。以致,有些开辟厂商的订单都曾经排到了来岁下半年,通盘行情都被AI算力带起来了。

在先进封装需求推动下,又有一些新的契机透露。

比如,电容、电感等器件,传统电容电感主要部署在PCB板上,占用面积较大;而在先进封装中,这些器件需要内嵌至芯片里面,只可弃取硅电容决议,诈欺于高性能SoC、AI算力芯片及高速光模块里面,是以硅电容畴昔的需求是很广泛的。

以苹果电脑为例,单个主芯片需要的硅电容数目可达8–11颗,用量相等大。联系中枢技能,包括半导体MOS工艺、3D纳米结构、深沟式技能及高容积率PICS技能。以前放在PCB板上,器件坏了之后把它拿下来换一下就不错了,但咫尺不行能把芯片拆了拿出来换,可靠性要求更高,门槛比较之前高了好多。

皆力半导体是一家从事前进封装产线的公司,居品涵盖2.5D与3D封装,其中3D封装即是在2.5D的基础上引入了TSV技能。

在羼杂键合技能下,不错结束数十至数百TB级别的带宽智力,这也对检测开辟冷落了更高要求。当年检测开辟主要管事于先进制程,但刻下先进封装需求快速增长,对微凸块3D检测和全经过劣势检测冷落了更高要求——这样多颗芯片里,一朝焊合或键合存在劣势,可能导致多颗芯片同期报废,成本极高。跟着堆叠层数增多,良率着落问题愈加杰出,就只可依赖高精度检测开辟保证质地,以此限度成本。

而在3D封装中,层间焊合之间如果有闲隙,就难以通过电子束、光学或X射线检测发现,往往需要依赖超声波检测技能。这项技能在晶圆键合领域的诈欺范围正在扩大,国内的念念波微曾经经推出用于先进封装的超声检测开辟。

再先容一下光电合封,它被以为是下一代AI算力的基石。与传统光模块决议比较,其在功耗、集成度、可靠性和部署效率方面具备显着上风。具体来看,功耗不错训斥约3.5倍,集成度进步约63倍,可靠性进步约10倍,部署时候裁汰约1.3倍。国内曾经有企业在该见解开展居品布局。

终末粗浅先容IO成本。IO成本是一家历久专注于硬科技领域的财务照拂人机构。这一页展示的是连年来已完成上市的神气,后续也有多家企业正在鼓动上市程度。咫尺,咱们所管事和追随的硬科技独角兽企业数目已进步30家,这里列举了一些代表性案例。



 
 


Powered by 人人操人人抽 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2025