半导体周报0728-AI芯片

创建时间:2024-07-29 10:10

半导体周报-0728

一、行业新闻及动态

1、半导体设计:

《科创板日报》8日讯,联发科、高通新一波5G手机旗舰芯片将于第四季推出,两大厂新芯片都以台积电3nm制程生产,近期进入投片阶段。台积电再添大单,据了解,其3nm家族制程产能客户排队潮已一路排到2026年。在台积电3nm制程加持之下,天玑9400的各面向性能应当会再提升,成为联发科抢占市场的利器。高通虽尚未公布新一代旗舰芯片骁龙8 Gen 4亮相时间与细节,外界认为,该款芯片也是以台积电3nm制程生产,并于第四季推出。价格可能比当下的骁龙8 Gen 3高25%~30%,每颗报价来到220美元~240美元。

 

2、半导体制造及封测:

《科创板日报》10日讯,全球前三大存储器厂SK海力士、三星及美光,正积极投入高频宽存储器(HBM)产能扩充计划,市场人士估计,2025年新增投片量约27.6万片,总产能拉高至54万片,同比增105%。HBM是AI芯片占比最高的零部件,根据外媒拆解,英伟达H100近3000美元成本,SK海力士HBM成本就占2000美元,超过生产封装。

 

《科创板日报》8日讯,海通证券表示,AI+半导体驱动存储需求提升,受到HBM产能排挤,若先进制程产能扩张不足,DRAM产品恐面临供不应求。看好2024年全球先进制程产能不足情况下全年主流存储维持涨价,建议长期关注主流存储模组企业中具备存储+先进封装逻辑的企业,以及利基存储IC设计企业中符合一定涨价逻辑或具备较大国产渗透空间且与晶圆厂绑定更为紧密的存储IC企业。

 

3、       其他:

《科创板日报》9日讯,瑞银分析师表示,半导体CoWoS先进封装扩产脚步比想像更快,预计今年底达到每月45000片晶圆,明年底达到每月65000片,到2026年更多公司着手扩产,还能再增加20%至30%产能。分析师林莉钧称,产业开始规划2026年扩产,代表云端加速器的能见度及需求不断提高。 手机和个人电脑(PC)去年出货量下滑很多,今年小幅成长,可以期待生成式人工智能加速换机周期。

 

《科创板日报》12日讯,根据TechInsights的报告,2023年全球半导体行业的研发支出中,约有62%来自总部位于美洲地区的公司,且这些公司几乎全部位于美国本土,其中英特尔的贡献尤为显著,占比达到16%,去年研发支出为160亿美元。总体来看,在2023年研发支出最多的十家半导体公司中,有六家来自美国,两家来自中国台湾地区,一家来自韩国,还有一家来自欧洲。2023年亚太地区公司(包括晶圆代工厂、无晶圆芯片供应商以及IDM)的半导体研发支出约占全球总额的24%,紧随其后的是欧洲供应商,他们的研发支出约占行业总支出的8%,而日本则占据了6%的份额。

 

 

 

2.       本周话题——AI芯片

AI 芯片,是在 CPU 等传统芯片的基础上,针对 AI 算法(以深度学习为代表的机器学习算法)做了特殊加速设计的芯片,换言之,是牺牲了一定的通用性,换取了芯片在海量数据并行计算方面的效率提升。

AI 芯片根据其技术架构,可分为 GPU、FPGA、ASIC 及类脑芯片,同时 CPU 可执行通用 AI 计算。相较于传统的中央处理器(CPU),GPU 具有并行计算、高效能和高并发等优势,因此在人工智能、机器学习、数据挖掘等领域得到广泛应用。

AI 芯片根据其在网络中的位置可以分为云端 AI 芯片、边缘及终端 AI 芯片;根据其在实践中的目标,可分为训练芯片和推理芯片。

AI芯片分类

img1

资料来源:艾瑞咨询,方正证券研究所

云端主要部署训练芯片和推理芯片,承担训练和推理任务,具体指智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。其中应用在云端和边缘计算服务器上的 AI 芯片是以 GPU 为代表的强通用性芯片,而终端 AI 芯片更多是将 AI 功能模块结合 CPU、GPU、ISP 等模块融合进 SoC 中,并针对语音识别、人脸识别等不同的应用场景完成定制化设计,同时需要做好性能与功耗的平衡。

广义上讲只要能够运行人工智能算法的芯片都叫做 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。AI 芯片也被称为 AI 加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由 CPU 负责)。

第一阶段:因为芯片算力不足,所以神经网络没有受到重视。第二阶段:通用芯片 CPU 的算力大幅提升,但仍然无法满足神经网络的需求。第三阶段:GPU 和新架构的 AI 芯片推进人工智能落地。

AI芯片发展阶段

img2

资料来源:公开数据整理,图源网络,嘉世咨询

释放算力的价值对国家整体经济发展将发挥推动作用。计算力指数每提高 1 点,数字经济和 GDP 将分别增长 3.5‰和 1.8‰。可见,国家计算力指数越高,对经济的拉动作用越强。2021-2026 年期间,预计中国智能算力规模年复合增长率达 52.3%,同期通用算力规模年复合增长率为 18.5%。

 

主要分类:

技术层面:AI 芯片分为 GPU、FPGA、ASIC 和 NPU 等。GPU 是一种通用型芯片,ASIC 是一种专用型芯片,而FPGA 则处于两者之间,具有半定制化的特点。

主要AI芯片对比

img3

资料来源:亿欧智库,智能计算芯世界,华福证券研究所

(1)GPU:GPU 设计之初用于对图形进行渲染,需要并行处理海量数据,涉及大量矩阵运算。深度学习依赖于数学和统计学计算,所以图形渲染与深度学习有着相似之处,这两种场景都需要处理每秒大量的矩阵乘法运算。GPU 拥有数千个内核的处理器,能够并行执行数百万个数学运算。因此 GPU 完美地与深度学习技术相契合。使用 GPU 做辅助计算,能够更快地提高 AI 的性能。GPU 形成两条分支。传统 GPU:用于图形图像处理,因此内置了一系列专用运算模块,如视频编解码加速引擎、2D 加速引擎、图像渲染等;GPGPU:通用计算图形处理器(general-purpose GPU)。为了更好地支持通用计算,GPGPU 减弱了 GPU 图形显示部分的能力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以实现人工智能、专业计算等加速应用。

大模型的发展,使得算法技术路线逐渐统一于 Transformer 模型,算力芯片技术路线也向适合并行计算的 GPU 收敛。Transformer 架构具有并行计算的能力,可以同时处理输入序列的不同部分。在使用分布式计算和 GPU 并行计算的情况下,Transformer 可以更快地训练和推理大型深度神经网络。大模型需要大算力和大互联,对底层 GPU 支撑规模提出了空前的要求,达到万卡级别。因此,出于对大模型的训练需求,市场选择了 GPU 作为主流的算力芯片。据 IDC,在中国人工智能芯片市场,GPU 占有超过 80%的市场份额。

异构计算仍然是芯片发展趋势之一,CPU+GPU 是人工智能异构计算的主要组合形式。异构计算通过在单一系统中利用不同类型的处理器(如 CPU、GPU、ASIC、FPGA、NPU 等)协同工作,执行特定任务,以优化性能和效率,更高效地利用不同类型的计算资源,满足不同的计算需求。

(2)FPGA:FPGA 是一种半定制、可编程的集成电路,具有模块化和规则化的架构,主要由三部分组成,分别为CLB(可编程逻辑块)、I/O(输入输出单元)和内部连接线,用户可以通过更新 FPGA 配置文件来定义这些门电路及存储器之间的连线,以达到重构的目的。相较于 CPU 和 GPU,FPGA 在灵活性、功耗和时延等方面具备优势,能够在较低的功耗下达到 GFLOPS 数量级的算力,在人工智能算法不断迭代的情况下,FPGA 的特性能较好地满足 AI 的运算需求。

FPGA内部结构

img4

资料来源:信达证券

(3)       ASIC:ASIC 是指针对特定用户要求和特定电子系统的需要而设计的集成电路,相较于通用型芯片在性能、功耗上具备优势。与 FPGA 相比,ASIC 专用度较高、计算效率更好,在开发流程中,ASIC 的非重复成本较高,但随着规模化量产的实现,单个芯片的成本会随着产量的增加而降低,具备批量生产的成本优势。因此,在技术、算法尚未成熟阶段,FPGA 架构灵活改变芯片功能,有利于降低成本和风险;而随着技术、算法的普及,ASIC 更具备竞争优势。

 

应用层面:根据用途,AI 芯片分为“训练(Training)”芯片和“推理(Inference)”芯片。“训练芯片”主要用于人工智能算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片”主要用于人工智能算法推理,利用训练好的模型,使用新数据推理出各种结论,即借助现有神经网络模型进行运算,利用新的输入数据来一次性获得正确结论的过程。

训练芯片和推理芯片

img5

资料来源:光大证券

根据 AI 芯片的应用场景,又可分为云端(云)、边缘端(边)和终端(端)和三种,云、边、端三种场景对芯片的算力和功耗有着不同的要求,单一芯片难以满足实际应用的需求。不同用途(训练/推理)、不同应用场景(端-边-云)对 AI 芯片有着不同的要求。首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。“端-边-云”三个环节对 AI 芯片的有不同的要求。

AI芯片应用场景分类

img6

资料来源:信达证券

(1)云端:追求高性能和高算力芯片。当前,大多数 AI 训练和推理工作负载都在云端进行,云端仍是 AI 的中心。AI 服务器具有超高计算性能,是 AI 应用的核心基础设施,根据 TrendForce 数据,2023 年全球 AI 服务器出货量近 120 万台,同比增长约 38%,预计 2024 年将达 150 万台。由于云端需要对巨量、复杂的数据进行运算,对于 AI 芯片的性能和算力要求较高,当前 AI 服务器主要采用 GPU 方案,而与此同时 ASIC、FPGA、NPU 等非 GPU芯片也在不断迭代以满足需求。

(2)终端:产品多样化催生大量需求。终端 AI 芯片追求以低功耗完成推理任务,以实际落地场景需求为导向,在能耗/算力/时延/成本等方面存在差异。终端 AI 芯片主要应用在消费电子、智能驾驶、智能家居和智慧安防等领域,随着终端产品类型增加和出货量的增长,催生了大量芯片需求。与此同时,终端 AI 芯片直接面向下游产品,往往以实际需求为导向,对芯片的性能与成本有更高的要求。

(3)边缘端:边缘数据积累逐渐增多。边缘 AI 芯片介于终端与云端之间,承接低时延/高隐私要求/高网络带宽占用的推理或训练任务。边缘AI 芯片的算力要比终端更强,通常都是独立解决问题,且有用丰富的外设,强调信息的可获得性。在AI 算法的驱动下,边缘 AI 芯片不仅能自主进行逻辑分析与运算,还能动态实时进行自我优化、调整策略。建立在边缘的数据分析和处理能够分担云端的压力,大幅提升效率和降低成本。随着全球智能化、数据化的迅速发展,带来了数据的指数级增长,大量的数据在边缘端积累,预计随着数据量的进一步提升,边缘端 AI 芯片的需求会进一步增长,对芯片的性能也将提出更高要求。

 

产业链分析:

AI 芯片产业链上游为硅片、光刻胶、溅射靶材、电子特气等半导体材料和单晶炉、PVD、光刻设备、检测设备等设备;中游为 AI 芯片产品制造,包括设计、制造、封装、测试等环节;下游为云计算、智慧医疗、智能穿戴、智能手机、智能机器人、无人驾驶等应用领域。

1、半导体材料:AI 算力依赖硬件驱动,带动芯片需求增长从而带动半导体材料增长。半导体材料作为芯片的基石,受益于人工智能的需求拉动,半导体材料市场规模呈现整体向上的态势。半导体材料包括:硅片、溅射靶材、CMP 抛光液和抛光垫、光刻胶、高纯化学试剂、电子气体、化合物半导体、封装基板、引线框架、陶瓷封装体、键合金属线等。

半导体材料

img7

资料来源:国海证券

AI 芯片作为专门用于处理人工智能应用中的大量计算任务的模块,其制造和构建离不开半导体材料作为基础。近年来,随着国内半导体材料厂商不断提升半导体产品技术水平和研发能力,中国半导体材料国产化进程加速。中商产业研究院发布的《2024-2029 年中国半导体材料专题研究及发展前景预测评估报告》显示,2023 年中国大陆半导体材料市场规模约为 979 亿元。中商产业研究院分析师预测,2024年中国大陆半导体材料市场规模将达 1011 亿元。        

(1)硅片硅片是生产集成电路、分立器件、传感器等半导体产品的关键材料,是半导体产业链基础性的一环。受益于通信、计算机、消费电子等应用领域需求带动,我国半导体硅片市场规模不断增长。中商产业研究院发布的《2024-2029 全球与中国半导体硅片市场现状及未来发展趋势》显示,2022 年中国半导体硅片市场规模达到 138.28 亿元,较上年增长 16.07%,2023 年约为 164.85 亿元。中商产业研究院分析师预测,2024 年中国半导体硅片市场规模将增至 189.37 亿元。硅片环节重点企业包括有研新材、华天科技、晶盛机电、沪硅产业、中环股份、立昂微等。

(2)光刻胶目前,随着下游需求的逐渐扩大,我国光刻胶市场规模显著增长。中商产业研究院发布的《2024-2029全球及中国光刻胶和光刻胶辅助材料行业发展现状调研及投资前景分析报告》显示,我国光刻胶 2022年市场规模约为 98.6 亿元,同比增长 5.68%,2023 年约为 109.2 亿元。中商产业研究院分析师预测,2024 年我国光刻胶市场规模可达 114.4 亿元。光刻胶重点企业包括大族激光、圣泉集团、安泰科技、容大感光、广信材料、雅克科技、晶瑞电材、彤程新材等。

(3)溅射靶材溅射靶材是指一种用溅射沉积或薄膜沉积技术制造薄膜的材料。中商产业研究院发布的《2024-2029 中国靶材市场现状及未来发展趋势》显示,2022 年中国靶材市场规模达到 395 亿元,同比增长 6.76%,2023 年市场规模约为 431 亿元。中商产业研究院分析师预测,2024 年中国靶材行业市场规模将达到476 亿元。溅射靶材重点企业包括阿石创、有研新材、江丰电子、新疆众和、光智科技等。

(4)电子特气近年来,中国电子特种气体市场规模持续增长。中商产业研究院发布的《2024-2029 年中国电子特气专题研究及发展前景预测评估报告》显示,2022 年电子特种气体市场规模 220.8 亿元,同比增长 12.77%。我国电子特气市场规模的增长率明显高于全球电子特气增长率,未来有较大发展空间。中商产业研究院分析师预测,2024 年中国电子特气市场规模将超过 250 亿元。

2、半导体设备:半导体设备包含单晶炉、光刻设备、PVD 设备及检测设备等。单晶炉重点企业包括晶盛机电、华盛天龙、北方华创、晶科能源、晶澳科技、捷佳伟创等;光刻设备重点企业包括上海微电子、中电科 45 所、沈阳芯源、芯碁微装、电科数字、旭光电子等。

半导体设备是 AI 芯片的基础和基石,为 AI 芯片的制造提供了必要的工和技术支持。中商产业研究院发布的《2024-2029 年中国半导体设备行业市场供需趋势及发展战略研究预测报告》显示,2023 年中国半导体设备市场规模约为 2190.24 亿元,占全球市场份额的 35%。中商产业研究院分析师预测,2024 年中国半导体设备市场规模将达 2300 亿元。

3、HBM:AI 服务器存储容量倍增,带动存储器需求成长。据 TrendForce,AI 服务器需要配置更多 DRAM、SSD 和 HBM 等大容量存储以应对日益复杂的大模型所带来的海量数据。当前普通服务器 DRAM 普遍配置约为 500 至 600GB,而 AI 服务器 DRAM 配置可达 1.2 至 1.7TB,是普通服务器的二到三倍。此外,相较于一般服务器而言,AI 服务器多增加 GPGPU 的使用,因此以 NVIDIA A100 80GB 配置 4 或 8 张计算,HBM 用量约为 320~640GB。未来在 AI 模型逐渐复杂化的趋势下,将刺激更多的存储器用量,并同步带动 ServerDRAM、SSD 以及 HBM 的需求成长。

普通服务器与AI服务器对比

img8

资料来源:中航证券

HBM 解决 GPU 内存危机。处理器的性能按照摩尔定律规划的路线不断飙升,内存所使用的 DRAM 却从工艺演进中获益很少,性能提升速度远慢于处理器速度,造成了 DRAM 的性能成为制约计算机性能的一个重要瓶颈,即所谓的“内存墙”。HBM 成为增加存储器带宽的路径之一,以解决大数据时代下的“内存墙”问题。

主流用于大模型训练的 AI 芯片,其显存方案跟随 HBM 技术的提升而演进,向更高带宽的方向发展。英伟达的 A100 和 AMD MI200 均采用 HBM2e 方案,而英伟达最新一代的 H100 芯片则采用 SK 海力士的 HBM3 方案,AMD 发布的 MI300X 采用 192GB 的 HBM3 内存方案,带宽最高可达 H100 的 1.6倍。

HBM 价值量显著高于标准 DRAM,成为新利润增长点。芯片咨询公司 SemiAnalysis 表示,HBM 的价格大约是标准 DRAM 芯片的五倍,为制造商带来了更大的总利润。目前,HBM 占全球内存收入的比例不到 5%,但 SemiAnalysis 预计到 2026 年将占到总收入的 20%以上。SK 海力士首席财务官KimWoo-hyun 在 4 月份的财报电话会议上表示预计 2023 年 HBM 收入将同比增长 50%以上。

韩系存储供应商积极扩产,主导 HBM 市场。根据 TrendForce,2022 年三大原厂 HBM 市占率分别为SK 海力士约 50%、三星约 40%、美光约 10%。高阶深度学习 AIGPU 的规格也在刺激 HBM 产品更迭,2023 下半年伴随 NVIDIA H100 与 AMD MI300 的搭载,三大原厂也已规划相对应规格 HBM3 的量产。SK 海力士作为目前唯一量产新世代 HBM3 产品的供应商,其整体市占率有望提升至 53%,而三星、美光则预计陆续在 2023 年底至 2024 年量产,市占率分别为 38%及 9%。基于各原厂积极扩产的策略,HBM 供需比有望获改善,预估将从 2023 年的-2.4%,转为 0.6%。

4、先进封装:异构集成,即横向和纵向连接多个半导体,可将更多的晶体管装在一个更小的半导体上,准确地说是在更小的半导体封装内,从而提供比其各部分之和更大的功用。CPU+GPU 是人工智能异构计算的主要组合形式,英伟达的 GraceHopper 超级芯片通过异构集成 CPU、GPU 以及存储器,实现芯片更高带宽的互连,能够承担更大的数据集、更复杂的模型和新的工作负载。

 先进封装技术充当着半导体器件与系统之间的桥梁,是实现异构集成的关键技术,因此,这种连接方法变得越来越重要。先进封装技术本身已成为一种系统解决方案,半导体头部设计、制造商均通过此方法,在摩尔定律放缓的时代,从系统层面继续提升芯片性能。

随着封装技术的发展,近十年中,重新分配层(RDL)、倒片封装(FlipChip)和硅穿孔(TSV)等封装技术得到了积极广泛的应用,在硅晶圆或芯片堆叠结构晶圆中进行工艺处理,大幅提高了产品的性能和容量。SK 海力士凭借业界领先的 TSV 堆叠技术引领了市场发展,这其中包括 HBM 封装存储器解决方案,以及用于服务器的高密度存储器(HDM)三维堆叠技术。同时,海力士持续迭代封装技术,研发了批量回流模制底部填充、混合键合、扇出型晶圆级封装等技术,以进一步提升了 HBM 的堆叠层数。

 

竞争格局:

在 AI 芯片领域,国外芯片巨头占据了大部分市场份额。全球范围内主要布局人工智能芯片的厂商有Intel、NVIDIA、Qualcomm、Google 等。美国的巨头企业,凭借着多年在芯片领域的领先地位,迅速切入 AI 领域并积极布局,目前已经成为该产业的引领者。

我国 AI 芯片产业起步较晚,技术上与世界先进水平也还存在着较大的差距。国内 AI 芯片市场也较为分散,集中度低。随着数字经济的兴起,人工智能已经深入渗透到各个行业,特别是在互联网等科技公司中更为普及。这些公司对于计算机软件技术和存储设备的要求极高,因此对于底层技术的布局和提升更为重视,尤其是在人工智能芯片领域。

从竞争格局来看,在不同的应用场景之下,已经形成了不同的 AI 芯片竞争格局。在云和数据中心 AI芯片市场,“训练”和“推理”两个环节都是英伟达 GPU 一家独大。在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现:手机市场以高通、华为、苹果原主控芯片厂商为主,自动驾驶、安防 IPC 领域英伟达暂时领先。近年来,国内也出现了寒武纪、百度、地平线等优质本土厂商发力布局相关产品。

不同应用中AI芯片竞争格局

img9

行业现状:

在全球生成式人工智能浪潮带动下,国产大模型也不断取得技术进展,部分企业在能力上已经可以与海外主流模型实现对标。国产大模型技术的迭代和访问调用量的增加,对应了训练端更大规模算力硬件集群的采购需求,以及推理端的逐步扩容。受到贸易摩擦影响,海外核心云端 AI 芯片进入大陆市场受限,国产替代迫切性高。尽管当下国产云端 AI 芯片在硬件性能、系统生态方面与全球领先水平均存在一定差距,但国产化窗口期已至,行业有望于年内迎来重要商业化落地转折点。

相比云端 AI 芯片需要兼具训练和推理性能,边缘 AI 芯片则更多承担推理任务,其主要存在形式是作为AI SoC 嵌入终端设备,因此性能上更加追求在算力、功耗和成本等多方面的综合表现。目前,边缘 AI芯片正越来越多地应用在非消费类设备和场合,比如智能安防、ADAS/自动驾驶、智能家居、可穿戴智能设备,以及商业和工业场合的 AI 应用(智能交通、智慧城市、工厂机器视觉、机器人和 AGV 等)。边缘 AI 芯片也将迎来蓬勃发展。据德芯半导体援引 Gartner 统计,2022 年中国边缘 AI 芯片市场规模约为 49.9 亿美元,预计到 2025 年,中国边缘 AI 芯片市场规模将增长到 110.3 亿美元,较 2022 年增长 121%。

芯片制程通过改变单位面积晶体管密度影响芯片的算力和性能表现。制程原意为单个晶体管的栅极长度,而后伴随技术逐渐逼近物理极限,制程与栅长不再一一对应,成为代表技术迭代的约定俗成的说法。一般而言,制程节点越小,晶体管尺寸越小,芯片制程的迭代意味着单位面积晶体管密度的提升,而后者对于提升芯片性能、降低能耗较为关键。从 Volta 架构对应的单 Die 12nm 制程与 211 亿晶体管数量到最新发布的 Blackwell 架构下单 Die 台积电 4NP 制程与 1040 亿晶体管数量,英伟达 GPU 制程的持续优化有助于其保持产品竞争力。

芯片微架构决定了数据计算方式、存储方式及流向,不同微架构设计会对 GPU 最终性能产生较大影响。例如:英伟达持续的架构升级带来了单芯片的性能领先:从最初的 Fermi,到 Ampere 架构,再到Hopper 架构,通过引入 CUDA 统一编程计算平台、GPU Boost 动态提速技术、RT 核心和 Tensor 核心等技术,使得公司 GPU 产品每一阶段的存算性能及能效比均呈现提升,在图形渲染、科学计算和深度学习等领域构筑了产品护城河。英伟达能够持续、快速迭代产品的关键在于其过去积累已久的产品研发经验,以及在服务客户过程中对 AI 运算需求的理解带来的先发优势。

 

大陆相关企业:

海光信息:

海光信息新一代 DCU(GPGPU)深算二号已经发布实现商用,可用于大模型训练。深算三号研发顺利,公司产品持续迭代。中科曙光作为国产服务器龙头,是公司的第一大股东,有望充分受益中科系软硬件的赋能。海光信息除了 CPU 产品实力出众外,其 DCU 产品也性能、生态优异。公司 DCU 第一代产品深算一号于 2022 年实现了商业化应用,可以用于大模型的训练,主要客户是智算中心等“新基建”项目、行业用户、AI 厂商及互联网企业。海光与百度、阿里等头部互联网厂商推出联合方案,打造全国产软硬件一体全栈 AI 基础设施。另外,海光 DCU 深算二号已于 2023 年 Q3 发布,并实现在大数据处理、人工智能、商业计算等领域的商用。同时,深算三号研发进展顺利。海光信息 DCU(GPGPU)“类 CUDA”生态优异,工具链完整。CUDA 被称为英伟达最深的护城河。而海光 DCU(GPGPU)脱胎于 AMD,兼容主流生态:开源 ROCm(类 CUDA)GPU 计算生态,支持TensorFlow、Pytorch 和 PaddlePaddle 等主流深度学习框架、适配主流应用软件。现有 CUDA 上运行的应用可以低成本迁移到基于 ROCm 的海光平台上运行。

 

寒武纪

云端 AI 推理,高能效比国产芯片。思元 270 集成了寒武纪在处理器架构领域的一系列创新性技术,处理非稀疏人工智能模型的理论峰值性能提升至上一代思元 100 的 4 倍,达到 128TOPS(INT8);同时兼容 INT4 和 INT16 运算,理论峰值分别达到 256TOPS 和 64TOPS;支持浮点运算和混合精度运算。思元 270 采用寒武纪 MLUv02 架构,可支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,更为视觉应用集成了充裕的视频和图像编解码硬件单元。推理卡研发迭代,性能持续提升。思元 370 是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片,集成了390 亿个晶体管,最大算力高达 256TOPS(INT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。思元 370 也是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元 370 芯片提供高效协同能力。

 

免责声明:本文章不涉及投资建议,仅供分享观点所用。

参考资料:

嘉世咨询:2023AI 芯片行业发展简析报告

华福证券:服务器行业深度报告:AI 和“东数西算”双轮驱动,服务器再起航

光大证券:电子行业 2024 年投资策略:中华有为,芯芯向荣

国海证券:NVIDIA B200 再创算力奇迹,液冷、光模块持续革新

中航证券:科技行业专题研究:AI 智算时代已至,算力芯片加速升级

信达证券:AIGC 推动 AI 产业化由软件向硬件切换,半导体AI 生态逐渐清晰

方正证券:曙光数创:数据中心基础设施液冷行业领先,持续受益于 AI 等算力扩张