半导体周报0128-半导体之GPU

创建时间:2024-01-29 08:33

半导体周报-0128

一、行业新闻及动态

1、半导体设计:

《科创板日报》18日讯,台积电在次世代MRAM存储器相关技术传捷报,携手工研院开发出自旋轨道转矩磁性存储器(SOT-MRAM)阵列芯片,搭配创新的运算架构,功耗仅其他类似技术的1%。台积电已经成功开发出22纳米、16/12纳米制程等相关MRAM产品线,并手握存储器、车用等市场订单,抢占MRAM商机。

 

2、半导体制造及封测:

《科创板日报》19日讯,业内消息人士称,三星电子已开始使用第二代3nm工艺生产芯片原型。目前正在测试该芯片的性能和可靠性,三星的目标是在未来六个月内实现3nm第二代工艺良率超过60%。第一款采用三星第二代3nm工艺的芯片预计将是可穿戴设备AP(应用处理器),终端应用包括计划于今年晚些时候发布的Galaxy Watch 7;未来三星还计划将该工艺应用到Exynos 2500中,用于Galaxy S25。

 

财联社1月15日电,据韩媒报道,韩国芯片巨头SK海力士准备打破美国对华极紫外(EUV)光刻机出口相关限制,对其中国半导体工厂进行技术提升改造。这被外界解读为,随着半导体市场的复苏以及中国高性能半导体制造能力提升,一些韩国芯片企业准备采取一切可以使用的方法来提高在华工厂制造工艺水平。

 

财联社1月15日电,据韩国产业部声明,韩国计划要在首尔附近建设世界上最大的半导体产业集群,到2047年将投资总计622万亿韩元,建立16座芯片工厂。三星电子将在龙仁芯片厂投资360万亿韩元,在平泽的系统和芯片厂投资120万亿韩元,在器兴的内存研发工厂投资20万亿韩元。SK海力士将在龙仁投资122万亿韩元生产内存芯片。该集群将生产HBM、PIM和其他尖端芯片,总产能估计为每月770万片晶圆,到2027年将建成3座生产厂和2座研发厂。

 

 

《科创板日报》17日讯,半导体设备业者表示,据估算,台积电先前崩跌最快最严重的8寸厂,2024年1~2月平均产能利用率已回到70~80%,12寸也重返八成大关。28纳米已回到正常水平,过去一年半跌破五成的7/6纳米制程,则拉升至75%,5/4纳米家族更是超乎预期逼近100%满载,代工报价近2万美元的3纳米制程1月已超过七成,首季估将达逾85%。台积电7纳米以下制程目前占营收比重近六成,且随着5/3纳米拉升,比重将进一步增。由2023年第四季业绩持续成长,以及设备材料拉货力道增强来看,2024年首季营收减幅应可维持在5~7%上下。

 

3、其他:

《科创板日报》18日讯,研究机构TechInsights表示,2023年全球半导体行业资本支出约为1600亿美元,相比2022年明显下滑。预计2024年资本支出将小幅回升,超过1600美元。其中,2023年半导体设备支出约为1334亿美元,同比下滑2.8%;预计2024年将增长3.4%至1379亿美元。

 

二、本周话题——逻辑芯片之GPU

        GPU 是显卡最核心的部件。显卡(显示接口卡),负责把 CPU送来的影像数据(显示信号)处理成显示器可以认知的格式(一般电器信号),再送到显示屏上形成影像。GPU 就是显卡的核心,决定如何处理屏幕上的每个像素点。显卡里除了 GPU 外,还有散热器、通讯元件、与主板和显示器连接的各类插槽。

CPU-GPU异构架构

图示

描述已自动生成

资料来源:英伟达,CSDN,中信建投

        GPU的核心功能一:图形渲染GPU 将 3D 图形映射到相应的像素点上,对每个像素进行计算,确定最终颜色并完成输出。其中工作内容包括:1)顶点处理,GPU 读取描述 3D 图形外观的顶点数据,并根据顶点数据确定 3D 图形的形状及位置,建立 3D 图形骨架。2)光栅化,显示器实际显示的图像是由像素点组成的。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如,把一条线段转化为阶梯状的连续像素点。3)纹理贴图,顶点单元生成的多边形只构成了 3D 物体的外轮廓,纹理贴图将多边形的表面贴上相应的图片,从而生成完整的 3D 图形。4)最终输出,由 ROP(光栅化引擎)最终完成像素的输出,1 帧图像渲染完毕后,被送到显存帧缓冲区。

渲染流程操作

图表

描述已自动生成

资料来源:OpenGenus,Vmware,中信建投

        GPU的核心功能二:通用计算2003年,GPGPU基于GPU的通用计算的概念首次被提出,意指利用GPU的计算能力在非图形处理领域进行更通用、更广泛的科学计算。GPGPU概念的提出,为GPU更为广泛的应用开拓了思路,GPGPU在传统GPU的基础上进行了优化设计,部分GPGPU会去除GPU中负责图形处理加速的硬件组成,使之更适合高性能并行计算。

        GPGPU在数据中心被广泛地应用在人工智能和高性能计算、数据分析等领域。GPGPU的并行处理结构非常适合人工智能计算,人工智能计算精度需求往往不高,INT8、FP16、FP32往往可以满足大部分人工智能计算。GPGPU同时可以提供FP64的高精度计算,使得GPGPU适合信号处理、三维医学成像、雷达成像等高性能计算场景。

GPU与GPGPU的差异

图片包含 图示

描述已自动生成

资料来源:CSDN,英伟达官网,中信建投

 

GPUCPU 比较:

        GPU相较于CPU并行计算能力更强CPU当中运算单元占据面积相对较小。CPU硬件设计过程中为了实现低延迟增加了存储单元和控制单元的复杂度,运算单元GPU中占据面积相对较小,以Intel Core i7 3960X为例,其运算单元面积(6*21.4 mm2)大致占总芯片面积(435 mm2)30%。CPU的并行计算能力相对较弱。CPU通过指令级并行、数据级并行也可以提升其并行计算能力,但是带来的提升也是有限的。单核CPU性能逐步逼近物理极限。由于CPU受到“能耗墙”的限制,CPU主频难以持续提升,单核CPU性能逐步逼近物理极限,采用多核CPU的策略一定程度缓解了CPU性能提升的制约,当前大数据和人工智能带来了海量的数据,CPU已经无法跟上多源异构数据的爆炸性增长。

        GPU具有数量众多的运算单元,采用极简的流水线进行设计,适合计算密集、易于并行的程序。CPU的运算单元数目相对较少,单一运算核心的运算能力更强,采用分支预测、寄存器重命名、乱序执行等复杂的处理器设计,适合相对复杂的串行运算。GPU设计过程中侧重吞吐优化,具备强大的内存访问带宽。CPU设计过程中侧重时延优化,包含复杂的多级缓存(L1/L2/L3)和逻辑控制单元。CPU承担运算核心和控制中心的地位,GPU一般作为协处理器负责图形渲染和并行计算。

GPU和CPU的区别

图形用户界面, 文本, 应用程序

描述已自动生成

资料来源:英伟达,中信建投

 

GPU 微架构

        GPU微架构(Micro Architecture)是兼容特定指令集的物理电路构成,由流处理器、纹理映射单元、光栅化处理单元、光线追踪核心、张量核心、缓存等部件共同组成。图形渲染过程中的图形函数主要用于绘制各种图形及像素、实现光影处理、3D坐标变换等过程,期间涉及大量同类型数据的密集、独立的数值计算,而GPU结构中众多重复的计算单元就是为适应于此类特点的数据运算而设计的。

        微架构的设计对GPU性能的提升发挥着至关重要的作用,也是GPU研发过程中最关键的技术壁垒。微架构设计影响到芯片的最高频率、一定频率下的运算能力、一定工艺下的能耗水平。英伟达H100相比于A100,1.2倍的性能提升来自于核心数目的提升,5.2倍的性能提升来自于微架构的设计。

英伟达Ada AD102 GPU架构

电脑游戏画面

中度可信度描述已自动生成

资料来源:英伟达官网,中信建投

硬件构成:

        流处理器(Stream Processor):是GPU内基本运算单元,通常由整点运算部分和浮点运算部分共同组成,称为SP单元,从编程角度出, 也将其称为CUDA核心。流处理器是DirectX10后引入的一种统一渲染架构,综合了顶点处理(Vertex Pipelines)和像素处理Pixel Pipelines)的渲染任务,流处理器的数量和显卡性能密切相关。

        纹理映射单元(Texture Mapping Unit, TMU):作为GPU中的独立部件,能够旋转、调整和扭曲位图图像(执行纹理采样),将纹理信息填充在给定3D模型上。

        光栅化处理单元(Raster Operations Units,ROPs):依照透视关系,将整个可视空间从三维立体形态压到二维平面内。流处理器和纹理映射单元分别把渲染好的像素信息和剪裁好的纹理材质递交给处于GPU后端的光栅化处理单元,将二者混合填充为最终画面输出,此外游戏中雾化、景深、动态模糊和抗锯齿等后处理特效也是由光栅化处理单元完成的。

英伟达Turing的微架构单元

图表, 树状图

描述已自动生成

资料来源:英伟达官网,中信建投

        光线追踪核心(RT Core):是一种补充性的渲染技术,主要通过计算光和渲染物体之间的反应得到正确的反射、折射、阴影即全局照明等结果,渲染出逼真的模拟场景和场景内对象的光照情况。通过采样BVH算法,用来计算射线(光线、声波)与物体三角形求交,与传统硬件相比,RT Core可以实现几何数量级的BVH计算效率提升,让实时光线追踪成为可能。

        张量核心(Tensor Core):张量核心可以提升GPU的渲染效果同时增强AI计算能力。张量核心通过深度学习超级采样DLSS)提高渲染的清晰度、分辨率和游戏帧速率,同时对渲染画面进行降噪处理以实时清理和校正光线追踪核心渲染的画面,提升整体渲染效果。同时张量核心通过低精度混合运算,极大加速了AI运算速度,让计算机视觉、自然语言处理、语言识别和文字转化、个性化推荐等过去CPU难以实现的功能也得以高速完成。

 

GPU与人工智能

        自然语言大模型参数巨量化是行业发展趋势所向。ChatGPT为代表的人工智能模型表现出高度的智能化和拟人化,背后的因素在于自然语言大模型表现出来的涌现能力和泛化能力,模型参数到达千亿量级后,可能呈现性能的跨越式提升,称之为涌现能力;在零样本或者少样品学习情景下,模型仍表现较强的迁移学习能力,称之为泛化能力。

        预训练大模型进入千亿参数时代,模型训练算力需求迈上新台阶。自GPT-3模型之后,大规模的自然语言模型进入了千亿参数时代,2021年之后涌现出诸多千亿规模的自然语言模型,模型的训练算力显著增加。ChatGPT模型参数量为1750亿,训练算力需求为3.14*1023 flops,当前各种预训练语言模型还在快速的更新迭代,不断刷新自然语言处理任务的表现记录,单一模型的训练算力需求也不断突破新高。

预训练自然语言大模型的算力需求

图表, 条形图, 直方图

描述已自动生成

资料来源:stateof AI 2022,Language Models are Few-Shot Learners,中信建投

        

大模型的算力需求主要来自于三个环节:

        1预训练得到大模型的训练环节。该环节中,算力呈现海量需求且集中训练的特点,大模型通常在数天到数周内在云端完成训练。模型的训练算力与模型参数量、训练数据量有关,以ChatGPT的训练为例,单次模型训练需要2000张英伟达A100显卡不间断训练27天。

        2适应下游领域时进一步fine-tune环节。算力需求取决于模型的泛化能力以及下游任务的难度情况。

        3大模型日常运行时的推理环节。大模型的日常运行中每一次用户调用都需要一定的算力和带宽作为支撑,单次推理的计算量为2NN为模型参数量),例如1750亿参数的ChatGPT模型1k tokens的推理运算量为2*1750*108*103=3.5*1014 flops=350 Tflops。大模型在融入搜索引擎或以app形式提供其他商业化服务过程中,其AI芯片需求将得到进一步的显著拉动。

大模型的算力需求

图示

描述已自动生成

资料来源:similarweb,中信建投

        AI芯片 (GPU/FPGA/ASIC) 在云端同时承担人工智能“训练”和“推断”过程,在终端主要承担“推断”过程,从性能与成本来看ASIC最优。ASIC作为专用芯片,算力与功耗在通用芯片GPU具有绝对优势,但开发周期较长,落地较慢需一定规模后才能体现成本优势。FPGA可以看做从GPU到ASIC重点过渡方案。相对于GPU可深入到硬件级优化,相比ASIC在算法不断迭代演进情况下更具灵活性,且开发时间更短。

        GPU仍将是主流: 1、Transformer架构是最近几年的主流,该架构最大的特点之一就是能够利用分布式GPU进行并行训练,提升模型训练效率;2、ASIC的算力与功耗虽然看似有优势,但考虑到AI算法还是处于一个不断发展演进的过程用专用芯片部署会面临着未来算法更迭导致芯片不适配的巨大风险:3、英伟达强大的芯片支撑、生态、算法开源支持。

 

主要的三类AI芯片

图形用户界面

中度可信度描述已自动生成

资料来源:华金证券研究所整理

        根据Omdia数据,2019年全球人工智能服务器市场规模为23亿美金,2026年将达到376亿美金,CAGR为49%。根据IDC数据,2020年中国数据中心用于AI推理的芯片的市场份额已经超过50%,预计到2025年,用于AI推理的工作负载的芯片将达到60.8%。

全球人工智能芯片市场规模(亿美金)

图表, 条形图

描述已自动生成

资料来源:Omdia,中信建投        

 

人工智能服务器工作负载预测

图表, 条形图

描述已自动生成

资料来源:Omdia,中信建投        

        人工智能服务器通常选用CPU与加速芯片组合来满足高算力要求,常用的加速芯片有GPU、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。GPU凭借其强大的并行运算能力、深度学习能力、极强的通用性和成熟的软件生态,成为数据中心加速的首选,90%左右的AI服务器采用GPU作为加速芯片。

人工智能服务器加速芯片类型

图表, 条形图

描述已自动生成

资料来源:Omdia,IDC,中信建投

        GPGPU在高性能计算领域渗透率不断提升。在高性能计算领域,CPU+GPU异构协同计算架构得到越来越多的应用,全球算力500的超级计算机中,有170套系统采用了异构协同计算架构,其中超过90%以上的加速芯片选择了英伟达的GPGPU芯片。

        GPU在超算服务器中的市场规模保持稳定增长。根据Hyperion Research数据,全球超算服务器的市场规模将从2020年的135亿美金上升到2025年的199亿美金,按照GPU在超算服务器中成本占比为27.3%核算,GPU在超算服务器中的市场规模将2020年的37亿上升至2025年的54亿美金,CAGR为8%。

GPU在超算中的市场规模(亿美元)

图表, 条形图

描述已自动生成

资料来源:top500.org,IDC,中信建投

 

GPU在自动驾驶中的应用:

        自动驾驶的完整流程包括感知、决策、控制,自动驾驶域的算法一般也被划分感知算法、融合算法和执行算法三种。随着车辆自动驾驶等级的提升,对于车辆的主动性要求也大幅度提升,自动驾驶算法的难度就在于在所面对场景的多样性和复杂性。由于不依赖人工智能算法实现基于机器的环境感知和规划决策,L1-L2级传统汽车不需要太大的车载算力,因此多采用小算力、微控制器的解决方案。从L2级开始,尤其是L3级以上的自动驾驶汽车需要装备大算力芯片支撑感知、决策算法的高效运行。根据地平线公司的预测,自动驾驶每提高一级,算力就增加一个数量级。L2级别大概需要2个TOPS的算力,L3需要24个TOPS,L4为320TOPS,L5为4000+TOPS。

        自动驾驶GPU市场保持较高高成长性。根据ICV Tank的自动驾驶渗透数据,假设GPU在L2中渗透率15%,在L3-L5中渗透50%,估算得到GPU在自动驾驶领域的市场规模,整体规模将从2020年的7.1亿美元上升至2025年的44亿美金,CAGR为44%。

GPU在自动驾驶领域的市场规模(亿美元)

图表, 条形图

描述已自动生成

资料来源:ICV Tank,Yole,中信建投

 

行业现状:

        根据Verified Market Research的预测,2020年GPU全球市场规模为254亿美金,预计到2028年将达到2465亿美金,行业保持高速增长,CAGR为32.9%,2023年GPU全球市场规模预计为595亿美元。

GPU整体市场规模(亿美金)

图表

描述已自动生成

资料来源:Verified Market Research ,中信建投

        GPU按应用端划分为PC GPU、服务器GPU、智能驾驶GPU、移动端GPU。PC GPU可以进一步划分为独立显卡和集成显卡。

        独立显卡主要用作图形设计和游戏,对性能的要求比较高,主要的厂商包括英伟达和AMD;集成显卡通常用在对图形处理性能需求不高的办公领域,主要产商包括Intel和AMD。服务器GPU通常应用在深度学习、科学计算、视频编解码等多种场景,主要的厂商包括英伟达和AMD,英伟达占主导地位。在自动驾驶领域, GPU通常用于自动驾驶算法的车端AI推理,英伟达占据主导地位。

        

GPU的构成分类和生产厂商

图形用户界面, 应用程序

描述已自动生成

资料来源:Verified Market Research ,中信建投

        从量级上来看,集成显卡的出货量级最大,根据GPU行业调研机构JPR的公布的数据,2021年02,全球GPU出货量高达1.23亿,其中英特尔占据了68.3%的份额,AMD和英伟达分别维16.5%、15.2%。英特尔的高份额主要来源于其CPU和GPU的捆绑销售,即作为集成显卡的形式运行在PC当中。

PC端不同类型显卡出货量情况(百万台)

图表, 折线图

中度可信度描述已自动生成

资料来源:Jon Peddie Research,中信建投

        独立显卡英伟达一家独大:根据GPU行业调研机构Jon Peddie Research(JPR)发布的报告显示,2021年第二季度,全球独立显卡市场销售额达118亿美元,同比增幅达到了179%,预计到2023年,整个市场将达441亿美元。 2021年二季度独立显卡的出货量约为1100万块,比第一季度的1200万块减少了2.9%(台式机市场同期增长1.2%),但对比2020年同期的1000万块大幅增加了13.4%,而同期台式机市场只增长了8.0%。 2021年第二季度的厂商份额方面,NVIDIA达到了80%,其次是AMD。

PC显卡市场市场份额变动(按出货量)

图表, 折线图

描述已自动生成

资料来源:Jon Peddie Research,中信建投

        英伟达在AI芯片市场中占据主导地位根据LIFTR INSIGHTS数据,在大型数据中心的AI加速芯片中,英伟达的GPU占据了超过80%的AI加速芯片市场份额,在Oracle以及腾讯云中,几乎全部采用英伟达的GPU作为计算加速芯片。在整体数据中心加速芯片市场中,英伟达市场份额为82%,占据主导地位。

2022年人工智能加速芯片市场份额

图表, 饼图

描述已自动生成

资料来源:LIFTR INSIGHTS ,中信建投

        国内市场空间广阔,PC、服务器拉动GPU需求。根据Verified Market Research数据,2020年中国GPU市场规模为47.39亿美元,预计2023年中国GPU市场规模将达到111亿美元。中国数字化经济转型持续推进,催生大量对GPU的市场需求,GPU带来广阔的市场空间。伴随着近期宏观经济回暖以及国内互联网企业纷纷加大AI算力布局,PC和服务器的需求上升有望为国内GPU市场带来整体拉动效应。

 

大陆相关企业:

海光信息:

公司的主营业务是研发、设计和销售应用于服务器、工作站等计算、存储设备中的高端处理器。公司的产品包括海光通用处理器(CPU)和海光协处理器(DCU) 。根据我国信息产业发展的实际需要,公司研发出了多款性能达到国际同类型主流高端处理器水平的产品。公司专注于高端处理器的研发、设计与技术创新,掌握了高端处理器核心微结构设计、高端处理器SOC架构设计、处理器安全、处理器验证、高主频与低功耗处理器实现、高端芯片IP设计、先进工艺物理设计、先进封装设计、基础软件等关键技术。秉承“销售一代、验证一代、研发一代”的产品研发策略,公司建立了完善的高端处理器的研发环境和流程,产品性能逐代提升,功能不断丰富,已经研发出可广泛应用于服务器、工作站的高端处理器产品。

 

景嘉微:

公司GPU研发历史悠久,技术积淀深厚。公司成立之初承接神舟八号图形加速任务,为图形处理器设计打下坚实基础;公司2007年自主研发成功VxWorks嵌入式操作系统下M9芯片驱动程序,并解决了该系统下的3D图形处理难题和汉字显示瓶颈,具备了从底层上驾驭图形显控产品的能力。2015年具有完全自主知识产权的GPU芯片JM5400问世,具备高性能、低功耗的特点;此后公司不断缩短研发周期,JM7200在设计和性能上有较大进步,由专用市场走向通用市场;JM9系列定位中高端市场,是一款能满足高端显示和计算需求的的通用型芯片。

 

龙芯中科:

公司主营业务为处理器及配套芯片的研制、销售及服务,主要产品与服务包括处理器及配套芯片产品与基础软硬件解决方案业务。目前,龙芯中科基于信息系统和工控系统两条主线开展产业生态建设,面向网络安全、办公与业务信息化、工控及物联网等领域与合作伙伴保持全面的市场合作,系列产品在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛应用。龙芯中科研制的芯片包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片。

 

 

 

免责声明:本文章不涉及投资建议,仅供分享观点所用。

参考资料:

中信建投:AI大模型浪潮风起,GPU芯片再立潮头

东吴证券:GPU 的那些事儿:关于 GPU 的科普

华金证券:AI产业再加速,智能大时代已开启