半导体周报0505-多模态AI

创建时间:2024-05-06 08:48

半导体周报-0505

一、行业新闻及动态

1、半导体设计:

《科创板日报》17日讯,三星近日宣布已开发出其首款支持高达10.7Gbps的LPDDR5X DRAM,采用12纳米级工艺技术,也是三星现有LPDDR中最小的芯片尺寸,将于今年下半年开始量产。据三星方面介绍,该产品可根据工作负载频率调整和优化供电模式,扩展低功耗模式频段,能效较上一代产品提升25%,同时性能提高25%以上,容量提高30%以上,还将移动DRAM的单封装容量扩展至32GB。三星电子内存业务内存产品规划执行副总裁YongCheol Bae表示,市场对低功耗、高性能内存需求增加,LPDDR DRAM的应用领域有望从主要的移动领域扩展到PC、加速器、服务器和汽车等其他领域,对内存有更高性能和可靠性要求。

 

2、半导体制造及封测:

财联社4月18日电,美国芯片公司英特尔宣布,其代工厂已接收并完成组装业界首台商用高数值孔径(High NA)极紫外(EUV)光刻机。据介绍,这套重达165吨的设备是阿斯麦(ASML)与英特尔合作数十年后开发的新一代光刻设备,现位于俄勒冈州的D1X制造工厂,正在进行最后的校准。

 

《科创板日报》15日讯,据韩国业界消息,韩国半导体巨头三星电子、SK海力士正利用氖气回收技术,以实现可持续发展,并降低成本、减轻供应风险。SK海力士近日宣布与韩国气体供应商TEMC合作,在氖气回收方面取得突破。三星电子也紧随其后,计划在2025年将氖气回收技术整合到其制造工艺当中。氖气用于半导体光刻中激发激光,通过利用装置收集废气,SK海力士与TEMC实现了72.7%的氖气回收率,并计划将效率进一步提升至77%。

 

财联社4月19日电,韩国SK海力士4月18日宣布,近期台积电签署了一份谅解备忘录,双方将合作生产下一代HBM,并通过先进的封装技术提高逻辑和HBM的集成度。该公司计划通过这一举措着手开发HBM4,即HBM系列的第六代产品,预计将于2026年开始量产。两家公司将首先致力于提高安装在HBM封装最底部的基础芯片的性能,并同意合作优化SK海力士的HBM和台积电的CoWoS技术的整合,合作应对客户对HBM的共同要求。

 

《科创板日报》19日讯,英特尔位于美国亚利桑那州的Fab52晶圆厂原定于2024年年底开始商业化生产,但业界近日指出,该工厂很可能难以实现这一目标,预计将在2025年下半年才会量产2nm制程芯片。

 

财联社4月19日电,据晶合集成官微消息,近日,由晶合集成自主研发的40纳米高压工艺代工的OLED显示驱动芯片首次成功点亮面板。该产品提供设计更小尺寸元件,可集成更多功能器件,实现更快响应速度和更低功耗,技术工艺已达国际主流水平。晶合集成40纳米OLED预计于今年第二季度实现小批量量产,将应用于手机终端设备OLED显示屏。伴随OLED在手机市场的比重不断增加,尤其在智能手机渗透率超过50%,晶合集成深度布局,同步正紧锣密鼓进行28纳米OLED技术工艺开发,规划于今年底开始小量投片,联合客户推出新产品。

 

财联社4月18日电,据国民技术消息,4月18日,国民技术第四代可信计算芯片NS350 v32/v33系列产品正式发布并开始量产供货。NS350 v32/v33是一款高安全、高性能、超值可信密码模块2.0 (TCM 2.0)安全芯片,适用于PC、服务器平台和嵌入式系统。

 

3、其他:

《科创板日报》16日讯,半导体行业组织SEMI表示,在2023年中国大陆半导体设备支出约占世界整体的三分之一。2023年全球共计实现1063亿美元的半导体制造设备销售额。按区域划分,中国大陆去年在半导体设备领域投资366亿美元,相较去年增长29%,占比34.43%。

 

《科创板日报》18日讯,据一份文件显示,微软内部计划在2024年将GPU数量增加两倍,目标到2024年末积累180万片AI芯片。两位知情人士透露,从本财年到2027财年,微软预计将在GPU和数据中心上花费约1000亿美元。

 

《科创板日报》19日讯,消息称三星电子于美国硅谷扩大人工智能(AI)芯片设计的研发组织,致力研发采用RISC-V架构的AI芯片,透过差异化的技术挑战当前引领AI半导体市场的英伟达。

 

 

二、本周话题——多模态AI

        多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态,例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。

        多模态向通用人工智能(AGI)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动 AI 迈向 AGI:多模态更符合人类接收、处理和表达信息的方式。人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。

多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。

        目前,多模态大模型已成为大模型发展前沿方向。2022 年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。2017 年,Transformer 模型提出,奠定了当前大模型的主流算法结构;2018 年,基于 Transformer 架构训练的 BERT 模型问世,参数规模首次突破 3 亿;随后 GPT 系列模型推出,2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。例如,2023 年 9 月,OpenAI推出最新多模态大模型 GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。

大模型朝多模态方向发展

图示

描述已自动生成

资料来源:中关村产业研究院、毕马威分析、华福证券

        按照处理的数据类型数量划分,AI 模型可以划分为两类:单模态:只处理 1 种类型数据,如文本等;多模态:处理 2 种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

        多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显

        输入端:提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;提高用户体验:推理侧更低的使用门槛和更少的信息损耗。

        输出端:更实用。可直接生成综合结果,省去多个模型的使用和后期整合;更符合真实世界生产生活需要,从而实现更大商业价值。

主要的多模态大模型类型

表格

描述已自动生成

资料来源:东吴证券研究所

 

研究方向:

        多模态模型五大方向——视觉理解、视觉生成、统一视觉、LLM 支持、多模态 Agent。近期,微软多位研究员联合撰写文章,对多模态模型进行了全面的研究和分类,并关注了模型从专业性向通用性转变的特点。在模型分类中,研究员们将模型研究方向分为两大类五个主题:目前已成熟、完善的研究主题,

包括视觉理解、视觉生成;具备探索性、开放性的前沿研究领域,包括统一视觉模型、受 LLM(大语言模型)支持的多模态大模型以及多模态 agent。

        方向一:视觉理解。 AI 领域,视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使得神经网络的主干架构 backbone 获得强大的图像理解能力。模型训练方法可根据监督信号的不同分为三类:标签监督、语言监督和纯视觉自监督。其中,纯视觉自监督的监督信号来源为图像本身,相关方法有对比学习、非对比学习和掩码图像建模。在这些方法之外,常用的预训练方法还有多模态融合、区域级和像素级图像理解等。

        方向二:视觉生成。这是 AI 图像生成与理解的核心,不仅包括图像生成,还包括视频、3D 点云图等多种内容的生成。视觉生成不仅可以应用于艺术、设计等内容创作领域,它还在合成训练数据方面发挥着巨大作用,从而促进多模态内容理解与生成的闭环发展。视觉生成的重点在于如何生成与人类意图一致的图像,常见的四类相关研究方向为:有空间可控生成、基于文本再编辑、遵循文本提示生成和生成概念定制(concept customization)。当前研究趋势和未来短期研究方向是创建通用的文生图模型,以更好地满足人类意图,并提升上述方向的可替代性。

        方向三:统一视觉模型。构建统一视觉模型具有多重挑战。在计算机视觉领域,各任务的差异很大,这为建立统一的视觉模型带来了巨大挑战:输入类型不同,输入内容可包括静态图形、动态视频、纯视觉输入、模糊图像等;不同的任务需要不同的粒度,如图像级任务、区域级任务、像素级任务等,因此输出的空间信息和语义信息也要求不同的格式;在建模之外,数据也有挑战,比如不同类型的标签注释成本差异很大,收集成本比文本数据高,这导致视觉数据的规模通常比文本语料库小得多。

        未来统一视觉模型是非常有价值的研究方向。CV 领域对于开发通用、统一的视觉系统具有很高的兴趣,实现这一目标的关键研究方向包括:从闭集模型到开集模型,可以更好地将文本和视觉匹配;从特定任务到通用能力,减少新模型/垂直细分模型的开发成本;从静态模型到可提示模型。未来通用视觉模型应具备强大的上下文学习能力,因此 LLM 可以接受不同语言和上下文提示作为输入,并生成用户所需的输出,无需微调。

        方向四:LLM 支持的多模态大模型。该领域的代表作为 OpenAI 的多模态模型 GPT-4V,模型具备较强大的能力:模型具有强大的通用性能力,能够处理不同输入模态的任意组合,包括图像、子图像、文本、场景文本和视觉指针。经过详细测试,研究人员发现 GPT-4V 支持 LLM 中的 test-time 技术,如指令跟随、思维链、上下文少样本学习等。GPT-4V 在多个实验领域表现接近人类水平的能力,包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。

        方向五:多模态 Agent。多模态 Agent 是将不同的多模态专家模型同 LLM 联系起来,进而解决复杂多模态理解问题的办法,也是目前最前沿的多模态研究方向。大语言模型(LLM)具有对各领域用户提示的通用性特点,以及利用少量提示快速适应新场景的学习能力。受到这种强大能力的启发,研究人员正在探索一种新的模型范式,该范式不再是针对解决有限预定义问题的独立模型,而是通过将多个工具或专家与 LLM 协同来解决复杂的开放性问题。与方向四不同,这样的系统可以在没有任何训练的情况下构建,只需使用少量提示训练 LLM,使其对现有工具进行调用。整体而言,多模态 agent 在多模态理解

方面能力较强,并可轻松扩展到潜在的数百万种工具中。

 

技术支持:

        语音和视觉能力先行,视觉能力为核心。当前模态主要包括图像、视频、音频、代码、标准数据库等,多模态大模型进展主要围绕语音和视觉任务,其中语音任务和文本任务本质上相通,有成熟开源技术方案,门槛相对较低;而视觉任务主要涵盖视觉理解和视觉生成,由于信息复杂度高、利用难度较大,并且对模型感知能力和应用开发潜力提升具有重要价值,成为当前多模态大模型发展的核心方向。

        1、技术基础:AIGC:自聊天机器人 ChatGPT 问世以来,AIGC 技术覆盖面已由文本拓展至图片、音频。可以重点参考 AI 第一梯队平台 OpenAI 的技术及产品进程:2023 年 3 月,OpenAI 推出 ChatGPT3.5,该聊天机器人可通过机器学习技术来生成人类类似的文本回复,凭借出色的文本对话和任务完成能力,已获得大量 C 端付费订阅及 B 端订单,据 IT 之家援引 The

Information2023 年 10 月报道,该公司预计全年收入超 13 亿美元。2023 年 9 月,OpenAI 宣布旗下 ChatGPT 将能看、能听、能说,从此前的只能文本交互,实现多模态能力的更新。“模态”指的是数据的不同类型或来源,如图像、音频、文本等。具备多模态能力后的GPT4,可以进行语音沟通,使用图片与用户互动,从而在使用形态上更接近苹果 Siri 等热门人工智能助手。

        2、语音能力:语音转文字模型(Speech-To-Text,STT)技术成熟度高,难构成行业壁垒。语音识别技术历史悠久,最早可以追溯到 1952 年,成熟度相对较高,并已融入各类日常场景。最近几年技术层面逐步从统计模型走向端到端的深度模型,底层架构逐步从小模型走向大模型。在多模态大模型系统中,STT 模型将语音转换为特定模式的文本文件,并直接输入模型。 OpenAI 推出的 Whisper 模型为代表,模型底层使 Transformer 的编码器-解码器架构,可以将音频信息直接转化成包含提示词的标准化 Token,基于8 万小时的对话学习,较主流小模型可以将错误率降低 50%左右。Meta 推出 MMS,谷歌推出 Audio PaLM 模型,均采用 Transformer 架构实现端到端的 STT 模型。

        文本转语音(Text-To-Speech,TTS)模型是实现大模型语音能力的核心技术,差异主要体现在音色和情感方面。TTS 模型同样具有悠久技术历史。过去几年,TTS 模型和 STT 模型在技术层面同步发展,实现从 HMM-GMM 为基础的概率统计模型走向 Transformer 基础的端到端大模型的技术转变,形成Tacotron2、Fastspeech 等代表模型。技术进展下,TTS 模型语音合成效果有明显提升,可以模拟真人的语气、情感和停顿,音色更加贴近真人,可以实现高质量流畅合成。由于模型训练阶段使用的音源在音色、情感、语种等方面存在差异,底层模型设计也不尽相同,当前主流 TTS 模型合成效果存在明显差异,对于用户的使用体验影响较大。

STT+TTS+GPT 模式

图表, 图示

描述已自动生成

资料来源:中信证券研究部

        STT+TTS+GPT 模式成为实现大模型语音对话的主流,技术门槛相对较低。通过构建 STT+TTS+GPT的模式,可以便捷实现基于大语言模型的语言对话,为大模型增加音频模态。在该模式下,STT、TTS、LLM 模型均为独立模块,可以实现低成本替换,因此在应用开发层面可进行灵活组合。当前市面主流对话助手的语音功能均以此方式实现,以 ChatGPT 语音功能为例,采用 Whisper+GPT-4+OpenAI 自研TTS 模型的组合,实现优秀语音对话效果。考虑到 STT 和 TTS 模型均有成熟开源解决方案,大模型实现语音模态兼容技术门槛相对较低。

        3、视觉能力:目前在底层架构设计上主要形成两大技术路线:

        (1)、模块化设计:模块化多模态设计单独处理视觉信息输入。考虑到视觉信息和文本信息差距较大,当前大模型千亿规模统一处理所有模态信息具有较大难度。因此,设计上可以分别针对文本和模型等模态分别进行模型训练,并通过系统优化实现各模型的结合。以 GPT-4V(ision)版本为例,其视觉方案以大语言模型 GPT-4 为核心,图像认知能力上或采用与 OpenAI2021 年发布的 CLIP 模型类似的方案,未来有望基于 DALL·E3 模型融合图像输出能力,形成完整的视觉多模态系统。

模块化的多模态大模型示意图

图示

描述已自动生成

资料来源:中信证券研究部

        模块化设计提升系统灵活性,带来更高模型性价比。视觉认知、视觉生成和大语言模型在模型设计、训练数据集、目标函数设计等方面差异较大,训练和推理相对独立,模块化设计和分别训练的模块在性能、性价比、灵活性上存在优势。性能上,各个模块可以针对特定任务单独优化,更容易在各子任务上实现高性能;性价比上,把各模态的需求分割成多模块,并进行分开训练的模式,降低了单次训练的模型规模,显著降低算力需求;灵活性上,各模块可进行单独替换,也可以基于任务需求进行模块增减,同时大模型系统可以快速接入第三方服务,多维度实现更加灵活的解决方案。

        (2)、一体化(原生多模态)设计:原生多模态设计统一文本和视觉信息输入。前端利用不同的处理模块将文本、图像等信息分别 Token 化,并直接输入统一的大模型。12 月 6 日,谷歌发布 Gemini 模型,作为第一款“原生多模态”大模型,文本和视觉等模态在统一架构下预训练。统一的训练有望使得各模态之间的结合更加顺畅。根据官方技术文档,模型可以实现图文结合的理解和推理,目前在数学和物理等领域有所进展,体现了模型的复杂问题拆解能力,对于扩展应用领域以及提升输出准确性有较大价值。

一体化的多模态大模型示意图

图示

描述已自动生成

资料来源:Google 官网、Gemini技术报告、Gartner、中信证券

        原生多模态设计实现更强图文结合效果,但模型成本较高。可以针对图像和文本结合的综合任务进行端到端的统一训练和优化,把图文结合当成一项任务直接进行学习,而不是通过系统层面基于人为规则制定的融合和调优。因此,采用原生多模态设计的大模型可以实现多模态信息的无缝共享、互通和融合,例如谷歌 Gemini 模型演示中就展示了基于模型对于视觉、文本、代码的融合生成能力。但同时为了容纳多模态的处理能力,模型单次参与推理的参数较多,训练数据的多样性和规模也相应提升,将显著提升模型训练和推理成本。

        图像生成模型主要采用扩散模型架构,各产品存在显著差异。潜在扩散模型(Latent Diffusion model) Transformer 大模型在图像领域的特化应用,通过图片噪点生成的方式学习大量图片,并通过逆向去噪方式实现图片生成,成为图片生成领域的主流技术路径。与文本生成注重正确性相比,图片生成需求更加多元,各产品在艺术风格、易用度等方面的差异化竞争更加明显。目前主流产品可以实现对用户需求的准确理解,并生成高质量的、具备一定艺术风格的图像。代表产品有主打低门槛高质量生成的Midjourney,打造开源生态实现工业级定制的 Stable Diffusion,结合 ChatGPT 实现便捷化使用的DALL·E3 等。

        视频生成是图像生成在时间轴上的延续,视频与图像生成底层不存在技术壁垒。与图像生成类似,当前视频生成同样通过扩散模型实现,根据 RunwayGen1 模型论文(Patrick Esser,Johnathan Chiu,Parmida Atighehchian 等),在文生视频流程中,模型首先通过 DALL·E、Stable Diffusion 的文生图模型实现高质量图片生成,引入带有时间轴的预训练图像模型,并在图像和视频上做联合训练,从而将扩散模型从图像扩展到视频生成领域。因此视频和图像生成底层不存在技术壁垒,核心能力在于如何更好的处理视频的流畅性和艺术表达,提升视频生成的长度限制。目前视频模型产品主要功能包括文生视频、文图结合生成视频、视频智能编辑等功能。根据论文统计,视频生成领域热度明显高于视频编辑和理解。目前视频生成代表产品包括 Pika、NeverEnds、Runway 等,参考微信公众号 AIPioneer 的测试,相关产品在动画生成上效果出色。

        4、代码生成:通过大语言模型微调构建代码大模型,正确率和多模态融合能力快速提高。代码大模型主要将自然语言转化成可执行代码,作用于开发领域提升程序员工作效率。由于代码标准化程度高、容错低,和自然语言差异较大,普遍采取基于语言模型使用代码数据进行微调的方式,构建专用的代码大模型。这样既可以保留模型对用户输入的高理解能力,又可以将输出严格限制为代码格式。过去几年,代码大模型正确率不断升级,最新基于 GPT-4 构建的代码大模型在 HumanEval 测试级上单次正确率可以达到 82%。此外,代码与其他模态的互动与融合也是主要进展方向之一,谷歌最新 Gemini 模型演示了基于文字和图像生成代码的能力,展现相关技术的巨大潜力。

        国际巨头加速布局,国厂商位列第一梯队。过去一年全球主要厂商大力投入代码大模型研发,模型能力屡创新高。3 月,OpenAI 基于 GPT-4 推出代码模型,官方技术公告显示模型在 HumanEval 测试集上的正确率为 67%。9 月,Meta 发布基于 Llama2 的开源代码大模型 Code Llama,在 Hugging Face 平台测评中一度超越 GPT-4 等主流代码模型,占据榜首位置。12 月,Google 基于 Gemini 模型推出AlphaCode2,性能超过 85%的人类程序员,将加持 Gemini 模型定制版。国产厂商中,根据论文 ASurveyon Language Models for Code(ZibinZheng,KaiwenNing,YanlinWang 等),蚂蚁集团的开源代码大模型 CodeFuse 和华为代码大模型 PanGu-Coder2 性能优异,位列行业第一梯队。

 

产业框架:

        数据:文本、视觉、声音、触觉、气味等。

        算法:通过多模态统一建模,增强模型的跨模态语义对齐能力,打通各模态之间的关系,执行标准化的任务。

        应用:办公、电商、娱乐、教育等领域。

多模态大模型框架

图示

描述已自动生成

资料来源:东吴证券

        2、数据:数据存量有限:根据 Epochai,在当前大模型高速发展趋势下,高质量语言数据可能在 2026 年之前耗尽,而低质量语言/视觉数据存量也可能将在 2030~2050/2030~2060 年耗尽。高质量多模态数据集有限:由于不同类型的标注成本差异大,视觉等模态数据的收集成本比文本数据高,导致多模态数据集,尤其是高质量数据集通常比文本数据集少得多。

        AI 合成数据或有望改善数据枯竭问题。与实际数据具有相同的预测特性;合成数据获取速度更快,为垂直模型的训练更快定制数据集;适应多模态模型的数据模态组合,能够扩大所有数据模态存量的组合,有效增加数据存量。

        3、算法:相比单模态,多模态大模型算法和工程难度更大,在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。

        预训练为多模态主流训练方式。由于高质量的多模态标注数据较少,基于 Transformer 结构的多模态预训练模型逐渐成为主流,通过海量无标注数据进行预训练,再使用少量有标注数据进行微调。原生多模态大模型是未来发展趋势,即设计时原生支持多模态,具有处理不同形式数据的能力,但各环节难度会更高。23 年 12 月谷歌 GEMINI 即为原生多模态,一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性,行业技术取得进一步突破。

        4、算力:多模态大模型对算力的需求高于单模态。一般在同样信息量情况下,文字数据量<图片数据量<视频数据量,多模态大模型需处理的数据量更大,再加上训练工程上难点更多,对应算力需求更高。参考前深度学习时代向深度学习时代过渡,以及从“大炼模型”进入“炼大模型”切换之后,算力需求均有明显提升。根据机器之心,谷歌 Gemini 有万亿参数,训练动用的算力是 GPT-4 的五倍。未来随着算力需求的进一步提升,芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。

 

四、行业现状:

国外市场:Sora 和 Gemini1.5 推出,开启多模态大模型新纪元

        1)OpenAI 发布首款文生视频大模型 Sora。的视频,2024 年 2 月 16 日,OpenAI 发布首款文生视频大模型 Sora,可以快速生成 60 秒、准确反映用户提示其具有 60 秒超长长度、多角度视频一致性、对物理世界理解等特性。Sora 可生成 60 秒超长视频。相较于 Runway ML Gen-2、Pika 等文生视频大模型,Sora 可以生成 60秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。Sore 多角度视频一致性。Sore 可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根 OpenAI 官网发布的 Demo,59 秒的视 频中,有多角度镜头,且主人物保持了完美的一致性。

        Sora 技术原理:Transformer + Diffusion。通过已知 Patches 推测下一 Patches。传统大语言模型通过已知 Tokens 推测下一 Tokens,Sora 同大语言模型类似,将视频数据切分成不同 Patches(即大语言模型中的 Tokens),通过已知 Patches 推测下一 Patches。通常可以分为以下两个步骤:将高纬度视频数据压缩成低纬度隐空间(Latent Space):OpenAI 通过训练视频压缩网络实现该步骤,通常将视频数据作为输入(input),后对视频数据进行时间和空间维度的压缩,并输出(output)潜在表示latent representation)。进一步将数据转化为 Spacetime Patches:提取一系列的 latent Space 作为训练/推理的 Tokens,完成对模型的训练。

        通过 Diffusion 还原画面。如前文所述,通过已知 Patches 推测下一 Patches,得到 Latent Patches,OpenAI 通过训练 Decoder 将得到的 latent Space 映射到像素空间,再通过 Diffusion 模型进一步还原画面。

        2)谷歌推出 Gemini1.5:最长可支持一百万 token 超长上下文,超越 GPT-4Turbo。谷歌研究人员进行了一项测试,在这个测试中,模型需要在一定的文本范围内检索到 100 个不同的特定信息片段。Gemini 1.5 Pro 在较短的文本长度上的性能超过了 GPT-4-Turbo,并且在整个 100 万 token 的范围内保持了相对稳定的表现,GPT-4Turbo 的性能则飞速下降,且无法处理超过 128,000token 的文本。

        可对大量的信息进行复杂推理。Gemini 1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如,当给出阿波罗 11 号登月任务的 402 页记录时,它可以推理整个文档中的对话、事件和细节。

        跨模式推理和理解能力增强。Gemini 1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部 44 分钟的巴斯特·基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。

 

国内市场:加速对齐海外龙头,细分领域或有优势

        国内市场加速对齐海外龙头,多模态大模型陆续推出国内科技公司积极研发国产大模型,互联网大厂在数据积累与算法水平兼具优势,率先切入多模态大模型赛道,其后不断涌现大模型科技公司与初创公司,在多模态大模型领域持续投入同时陆续更新大模型能力。例如,百度 2023 年 3 月发布文心一言,成为全球大厂中第一个对标 ChatGPT 甚至是 GPT-4 的大模型,同时具备文字生成图片、音频(方言)、视频等多模态能力。其后,阿里巴巴、腾讯等互联网大厂,商汤科技等大模型公司以及智源研究院、智谱等初创公司或研究所均发布了国产多模态大模型,并通过不断迭代实现能力突破,逐步缩小与海外大模型差距。

我国部分多模态大模型

表格

描述已自动生成

资料来源:华福证券研究所整理

 

大陆相关企业:

万兴科技:

天幕大模型支撑万兴 AIGC 创作能力。万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型,由视频、音频、图片、文本大模型组成,支持视觉、音频、语言多模态 AI 生成及优化,具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。万兴于12 月 1 日展示天幕大模型文生视频能力,生成视频“人生四季”,视频已具备较高的清晰度和流畅度。Wondershare Filmora:已实现 AI 文生视频。万兴海外产品 Wondershare Filmora 已实现 AI 文生视频,同时具备 AI 辅助创作、基于文本编辑视频等功能。Filmora AI 文生视频:基于用户输入的 prompt 生成视频;Filmora AI Copilot Editing:AI 辅助创作及编辑,使用 AI 分析用户视频并根据用户需求提供智能建议;基于人工智能的文本编辑:将用户的视频转换为文本,并使用 AI 基于文本的编辑功能像编辑文档一样

编辑视频;Filmora AI Thumbnail Creator:通过 AI 帮助用户创建视频缩略图。

 

大华股份:

多模态持续发展,公司大有可为。近年来随着 vit、swin transformer、mae 等论文推出,transformer CV 和多模态等应用增加。基于 ViT 和 Swin Transformer 等方法,大模型在 ImageNet 数据集的分类准确率突破了 90%,超过传统 CNN,展现出较强的应用潜力。上述技术路线已经开源,考虑到公司对AI 前瞻性技术投入、拥有大量高价值视频数据、具备丰富的落地场景,大模型技术路线的应用,有望助力公司高效满足海量的客户需求,并进一步压缩定制化开发成本。加大研发投入,大华视觉大模型有望在城市治理、电力等行业完成方案验证。根据公司 2023 年半年报后发布会,尽管外部环境压力,公司依然坚定的加大对 AI、大模型等方面的战略投入,后续还将适配研发进度,投入更大规模的资源。针对大模型、多模态等一系列技术,公司首要关心的还是行业价值的创造,以及商业上的长期主义。公司基于自身的行业积累和全面的工程化能力,再结合大模型天然的强泛化、理解等特性,打造垂直行业视觉大模型。此外,公司计划在今年四季度正式推出大华行业视觉大模型,并分别在城市治理、电力等领域完成大模型方案验证;2024 年,进行方案部署及行业试点,持续做深做宽。

 

科大讯飞:

星火大模型将达到 GPT4-Turbo 最好水平,潜在估值空间广阔。2024 年 1 月 30 日,公司正式发布的“星火大模型 V3.5”在语言理解、数学能力超过 GPT-4Turbo,代码达到 GPT-4Turbo96%,多模态理解达到 GPT-4V91%;同时星火语音大模型首次发布,首批 37 个主流语种的语音识别效果超过 OpenAIWhisper V3。“飞星一号”为支撑万亿参数大模型训练的国产算力平台,公司宣布实现训练效率达 A100 90%。面向 2024 年,刘庆峰提出讯飞大模型战略年度四大目标:星火通用大模型国内领先对标 GPT-4;赋能智能硬件终端 1000 万、独立软件用户数过亿;教育/医疗/金融/汽车/央国企/城市行业市场第一;汇聚100 万大模型开发者打造行业第一生态。2023 年,星火大模型已逼近 GPT-4Turbo 当前水平,预计2024 年上半年达 GPT4-Turbo 当前最好水平。

 

 

 

免责声明:本文章不涉及投资建议,仅供分享观点所用。

参考资料:

华福证券:计算机行业:多模态,AI 大模型新一轮革命

东吴证券:互联网传媒行业深度报告:多模态技术加速,AI 商业宏图正启

中信证券:计算机行业“智能网联”系列报告 36:大模型,多模态引领新篇章