招聘计划

国科龙晖始终不忘初心，牢记使命，坚持“四个面向”，致力于加快实现高水平科技自立自强。

首页 ꄲ 龙晖观点 ꄲ 半导体周报0505-多模态AI

半导体周报0505-多模态AI

创建时间：2024-05-06 08:48

半导体周报-0505

一、行业新闻及动态

1、半导体设计：

《科创板日报》17日讯，三星近日宣布已开发出其首款支持高达10.7Gbps的LPDDR5X DRAM，采用12纳米级工艺技术，也是三星现有LPDDR中最小的芯片尺寸，将于今年下半年开始量产。据三星方面介绍，该产品可根据工作负载频率调整和优化供电模式，扩展低功耗模式频段，能效较上一代产品提升25%，同时性能提高25%以上，容量提高30%以上，还将移动DRAM的单封装容量扩展至32GB。三星电子内存业务内存产品规划执行副总裁YongCheol Bae表示，市场对低功耗、高性能内存需求增加，LPDDR DRAM的应用领域有望从主要的移动领域扩展到PC、加速器、服务器和汽车等其他领域，对内存有更高性能和可靠性要求。

2、半导体制造及封测：

财联社4月18日电，美国芯片公司英特尔宣布，其代工厂已接收并完成组装业界首台商用高数值孔径（High NA）极紫外（EUV）光刻机。据介绍，这套重达165吨的设备是阿斯麦（ASML）与英特尔合作数十年后开发的新一代光刻设备，现位于俄勒冈州的D1X制造工厂，正在进行最后的校准。

《科创板日报》15日讯，据韩国业界消息，韩国半导体巨头三星电子、SK海力士正利用氖气回收技术，以实现可持续发展，并降低成本、减轻供应风险。SK海力士近日宣布与韩国气体供应商TEMC合作，在氖气回收方面取得突破。三星电子也紧随其后，计划在2025年将氖气回收技术整合到其制造工艺当中。氖气用于半导体光刻中激发激光，通过利用装置收集废气，SK海力士与TEMC实现了72.7%的氖气回收率，并计划将效率进一步提升至77%。

财联社4月19日电，韩国SK海力士4月18日宣布，近期台积电签署了一份谅解备忘录，双方将合作生产下一代HBM，并通过先进的封装技术提高逻辑和HBM的集成度。该公司计划通过这一举措着手开发HBM4，即HBM系列的第六代产品，预计将于2026年开始量产。两家公司将首先致力于提高安装在HBM封装最底部的基础芯片的性能，并同意合作优化SK海力士的HBM和台积电的CoWoS技术的整合，合作应对客户对HBM的共同要求。

《科创板日报》19日讯，英特尔位于美国亚利桑那州的Fab52晶圆厂原定于2024年年底开始商业化生产，但业界近日指出，该工厂很可能难以实现这一目标，预计将在2025年下半年才会量产2nm制程芯片。

财联社4月19日电，据晶合集成官微消息，近日，由晶合集成自主研发的40纳米高压工艺代工的OLED显示驱动芯片首次成功点亮面板。该产品提供设计更小尺寸元件，可集成更多功能器件，实现更快响应速度和更低功耗，技术工艺已达国际主流水平。晶合集成40纳米OLED预计于今年第二季度实现小批量量产，将应用于手机终端设备OLED显示屏。伴随OLED在手机市场的比重不断增加，尤其在智能手机渗透率超过50%,晶合集成深度布局，同步正紧锣密鼓进行28纳米OLED技术工艺开发，规划于今年底开始小量投片，联合客户推出新产品。

财联社4月18日电，据国民技术消息，4月18日，国民技术第四代可信计算芯片NS350 v32/v33系列产品正式发布并开始量产供货。NS350 v32/v33是一款高安全、高性能、超值可信密码模块2.0 （TCM 2.0）安全芯片，适用于PC、服务器平台和嵌入式系统。

3、其他：

《科创板日报》16日讯，半导体行业组织SEMI表示，在2023年中国大陆半导体设备支出约占世界整体的三分之一。2023年全球共计实现1063亿美元的半导体制造设备销售额。按区域划分，中国大陆去年在半导体设备领域投资366亿美元，相较去年增长29%，占比34.43%。

《科创板日报》18日讯，据一份文件显示，微软内部计划在2024年将GPU数量增加两倍，目标到2024年末积累180万片AI芯片。两位知情人士透露，从本财年到2027财年，微软预计将在GPU和数据中心上花费约1000亿美元。

《科创板日报》19日讯，消息称三星电子于美国硅谷扩大人工智能（AI）芯片设计的研发组织，致力研发采用RISC-V架构的AI芯片，透过差异化的技术挑战当前引领AI半导体市场的英伟达。

二、本周话题——多模态AI

多模态模型是指将不同类型的数据（例如图像、文字、视频、语音等）结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合，可以大幅提高模型的准确性和鲁棒性，应用场景进一步拓展。其次，多模态更接近人类学习的模式，在物理世界中，人类认知一个事物并不是通过单一模态，例如认知一只宠物，可以从视觉（宠物形貌）、听觉（宠物叫声）、嗅觉（宠物体味）、触觉（宠物毛发、宠物体温等）等多模态全面立体认知，是未来人工智能的发展方向。

多模态向通用人工智能（AGI）迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，有望成为人类智能助手，推动 AI 迈向 AGI：多模态更符合人类接收、处理和表达信息的方式。人类能够感知多元信息，每一类信息均为一种模态，这些信息往往是相互关联的。

多模态信息使得大模型更为智能。多模态与用户交互方式更便捷，得益于多模态输入的支持，用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。

目前，多模态大模型已成为大模型发展前沿方向。2022 年及之前，大模型处于单模态预训练大模型阶段，主要探索文本模式的输入输出。2017 年，Transformer 模型提出，奠定了当前大模型的主流算法结构；2018 年，基于 Transformer 架构训练的 BERT 模型问世，参数规模首次突破 3 亿；随后 GPT 系列模型推出，2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年，大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务，更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘，精细化捕捉不同模态信息的关联。例如，2023 年 9 月，OpenAI推出最新多模态大模型 GPT-4V，增强了视觉提示功能，在处理任意交错的多模态方面表现突出。

大模型朝多模态方向发展

图示

描述已自动生成

资料来源：中关村产业研究院、毕马威分析、华福证券

按照处理的数据类型数量划分，AI 模型可以划分为两类：单模态：只处理 1 种类型数据，如文本等；多模态：处理 2 种及以上数据，可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态，多模态大模型在输入输出端的优势明显：

输入端：提升模型能力：高质量语言数据存量有限，且不同模态包含的信息具有互补性，多元的训练数据类型有助于提升通用大模型能力；提高用户体验：推理侧更低的使用门槛和更少的信息损耗。

输出端：更实用。可直接生成综合结果，省去多个模型的使用和后期整合；更符合真实世界生产生活需要，从而实现更大商业价值。

主要的多模态大模型类型

表格

描述已自动生成

资料来源：东吴证券研究所

研究方向：

多模态模型五大方向——视觉理解、视觉生成、统一视觉、LLM 支持、多模态 Agent。近期，微软多位研究员联合撰写文章，对多模态模型进行了全面的研究和分类，并关注了模型从专业性向通用性转变的特点。在模型分类中，研究员们将模型研究方向分为两大类五个主题：目前已成熟、完善的研究主题，

包括视觉理解、视觉生成；具备探索性、开放性的前沿研究领域，包括统一视觉模型、受 LLM（大语言模型）支持的多模态大模型以及多模态 agent。

方向一：视觉理解。在 AI 领域，视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使得神经网络的主干架构 backbone 获得强大的图像理解能力。模型训练方法可根据监督信号的不同分为三类：标签监督、语言监督和纯视觉自监督。其中，纯视觉自监督的监督信号来源为图像本身，相关方法有对比学习、非对比学习和掩码图像建模。在这些方法之外，常用的预训练方法还有多模态融合、区域级和像素级图像理解等。

方向二：视觉生成。这是 AI 图像生成与理解的核心，不仅包括图像生成，还包括视频、3D 点云图等多种内容的生成。视觉生成不仅可以应用于艺术、设计等内容创作领域，它还在合成训练数据方面发挥着巨大作用，从而促进多模态内容理解与生成的闭环发展。视觉生成的重点在于如何生成与人类意图一致的图像，常见的四类相关研究方向为：有空间可控生成、基于文本再编辑、遵循文本提示生成和生成概念定制（concept customization）。当前研究趋势和未来短期研究方向是创建通用的文生图模型，以更好地满足人类意图，并提升上述方向的可替代性。

方向三：统一视觉模型。构建统一视觉模型具有多重挑战。在计算机视觉领域，各任务的差异很大，这为建立统一的视觉模型带来了巨大挑战：输入类型不同，输入内容可包括静态图形、动态视频、纯视觉输入、模糊图像等；不同的任务需要不同的粒度，如图像级任务、区域级任务、像素级任务等，因此输出的空间信息和语义信息也要求不同的格式；在建模之外，数据也有挑战，比如不同类型的标签注释成本差异很大，收集成本比文本数据高，这导致视觉数据的规模通常比文本语料库小得多。

未来统一视觉模型是非常有价值的研究方向。CV 领域对于开发通用、统一的视觉系统具有很高的兴趣，实现这一目标的关键研究方向包括：从闭集模型到开集模型，可以更好地将文本和视觉匹配；从特定任务到通用能力，减少新模型/垂直细分模型的开发成本；从静态模型到可提示模型。未来通用视觉模型应具备强大的上下文学习能力，因此 LLM 可以接受不同语言和上下文提示作为输入，并生成用户所需的输出，无需微调。

方向四：LLM 支持的多模态大模型。该领域的代表作为 OpenAI 的多模态模型 GPT-4V，模型具备较强大的能力：模型具有强大的通用性能力，能够处理不同输入模态的任意组合，包括图像、子图像、文本、场景文本和视觉指针。经过详细测试，研究人员发现 GPT-4V 支持 LLM 中的 test-time 技术，如指令跟随、思维链、上下文少样本学习等。GPT-4V 在多个实验领域表现接近人类水平的能力，包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。

方向五：多模态 Agent。多模态 Agent 是将不同的多模态专家模型同 LLM 联系起来，进而解决复杂多模态理解问题的办法，也是目前最前沿的多模态研究方向。大语言模型（LLM）具有对各领域用户提示的通用性特点，以及利用少量提示快速适应新场景的学习能力。受到这种强大能力的启发，研究人员正在探索一种新的模型范式，该范式不再是针对解决有限预定义问题的独立模型，而是通过将多个工具或专家与 LLM 协同来解决复杂的开放性问题。与方向四不同，这样的系统可以在没有任何训练的情况下构建，只需使用少量提示训练 LLM，使其对现有工具进行调用。整体而言，多模态 agent 在多模态理解

方面能力较强，并可轻松扩展到潜在的数百万种工具中。

技术支持：

语音和视觉能力先行，视觉能力为核心。当前模态主要包括图像、视频、音频、代码、标准数据库等，多模态大模型进展主要围绕语音和视觉任务，其中语音任务和文本任务本质上相通，有成熟开源技术方案，门槛相对较低；而视觉任务主要涵盖视觉理解和视觉生成，由于信息复杂度高、利用难度较大，并且对模型感知能力和应用开发潜力提升具有重要价值，成为当前多模态大模型发展的核心方向。

1、技术基础：AIGC：自聊天机器人 ChatGPT 问世以来，AIGC 技术覆盖面已由文本拓展至图片、音频。可以重点参考 AI 第一梯队平台 OpenAI 的技术及产品进程：2023 年 3 月，OpenAI 推出 ChatGPT3.5，该聊天机器人可通过机器学习技术来生成人类类似的文本回复，凭借出色的文本对话和任务完成能力，已获得大量 C 端付费订阅及 B 端订单，据 IT 之家援引 The

Information2023 年 10 月报道，该公司预计全年收入超 13 亿美元。2023 年 9 月，OpenAI 宣布旗下 ChatGPT 将能看、能听、能说，从此前的只能文本交互，实现多模态能力的更新。“模态”指的是数据的不同类型或来源，如图像、音频、文本等。具备多模态能力后的GPT4，可以进行语音沟通，使用图片与用户互动，从而在使用形态上更接近苹果 Siri 等热门人工智能助手。

2、语音能力：语音转文字模型（Speech-To-Text，STT）技术成熟度高，难构成行业壁垒。语音识别技术历史悠久，最早可以追溯到 1952 年，成熟度相对较高，并已融入各类日常场景。最近几年技术层面逐步从统计模型走向端到端的深度模型，底层架构逐步从小模型走向大模型。在多模态大模型系统中，STT 模型将语音转换为特定模式的文本文件，并直接输入模型。以 OpenAI 推出的 Whisper 模型为代表，模型底层使用 Transformer 的编码器-解码器架构，可以将音频信息直接转化成包含提示词的标准化 Token，基于8 万小时的对话学习，较主流小模型可以将错误率降低 50%左右。Meta 推出 MMS，谷歌推出 Audio PaLM 模型，均采用 Transformer 架构实现端到端的 STT 模型。

文本转语音（Text-To-Speech，TTS）模型是实现大模型语音能力的核心技术，差异主要体现在音色和情感方面。TTS 模型同样具有悠久技术历史。过去几年，TTS 模型和 STT 模型在技术层面同步发展，实现从 HMM-GMM 为基础的概率统计模型走向 Transformer 基础的端到端大模型的技术转变，形成Tacotron2、Fastspeech 等代表模型。技术进展下，TTS 模型语音合成效果有明显提升，可以模拟真人的语气、情感和停顿，音色更加贴近真人，可以实现高质量流畅合成。由于模型训练阶段使用的音源在音色、情感、语种等方面存在差异，底层模型设计也不尽相同，当前主流 TTS 模型合成效果存在明显差异，对于用户的使用体验影响较大。

STT+TTS+GPT 模式

图表, 图示

描述已自动生成

资料来源：中信证券研究部

STT+TTS+GPT 模式成为实现大模型语音对话的主流，技术门槛相对较低。通过构建 STT+TTS+GPT的模式，可以便捷实现基于大语言模型的语言对话，为大模型增加音频模态。在该模式下，STT、TTS、LLM 模型均为独立模块，可以实现低成本替换，因此在应用开发层面可进行灵活组合。当前市面主流对话助手的语音功能均以此方式实现，以 ChatGPT 语音功能为例，采用 Whisper+GPT-4+OpenAI 自研TTS 模型的组合，实现优秀语音对话效果。考虑到 STT 和 TTS 模型均有成熟开源解决方案，大模型实现语音模态兼容技术门槛相对较低。

3、视觉能力：目前在底层架构设计上主要形成两大技术路线：

（1）、模块化设计：模块化多模态设计单独处理视觉信息输入。考虑到视觉信息和文本信息差距较大，当前大模型千亿规模统一处理所有模态信息具有较大难度。因此，设计上可以分别针对文本和模型等模态分别进行模型训练，并通过系统优化实现各模型的结合。以 GPT-4V（ision）版本为例，其视觉方案以大语言模型 GPT-4 为核心，图像认知能力上或采用与 OpenAI2021 年发布的 CLIP 模型类似的方案，未来有望基于 DALL·E3 模型融合图像输出能力，形成完整的视觉多模态系统。

模块化的多模态大模型示意图

图示

描述已自动生成

资料来源：中信证券研究部

模块化设计提升系统灵活性，带来更高模型性价比。视觉认知、视觉生成和大语言模型在模型设计、训练数据集、目标函数设计等方面差异较大，训练和推理相对独立，模块化设计和分别训练的模块在性能、性价比、灵活性上存在优势。性能上，各个模块可以针对特定任务单独优化，更容易在各子任务上实现高性能；性价比上，把各模态的需求分割成多模块，并进行分开训练的模式，降低了单次训练的模型规模，显著降低算力需求；灵活性上，各模块可进行单独替换，也可以基于任务需求进行模块增减，同时大模型系统可以快速接入第三方服务，多维度实现更加灵活的解决方案。

（2）、一体化（原生多模态）设计：原生多模态设计统一文本和视觉信息输入。前端利用不同的处理模块将文本、图像等信息分别 Token 化，并直接输入统一的大模型。12 月 6 日，谷歌发布 Gemini 模型，作为第一款“原生多模态”大模型，文本和视觉等模态在统一架构下预训练。统一的训练有望使得各模态之间的结合更加顺畅。根据官方技术文档，模型可以实现图文结合的理解和推理，目前在数学和物理等领域有所进展，体现了模型的复杂问题拆解能力，对于扩展应用领域以及提升输出准确性有较大价值。

一体化的多模态大模型示意图

图示

描述已自动生成

资料来源：Google 官网、Gemini技术报告、Gartner、中信证券

原生多模态设计实现更强图文结合效果，但模型成本较高。可以针对图像和文本结合的综合任务进行端到端的统一训练和优化，把图文结合当成一项任务直接进行学习，而不是通过系统层面基于人为规则制定的融合和调优。因此，采用原生多模态设计的大模型可以实现多模态信息的无缝共享、互通和融合，例如谷歌 Gemini 模型演示中就展示了基于模型对于视觉、文本、代码的融合生成能力。但同时为了容纳多模态的处理能力，模型单次参与推理的参数较多，训练数据的多样性和规模也相应提升，将显著提升模型训练和推理成本。

图像生成模型主要采用扩散模型架构，各产品存在显著差异。潜在扩散模型（Latent Diffusion model）是 Transformer 大模型在图像领域的特化应用，通过图片噪点生成的方式学习大量图片，并通过逆向去噪方式实现图片生成，成为图片生成领域的主流技术路径。与文本生成注重正确性相比，图片生成需求更加多元，各产品在艺术风格、易用度等方面的差异化竞争更加明显。目前主流产品可以实现对用户需求的准确理解，并生成高质量的、具备一定艺术风格的图像。代表产品有主打低门槛高质量生成的Midjourney，打造开源生态实现工业级定制的 Stable Diffusion，结合 ChatGPT 实现便捷化使用的DALL·E3 等。

视频生成是图像生成在时间轴上的延续，视频与图像生成底层不存在技术壁垒。与图像生成类似，当前视频生成同样通过扩散模型实现，根据 RunwayGen1 模型论文（Patrick Esser，Johnathan Chiu，Parmida Atighehchian 等），在文生视频流程中，模型首先通过 DALL·E、Stable Diffusion 的文生图模型实现高质量图片生成，引入带有时间轴的预训练图像模型，并在图像和视频上做联合训练，从而将扩散模型从图像扩展到视频生成领域。因此视频和图像生成底层不存在技术壁垒，核心能力在于如何更好的处理视频的流畅性和艺术表达，提升视频生成的长度限制。目前视频模型产品主要功能包括文生视频、文图结合生成视频、视频智能编辑等功能。根据论文统计，视频生成领域热度明显高于视频编辑和理解。目前视频生成代表产品包括 Pika、NeverEnds、Runway 等，参考微信公众号 AIPioneer 的测试，相关产品在动画生成上效果出色。

4、代码生成：通过大语言模型微调构建代码大模型，正确率和多模态融合能力快速提高。代码大模型主要将自然语言转化成可执行代码，作用于开发领域提升程序员工作效率。由于代码标准化程度高、容错低，和自然语言差异较大，普遍采取基于语言模型使用代码数据进行微调的方式，构建专用的代码大模型。这样既可以保留模型对用户输入的高理解能力，又可以将输出严格限制为代码格式。过去几年，代码大模型正确率不断升级，最新基于 GPT-4 构建的代码大模型在 HumanEval 测试级上单次正确率可以达到 82%。此外，代码与其他模态的互动与融合也是主要进展方向之一，谷歌最新 Gemini 模型演示了基于文字和图像生成代码的能力，展现相关技术的巨大潜力。

国际巨头加速布局，国厂商位列第一梯队。过去一年全球主要厂商大力投入代码大模型研发，模型能力屡创新高。3 月，OpenAI 基于 GPT-4 推出代码模型，官方技术公告显示模型在 HumanEval 测试集上的正确率为 67%。9 月，Meta 发布基于 Llama2 的开源代码大模型 Code Llama，在 Hugging Face 平台测评中一度超越 GPT-4 等主流代码模型，占据榜首位置。12 月，Google 基于 Gemini 模型推出AlphaCode2，性能超过 85%的人类程序员，将加持 Gemini 模型定制版。国产厂商中，根据论文 ASurveyon Language Models for Code（ZibinZheng，KaiwenNing，YanlinWang 等），蚂蚁集团的开源代码大模型 CodeFuse 和华为代码大模型 PanGu-Coder2 性能优异，位列行业第一梯队。

产业框架：

数据：文本、视觉、声音、触觉、气味等。

算法：通过多模态统一建模，增强模型的跨模态语义对齐能力，打通各模态之间的关系，执行标准化的任务。

应用：办公、电商、娱乐、教育等领域。

多模态大模型框架

图示

描述已自动生成

资料来源：东吴证券

2、数据：数据存量有限：根据 Epochai，在当前大模型高速发展趋势下，高质量语言数据可能在 2026 年之前耗尽，而低质量语言/视觉数据存量也可能将在 2030~2050/2030~2060 年耗尽。高质量多模态数据集有限：由于不同类型的标注成本差异大，视觉等模态数据的收集成本比文本数据高，导致多模态数据集，尤其是高质量数据集通常比文本数据集少得多。

AI 合成数据或有望改善数据枯竭问题。与实际数据具有相同的预测特性；合成数据获取速度更快，为垂直模型的训练更快定制数据集；适应多模态模型的数据模态组合，能够扩大所有数据模态存量的组合，有效增加数据存量。

3、算法：相比单模态，多模态大模型算法和工程难度更大，在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。

预训练为多模态主流训练方式。由于高质量的多模态标注数据较少，基于 Transformer 结构的多模态预训练模型逐渐成为主流，通过海量无标注数据进行预训练，再使用少量有标注数据进行微调。原生多模态大模型是未来发展趋势，即设计时原生支持多模态，具有处理不同形式数据的能力，但各环节难度会更高。23 年 12 月谷歌 GEMINI 即为原生多模态，一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性，行业技术取得进一步突破。

4、算力：多模态大模型对算力的需求高于单模态。一般在同样信息量情况下，文字数据量<图片数据量<视频数据量，多模态大模型需处理的数据量更大，再加上训练工程上难点更多，对应算力需求更高。参考前深度学习时代向深度学习时代过渡，以及从“大炼模型”进入“炼大模型”切换之后，算力需求均有明显提升。根据机器之心，谷歌 Gemini 有万亿参数，训练动用的算力是 GPT-4 的五倍。未来随着算力需求的进一步提升，芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。

四、行业现状：

国外市场：Sora 和 Gemini1.5 推出，开启多模态大模型新纪元

（1）OpenAI 发布首款文生视频大模型 Sora。的视频，2024 年 2 月 16 日，OpenAI 发布首款文生视频大模型 Sora，可以快速生成 60 秒、准确反映用户提示其具有 60 秒超长长度、多角度视频一致性、对物理世界理解等特性。Sora 可生成 60 秒超长视频。相较于 Runway ML Gen-2、Pika 等文生视频大模型，Sora 可以生成 60秒一镜到底的视频，视频逻辑顺畅、主人物及背景的行人均非常稳定，文生视频大模型能力进一步提升。Sore 多角度视频一致性。Sore 可以在单个生成视频中创建多个镜头，以准确保留角色和视觉风格。根据 OpenAI 官网发布的 Demo，59 秒的视频中，有多角度镜头，且主人物保持了完美的一致性。

Sora 技术原理：Transformer + Diffusion。通过已知 Patches 推测下一 Patches。传统大语言模型通过已知 Tokens 推测下一 Tokens，Sora 同大语言模型类似，将视频数据切分成不同 Patches（即大语言模型中的 Tokens），通过已知 Patches 推测下一 Patches。通常可以分为以下两个步骤：将高纬度视频数据压缩成低纬度隐空间（Latent Space）：OpenAI 通过训练视频压缩网络实现该步骤，通常将视频数据作为输入（input），后对视频数据进行时间和空间维度的压缩，并输出（output）潜在表示（latent representation）。进一步将数据转化为 Spacetime Patches：提取一系列的 latent Space 作为训练/推理的 Tokens，完成对模型的训练。

通过 Diffusion 还原画面。如前文所述，通过已知 Patches 推测下一 Patches，得到 Latent Patches，OpenAI 通过训练 Decoder 将得到的 latent Space 映射到像素空间，再通过 Diffusion 模型进一步还原画面。

（2）谷歌推出 Gemini1.5：最长可支持一百万 token 超长上下文，超越 GPT-4Turbo。谷歌研究人员进行了一项测试，在这个测试中，模型需要在一定的文本范围内检索到 100 个不同的特定信息片段。Gemini 1.5 Pro 在较短的文本长度上的性能超过了 GPT-4-Turbo，并且在整个 100 万 token 的范围内保持了相对稳定的表现，GPT-4Turbo 的性能则飞速下降，且无法处理超过 128,000token 的文本。

可对大量的信息进行复杂推理。Gemini 1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如，当给出阿波罗 11 号登月任务的 402 页记录时，它可以推理整个文档中的对话、事件和细节。

跨模式推理和理解能力增强。Gemini 1.5 Pro 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如，当给定一部 44 分钟的巴斯特·基顿无声电影时，该模型可以准确分析各种情节点和事件，甚至推理出电影中容易被忽略的小细节。

国内市场：加速对齐海外龙头，细分领域或有优势

国内市场加速对齐海外龙头，多模态大模型陆续推出。国内科技公司积极研发国产大模型，互联网大厂在数据积累与算法水平兼具优势，率先切入多模态大模型赛道，其后不断涌现大模型科技公司与初创公司，在多模态大模型领域持续投入同时陆续更新大模型能力。例如，百度 2023 年 3 月发布文心一言，成为全球大厂中第一个对标 ChatGPT 甚至是 GPT-4 的大模型，同时具备文字生成图片、音频（方言）、视频等多模态能力。其后，阿里巴巴、腾讯等互联网大厂，商汤科技等大模型公司以及智源研究院、智谱等初创公司或研究所均发布了国产多模态大模型，并通过不断迭代实现能力突破，逐步缩小与海外大模型差距。

我国部分多模态大模型

表格

描述已自动生成