最新消息

首页 > 最新消息 > 返回前页

中金:Seedance2.0对互联网有何影响?

时间:2026年03月23日 07:33

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  来源:中金点睛

  Seedance 2.0:AI视频生成“DeepSeek时刻”的开启。26年2月,字节跳动发布了AI视频模型Seedance2.0,其模型在全模态输入/输出,镜头&叙事一致性等维度展现了系统性领先能力,短期内成为全球现象级产品,如即梦DAU从2月2日的328万人持续提升至2月23日的572万人。

  焦点一:“世界模型”或是视频模型下一阶段演进方向。相比于人类智能,当下大模型仍欠缺“世界模型”这一关键的基础能力。而多模态生成模型有成为世界模型的潜力。图像模型Nano Banana Pro展现了智能化的显著飞跃,我们认为智能化亦是视频模型的下一阶段演化方向,Seedance2.0在智能化上取得突破,加速了视频模型“世界模型”时代到来。

  焦点二:当前视频生成赛道矛盾首先是市场空间,其次是竞争格局。视频生成模型仍处于发展初期,当前制约因素是市场空间(根据Fortune Business Insights等机构估算,2025年仅10-20亿美元)。随着模型能力持续进步,我们认为基础创意工具情形市场空间有望达数百亿美元。从竞争格局维度,我们认为模型能力短期难以成为壁垒,且现有用户往往同时使用多个模型,市场难以一家独大,且市场定位有望成为不同参与者的差异化关键。

  焦点三:Seedance2.0等AIGC工具对互联网格局如何影响?我们认为Agent崛起不会显著影响主流线上内容平台格局,两者存在场景差异,前者属于“主动搜索”而后者是“被动消费”,且Agent若能显著提升人类工作效率,娱乐时间会增加。此外,视频模型等AIGC工具将降低内容制作门槛,对于供过于求赛道如短视频,行业格局或稳定;而对于长视频、音乐等供不应求赛道有望创造增量需求,甚至诞生新平台。

  风险

  AI视频生成技术演进存在不确定性;版权&法律等安全风险;应用落地存在不确定性;商业化路径仍处探索阶段。

  Seedance 2.0:AI视频生成“DeepSeek时刻”的开启

  Seedance 2.0:基于双模态并行架构的视听生成

  Seedance 2.0是字节跳动Seed团队于2026年2月12日正式发布的旗舰级AI视频生成模型。与以往以“文生视频”为主要功能的工具不同,Seedance 2.0从底层架构上实现了突破,具备叙事理解、镜头语言掌控和多模态融合能力,旨在解决传统AI视频生成中声画不同步、叙事割裂等长期存在的技术难题。我们认为,该模型的发布,为AI视频生成技术确立了新的能力基准。

  数据显示Seedance 2.0热度。Seedance 2.0发布后,即梦AI作为首发入口,其国内DAU迎来快速增长,从2月2日的328万人持续提升至2月23日的572万人,2月26日“Seedance 2.0排队”词条登上热搜。根据每日经济新闻此前实测,高峰时段排队人数平均约9万人,即便已排队7小时,系统仍显示生成任务还需等待3小时左右。放眼全球,根据Google Trends,其全球搜索热度在2月12日发布当天登顶。

  图表:即梦AI国内DAU变化

  资料来源:Quest Mobile,中金公司研究部

  图表:“Dreamina Seedance”全球Google搜索热度变化

  资料来源:Google Trends,中金公司研究部

  系统性领先的量化验证

  Seedance 2.0与此前模型的核心差异,在于其从底层架构上改变了视频生成的模态处理逻辑,主要体现为以下三项技术创新:

  1)双分支并行架构Seedance 2.0采用了双分支扩散Transformer架构(Dual-Branch Diffusion Transformer),在生成链路中实现了视觉与听觉信息流的并行处理。与传统“视频生成后配乐”的流水线式处理不同,这一并行机制实现了在帧级精度上的声画同步,从技术路径上解决了“音画错位”及“口型匹配”等长期存在的工程难题。

  2)多模态输入融合机制:模型突破了文本作为单一输入模态的限制,支持图像、视频、音频、文本四种模态的复合输入,系统最多可同步解析12个参考文件,允许用户通过多模态约束(如图像指定风格、视频约束运镜、音频定义氛围)对生成内容进行更精确的控制。

  3)多镜头叙事连贯性控制:针对AI视频生成中常见的跨镜头角色特征漂移问题,Seedance 2.0引入了全局角色锚定机制与角色-环境感知编码技术,能够在全景、中景、特写等镜头切换过程中,维持角色特征、服饰纹理及环境光影的一致性,从而在一定程度上实现了对视频叙事逻辑的建模能力。

  纵观Seedance系列的版本迭代,Seedance 1.0奠定了多镜头叙事与运动生成的基础能力;Seedance 1.5 Pro实现音视频联合生成的质变,将声音从后期配乐提升为原生生成元素;Seedance 2.0则在音画同步基础上,全面升级叙事连贯性与世界模型理解,推动AI视频生成从“单点工具”向“系统性创作平台”演进。

  图表:Seedance模型各代版本功能对比

  资料来源:Seedance博客,中金公司研究部

  与领先的AI视频生成模型对比,Seedance 2.0凭借强大的中文理解能力、多模态的文件输入功能以及对视频叙事连贯性的深度优化,在多维度叙事、创意生成方面形成独特优势。相较而言,Kling 3.0在运动控制和复杂交互方面表现优异;Sora 2则保持着物理真实感的领先地位,发挥物理模拟、细节呈现以及长镜头优势;Veo 3.1生成的视频更具电影级质感,色彩、景深与光影的极致呈现使其单帧画面优势更为突出。

  图表:AI视频生成模型对比(基于截至2026.3我们和市场测评)

  资料来源:Seedance AI,Kling官网,OpenAI官网,Google官网,Curious Refugee AI,Youtube,中金公司研究部

  根据Seedance官方联合影视领域的专家测评,目前其视频生成能力处于业内领先水平,且音频表现力大幅提升。多模态参考生成方面,Seedance 2.0在参考内容的理解深度和响应精度方面具备优势,但在多主体一致性、文字还原精度、复杂编辑效果上仍有待提升。

  Seedance 2.0于字节体系的产品化落地

  当前,Seedance 2.0已全面接入字节系核心产品矩阵,形成覆盖专业创作、泛C端体验、企业级服务的多层次落地体系。

  即梦(字节跳动旗下的AI创作平台)是Seedance 2.0的首发体验入口,代表Seedance 2.0模型能力释放完整、功能更新快速、参数微调能力突出的平台。用户访问即梦官网或在移动端下载“即梦AI”App,使用抖音账号登录后,在生成板块的“视频生成”功能中,即可选择Seedance 2.0模型。该模型在即梦平台为会员专属功能,非会员仅能获得少量免费试用机会。

  小云雀(内容创作Agent)提供轻量化入口与免费体验渠道。用户下载小云雀App并登录后,即可获得3次Seedance 2.0的免费视频生成机会,且每日可获赠120积分以持续体验。

  豆包(综合AI Chatbot)也集成了Seedance 2.0的视频生成能力,用户在AI创作菜单栏选择视频生成功能,即可调用该模型。但根据我们测评,豆包的生成界面相对简化,适合输入简单的描述性词汇,在复杂参数控制方面弱于即梦平台。

  对于企业用户,火山引擎(Volcengine)作为字节的云服务平台,提供Seedance 2.0的企业级工作台试用,并于3月4日官方公布了API定价方案。

  当前,豆包作为免费的流量入口,通过提供10个固定视频额度,承担用户教育及引流职能;小云雀则结合免费体验与轻度付费,每日赠送清零积分以培养轻度用户习惯,并以首月半价的39元订阅套餐促进转化;即梦AI则定位为核心变现渠道,依托连续包月6折、包年5折的优惠策略,推出79元至649元的多档位订阅套餐,以满足从进阶到专业级创作者的高频需求。

  普遍采取“个人订阅+企业API”的双轨制商业化策略

  国内厂商围绕订阅制、API商用构建多元变现体系。Seedance将免费版作为流量漏斗,设置多层付费体系;可灵则结合订阅制与一次性积分包,将套餐设置得更精细化,覆盖从轻度体验到重度生产的全场景。

  OpenAI和Google旗下的模型Sora 2与Veo 3.1绑定其付费会员体系,用户在额度用尽后可购买积分继续使用,使其顶级视频生成能力成为现有订阅体系(ChatGPT Pro、Google AI Ultra等)的增值服务。

  对于企业端,根据Seedance 2.0目前公布的定价,整体调用价格低于Sora 2和Veo 3.1,也略低于国内快手Kling 3.0模型调用价格,形成了具备竞争力的“高质中价”优势,我们认为或有希望快速切入B端市场。

  图表:主流音视频大模型单价测算对比(2026.3)

  注:按照汇率1人民币≈0.145美元换算

  资料来源:即梦AI官网,Kling官网,OpenAI官网,Google官网,中金公司研究部

  Seedance遭遇版权诉讼,在创新与保护间寻找平衡

  据The Information,截至3月15日,字节跳动已暂停其最新AI视频生成模型Seedance 2.0的全球发布计划(该模型原计划于3月中旬面向全球用户推出),原因在于与好莱坞多家制片厂及流媒体平台产生版权纠纷。迪士尼上月向字节跳动发送停止侵权函,指控其未经许可使用迪士尼旗下角色训练并驱动Seedance 2.0模型,包括《星球大战》《漫威》等系列IP。据洛杉矶时报派拉蒙影业、华纳兄弟、Netflix也采取了类似法律行动。目前字节跳动法务团队正排查潜在法律问题,并暂停支持用户上传真人图片或视频作为主体参考,以防止进一步侵权。

  如何看待Seedance未来,以及对行业影响?

  焦点一:如何看待视频模型发展趋势?

  从创意工具到“世界模型”

  《智能简史》(Max Bennett,2024.10)中将人类智能进化历史分为五步:第一层是对称动物的导航趋利避害,其能够基于相关性记忆将事物分为好坏。第二层是脊椎动物的基于化合物分泌的加强学习,其能够基于预测奖励情况,和外界不断互动进行记忆和学习。第三层是哺乳动物的仿真世界模型,基于模型的仿真系统构成了系统2,而重复动作则内化为习惯成为系统1。第四层是灵长类动物的意识,推己及人让动物能够基于动机,观察他人学习,仿真自己未来需求等。第五层是人类的语言,其能够思想他人的思想,让知识可传递可积累,人类发展从此进入震荡上升节奏。

  类比人类智能发展历程,结合近期大模型的发展浪潮,我们认为界模型或成为接下来模型智能取得突破的重要底层变革点:如果我们把大语言模型预训练阶段看成以人类语言为媒介,基于transformer的高效压缩机制的关联性记忆;而后训练推理环节则结合了加强学习机制。然而,当下预训练需要海量用户数据,同时模型泛化能力仍然有局限性。而加强学习则需要清晰的目标函数,所以在编程、数学等领域表现较出色。相反的,在缺乏足够数据,没有清晰目标函数领域,当下AI机制或存在短板。如何让AI类似人类可以仅通过数十小时的训练学会开车等复杂技能?如果AI能够具备世界模型,或许得以解决这个问题。

  世界模型是什么?哺乳动物具备大脑新皮层,新皮层允许其通过仿真来学习,而世界模型则是其仿真的底层模型,其本质上哺乳动物通过感官和基因认识外界世界的高度浓缩的智能。例如,人类如果身处自己家中,即使在黑夜看不清房间布置,依然可以对房间布置基于记忆有感知。对于人类,这种智能主要呈现两种形态,系统2是逻辑深度思考模型,系统1则是高度重复行为压缩成为习惯和直觉。世界模型允许哺乳动物通过思考仿真学习,且底层世界模型在学习新技能时可以复用(比如对重力感知),由此哺乳动物仅需少数试错就可以学习新技能,类似案例还包括人类学习开车。需要注意的是,新皮层具有通用性,感知世界和仿真世界所用的大脑区域是相同的,底层机制也是类似的。

  为何多模态生成模型有“世界模型”的雏形?Google DeepMind负责人Hassabis在26年1月接受采访中提到其认为最接近AGI的模型是类似Nano Banana,Veo的生成式模型。

  准确仿真物理世界,需要以世界模型为前提。在生成现实世界维度上,图像、视频、3D等多模态生成模型的本质是对世界的仿真,由此,具备高度一致性、且能精准遵循物理规律的多模态生成模型,其本身或许就是世界模型。反过来,类似的世界模型也可以用来赋能感知世界和预测世界,典型的例子是提升机器人的智能水平。由此,就宏观意义而言,多模态生成模型或将不只是重构创意领域,更有望成为接下来综合大模型智能提升的关键基础设施,进而赋能机器人、自动驾驶等领域的进展。

  视频:Seedance 2.0加速“Nano Banana时刻”到来

  和图像生成相比,视频生成有相似性也有差异性。从相似性角度出发,视频在某种程度上可视为一系列具有连续性的图像,因此图像是视频的基础单元。然而,相比于单张静态图像,视频生成需要保证帧间空间关系、运动关系等维度的一致性和合理性,因此准确的视频生成难度相对图像生产更高。

  与图像生成类似,2022年Diffusion扩散模型也被应用于视频生成领域,逐步替代了GAN等类型的传统生成模型。早期的VDM(Video Diffusion Models)包括Google的Imagen Video(2022)和Meta推出的Make-A-Video(2022)等。这些模型将传统的2D U-Net架构替换为3D U-Net,并引入时间维度,使扩散模型具备生成动态视频的能力。这一类模型面临的难题包括如何保持图帧之间的一致性,以及生成更长视频等。

  ChatGPT在22年年底走红,推动了Transformer和GPT模式在除语言模型之外赛道的试验,其中就包括视频赛道。Google VideoPoet(2023)就是基于Auto Regression自回归路线(以下简称AR路线)的视频生成。与扩散模型不同,它将视频、音频、图像都转为“词语”(Token),以类似文本预测的方式生成视频序列,与当前主流大语言模型架构一致,理论上具备更强的可扩展性,在长视频内容一致性上表现良好。然而,AR路线也存在复合累计误差,易造成物体变形等严重问题,在生成画面质量方面不及后续的DiT等路线。

  图表:VideoPoet生成的视频案例

  资料来源:VideoPoet,中金公司研究部

  2024年年初OpenAI发布了基于DiT(Diffusion Transformer)架构的Sora视频生成模型,并凭借高度逼真的视频效果迅速出圈。据OpenAI介绍,Sora首先将视频数据压缩为“时空块”(Patches,类似大语言模型的Tokens),此后“时空块”被输入DiT模块进行处理,其中Diffusion扩散模块执行类似图像Diffusion模型的能力,利用先加入噪音后去除噪音方法,奠定生成基础,而Transfomer则核心保障生成视频帧内容一致性、物理正确性等效果。以雕塑类比,Diffusion更像雕塑的流程手册,而Transformer则是雕塑家的技巧和眼光。Diffusion和Transformer高效协同,产生了良好的化学反应。此外,DiT架构具备良好的可扩展性(Scalability),更高质量、更大规模的训练数据可持续提升模型效果。目前,DiT仍构成了Sora,Veo,可灵等主流视频生成模型的核心底层模型架构。

  图表:基于DiT(Diffusion Transformer)架构的Sora视频生成模型

  资料来源:OpenAI,中金公司研究部

  简单DiT存在智能短板。首先,DiT模型或许已能支持生成部分以假乱真的视频内容,但单纯的DiT模型或存在“智能”短板,离世界模型要求仍存在差距。2024年11月由字节跳动和清华大学发布一篇论文《How Far Is Video Generation from World Model: A Physical Law Perspective》中提出DiT视频生成模型本质上仍然是概率匹配,并未真正理解物理规律。模型泛化能力有限,在生成训练数据之外的情形时误差显著上升,系在该场景下,模型更多基于相似案例拟合,而非依靠抽象规则来预测。

  类似的问题或通过借鉴Nano Banana的发展路径来部分解决:即结合DiT模型(例如Veo系列)和具有更强智能的多模态大模型(例如Gemini3),从而由多模态大模型更好承担复杂语义理解,物理规律检验,任务一致性检验等系列智能难题,提升视频生成模型的“智商”。大模型负责理性的智能,而DiT负责感性的创作。实际上,类似的融合路线已有落地,典型案例是Google Veo 3系列生产模型在音视频同步生成方面取得较大突破,其背后支撑基础之一可能就是Gemini3的多模态理解能力。根据Dumi Erhan,(co-lead of the Veo project at Google DeepMind)采访, Veo模型首先依赖Gemini完成精准数据标注,再通过Gemini分析Veo输出结果,辅助模型优化。具体在音视频同步领域,我们推测基座大模型类似音视频生成的“裁判”,帮助模型应对音视频一致性的问题。

  Seedance 2.0加速了视频生成Nano Banana时刻到来。相较于同期其他视频生成模型,Seedance 2.0在音视频同步、物理规律遵循、复杂运镜等多维度均实现了明显提升,不仅体现在画面质感、美学表现等维度,还体现在智能性上:例如基于MMDiT多模态扩散Transformer架构,通过创新的双流+单流融合范式,打造出真正意义上的音视频联合生成模型,带来了极致的视听体验。此外,其在物理规律遵循维度也表现更优异。不过整体来看,Seedance 2.0在智能性上仍有较大的提升空间,例如文字乱码问题依然较多,物理规律表现略显生硬等,这也表明视频生成模型从创作工具到世界模型演进的道路依然有距离

  图表:Alive架构(基于MMDiT)实现音视频联合生成

  资料来源:Bytedance   ALIVE Team《ALIVE: ANIMATE YOUR WORLD WITH LIFELIKE AUDIO-VIDEO   GENERATION》,中金公司研究部

  焦点二:如何看待未来视频生成模型赛道投资机会?

  Seedance 2.0模型出炉,其成为市面上综合实力领先的模型之一,如何看待其和其他大模型例如可灵的竞争格局?如何看待视频生成赛道发展趋势?

  考虑到目前仍处于发展的初期阶段,AI具备庞大的技术进步空间以及应用方向的想象空间,我们认为当下以及未来相当长时间内,行业主要矛盾可能不是相互竞争,而是开拓市场空间。也就是说,制约视频生成赛道主要因素是模型能力不足、市场采纳依然较慢等约束市场空间的问题。根据Fortune Business Insights,Grand View,久谦等机构对视频模型市场的估算,2025年AI视频模型行业赛道空间仅处于10-20亿美元区间,而我们预计,行业内部主要参与者如可灵的年化收入约为1.5亿美元。与之对比,Grand View Research预测全球基于视频的互联网+媒体广告市场达数千亿美元的市场规模。在此背景下,不同主要参与者持续迭代模型能力(例如Seedance 2.0出现)本质上有利于持续拓展市场空间,这对于行业主要参与者可能都是好事。在行业发展的上半场,这种技术进步更多表现为相互促进。由此,我们建议投资者对于第一阵营产品暂不必过于担忧短期竞争态势的变化,反而应该更加重视集体技术进步对市场空间拓展的进展。

  如何看待AI视频工具赛道潜在市场空间?AI模型发展日新月异,准确预测AI视频赛道市场空间数字在程序上简单,但实际操作难度较高。我们可以从定性层面,基于应用场景进行情景分析:基础情形是我们仍然将AI视频模型定位为创意工具,即当下主流使用场景,其核心应用场景是服务专业影视、广告营销、电商商家、UGC自媒体等主体开展内容创作,我们预测对应的市场规模可达数百亿美元级别(核心参考为Adobe的创意软件业务的部分年化收入,2025年为176亿美元);上升情形可能是,随着AI视频模型能力持续提升,可直接生成具备高消费价值的AIGC视频,从而实现从工具到平台的阶跃,进而分享全球视频广告的份额,潜在市场规模则可能超过千亿美元。(参考Youtube,Meta,Tiktok等平台年化广告收入);长期乐观情形是世界模型,若AI视频模型进化为世界模型,将进一步拓展至如自动驾驶、机器人等万亿美元级别的赛道。

  图表:不同垂直行业对AI图像和AI视频生成的采用率及典型应用场景

  资料来源:Artificial   Analysis & Fal.ai《State of Generative Media Survey   Report 2025》,中金公司研究部

  如何看待综合巨头VS垂直聚焦厂商的竞争格局?综合巨头旗下拥有完整的AI模型系列,包括基座大模型、多模态生成模型等。垂直聚焦厂商则更专注于视频生成模型的参与者。如何看待这两类参与者的长期竞争优劣势?

  从技术端,我们看到拥有通用大模型的综合参与者在进军垂类模型时或拥有一定协同优势,展现出赋能垂类模型的“化学反应”。典型代表如前文所述的Gemini 3综合基座大模型赋能Nano Banana,Veo 3等垂直生成模型,在音视频同步生成、文字渲染、复杂物理规模遵循等维度帮助垂直模型进步。虽然理论上垂直厂商也有机会追赶这种优势(例如垂直参与者基于开源通用大模型补齐短板等),但如果这一逻辑主线大范围成立,或意味着专业应用的入局门槛正在提升——仅简单基于大模型开发的应用或竞争力不足,而需要深度整合通用大模型和垂类模型化学反应,这显然意味着更高技术储备要求和更高投入门槛。从这个角度,综合巨头确实存在体系化优势,但垂直参与者,其每年Capex也已达到百亿人民币级别,我们认为其并不会完全受制于这类门槛。

  算力基础设施重要性也提升了行业潜在竞争门槛。AI的核心竞争来自于算力、算法、人才三要素,而随着算法框架相对成熟固定(阶段性共识,未来也可能突变),以及人才流动更加充分,算力基础设施的重要性开始凸显,这也是重要科技公司纷纷积极投入AI算力重要原因。AI视频生成赛道也有类似的规律,由此,重要的行业参与者在模型训练、推理环节的算力储备将直接决定模型能力,用户体验,产品成本等重要竞争要素。此外,随着模型规模扩大、用户需求增加其对于算力需求也节节高升,考虑当下算力较高投入成本,其本身也决定了持续参与行业竞争较高的门槛。

  模型本身可能难以构成持续壁垒,而市场定位的差异会影响技术研发的优先级,以及商业模式等,进而形成差异化竞争。当下生成式AI技术仍处于快速变革期,各个主要参与者展现出激烈竞争、“你争我夺”的交叉领先状态,由此在现阶段,技术和模型本身很难成为行业参与者可持续的核心壁垒或差异化来源。与之对应的是,正如第一章测评所体现的,当下主流AI视频模型仍存在互相优劣势区域,不存在一个模型全面领先的情形,因此在用户侧同时使用多个视频生成模型也属于常见情形,用户会基于自身不同需求选择对应优势的模型,根据fal.ai于26年发布的报告,单个企业平均使用14个生成式AI模型。

  另一方面,不同的市场定位反而可能在模型技术优先级,商业模式维度等层面形成一定的差异化,甚至中长期构建不同壁垒。当下AI视频模型相关产品大致可分为ToC和ToB两类,前者以Sora2,即梦(移动版)等为代表,核心定位是面向AIGC内容的社交媒体平台,后者则以快手可灵等为代表,核心定位是创作者创意工具或社区。C端用户相对更看重内容的传播性、模版化程度、生成速度等因素,而B端用户则更关注输出内容质量、价格、一致性等维度,不同的用户需求会导致模型优化优先级存在差异。例如,聚焦ToB的Kling 3.0在画面细节与质感等维度,相对兼顾ToC与ToB的Seedance 2.0更具优势,部分原因就在于其定位更专注于B端用户需求,而B端用户往往对画面细节要求更高。此外,走ToC路线的产品,目标可能为形成类似抖音的AIGC社交媒体平台,其长期潜在壁垒在于网络效应等方面。反观ToB定位产品,其更多定位于类似Adobe,Canva这类创意工具,长期潜在壁垒在于定义专业标准,创意素材社区,垂直赛道口碑等维度。从商业模式角度出发,ToC模式或更偏向于互联网“免费+广告”模式,而ToB则更加聚焦“付费订阅+API付费”等模式。最后,即便同为ToB赛道参与者,也可进一步分为To Prosumer和传统企业服务两类。前者例如快手可灵,约60-70%营收仍来自直接会员订阅,本质是用ToC的方式服务B端客户;而后者则类似Google的Veo,主要通过谷歌云平台来以API形式服务B端客户,缺乏单独订阅模式,仅纳入Gemini全家桶订阅体系。就目前数据而言,可灵的单价显著低于Google的Veo,在定位上也形成了一定差异化竞争。

  图表:主流视频模型API价格对比(2026.3)

  注:注意上面比较是kling3.0   vs veo2,实际上并不对等,但是价格依然是kling显著更便宜

  资料来源:Artificial   Analysis,中金公司研究部

  综合VS垂直优劣势各异。从ToC角度看,C端用户对效果阈值、可靠性等要求通常低于B端用户,但对便利性与价格的要求更高。我们认为综合型的公司或占优,除在AI模型有系统性布局外,往往拥有渠道与流量优势,因此在把握AIGC ToC平台型机遇时具备体系性优势。而对于ToB赛道,我们认为垂直参与者仍有机会通过深耕特定需求、聚焦细分赛道构建差异化壁垒。企业用户对工具的效果阈值、可靠性、安全性与工作流集成度要求远高于普通消费者。他们更愿意为持续提升效率、优化产出或降低风险的确定性而付费。对于AI视频赛道,我们认为部分产品仍有希望凭借垂直聚焦的定位实现可持续发展。风投a16z在25年10月《There is no God Tier video model》也表达了类似的判断,其认为不同视频模型正在专业化,垂直聚焦是一条具备潜力的发展路径。

  焦点三:如何看待Seedance对现有互联网生态影响?

  在Agent浪潮中,AI应用已经从基于用户Asking需求(类搜索定位),逐步升级到Doing式能力(类助手,近期火爆的OpenClaw就是类似产品形态),且随着大模型在多模态、编程等领域能力迅速提升,其确实在部分场景中展现替代可能性:第一种是流量入口重塑,区别于简单替代,它是指用户需求先通过Agent聚合、再进行分发,这类变化已经讨论较多,由此不再赘述。其次是通用对专用的替代,例如随着Gemini,豆包等Chatbot应用聚合能力越来越多,开始覆盖部分专有应用的功能,而相对于这类专有应用,Chatbot往往拥有高配打低频,免费打付费等优势,从而对部分应用形成一定替代。典型代表例如随着大模型EQ情商越来越高,豆包等应用开始承接越来越多的情感陪伴类需需求(详见此前报告)。再次,随着AI模型编程能力,制作应用门槛也正显著降低,其代表应用供给将显著增长,我们认为,除变革式AI原生应用外,大部分新应用预计将聚焦更长尾、更细分的需求。根据St数据,25年2月以来,美国ios下载榜上线应用数量同比显著加速。根据Appfigures Explorer的数据,App Store在2025年新增应用提交量达55.7万件,同比增长了24%。另一种思考是未来的应用未必是传统App形态,也可能直接根植于Agent生态中,甚至可能是Agent基于用户个性化需求动态生成的定制化应用。不管如何,以上趋势可归纳为一个核心结论,当下Agent和AI模型的发展趋势,可能对部分服务于偏中长尾需求的工具类应用存在一定替代效应。

  图表:AI辅助编程使得IOS应用发布量同比激增60%

  资料来源:a16z,OfficeChai,中金公司研究部

  反观主流的互联网平台,其主要满足用户内容消费、购物、本地生活等主流大众化需求,且部分交易平台还涉及相对较重的线下履约交付、客服等环节,其未必适用于以上简单替代逻辑。本篇报告,我们将聚焦分析AI模型和AIGC工具趋势对线上内容赛道的潜在影响。

  首先,我们认为Agent时代到来对互联网内容/社交平台影响相对有限,核心原因在于使用场景存在本质差异。当下Agent的使用场景更贴近“主动搜索”,无论是Asking,还是Doing,本质都是解决用户潜在需求或者问题,因此随着能力不断拓展,其有潜力替代部分应用与软件场景需求。然而,内容消费主要是娱乐场景,其核心目的是打发闲暇时间,更偏被动消费,其场景更贴近“被动推荐”,两者在用户偏好、使用行为等方面存在明显差异。诚然,我们关注到了Agent正不断增强记忆、持续学习与上下文理解能力,而内容推荐平台亦在将大模型融入推荐算法,包括提供Agent搜索模式等,长期来看,两者存在融合趋势,但我们认为完全切入内容消费式的被动推荐,仍存在显著距离。此外,若Agent等效率工具能够显著提升人类工作效率,那一种潜在情形则是人类花在娱乐消遣上时间会增加,这将有利于线上内容平台拓展空间。

  其次探讨类似Seedance 2.0等AIGC生产力工具对互联网内容生态整体影响。先分析内容消费宏观走向,我们认为AIGC工具进一步降低内容生产门槛,或将推高源自DNA的内容消费需求占比。在《内容平台变局:增长“三剑客”》报告中,内容消费底层需求可分为基于DNA遗传的需求,其主要决定要素是多巴胺、肾上腺素分泌等基础生物机制;其次则是基于人类文化框架下诞生的需求。其中前者是过去几十亿年不断根据自然选择进化的结果,而后者受过去几千年人类社会文化发展的影响。内容消费和物质消费展现出差异,从历史上看(尤其是工业革命以来)“物质消费升级”成为主要趋势,即随着人民的经济生活水平不断提升,人们几乎总是追寻更高品质的物质生活,品牌化等趋势也应运而生。内容消费则不同,尤其是过去20年互联网和移动互联网普及后,抖音、快手等短视频平台出现,UGC内容生产门槛持续降低,推荐算法驱动内容个性化分发,基于DNA遗传的需求驱动的内容消费(典型如短视频)占比相对提升,而类似传统影视、出版图书等受文化影响驱动的内容消费需求占比则有所下降。

  面对AIGC时代来袭,这一趋势会将进一步加强,还是会更好赋能基于文化系统的内容消费触底回升?这个问题终极答案我们可能还需要观察,但从即时趋势来看,短剧、漫剧、网文等体裁是当下最受益于AIGC工具趋势的赛道,红果短剧、番茄小说、汽水音乐等产品的快速增长,似乎也在一定程度上验证了AIGC或进一步推高源自DNA的内容消费需求占比。

  图表:内容消费和物质消费底层动力拆分

  资料来源:理查德·道金斯《盲眼钟表匠》(1986),中金公司研究部

  为何短剧、漫剧、音乐等体裁近期呈现明显的突破性进展?或者说,类似Seedance 2.0这类突破性AIGC模型or工具会给哪些内容赛道带来更大变化?我们在《变与不变,AIGC开创线上平台新时代》曾提出,可根据不同细分赛道目前的需求渗透情况来判断未来增量空间,核心在于用户总规模和总时长是有明确天花板的。以短视频平台为例,国内抖音、快手、视频号三大平台不管从日活,还是人均时长,需求的绝对水位都已处于较高位,发展进入稳健阶段。而从短视频内容供给来看,行业每日产生上亿条内容供给,仅有少部分内容能够获得高曝光,行业整体呈现需求已处于高位、内容供过于求的状态。由此,AIGC在短视频领域或可带来效率提升与成本优化,但是对增量需求的拉动或相对有限,因此也很难改变现有平台的格局。反观长视频、音乐等赛道(游戏赛道可能也类似,但需要等待3D生成模型的进展,目前慢于视频),其原有内容生产门槛较高,内容供给不足限制了用户规模&用户市场渗透,在AIGC工具持续降低内容生产门槛的背景下,有望迎来更明显的变革。这类变革或将不单是存量替代,更有可能通过新体裁满足增量需求,进而催生新平台崛起的机遇,典型代表如红果短剧、汽水音乐等。总结来看,面对内容供给门槛降低,内容供给持续增长趋势,以下两个判断可能同时成立:1)真正已经占领用户认知的头部IP将会是不变部分,其稀缺性会增强;2)即使头部IP,面对内容消费分众化大趋势,内容行业竞争依然会加强,头部IP整体影响力市占率可能仍然会降低。

  图表:不同内容细分赛道供需分析

  资料来源:QuestMobile,公司公告,中金公司研究部

  图表:各类互联网应用用户规模和网民使用率

  注:2024年12月网络视频用户规模中包含微短剧用户资料来源:中国互联网络信息中心,中金公司研究部

  结论:看好AI视频生成赛道

  我们认为,Seedance2.0视频模型系统性突破,加速了视频模型“世界模型”时代到来,也有望拓展行业空间从几十亿美元向几百亿美元拓进。在行业整体空间快速增长背景下,行业重要参与者可能普遍受益。此外,针对行业竞争,我们认为模型技术协同效应,以及算力基础设施重要性等提升了行业竞争门槛,或不利于规模较小的参与者,但模型&技术本身中短期内很难成为持续竞争壁垒,甚至有可能出现交叉领先的情形。此外,不同模型在不同纬度展现出优劣势差异,本身也导致单一模型很难垄断整体市场。最后,不同市场定位也可能带来差异化的发展路径。

  针对Seedance2.0等AIGC模型对于互联网行业竞争格局影响。我们首先认为线上内容/社交平台消费场景和Agent有显著差异化,Agent更偏“主动搜索场景”,而内容平台更偏“被动推荐场景”,这种显著差异化带来产品逻辑差异化,从而使得Agent趋势很难完成对于主流内容平台的颠覆。此外,假设把Agent看成提高人类工作效率的工具,则人类或拥有更多时间进行娱乐消遣(本身不可被Agent替代),将对线上内容/社交平台形成利好。从AIGC工具发展对于内容产业颠覆性角度分析,我们认为对现有赛道格局造成影响的前提是增量供给能够驱动增量需求,从而诞生新的平台。由此,影视、音乐、游戏等原有生产门槛较高的赛道或影响更大。最后,我们认为增量需求或更集中在基于DNA需求驱动内容类型,或非文化meme驱动的内容类型。

  AI视频生成技术演进存在不确定性:尽管当前以多模态扩散架构为代表的视频生成模型在画面质量、镜头连贯性与音视频同步等维度取得明显进展,但整体仍处于快速迭代阶段。从技术角度看,模型在复杂叙事、多主体一致性、文字生成准确度以及真实物理规律理解等方面仍存在明显局限,距离稳定可靠的“世界模型”能力仍有较大差距。此外,该赛道属于算力与数据密集型领域,模型训练和推理成本较高,企业需持续投入算力、数据与研发资源,若技术进展不及预期或成本下降速度慢于市场预期,可能影响行业整体发展节奏。

  版权&法律等安全风险:AI视频生成直接涉及内容生产与传播环节,可能带来版权归属、虚假信息传播、深度伪造等问题,因此相关监管政策存在趋严可能。未来在数据来源合规、生成内容标识、平台审核机制以及跨境数据流动等方面,监管要求可能持续强化,从而对模型训练数据、产品功能设计及全球化业务拓展产生影响。同时,生成式内容的合规审核成本也可能随之提升,对企业运营效率和商业化节奏带来一定压力。据The Information,截至3月15日,字节跳动已暂停其最新AI视频生成模型Seedance 2.0的全球发布计划(该模型原计划于3月中旬面向全球用户推出),原因在于与好莱坞多家制片厂及流媒体平台产生版权纠纷。2025年9月,迪士尼、环球影业和华纳兄弟在加州对MiniMax提起诉讼,指控其视频生成工具“海螺AI”在训练、生成与推广三个环节构成侵权,包括未经许可抓取受版权保护内容训练模型、用户输入提示词即可生成高度相似作品、使用迪士尼等IP角色进行宣传。

  应用落地存在不确定性:目前AI视频行业发展在很大程度上依赖模型能力提升与应用场景拓展。虽然AI视频工具有望在影视制作、广告营销、电商内容生产等领域提升效率,但实际落地进度仍取决于企业与创作者的使用习惯、生产流程适配以及生成内容的质量稳定性。此外,在内容供给已经较为充足的短视频领域,AI工具更多体现为效率提升而非需求增量,其对行业格局的影响可能有限;而在长视频、音乐等内容供给不足领域,需求释放节奏仍需进一步观察。

  商业化路径仍处探索阶段:当前AI视频模型的商业模式主要包括会员订阅、按量计费以及API调用等多种形式,但整体仍处于验证期。模型生成成本与算力消耗仍然较高,企业需要在价格竞争、用户规模扩张与盈利能力之间寻找平衡。若未来行业竞争加剧、价格持续下探,或用户付费转化速度低于预期,可能对企业盈利能力与市场空间释放节奏产生影响。的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

查看更多董秘问答>>

[返回前页] [关闭本页]