最新消息

首页 > 最新消息 > 返回前页

【华鑫计算机|行业周报】GPT-5.1引入思维链机制,重塑人机交互体验

时间:2025年11月19日 09:33

(来源:华鑫研究)

▌算力:算力租赁价格平稳,新浪微博开源VibeThinker-1.5B

2025年11月13日,新浪微博AI团队开源的VibeThinker-1.5B模型,以15亿参数、不足8000美元训练成本,在逻辑推理任务中实现突破。该模型基于独创的“频谱到信号原则(SSP)”训练框架,通过“先发散积累多样解题路径,后收敛筛选最优策略”的范式,在AIME、HMMT等高端数学竞赛基准中,超越参数量达其447倍的DeepSeekR1,追一系列巨头模型表现,编程能力也从零基础提升至追平多倍参数模型。尽管在知识密集型任务中存在局限,但该模型凭借极致成本优势和边缘设备部署可行性,为中小团队参与AI前沿研发提供了可行路径。

▌AI应用:Kimi周访问量环比+39.84%,GPT-5.1重塑人机交互体验

2025年11月13日,OpenAI发布了GPT-5.1系列模型,标志着其在人工智能模型“智能化”与“人性化”融合方面取得重要进展。该系列包括更亲切智能的GPT-5.1Instant与深度推理型的GPT-5.1Thinking两个已上线版本。此次升级重点回应了用户对GPT-5初代“机械感过强”的反馈,显著增强了模型在对话中的自然度与亲和力。技术层面,GPT-5.1Instant成为首个引入“思维链”与“自适应推理”机制的模型,能在保持响应速度的同时,对复杂问题进行更深层次思考。此外,OpenAI大力强化了交互个性化,用户可通过预设的多种语气风格便捷调整模型输出风格,并试验更精细的特征调节功能。GPT-5.1Thinking则优化了思考效率,能依据问题复杂度动态调整推理时间,并减少专业术语使用,使回答更清晰易懂、更具同理心。该模型的发布被视为OpenAI在构建更懂用户、更适应个性化需求的对话系统道路上的关键一步。

▌AI融资动向:AI代码编辑器Cursor完成23亿美元融资,创新CursorXComposer双引擎架构

2025年11月13日,AI代码编辑器Cursor宣布完成23亿美元D轮融资,估值达293亿美元。本轮融资由Accel、AndreessenHorowitz、Coatue、Thrive、Nvidia和Google共同参与。作为“Vibe编码”趋势的代表,Cursor通过自然语言交互实现代码生成、修改与重构,其核心竞争力源于独创的CursorXComposer双引擎架构——Composer模型作为“智能中枢”,搭配重构的IDE底层架构,在上下文记忆、多语言支持及推理速度上领先同类工具,可深度理解并操纵真实代码库。此次融资将进一步巩固其在AI开发工具领域的领先地位,加速技术迭代与市场扩张。

▌投资建议

2025年11月13日,腾讯发布2025年第三季度财报,公司实现总收入1928.7亿元,同比增长15%。其中,toB端的金融科技及企业服务营收达582亿元,同比增长10%,增长动力主要受云服务与微信小店带货技术服务的拉动。同期,公司研发投入达到228.22亿元,同比增长28%,创下单季历史新高。AI个人端方面,腾讯元宝进一步打通微信、腾讯会议、腾讯视频等数十个内部应用,并入驻内部多个产品评论区,显著提升了用户活跃度;企业端方面,腾讯云CodeBuddy已覆盖腾讯内部90%的工程师群体,加速了研发提效。与此同时,“云+AI”战略持续融入医疗、文旅等各行各业,腾讯云国际业务保持高双位数增长态势。截至2025年第三季度末,腾讯在全球主要国家和地区的专利申请公开总数已超过9.1万件,授权数量超过5万件。此次腾讯三季报中,混元大模型的多模态技术突破、研发投入的持续加码,以及“云+AI”在千行百业的规模化落地,验证了AI技术从通用能力向产业实效转化的可行性。腾讯元宝的跨应用渗透与企业端CodeBuddy等工具的效率提升形成协同效应,印证了AI应用从单点功能向全流程赋能延伸的行业趋势。当前全球AI产业基础设施领域增长势头强劲,英伟达将于2025年11月20日披露2026年第三季度财报,其业绩表现预计将为全球AI板块持续注入增长动能。叠加当前AI应用向商业化演进的核心需求,我们持续看好AI应用板块在技术落地加速与场景需求释放背景下的增长潜力。

中长期,建议关注临床AI产品成功落地验证的嘉和美康(688246.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ),AI智能文字识别与商业大数据领域巨头的合合信息(688615.SH)、深耕工业AI与软件并长期服务高端装备等领域头部客户的能科科技(603859.SH)。

▌风险提示

1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。

算力动态:算力租赁价格平稳,新浪微博开源VibeThinker-1.5B

1.1

数据跟踪:算力租赁价格平稳

本周算力租赁价格平稳。具体来看,显卡配置为A100-40G中,腾讯云16核+96G价格为5.73元/时,阿里云12核+94GiB价格为31.58元/时。

1.2

产业动态:新浪微博开源VibeThinker-1.5B,小参数模型改变逻辑推理赛道

2025年11月13日,新浪微博AI团队开源了VibeThinker-1.5B模型。在大型模型参数量不断突破万亿级、研发成本及资源门槛日益攀升的行业背景下,该模型凭借其15亿参数规模及不足8000美元的训练成本,在数学推理、编程任务等基准测试中,超越了参数量高达其447倍的DeepSeekR1(6710亿参数),并且其表现甚至与Gemini2.5flash和claudeOpus4等业界巨头模型不相上下。

VibeThinker-1.5B的性能突破并非依赖模型架构的革新,而是基于独创的“频谱到信号原则(Spectrum-to-SignalPrinciple,SSP)”训练框架,该框架重构了监督微调SFT与强化学习RL的目标逻辑。

传统SFT阶段以“单次回答准确率(PaSS@1)”为优化目标,本质是让模型学习“唯一正确答案”的映射关系,这会导致模型思维固化、推理路径单一。而SSP框架的“频谱阶段”将目标重构为“多答案覆盖度(PaSS@K)”,即针对每个问题,允许模型生成K个独立的推理路径,只要其中至少1个路径得到正确结果,即判定为有效训练样本,这一设计的核心是让模型积累足够丰富的解题策略,而非局限于单一范式。

频谱阶段解决了策略多样性问题,但模型仍需从多样化解法中筛选最优策略。SSP框架的“信号阶段”的核心逻辑是模型对某一问题的不确定度越高,该问题的训练价值越大。具体实现中,研究团队通过计算模型对每个问题的回答正确率(Pc)与“最大熵状态(Pc=0.5)”的KL散度,动态分配训练权重——散度越小的问题,训练权重越高。这一策略使模型资源聚焦于“能力边界”的任务,而非重复学习已掌握的内容,最终实现了推理效率的跃迁。

为进一步强化频谱阶段的多样性,VibeThinker-1.5B采用两阶段多样性探索策略:领域感知多样性探测与专家模型融合。在领域感知多样性探测中,将数学任务划分为代数、几何、微积分、统计4个子领域,在每个子领域的训练过程中设置检查点,筛选出该领域PaSS@K指标最优的“专家模型”。在专家模型融合中,通过“模型合并(ModelMerging)”技术,将4个子领域的专家模型参数进行加权平均,最终形成覆盖全领域的SFT模型。实验证明,融合后的模型不仅PaSS@K指标保持顶尖水平,PaSS@1指标也未出现明显下降——这验证了“多样性与精准性可协同提升”的假设。

研究团队在数学、编程、知识问答三类基准测试中,将VibeThinker-1.5B与主流大模型进行对比,结果显示其在逻辑推理赛道呈现显著优势。

数学推理是逻辑链复杂度最高的任务之一,测试采用AIME、HMMT两大高难度基准:在AIME2025中,VibeThinker-1.5B得74.4分,高于DeepSeekR1(6710亿参数)的70.0分,与OpenAIGPT-4o-Medium(74.8分)、MiniMax-M1(74.6分)基本持平;在HMMT2025中,VibeThinker-1.5B得50.4分,大幅领先DeepSeekR1的41.7分,同时超过Phi-4Reasoning(147亿参数)的43.8分、MagistralSmall(240亿参数)的43.5分。这一结果打破了“参数量与推理能力强相关”的行业共识,证明小参数模型可通过训练策略创新,在复杂逻辑任务中超越体量百倍的大模型。

VibeThinker-1.5B的基础模型在编程任务中得分仅为0,但经过SSP框架训练后,在LiveCodeBenchV6中得51.1分,追平了Magistral-Medium的50.3分。这一提升的核心逻辑是频谱阶段让模型学习了不同编程思路的多样性,而信号阶段强化了代码正确性与效率的筛选。从结果看,模型已具备解决中等难度算法题的能力。

在GPQA测试中,VibeThinker-1.5B得46.7分,显著低于大模型。这一差距源于小参数模型的上下文窗口与参数容量限制,其无法存储多领域的海量知识,难以胜任知识密集型任务。但值得注意的是,其GPQA得分较基础模型(16.4分)提升了30.3分,证明SSP框架仍能在有限资源下优化知识利用效率。研究团队指出,如何提升小模型的知识存储与检索能力,是其走向通用化的核心瓶颈。

VibeThinker-1.5B的突破不仅是性能层面,更在于其对AI研发成本的重大突破。

其训练过程(含SFT与RL阶段)共消耗3900个H800GPU小时,按市场租赁价格计算,总成本不足8000美元;而DeepSeekR1、MiniMax-M1的训练成本分别为29万美元、53万美元。由此可见,VibeThinker的成本效益比达到30-60倍。这一成本优势的来源包括:轻量化参数降低了计算资源需求;SSP框架的“精准训练”减少了冗余计算;数据策略上以开源数据集为主,仅少量构建专有数据。

15亿参数的规模使其可直接部署在手机、汽车等边缘设备上,无需依赖云端计算资源。据测算,其推理成本比大模型低20-70倍,这为AI在物联网、实时交互等场景的普及提供了可能。

 AI应用动态:Kimi周访问量环比+39.84%,GPT-5.1重塑人机交互体验

2.1

周流量跟踪:Kimi周访问量环比+39.84%

本期(2025.11.7-2025.11.13)AI相关网站流量数据:访问量前三位分别为ChatGPT(1396.0M)、Bing(799.4M)和Gemini(287.9M),访问量环比增速第一为Kimi(39.84%);平均停留时长前三位分别为Character.AI(00:18:06)、Discord(00:11:03)和NotionAI(00:08:06);平均停留时长环比增速第一为Kimi(28.96%)。

2.2

产业动态:智能与情感并重,GPT-5.1重塑人机交互体验

2025年11月13日,OpenAI正式发布了GPT-5.1系列模型,迅速引发了全球科技界的广泛关注。作为GPT-5系列的重要升级版本,GPT-5.1不仅在技术层面实现了显著突破,更在用户体验与人机交互的自然度方面迈出了关键一步,标志着OpenAI在模型“人性化”与“智能化”并重的发展路径上取得了实质性进展。

本次发布的GPT-5.1系列共包含三个版本,其中GPT-5.1Instant与GPT-5.1Thinking已同步推出,而GPT-5.1Pro则计划在后续阶段正式上线。GPT-5.1Instant作为日常使用频率最高的模型,在语气表达、智能程度与指令遵循能力方面均有所提升,整体风格更显亲切与灵活。而GPT-5.1Thinking则定位为高阶推理模型,其在理解复杂问题、处理多步骤任务方面展现出更强的持久力与适应性。这一设计理念反映了OpenAI对用户反馈的高度重视。回顾今年8月GPT-5初代发布时,尽管其在多项性能指标上有所提升,却被普遍批评为“缺乏人情味”“语气过于机械”,导致大量用户呼吁重新启用GPT-4o等早期版本。面对这一反馈,OpenAI在短短两个月内迅速响应,对模型进行了针对性优化,致力于在提升智能水平的同时,增强其沟通中的自然感与亲和力。

据OpenAI科学副总裁KevinWeil介绍,GPT-5.1是公司迄今为止推出的最完善模型组合,其在“智商”与“情商”两个维度均实现了显著提升。研究科学家AidanMcLaughlin进一步指出,GPT-5.1Instant是首个引入“思维链”机制并具备“自适应推理”能力的模型,能够在保持与GPT-5Instant相近响应速度的同时,在处理复杂问题时进行更深层次的思考,从而输出更加周全与准确的答案。这一特性在AIME2025数学竞赛与Codeforces编程评测等专业测试中得到了验证,显示出模型在逻辑推理与问题解决能力方面的显著进步。

除了核心智能能力的强化,GPT-5.1还在个性化交互方面实现了重要突破。用户现在可以通过系统预设的多种语气风格来自定义ChatGPT的回应方式,从而更好地匹配个人使用偏好。这些风格选项包括专业可靠、亲和友善、直言不讳、天马行空、吐槽达人、高效务实及技术宅等多种类型,覆盖了从正式场景到轻松闲聊的各类对话需求,使人机对话更加贴近自然人际交流。此外,OpenAI还在试验一项更为精细的个性化设置功能,允许用户直接调整模型在简洁度、亲切度、易读性以及表情符号使用频率等方面的具体特征。更值得注意的是,模型具备一定的语境感知能力,能够在对话过程中识别用户的风格偏好,并主动建议更新设置,从而实现无需手动干预的动态适配。

在具体模型表现方面,GPT-5.1Instant在默认设定下展现出更为亲切与健谈的对话风格。根据早期测试反馈,该模型在保持回答清晰实用的基础上,偶尔会流露出俏皮与幽默的一面,使交流过程更具活力。同时,其在指令遵循方面的可靠性也得到加强。例如,在用户要求“始终用六个词回答”时,GPT-5.1Instant能够严格遵循该约束,而早期版本则可能出现偏差。此外,该模型在处理复杂问题时,能够自主判断是否启动深层思考机制,在速度与质量之间实现更优平衡。

另一方面,GPT-5.1Thinking在此次升级中进一步优化了其思考过程的清晰度与效率。该模型能够根据问题的复杂程度动态调整其推理时间——在面对简单请求时快速响应,而在处理专业或抽象问题时则投入更多资源进行深入分析。在实际应用中,这意味着用户将在困难任务中获得更详尽、更具条理的答案,而在日常查询中则无需长时间等待。此外,该模型在表达方式上也进行了优化,减少了专业术语与晦涩词汇的使用,使输出内容更易于普通用户理解。在处理技术概念解释或专业工作辅助时,这一改进显著降低了沟通门槛。在情感回应方面,GPT-5.1Thinking也表现出更强的同理心与支持性,能够更好地理解用户在对话中流露的情绪,并作出恰当回应。

关于本次更新的命名方式,OpenAI特别说明,“GPT-5.1”这一名称旨在体现其在GPT-5基础上的重大改进,同时明确其仍属于同一技术代际。未来对GPT-5系列的后续升级也将沿用类似的命名逻辑,以保持版本体系的清晰与连贯。与此同时,OpenAI还同步发布了GPT-5.1的系统卡文档,供开发者与研究人员参考。

在发布与推广策略方面,GPT-5.1Instant与Thinking将率先向付费用户开放,包括Pro、Plus、Go及Business等订阅层级,随后逐步向免费用户及未登录用户开放。在本周晚些时候,这两款模型也将通过API接口向开发者提供。值得注意的是,GPT-5.1Thinking在API中将直接以“GPT-5.1”的名称发布,而GPT-5.1Instant则对应“gpt-5.1-chat-latest”,两者均支持自适应推理能力。为确保用户平稳过渡,OpenAI将在未来三个月内继续在ChatGPT的“旧模型”菜单中保留GPT-5系列选项,供付费用户进行比较与适应。这一做法反映出公司从上一次全面下架旧模型所引发的用户不满中吸取了教训,今后在推出新模型时将更加注重用户的反馈与适应周期,并提前明确旧模型的淘汰计划。总体而言,GPT-5.1的发布不仅是OpenAI在模型性能上的又一次飞跃,更是其在“构建更懂人性、更具适应性的对话系统”这一目标上的重要里程碑。

AI融资动向:AI代码编辑器Cursor完成23亿美元融资,创新CursorXComposer双引擎架构

2025年11月13日,AI代码编辑器Cursor官宣完成23亿美元D轮融资,估值达到293亿美元。本轮融资由现有投资方 Accel、Thrive、AndreessenHorowitz和 DST 继续跟投,同时引入新的战略投资方Coatue、NVIDIA和Google.

Cursor的崛起标志着其对软件工程领域新兴“Vibe编码”趋势的把握。该趋势的核心特征在于,开发者通过自然语言与人工智能系统进行交互,后者可自动执行代码生成、修改及重构等任务。支撑这一创新范式的关键技术支柱并非单纯依赖模型算力的提升,而是Cursor所独创的CursorXComposer双引擎架构。在此架构中,Composer作为专为代码生成任务训练的核心模型,构成了Cursor的“智能中枢”,Cursor研发团队对集成开发环境的底层架构进行了重构,使其在上下文记忆容量、多语言支持能力及推理响应速度等关键维度上均领先于同类工具。这一技术突破使得Composer能够深度理解并操纵真实代码库,而非局限于孤立文本片段的生成。

依托上述技术架构,Cursor在上线后的两年内实现了爆发式商业增长:ARR突破5亿美元,日活跃用户规模超100万,付费用户达36万,企业客户覆盖5万家,并成功渗透至超过半数的财富500强企业。此轮增长亦得益于对行业核心痛点的集中响应:全球范围内的工程师人才短缺、开发成本持续高企、企业遗留系统维护复杂度攀升,以及重复调试工作对研发时间的大量占用。Cursor的产品形态通过自动化流程,具备解决上述痛点的能力,辅以免费版策略降低用户试用门槛、社区生态体系加速产品扩散,共同驱动其商业飞轮效应的快速运转。

行情复盘

上周(11.10-11.14日),AI应用指数/AI算力指数/万得全A/中证红利日涨幅最大值分别为1.34%/1.78%/1.33%/0.74%,AI应用指数/AI算力指数/万得全A/中证红利日跌幅最大值分别为-2.00%/-2.18%/-1.27%/-0.59%。AI算力指数内部,高伟达以+5.10%录得上周最大涨幅,工业富联以-11.60%录得上周最大跌幅。AI应用指数内部,恒银科技以+17.94%录得上周最大涨幅,淳中科技以-17.43%录得上周最大跌幅。

投资建议

2025年11月13日,腾讯发布2025年第三季度财报,公司实现总收入1928.7亿元,同比增长15%。其中,toB端的金融科技及企业服务营收达582亿元,同比增长10%,增长动力主要受云服务与微信小店带货技术服务的拉动。同期,公司研发投入达到228.22亿元,同比增长28%,创下单季历史新高。AI个人端方面,腾讯元宝进一步打通微信、腾讯会议、腾讯视频等数十个内部应用,并入驻内部多个产品评论区,显著提升了用户活跃度;企业端方面,腾讯云CodeBuddy已覆盖腾讯内部90%的工程师群体,加速了研发提效。与此同时,“云+AI”战略持续融入医疗、文旅等各行各业,腾讯云国际业务保持高双位数增长态势。截至2025年第三季度末,腾讯在全球主要国家和地区的专利申请公开总数已超过9.1万件,授权数量超过5万件。此次腾讯三季报中,混元大模型的多模态技术突破、研发投入的持续加码,以及“云+AI”在千行百业的规模化落地,验证了AI技术从通用能力向产业实效转化的可行性。腾讯元宝的跨应用渗透与企业端CodeBuddy等工具的效率提升形成协同效应,印证了AI应用从单点功能向全流程赋能延伸的行业趋势。当前全球AI产业基础设施领域增长势头强劲,英伟达将于2025年11月20日披露2026年第三季度财报,其业绩表现预计将为全球AI板块持续注入增长动能。叠加当前AI应用向商业化演进的核心需求,我们持续看好AI应用板块在技术落地加速与场景需求释放背景下的增长潜力。

中长期,建议关注临床AI产品成功落地验证的嘉和美康(688246.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ),AI智能文字识别与商业大数据领域巨头的合合信息(688615.SH)、深耕工业AI与软件并长期服务高端装备等领域头部客户的能科科技(603859.SH)。

1)AI 底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI 应用落地效果不及预期。4)推荐公司业绩不及预期风险。

证券研究报告:《GPT-5.1引入思维链机制,重塑人机交互体验—计算机行业周报》

对外发布时间:2025年11月17日

发布机构:华鑫证券

本报告分析师:

任春阳  SAC编号:S1050521110006

中小盘&主题&北交所组介绍

任春阳:华东师范大学经济学硕士,6年证券行业经验,2021年11月加盟华鑫证券研究所,从事计算机与中小盘行业上市公司研究

周文龙:澳大利亚莫纳什大学金融硕士

陶欣怡:毕业于上海交通大学,于2023年10月加入团队。

倪汇康:金融学士,2025年8月加盟华鑫证券研究所。

本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度,独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。

法律声明

本微信平台所载内容仅供华鑫证券的客户参考使用。因本资料暂时无法设置访问限制,若您并非华鑫证券的客户,为保证服务质量、控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的不便表示诚挚歉意,非常感谢您的理解与配合!

查看更多董秘问答>>

[返回前页] [关闭本页]