编者按:3月1日,国民财富发展研究合作平台与北京超级云计算中心联合主办了“美国对华科技封锁:影响与对策”研讨会。
澜舟科技合伙人、联席CEO李京梅在会上表示,如今大模型已进入“新范式”阶段,DeepSeek在其中扮演了重要角色。其技术创新包括多头潜在注意力机制(MLA)、混合专家模型(MoE)中更细颗粒度专家和共享专家机制、多Token预测技术(MTP)等,这些创新使得DeepSeek在性能和性价比上具有显著优势。
在企业应用方面,DeepSeek为金融领域带来了显著改进,如处理复杂的数值比较和逻辑推理。此外,DeepSeek在文档分析类问答任务中能够提供深度推理结果,为行业分析等提供有价值参考。企业引入DeepSeek时,需考虑算力需求和定制化要求,但其在复杂场景中的应用潜力巨大,推动了Agent应用的发展。未来,DeepSeek将继续探索增强推理能力,适应不断发展的技术趋势。
澜舟科技合伙人、联席CEO李京梅在“美国对华科技封锁:影响与对策”研讨会上作专题发言
从整体来看,大模型时代的开启可以追溯到两年前ChatGPT的火爆,而如今其热度甚至较当时有过之而无不及。人工智能本身一直处于逐步演进的过程中,大模型时代已经相当成熟,而当前我们更多地见证了大模型“新范式”的兴起。目前,公众较为熟知的是DeepSeek,但如果回顾其发展历程,最早可追溯至2017年谷歌发布的Transformer技术,这被认为是大语言模型预训练的起源。在ChatGPT广受关注之前,OpenAI就已经陆续发布了GPT系列模型,包括第一版、第二版,以及2020年推出的GPT-3。然而,由于这些早期版本并不具备直接对话的功能,因此并未引起公众的广泛关注。此后,GPT系列一直在持续演进。到了2024年9月,OpenAI发布了一个全新的大模型系列,其命名不再沿用GPT,而是改为OpenAI-o1,并且后续直接跳至o3,没有o2。这一变化表明,该系列模型与之前的GPT系列在类型上存在显著差异。此前的GPT系列模型,以及与之类似的非推理型模型(如DeepSeek-V3),可以被归类为通用基础类大模型。这类模型在阅读理解、语义理解、通用写作以及多轮对话等方面表现出色。它们能够记住上下文信息,并支持角色扮演功能,即以特定人物或角色的身份与用户进行对话。国内的大模型公司在早期开发的模型也主要属于这一类别。这类模型具备一定的推理能力,但其推理能力主要体现在较为简单的逻辑判断上,进行复杂推理等任务时表现相对较弱。大模型时代所称的“新范式”,是从以往的预训练拓展而来,即通过海量数据进行无监督学习,进而进入后训练优化阶段,此时往往无需大量数据,因此可以说大模型时代已迈入新的范式。OpenAI的o1模型,实则是DeepSeek-R1所对标之模型,其最初开启了通往通用人工智能(AGI)的新范式。以上涉及到一些基本概念。首先,期望增加强化学习(RL)的训练。其次,若整体计算时间固定,可观察到当前趋势的变化,即预训练所占比例逐渐降低,而后训练与推理所占比例则不断提高。今日提及这些内容与算力亦有关联,即算力分配的位置。显然,预训练阶段的算力占比呈下降趋势,这也是当前的一个发展趋势。推理型大模型致力于解决复杂推理问题,同时提升整个思维链的推理能力。此外,它还在公众可能尚未充分意识到的方面,增强了模型的安全性,并减少了幻觉现象。从DeepSeek大模型的发布时间轴来看,目前用户可以通过DeepSeek网站或APP与其进行对话并提问,所交互的是1月20日发布的R1版本。当用户点击深度思考按钮时,其背后的模型为R1;若不点击,则为V3,即其通用大模型。
DeepSeek公司(深度求索)成立于2023年7月,并于2023年11月开始开发若干系列模型。2024年1月,该公司发布了MoE混合专家模型,暂且将其视为对应于V3版的V1版。2024年5月发布了V2版,而V3版则于2024年12月发布。因此,基础大模型在2024年完成了3次迭代,迭代速度较快。
DeepSeek除了拥有基础大模型外,还开发了代码模型、数学模型以及多模态模型。其中,多模态模型DeepSeek Janus于2024年10月发布,主要用于视频生成。此外,其早期的视觉模型VL于2024年3月推出,能够理解图片但不具备生成能力。由此可见,DeepSeek拥有多系列模型,并且这些模型始终秉持开源原则。此外,还有“模型即服务”(MaaS)这一模式,即按照Token计量,以输出字符数量为计费依据。2024年5月左右,DeepSeek首先大幅降低了该模式的定价,降价幅度可能达到数分之一。因此,2024年5月出现了一波热潮,许多云服务厂商以及大模型领域的头部公司纷纷跟进。这种跟进行为类似于以极低的价格参与竞争。因为DeepSeek能够降低运营成本,如果其他公司不跟进降价,其产品必然无人问津。实际上,在DeepSeek于今年出圈之前,2024年就已经有许多企业用户开始关注它,这主要得益于其开源的特性。2025年1月20日发布的DeepSeek-R1为正式版,其开源了模型权重,用户可以将其用于蒸馏,进而生成各种小型模型。此前,许多大模型在开源方面并未达到如此开放的程度。DeepSeek-R1遵循MIT开源许可,这是一种最为宽松的开源许可协议,用户可几乎不受限制地免费使用该模型。DeepSeek-R1包含两个满参数版本,参数规模达6700亿。此外,基于该模型还蒸馏出6个小型模型,其中4个基于阿里巴巴的通义千问模型进行蒸馏,另外两个基于Meta公司的Llama模型进行蒸馏。在官方技术报告中,DeepSeek明确指出,在数学、代码以及自然语言推理等任务上,DeepSeek-R1的性能可以与OpenAI的o1正式版相媲美,但并未声称其远超OpenAI。事实上,部分性能指标略低于OpenAI,因此DeepSeek使用“比肩”一词来形容其与OpenAI的性能关系,即DeepSeek-R1在某些方面与OpenAI相当,但尚未实现真正的超越。DeepSeek公司(深度求索)成立于2023年7月,总部位于杭州。然而,其母公司幻方量化则早在2015年就已经成立。实际上,DeepSeek的创始人梁文锋在硕士毕业后,从2008年至2014年期间,已经开始探索利用人工智能技术实现量化投资的自动化。尽管幻方量化公司正式成立于2015年,但梁文锋本人在此之前的多年间已经积累了丰富的相关经验。此外,梁文锋给人的印象是一位极具技术情怀的人。这一点从与其面对面交流中可以明显感受到。梁文锋对技术的投入和热情贯穿始终。DeepSeek最受关注的方面在于其对人工智能生产函数的投资回报率(ROI)所做出的根本性改变,即其具有极高的性价比。尽管其性价比表现突出,但其最新版本V3大模型的研发成本仍高达557万美元。然而,这一成本核算并未涵盖此前相关研发的投入。具体而言,该模型的训练大约需要2000多张H800显卡,训练时长约为两个月。由此可见,对于普通公司而言,这是一笔难以想象的巨大算力投入。然而,与GPT-4o相比,DeepSeek的调用成本仅为前者的十分之一。此外,GPT于昨日凌晨发布了4.5版本,其价格大约为每百万Token75美元,这一价格显著偏高,性价比极低。因此,性价比成为DeepSeek最为突出的特点,当然,这一优势的前提是其性能能够与OpenAI的产品相媲美。DeepSeek在技术创新上看,首先,所有大模型的起源是2017年谷歌提出的Transformer架构,DeepSeek同样基于Transformer架构进行创新,并未脱离这一基础架构。在架构创新方面,DeepSeek引入了多头潜在注意力(MLA)机制,注意力这一概念在谷歌最初发表Transformer报告时亦有提及。然而,DeepSeek在此基础上进行了关键改进:通过减少传统注意力机制中的大量KV(Key-Value)缓存,显著提高了模型推理效率,这是其在架构上的一个创新点。此外,DeepSeek采用了混合专家模型(MoE)。混合专家模型并非DeepSeek首创,其概念早已存在。该模型的核心在于通过路由机制将不同任务分配给适合的小模型处理。DeepSeek的混合专家模型参数总量为671B,但实际激活的参数仅为37B。这种设计使得模型在计算资源的使用上更为高效,这也是其节省算力的重要原因之一。DeepSeek的技术创新还体现在两个关键方面:首先,它采用了更细颗粒度的专家划分。通过将专家拆分得更为细致,模型的专业性得到显著提升。这种细颗粒度的划分遵循“术业有专攻”的原则,颗粒度越细,专业度越高。然而,专业度的提升也可能导致不同专家之间出现知识重叠。为解决这一问题,DeepSeek引入了共享专家机制,以缓解知识冗余现象。这些设计均与模型的性价比和效率密切相关。在算力和数据有限的情况下,DeepSeek通过算法和架构创新,在有限资源条件下优化性能。其次,DeepSeek引入了多Token预测(MTP)技术。大模型本质上是基于概率统计的预测模型,传统方法通常一次仅预测下一个Token(即下一个字或字符)。而DeepSeek的创新之处在于能够同时预测多个Token,即不仅预测下一个Token,还能预测后续的Token。这一技术带来了两方面优势:一方面,模型的表达能力得到增强,能够预测更多内容;另一方面,在训练过程中,训练数据的利用效率显著提高。最后一个技术创新点是强化学习。强化学习是后训练阶段的重要组成部分,与预训练相对应。DeepSeek在强化学习方面的创新体现在其发布的两个版本:R1和R1-Zero。其中,R1-Zero完全基于强化学习,并采用了一种名为GRPO(群体相对策略)的算法。这一算法与此前其他大模型公司常用的DPO(直接偏好优化)等算法不同,是DeepSeek在强化学习领域的独特创新。DeepSeek的强化学习过程未采用任何监督训练或人工反馈机制,而是通过自我学习提升性能。这一点具有显著优势。在Llama2开发时期,行业内也有尝试类似强化学习的实践,但未能成功。这与底层模型的性能密切相关。随着底层模型的不断强化,以及在技术、算法和应用场景等多方面的优化,DeepSeek得以实现这一创新。简而言之,DeepSeek通过在架构设计上的创新,以传统成本的一小部分实现了高性能和高竞争力。这种效果的实现得益于在各个方面的极致优化。澜舟科技采用“一横N纵”的发展战略。在创业初期,公司开发了孟子大模型。然而,随着底层模型技术的不断发展,澜舟科技在大模型应用开发中采取了中立态度。作为一家创业公司,澜舟科技在2024年进行了战略调整,不再自行开发预训练的大模型底座。在模型层,公司根据客户需求以及开源大模型社区的现状,灵活选择性能最强的模型进行应用开发。2024年,通义千问和DeepSeek已成为客户较为青睐的开源大模型。基于大模型技术,澜舟科技开发了一系列的“原子能力”,涵盖文本理解、问答等功能,并构建了面向企业的Agent智能体开发工具平台——澜舟智搭。此外,公司还推出了多款端到端的智能产品,包括基于大模型的澜舟智会智能会议分析系统、澜舟智库即知识库的搜索问答及写作工具,以及智能客服等。这些应用均面向企业级市场。在实际应用场景中,DeepSeek能够为金融领域带来显著的改进和差异化优势。由于澜舟科技的客户主要集中在金融行业,包括基金、券商、保险以及银行等,DeepSeek的应用效果尤为突出。例如,在理财相关场景中,针对理财产品计划书的文档问答任务,DeepSeek能够处理一些复杂的查询。以比较两个理财产品(如招睿稳泰封闭98号和封闭15号)的销售服务费为例,传统的大模型虽然可以从文档中提取相关信息,但需要分步骤操作:先找到第一个产品的销售服务费,再找到第二个产品的销售服务费,最后进行比较。实际上,对于大语言模型而言,若询问其“9.9和9.11哪个更大?”这类简单数值比较问题,部分早期大模型可能会给出错误答案。这是因为大语言模型主要基于预测下一个Token的原理运行,本质上并不擅长进行数学计算。然而,DeepSeek在后续版本中对这一能力进行了强化和优化,使其能够更好地处理此类问题。在澜舟科技的实践中,针对类似问题,公司在其智库产品中进行了专门的解析和增强处理。具体而言,澜舟科技需要将问题分解为多个步骤:第一步是从文档中提取第一个产品的服务费,第二步提取第二个产品的服务费,然后将这一过程转化为Python代码。通过这种方式,澜舟科技将问题转化为可执行的计算任务,从而确保最终答案的准确性。这种处理方式是基于早期模型能力的局限性而进行的针对性增强,以解决模型在处理数值计算等任务时的不足。另一个例子是关于金融产品收益率的比较,例如询问“鑫远生金系列产品近一个月年化收益率最高的是哪一个产品?”要回答此类问题,首先需要列出所有相关产品的名称,然后查找每种产品的收益率,最后通过比较确定收益率最高的产品。这一过程至少涉及三个步骤,以往通常需要人工手动拆解问题,并进行相应的运算。当澜舟科技的算法团队拿到DeepSeek-R1(满血版推理模型)后,他们进行了多方面的测评,并构建了一些具有代表性的测试案例,类似于解决应用题,需要在多种限制条件下进行逻辑推理。在对比测试中,通义千问14B(可视为R1蒸馏模型的一种)与其他版本的模型进行了性能评估。具体而言,通义千问14B的性能与未经过R1蒸馏的通用版、通义千问14B的R1蒸馏版、澜舟科技自身的增强版、OpenAI的GPT-4o、OpenAI o1、以及DeepSeek-R1满血版进行了对比。结果显示,DeepSeek-R1满血版在测试中表现优异,得分高达96分。相比之下,通义千问14B由于参数量较小,模型规模与满血版存在较大差距,其得分仅为80多分。澜舟科技的增强版能够达到接近90分,但仍与DeepSeek-R1满血版存在一定差距。而OpenAI的o1版本能够达到94分。显然,在此类题目中,尽管R1未针对该测试集进行专门训练,但其表现依然出色,优势较为明显。同时,需要客观看待的是,参数量较少的模型在性能上与大参数量模型存在差距。目前网络上存在一些观点,认为使用开源的蒸馏小模型进行体验时,效果与大型模型存在较大差异,这与参数量的差异密切相关。因此,在实际应用中,澜舟科技也会对模型进行增强处理,以弥补参数量不足带来的性能差距。在文档分析类问答任务中,DeepSeek能够提供更为复杂且具有深度的推理结果,而不仅仅是简单的“是”或“否”回答。例如,在行业分析领域,当被问及“煤炭行业上市公司股价升降受什么因素影响”时,传统方法可能因文档中未明确列出影响因素而无法给出具体答案。然而,DeepSeek能够以一种类似人类思考的方式,透明化地展示推理过程,为用户提供有价值的参考。具体而言,DeepSeek会分析行业分析报告中的关键章节,如观点总结等部分,这些内容通常与问题相关。它会逐一分析这些部分,提取并梳理出可能的影响因素。在呈现结果时,DeepSeek会指出政策变化、煤炭的替代品情况以及相关上市公司的经营状况等因素,并对这些因素进行综合总结。尽管原文并未直接列出具体的影响因素,但DeepSeek的分析过程能够为行业分析师和研究员提供有价值的参考,这种推理能力使其在处理此类任务时表现出色。在接入DeepSeek的场景中,我们发现,在事实类问答任务中,例如从文档或网页中抽取信息(如询问某公司董事长是谁、去年营收是多少等),DeepSeek的表现与现有水平持平。我们曾与企业合作进行投标,并积累了200多个文档和600多条多轮测试问答题,用于此类事实类问题的测试。结果显示,无论使用何种版本(包括满血版),DeepSeek的表现既没有下降,也没有显著提升。这是因为这类任务主要依赖于信息抽取,而传统大模型已经能够较好地完成此类任务,DeepSeek在推理类任务上的优势并未在此类场景中体现出来。此外,2025年被视为Agent元年,DeepSeek的接入显著简化了企业Agent的搭建过程。以智能投研为例,投研工作需要从各类研报、财经新闻页面中提取信息并进行分析。在这种场景下,使用DeepSeek的V3通用模型进行信息抽取,再利用R1版本进行推理和归纳总结,形成了一种较为理想的组合。从互联网收集的信息显示,金融机构在接入DeepSeek后,对其应用场景和能力的侧重各有不同。一些机构关注其国产化特性,另一些则关注其算力效率。还有些机构更关注DeepSeek在贷款、尽职调查、评估或投研等复杂场景中的应用,因为这些场景并非简单的事实类问答。然而,DeepSeek在这些场景中的实际效果仍需时间来验证。作为大模型应用公司,我们在使用底层模型的过程中,除了利用现有的模型底座,还会结合私域数据进行增强和定制化训练。通过整合数据、算法以及对具体场景的深入理解,我们致力于开发更贴合金融场景的应用,当然,这一方法在其他场景中同样适用。在私有化部署方面,当前的算力要求仍然较高。以满血版DeepSeek-R1为例,如果使用英伟达硬件,通常需要8到16张H800显卡;若使用华为昇腾910B,则需要更多显卡,因为推理型模型对显存的要求较高。对于其他蒸馏版本,其资源需求与之前相比并无本质变化。满血版的部署要求仍然不低,包括需要支持显卡之间的通信(如NVLink)等。此外,并非所有场景都适合使用R1版本。例如,我们的产品中也设置了开关按钮,允许用户根据具体场景选择更适合的模型。在引入策略方面,对于企业用户而言,如果需要定制化,满血版的定制要求较高,主要体现在算力需求以及开源社区中定制化框架和工具的成熟度方面。相比之下,较小的模型在定制化方面更具优势。我们也会利用满血版进行数据蒸馏、合成数据,并结合原有的微调方法以及过程监督等优化算法。这些方法在当前以及未来相当长一段时间内,对于小模型的优化仍然有效。之前提到的R1并非大一统的通用任务模型。在某些方面,例如函数调用、多轮对话、复杂角色扮演以及格式处理等任务中,R1的表现不如V3,即其通用底座。因此,DeepSeek后续可能会探索如何通过长推理链来增强R1的能力。与此同时,OpenAI已于近期发布了其非推理型模型的最后一个版本4.5。此后,OpenAI可能会推出一个统一的模型版本,将o系列和GPT系列合并,不再区分推理型和非推理型。据预测,DeepSeek的R2版本可能会在5月发布,甚至更早。因此,R2版本也值得期待。此外,Agent应用的发展也受到DeepSeek推理型大模型的推动。由于Agent需要具备规划能力、任务执行能力和工具使用能力,推理型大模型的应用使得Agent的开发变得更加容易、成本更低,且能力更强。技术圈目前仍高度关注Scaling Law(规模定律)。对于当前处于后训练和推理阶段的模型,其性能曲线的具体形态以及当前所处的阶段尚未有明确结论。这些问题仍然是未来值得关注和研究的方向。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢