点击蓝字
关注我们
梁正
清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任、中国科技政策研究中心副主任、公共管理学院教授

Deep Seek的实用体验,“碰撞过程”大于“结论结果”
思远:这两天,刷到几条有趣的新闻——北京和上海很多律所已经把Deep Seek接入工作内网,据说很好用——甚至简单案子,不用咨询,Deep Seek的处理又快、又准、又好。对此,有律师说,这不是抢饭碗,是砸锅。前段时间,Deep Seek公布R1模型的成本和收益,每天赚346万元,理论利润率能达到545%。二位嘉宾对语言大模型的落地成果和效率怎么看?
一粟:我是新媒体从业者。日常工作中,用得最多的是用它查资料,其次是撰稿、模拟去写一些文案。在视频制作中,也尝试一些一键生成的功能。前两年,大模型能做到更高效地查资料。Deep Seek出来后,推理方面的能力大大提升了,能在深度思考上给我一些灵感启发。比如说写采访提纲,以前写个提纲至少需要一个小时,Deep Seek可能几秒钟就能写二三十个问题,虽然其中大多数问题用不上,但有几个能给我启发,就比较好了。
不过稿件写作上,我觉得实用性较差,内容套路化比较严重,跟我实际想要的还是差挺多。很多人认为,媒体行业会被Deep Seek这些大语言模型颠覆掉。但目前状况看,大模型对原创类的报道的影响,更多体现在“助力”上。未来大家在各行各业,都要努力地用AI让自己变成“超级个体”。
思远:同意。我工作中,与大模型协作时,感觉它的思考就像一张网,“啪”的一下就散开了,形成思维导图。做内容的角度、架构,一下就撑起来了,但再用我的专业视角细看,确实存在数据的“纯度”、准确率问题。仔细看,是有一些“坑”的,需要查重、验证、判断。梁正老师,听说清华大学现在各个学院都在AI侧“赛跑”,你的感觉怎么样?
梁正:同意两位的观点。DeepSeek出来以后,感觉能力提升主要是在逻辑推理上。我现在非常鼓励研究组的同学们都去用它,答案本身不重要,但给出答案的过程,对我们教学来讲非常有帮助。说到实用性,举个例子——现在是在基金申报季,比如说人文社科这些学者,某种程度上比较感性、思维比较发散。但有这个工具后,帮他们把发散的思维和观点结构化组合起来,让别人理解起来就更容易、更高效了。
DeepSeek们“后浪压巨头”,是错觉吗?
思远:说到大语言模型,前两年大家谈论最多的是ChatGPT,谈得也都是互联网巨头,寄希望于这样的公司去追赶它,但是今年开始DeepSeek似乎在舆论上有种“后浪盖过巨头”的声量和风向,这是事实,还是一种错觉?
一粟:从科技发展规律上讲,颠覆式创新永远都在小公司发生。大公司里,可能只能发生一些常规创新、阶段性创新。有一本书叫《创新者的窘境》,这句话在整本书中是有体现的。
梁正:如果我们回过头去看,为什么OpenAI能够异军突起,而不是谷歌?其实Transformer这个架构是由谷歌提出的,但OpenAI走了一条别人没走的路,ChatGPT绝对是颠覆性创新,但并不是颠覆性的技术。它把现有的技术做了极致的高效、低成本的组合——所谓技术的应用化、普及化、开放化。所以,我觉得这不是偶然现象。举例,《黑神话-悟空》火了,就是基于我们市场这样的需求、丰富的场景,去推动了一些在市场竞争条件下的创新产生。
思远:未来,这些AI大模型的“后浪”会一直这样保持领先吗?
梁正:小公司这种“突破性路线不走寻常路”,开拓性有它天然的优势。DeepSeek也都是一些年轻人,公司管理不是层级化的,“奇思妙想”也可以得到支持,这在大公司很难。但是,真正进入到大规模商业化阶段后,大公司是更有优势的——它的资源、组织能力、市场化渠道,在一个产业真正进入到大规模商用阶段后,你会看到大公司收购这些创新性的小公司。其实,上一波OpenAI同时代的小公司,很多已经被收购了。这并不是什么奇怪的现象,是有一定规律的。
从“全网寻找梁文锋”,看AI时代的舆论规律和创业者精神
思远:今年以来,媒体圈都在“寻找梁文峰”。DeepSeek 火了以后,各家媒体都想采访一下梁文峰,但目前为止都无果。不光是梁文峰,其实很多AI公司的年轻创始人,都极少出现在公众舆论视野中。相比10年前的创业潮,电商、本地生活等领域的互联网创业者,特别热衷于向公众发声。这现象的差异,你们怎么看?是创业者的性格使然,还是AI技术比较抽象,普通人难懂,所以曝光少?
一粟:我觉得是两个时代的底层逻辑在变,移动互联网时代,技术的颠覆性不够强,本身还是商业模式创新。所以,从项目的创立,到后面为了让项目去落地,寻找融资去商业化,本身需要大量的公众关注。但现在这个年代,很多硬科技的公司,更像是隐形冠军,在某一些小的领域里面,技术壁垒很强,技术创新很强。去年一年豆包投了几千万的广告费(营销宣传),结果DeepSeek这个产品出来后,下载量立刻超过了豆包。技术创新,在这个时代的影响力和结果,是远超其他因素的,这也是这个时代的很多低调的隐形冠军存在的原因。
此外,媒体的时代也在变化。比如,宇树科技这家公司,其实跟媒体走得不是很近。但在社交媒体如抖音、视频号上,有关他们机器人产品的视频,火热程度非常高。所以,他们一定程度上不特别需要通过传统第三方媒体的形态,刻意去传播。这个现象背后,也体现出媒介形态的变化。
大模型“开源闭源”路径之争和商业前景
思远:DeepSeek是今年大语言模型的代表性案例。2024年,有位知名投资人说,未来中国没有独立大模型的公司——因为没法挣钱,商业模式就不成立。他明确说,“绝对不投国内的大语言模型。”但今年,这位投资人又对外说“如果Deep Seek开放融资,我们必须投资,价格不重要,参与它很重要”。未来,中国大语言模型的技术水平、商业路径和发展前景,两位怎么看?
一粟:我觉得中国大模型现在肯定已经走出一条自己的路了。DeepSeek是一个非常典型的代表,延续着现在主流的技术路线,但它在提升效率、降低成本和工程化上,做得非常极致。现在,“中国制造”要变成“中国智造”了,技术和成本上两条腿在走路,这就是中国特色的大模型。
思远:关于大模型的最终技术路径,一直有“开源”和“闭源”之争。很多中国大模型公司,既做开源,也做闭源,梁老师怎么看这样的现象?
梁正:个体公司两条腿走路,只是阶段性现象。长远看,行业一定会形成两种竞争性生态。“封闭”的生态,会让协同性更好、在细分市场上创造极致体验;“开源”开放的生态,更有生命力,更广泛多样化。现如今,行业还处在创新的转换阶段,未来会随着产业的进一步发展,阵营逐渐分化。
一粟:同意梁老师观点。DeepSeek前段时间开源后,给大家造成一种错觉“是不是国内大模型不开源就没有活路了?”但其实开源和闭源是不同的选择、不同的生态路线。你要做开源,就纳入更多开发者进来,让整个生态往前走。如果你是闭源,就要自己要把产品造得更好、自有特色足够强,让市场去买单。这个道理,其实在所有传统IT产业里,无论数据库、服务器、系统芯片等,道理都一样。这个命题,并不是在大模型时代才有的东西。
从管理视角,看大模型的政务决策风险
思远:关于AI和大模型,世界范围内大家都在讨论技术、法律和伦理上的风险。大模型防风险,怎么看?
梁正:DeepSeek等推理大模型的出现,确实带来一些新风险。之前,我们都说大模型的幻觉问题、真实性问题、准确性问题。但现在可能我们在一些政务服务、政府决策等方面,比如深圳已经有了AI公务员,实际上把AI的一些强大能力、推理型模型,应用到我们管理决策中的话,其实会带来一些隐患——因为我们知道,模型是不可能承担责任的。
之前,在自动驾驶领域讨论,我们讨论的,更多还是人身安全问题。但在社会管理领域,现在亟待要出台一些管理规范。我觉得,这是随着模型能力提升,从感知、认知、决策,一定会提出新的问题和挑战。看到他的积极方面,也要同时在它的安全、伦理等方面也要予以应对,未雨绸缪。
作者:总台经济之声财经评论员、《远见》制作人王思远
清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。
新浪微博:@清华大学人工智能国际治理研究院
微信视频号:THU-AIIG
Bilibili:清华大学AIIG
来源 | 本文转载自“央广经济之声”,点击“阅读原文”获取更多内容
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢