作者:派大星行

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


伴随着大语言模型在对话文本生成上的突破,以及高保真语音合成技术的成熟,播客这一高度依赖创作者的形式也正在被 AI 所影响。


平时有阅读公众号习惯的朋友们,前段时间可能已经注意到,微信上线了一个全新的功能——「快讯」。在这一板块中,用户不仅能阅读每日资讯,还能收听一档由男女两位主播以对谈形式带来的快讯播客,涵盖热点速递、国际新闻等多个环节。更有趣的点在于,播客标题的下方明确标注了「由 AI 生成」的相关字眼,这正是微信在进行的 AI 播客灰度测试。这一动作与腾讯混元在 8 月 5 日正式推出 AI 播客功能的消息,以及 9 月 16 日-17 日腾讯云智慧传媒,在腾讯全球数字生态大会上公开展示的「AI 快讯+AI 播客」行业解决方案可谓相呼应。



近几年 AI 制图(如 Midjourney、Stable Diffusion)和 AI 视频(如 Veo3、Wan2.2)火遍全球,如今 AI 播客正接棒成为又一个新的热门方向。伴随着大语言模型在对话文本生成上的突破,以及高保真语音合成技术的成熟,播客这一高度依赖创作者的形式也正在被 AI 所影响。

AI 播客实现「活人感」的奥秘

如果在社交媒体上寻找优质播客推荐,相关搜索词里一定会有「活人感播客」。所谓「活人感」,其实指的是创作者们通过播客对谈的形式,所展现出的自然情感流露。正是这些言语间的停顿、犹豫,或是突如其来的大笑与争论,让听众感受到了真切的陪伴。但一提到 AI 播客,人们可能会联想到手机语言助手、车载语音助手、智能家居助手等日常接触的智能语音产品,它们普遍带有的机械味,难免会让人先入为主。于是问题来了:AI 播客真的能做到「像真人说话」那样,让人忽略对面是机器吗?在回答这个问题前,让我们先听一小段播客。

(音频内容由AI生成)


不难发现,两位主播这段「一捧一逗」默契卡点呼应的对话其实已经颇具「人味」了,其实这段素材是豆包一键生成的 AI 播客。更妙的是,实现「活人感」的效果在行业内已不再是孤例。从机械电子音到开口像人的变化,均得益于同一条技术主线的发展——现代神经网络文本转语音(TTS)技术。


区别于传统机械化合成拼接的 TTS 技术,现代 TTS 通过深度学习模型,能够更好地捕捉语音的语调、音色、语速、情绪、风格等多维特征,从而生成更自然流畅且富有表现力的语音。在此基础上,对抗训练、基于大语言模型的语音建模、多模态条件控制等技术的加入,使得模型生成的语音与人类语音越来越难以区分。


例如,微软于今年 8 月发布的新型 TTS 模型 VibeVoice-1.5B,通过创新的连续语音标记化技术和下一代标记分词扩散框架,并结合大语言模型,实现高效处理长序列音频的能力。


在线教程链接:https://go.hyper.ai/6ruF7


面壁智能与清华大学深圳国际研究生院联合开发了一款 0.5B 参数语音生成模型 VoxCPM,采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。在语音合成的自然度、音色相似度及韵律表现力方面达到了不错的水平。

在线教程链接:https://go.hyper.ai/frmze


哔哩哔哩语音团队带来的 IndexTTS-2,提出了一种新颖、通用且对自回归模型友好的语音时长控制方法,是首个支持精确时长控制的自回归 TTS 模型。

在线教程链接:https://go.hyper.ai/z7Jdt


HyperAI超神经官网(hyper.ai)的「教程」板块中上线了多个优质开源 TTS 模型的一键部署教程,欢迎前往体验。


当下 AI 播客生态:两类玩家多个赛道

在应用层面,上述提到的技术已经逐步走进大众视野。当前市面上的 AI 播客产品,按照背景可以划分为两大阵营:


一方面,大厂玩家的加入无疑为 AI 播客赛道添了一把猛火,迅速推高了领域内的关注度。其中最早出圈的产品莫过于 Google 的 NoteBookLM,以高度总结性的音频概览见长,旨在帮助用户快速消化资料,其强大的音频能力也成为了 AI 播客的高效工具。近期优化后,新增支持包含中文在内的 50 多种语言,解决了先前只能使用英语的难题;字节跳动推出的豆包依托于火山引擎的大模型能力,实现一键生成播客内容,端到端的语言对话,可以理解为「边听边理解边回答」,其自然度和质感算得上中文 AI 播客里的第一梯队;除此之外,小红书音频团队也在前不久带来了对话生成模型 FireRedTTS-2,相关论文以「FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot」为题发表于 arXiv。



另一方面,初创团队则展现出多样的创新力。代表产品有,号称「每个人专属 AI 电台」的来福电台,旗下播客节目均由 AI 生成;妙鸭相机创始人张月光及团队推出的 ChatPods,主打个人专属「AI 播客代理」,由 AI 生成语音精选摘要,进行个性化播客推荐;而由前 NotebookLM 团队成员带来的 「Huxe」,也在致力于通过 AI 打造便捷+个性化内容,其中的 DeepCasts 功能可以即时生成专属于用户的 AI 播客,带来随时随地的定制化知识获取。



结语

除了上述在播客内容生产与交互形式上的创新,AI 对播客领域的赋能也深入到了创作链条的更多环节。


9 月 16 日举行的「Made on YouTube」活动中,YouTube CEO 尼尔·莫汉(Neal Mohan)宣布了一系列全新 AI 工具,其中比较有趣的一项是专为播客创作者打造的音频-视频 AI 生成工具,帮助播客创作者轻松实现播客视频切片制作。



Made on YouTube 活动视频截图


这一工具的推出,其实正是当下 AI 技术深度渗透播客领域的一个缩影。从创作者角度来看,AI 播客的出现显著降低了内容生产门槛,不仅能优化脚本,还能辅助完成剪辑、推荐甚至分发,让个人创作者甚至小团队也能快速产出高质量节目。而从用户角度出发,AI 带来了更智能化的内容推荐,听众能够更高效地获取适合自己的播客内容,甚至在语音助手的支持下实现更沉浸的收听体验。


总体而言,AI 播客正处于百花齐放的阶段,究其原因在于播客领域背后潜在的商业价值。根据《2024 年播客行业报告》显示,在受访用户中,45.9% 在过去一年里购买过付费播客节目,63.6% 对播客广告持接受态度。随着人们生活方式和消费习惯的改变,播客这片声学蓝海或许不再是从前的「小而美」个性领域,其背后的潜力正等待挖掘,而传统播客行业所面临的变现难题,或许有望在 AI 技术的助力下迎来新的解决思路。无论是生产效率的提升,还是用户体验感的满足,都让播客产业的未来更具期待空间。


参考链接:
1.https://mp.weixin.qq.com/s/WH60YKbhAEf51si4mlZoNQ
2.https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7
3.https://mp.weixin.qq.com/s/XFK59UJu9appRpHmtsIjeg
4.https://techcrunch.com/2025/09/23/former-notebooklm-devs-new-app-huxe-taps-audio-to-help-you-with-news-and-research/
5.https://www.huxe.com/blog
6.http://www.news.cn/fortune/20250407/669ffc4208b24ce895c9b560b05ff6a0/c.html



一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️

 往期推荐 

“阅读原文”,免费获取海量数据集资源!


内容中包含的图片若涉及版权问题,请及时与我们联系删除