豆包新上线了AI播客，瑞士军刀功能再+1，目前支持PDF和网页链接的上传，总体来说，通过大模型的智能识别，豆包现在可以把任何内容转化成一条高度口语化的双人对话播客，属于趣味性和实用价值都很高的一次尝试。

发布时间: 2025-06-19 22:30:46

1分

数据加载中

豆包新上线了AI播客，瑞士军刀功能再+1，目前支持PDF和网页链接的上传，总体来说，通过大模型的智能识别，豆包现在可以把任何内容转化成一条高度口语化的双人对话播客，属于趣味性和实用价值都很高的一次尝试。
时政
( twitter.com )

豆包新上线了AI播客，瑞士军刀功能再+1，目前支持PDF和网页链接的上传，总体来说，通过大模型的智能识别，豆包现在可以把任何内容转化成一条高度口语化的双人对话播客，属于趣味性和实用价值都很高的一次尝试。

熟悉大模型播客产品的人都知道，豆包这次对标的是谷歌NotebookLM——或者说是它最出圈的Audio Overviews功能——后者通过识别用户上传的文本、网页、视频，就可以转化成一条口语化且带有情绪表达的AI播客，深得用户喜爱。

Audio Overviews大约是在上个月开始支持中文的，但在中文播客市场砸出来的水花并没有想象中的大，一方面是众所周知的产品迁移成本，另一方面，中文播客市场体系化进度实在迟缓，用户习惯是高度分散的，这就导致了播客本身的适配场景很多，深究起来的播客用户以及潜在播客用户也不少，但商业化空间始终有限。

说回正题，我第一时间试了下豆包的AI播客，并分别投喂了两个不同的网站，一个是我写的刘强东前两天内部讲话的文章「刘强东的机巧」，另一个是B站UP主对Prompt, Agent, MCP等AI技术的科普文。

先说结论，在真正听完豆包生成的这两条AI播客之前，我对这项功能的完整程度预期并不高，原因在于，在这种复杂的任务上，目前很多主流大模型的做法还是「边吞边吐」，由此就会破坏内容输出的结构性。

但豆包已经可以做到在10分钟左右的播客篇幅里基于框架生成内容了，在「刘强东的机巧」生成AI播客的任务里，所有对话的前后呼应都很强，能听得出它是按照同一条逻辑线不断往下捋的，有点意外。

另外就是，豆包AI播客的拟人程度已经可以做到以假乱真了，这真的不是夸张，对话的流畅度、松弛感以及合时宜的抑扬顿挫，像我这种文字工作者，文章简单拿来改一改就能直接原地起个播客账号的程度。

那条硬核技术帖转播客的任务表现也相当亮眼，首次提及专业名词的时候，会贴心附上一段对这个概念的解释。整体的输出脉络，也都是建立在「我要深入浅出讲明白这条科普」这个最终目的上。

说人话，就是AI播客让内容的「可听性」变强了，哪怕注意力没有完全集中在耳朵上，这种通俗易懂的内容也变得更容易被消化。

播客——以及整个音频产业——一直以来的优势，是它不会完全参与到竞争用户注意力的零和博弈里去，大部分情况下，刷视频、聊微信、逛淘宝都是非此即彼的单一选项，但播客只占用一个耳朵，由此它能与很多不同的场景做适配。

豆包不是第一个推出这种功能的大模型，但它在应用场景上的成熟度是完全可以进到第一梯队的，不仅能把拗口的文字进行口语化改造再丝滑地表达出来，同时所有内容输出也都是基于原稿，不存在自己加戏的幻觉问题。

当然，作为新上线的功能，豆包AI播客还会经历一个漫长的迭代过程，比如目前它做不到像NotebookLM一样吃下视频内容，对话的声音、关键信息的提炼浓度，以及生成后的整体风格也都不是客制化的可选项，离用户可以随心所欲地深度使用它，尚且还有一段路要走。

但这并不妨碍我们从这个简单的小功能身上窥见AI在未来的使用场景，一切都是假以时日的问题。

虽然知道AI的技术一日千里，但每次实际体验的时候，那种奇妙感还是会忍不住涌上来。