豆包新上线了AI播客,瑞士军刀功能再+1,目前支持PDF和网页链接的上传,总体来说,通过大模型的智能识别,豆包现在可以把任何内容转化成一条高度口语化的双人对话播客,属于趣味性和实用价值都很高的一次尝试。
熟悉大模型播客产品的人都知道,豆包这次对标的是谷歌NotebookLM——或者说是它最出圈的Audio Overviews功能——后者通过识别用户上传的文本、网页、视频,就可以转化成一条口语化且带有情绪表达的AI播客,深得用户喜爱。
Audio Overviews大约是在上个月开始支持中文的,但在中文播客市场砸出来的水花并没有想象中的大,一方面是众所周知的产品迁移成本,另一方面,中文播客市场体系化进度实在迟缓,用户习惯是高度分散的,这就导致了播客本身的适配场景很多,深究起来的播客用户以及潜在播客用户也不少,但商业化空间始终有限。
说回正题,我第一时间试了下豆包的AI播客,并分别投喂了两个不同的网站,一个是我写的刘强东前两天内部讲话的文章「刘强东的机巧」,另一个是B站UP主对Prompt, Agent, MCP等AI技术的科普文。
先说结论,在真正听完豆包生成的这两条AI播客之前,我对这项功能的完整程度预期并不高,原因在于,在这种复杂的任务上,目前很多主流大模型的做法还是「边吞边吐」,由此就会破坏内容输出的结构性。
但豆包已经可以做到在10分钟左右的播客篇幅里基于框架生成内容了,在「刘强东的机巧」生成AI播客的任务里,所有对话的前后呼应都很强,能听得出它是按照同一条逻辑线不断往下捋的,有点意外。
另外就是,豆包AI播客的拟人程度已经可以做到以假乱真了,这真的不是夸张,对话的流畅度、松弛感以及合时宜的抑扬顿挫,像我这种文字工作者,文章简单拿来改一改就能直接原地起个播客账号的程度。
那条硬核技术帖转播客的任务表现也相当亮眼,首次提及专业名词的时候,会贴心附上一段对这个概念的解释。整体的输出脉络,也都是建立在「我要深入浅出讲明白这条科普」这个最终目的上。
说人话,就是AI播客让内容的「可听性」变强了,哪怕注意力没有完全集中在耳朵上,这种通俗易懂的内容也变得更容易被消化。
播客——以及整个音频产业——一直以来的优势,是它不会完全参与到竞争用户注意力的零和博弈里去,大部分情况下,刷视频、聊微信、逛淘宝都是非此即彼的单一选项,但播客只占用一个耳朵,由此它能与很多不同的场景做适配。
豆包不是第一个推出这种功能的大模型,但它在应用场景上的成熟度是完全可以进到第一梯队的,不仅能把拗口的文字进行口语化改造再丝滑地表达出来,同时所有内容输出也都是基于原稿,不存在自己加戏的幻觉问题。
当然,作为新上线的功能,豆包AI播客还会经历一个漫长的迭代过程,比如目前它做不到像NotebookLM一样吃下视频内容,对话的声音、关键信息的提炼浓度,以及生成后的整体风格也都不是客制化的可选项,离用户可以随心所欲地深度使用它,尚且还有一段路要走。
但这并不妨碍我们从这个简单的小功能身上窥见AI在未来的使用场景,一切都是假以时日的问题。
虽然知道AI的技术一日千里,但每次实际体验的时候,那种奇妙感还是会忍不住涌上来。