ONE SENTENCE SUMMARY:
Spotify计划利用生成性AI提升音乐和播客创作,增强用户推荐体验,同时关注创作者的权益和法律合规性。
MAIN POINTS:
- Spotify正在探索生成性AI在音乐和播客中的应用,以提升创作和推荐体验。
- 创作者使用AI工具时,Spotify支持他们的创作和合法获利。
- 推荐系统的改进将帮助用户更好地发现新内容,避免信息过载。
TAKEAWAYS:
- AI工具可以增强创作者的创造力,提供更多创作可能性。
- Spotify致力于保护创作者权益,确保合法合规。
- 用户反馈将推动Spotify推荐系统的智能化发展。

Spotify 正在应对生成式 AI 的挑战 。人们正在使用 Suno 和 NotebookLM 等工具生成合成音乐和播客,这些内容可能会充斥其服务平台。同时,该公司将大型语言模型(LLM)的兴起视为一个机会,可以通过与用户的对话来帮助其响应反馈,并在合适的时间提供合适的内容组合。
为了了解 Spotify 如何计划应对这些挑战和机遇,我与该公司的联合总裁、首席技术官兼首席产品官 Gustav Söderström 进行了深入的对话,内容在 Big Technology Podcast 上播出。
您可以在 Apple Podcasts 、 Spotify 或您选择的 应用程序 上收听完整对话(我们本周还在 Spotify 上推出了 视频播客 )。但我想分享完整的文字记录,因为我觉得这次对话非常有趣。以下是我与 Söderström 的讨论,经过轻微编辑以提高清晰度和长度。
Alex Kantrowitz:您负责 Spotify 的产品。您希望平台上有 AI 生成的音乐吗?
Gustav Söderström :如果你考虑音乐,它正在经历一个工具越来越强大的旅程。回到过去,即使你是像巴赫这样的音乐天才,你也需要一个乐团来实现你的天赋。即使你能自己演奏多种乐器,你也不能同时演奏它们。然后我们有了录制音乐的能力,你可以一次录制一种乐器。这样你就变得越来越独立。然后在80年代左右,合成器出现了,这意味着你不必自己演奏所有乐器。你可以使用合成器“假装”演奏鼓和吉他等等。所以我认为这是一个更强大工具的进步,使得创造力越来越多。
然后在90年代左右,数字音频工作站出现了——作为一个瑞典人,我对此非常自豪——Avicii 出现了。Avicii 在任何一种乐器或歌唱方面都不是很精通。在以前的世界里,他可能不会被认为是一个非常有创造力的人,因为没有数字音频工作站这个工具,他无法实现自己的创意。
事实证明,他是我们非常非常自豪的最有创造力的人之一。对他来说,数字音频工作站就是 Steve Jobs 所说的“心灵的自行车”。这意味着他可以更高效地工作,并能够表达他的天赋。关于下一轮工具的最大问题是:它是在放大创造力,还是在取代人?
我认为它是在放大创造力。它让越来越多的人能够创造。你需要的运动技能比弹钢琴还少。你需要的技术技能比他们自己的工作站还少。所以我把它们看作是工具。
还有一个有趣的问题是,什么是 AI 音乐?我认为人们说 AI 音乐时,他们指的是用不多的提示和不多的工作生成的东西,比如百分之百的 AI。但事实是,今天制作的许多音乐都是结合的。我认为许多大艺术家正在使用 AI 来制作他们歌曲的一部分,或曲目的一部分,或鼓等等。
所以我认为实际上存在一个从零到百分之百 AI 的尺度。我们正在这个进程中,实际上很难说,什么是 AI 歌曲?
您欢迎这些东西在您的平台上吗?假设有人确实提示了百分之百的 AI;Spotify 可能会充满 AI 提示的歌曲。这些歌曲很容易创建,然后上传到互联网上。您对此有何感想?您想要它们吗?
所以这里有两个问题。一个是,Spotify 是关于什么的?我们是一个为创作者提供的工具,如果创作者想使用 AI 来增强他们的音乐,只要我们遵循立法和版权法,我们希望他们能够通过音乐获利并支付费用。所以对我们来说,我们正在努力支持创作者,自从我们开始以来,音乐目录已经从数千万首曲目增长到数亿首曲目,我认为它将继续扩展。
但我认为对我们和音乐行业的其他人来说,重要的是要弄清楚,如果你回到盗版的年代,有一种叫做点对点和文件共享的技术非常棒。我们实际上将这种技术整合到了 Spotify 中。
但在 Spotify 之前,技术先于商业模式。对消费者来说,这很棒。他们现在可以免费获得所有这些音乐,但对创作者来说却行不通。我认为我们现在处于同一时期,技术先于商业模式。
所以我认为技术很棒,但我确实认为我们需要找到一种方法来补偿参与其中的创作者。这是我们和行业其他人正在思考的事情。如果我们能找到商业模式,是的,我认为我们可以解锁巨大的潜力。
然后是一个单独的问题:这些模型及其训练方式是否会被视为合法?例如,在美国,这些公司现在正在被起诉。所以我认为这个问题将由立法决定。
但假设有一个这样的模型,无论是否需要在其他数据上重新训练。对我们来说是一个有趣的工具吗?如果它是合法训练的?是的,如果创作者可以参与其中。
Meta 有 AI 图像生成器。公司的信息流充满了大量 AI 生成的图像,它们很有吸引力,Meta 似乎对此很满意。现在 Meta 平台上的一些顶级内容是 Shrimp Jesus,它结合了人们的两大爱好,耶稣和海鲜
我见过那个。
所以,从 Spotify 的角度来看:如果这些由 AI 音乐生成器生成的歌曲变得吸引人,并且它们遵循规则,这对 Spotify 来说是好事吗?
嗯,我认为如果创作者正在使用这些技术——他们以合法的方式创作音乐,我们补偿他们,人们听他们的音乐——并且他们成功了,我们应该让人们听他们的音乐。
我认为不同的是,我不认为我们的工作是代替创作者生成音乐,对吧?这是一个关键区别。我们是为创作者提供的平台吗?然后我们可以讨论他们被允许使用哪些工具,比如好奇数据或工作站,但不是 LLM。也许我们不应该为他们决定。
但有一个问题是,我们应该自己生成所有音乐吗?这就是我们所说的,“不,我们不会生成那些音乐。”但也许其他平台会,因为这是廉价内容,对吧?
所以这是关键区别。我们决定了我们在这个世界上想成为什么,我们是一个为创作者提供的平台。
好的,所以有一个潜在的世界,其中一个工具似乎侵犯了版权,您可能会禁止创作者上传使用该工具创作的音乐?
我们有检测系统来判断它是否是现有作品的衍生作品。所以我们有系统来下架这些创作者。如果你正在创造完全新的东西,不是任何东西的衍生品,并且没有版权侵权,那么唱片公司会告诉我们。所以这是另一个问题:这些模型是基于什么训练的?但我们没有创建模型,所以我们在观察会发生什么,并将遵循法律。
但我认为从高层次来看,这应该是一个非常令人兴奋的工具,适用于创作者、音乐家、作家和播客制作者。我认为如果你看看像 Notebook LM 这样的东西,例如,它实际上是由一位记者和作家作为工具创建的。
我打赌这些是心灵的自行车,但有点像心灵的自行车加了类固醇,对吧?当这些转变发生时,总是会在不使用这些工具的人之间产生紧张关系。这感觉有点像作弊,人们会说,“不,我也想要有创造力!”这总是一个不同且困难的过渡期。
这就是技术的故事。你所描述的是当你认为自己已经弄清楚了一些东西,然后新的创新出现时,在科技公司内部会发生的事情……
这就是让它变得有趣,让它变得令人兴奋的原因。
当你更深入地思考时,我们是否会进入一个可以开始提示音乐的地方,这些音乐会比你可能听过的为特定情绪创作的任何歌曲都要好。音乐触动人心。如果 AI 能做到这一点,为你所处的任何情绪创造完美的歌曲,那会成为音乐的未来吗?这是你可以忽视的吗?
所以我认为有两件事。音乐被用于许多不同的事情,对吧?
例如,你有用于学习的音乐。其极端版本是人们听白噪音。那么,白噪音会被生成吗?它实际上已经是人工生成的。
这是最受欢迎的播客格式之一。
确实如此。所以这里有一个尺度,我认为你在某些方面是对的。也许你可以创造更好的白噪音。也许你可以为你的学习创造总是变化的环境音乐,也许是为游戏,也许那种音乐应该自动调整屏幕上发生的事情。所以我认为我们会看到很多 AI 生成的音乐用于这些用例。
但还有另一个用例,我认为这非常重要。很多人用音乐来建立他们的身份,对吧?尤其是当你是青少年时,你去参加音乐会,你买了那场音乐会的夹克。你为什么买那件夹克?嗯,这就像一个徽章。你在与这个乐队建立联系。你通过这个乐队建立自己的身份。
我不认为这会适用于 AI 生成的音乐,因为背后没有人。所以我认为一些音乐,我确信这已经在发生。我确信许多出版商正在为咖啡桌等生成音乐。这可能会发生。
但我确实认为人类需要有一个你关心的实际艺术家。我不认为泰勒·斯威夫特会被 AI 取代,不是因为音乐听起来不相似,而是因为重点是泰勒·斯威夫特和归属感。所以我认为这不是一个二元答案,我认为两者都会发生。
两年前,我可能完全同意你的观点,总是需要故事和人类联系。现在我不太确定,因为我确实认为这些东西可以足够好。
在这些世界中,稀缺的东西往往变得更加有价值。所以一个赌注是,当你在未来与之交谈的很多东西可能是 LLM 时,真正的人类联系会比以往任何时候都更有价值。这将是我的赌注。
我希望是这样,因为我经营的部分业务是基于与能够剖析和分解事物的人类联系的想法是有价值的。所以我希望是这样,但我也不像以前那么确定。
鉴于进步的速度,现在不确定任何事情是明智的,
我认为这将我们直接带入 NotebookLM,这款 Google 产品可以将笔记放入其中,然后生成由两个听起来非常人性化的联合主持人主持的播客。
是的,他们确实如此。
AI 主持人做得足够好,我开始在剧集的下半部分看到他们出现,人们会说,“我们要做这个剧集,然后在下半部分,我们会给你 AI 来听。”但如果他们最终成为上半部分会怎样?Spotify 已经大举进军播客。你怎么看待这些 AI 播客主持人的崛起?
我认为 NotebookLM 非常令人印象深刻。鉴于这些东西的语音质量和语言模型的理解能力的发展,你可以预测这会发生。所以我一点也不惊讶你可以生成令人愉快的“谈话”音频。
但我认为 NotebookLM 的伟大创新在于人们生成了独白,而人类真正响应的是对话。回想起来,这很明显,几乎所有播客都是对话。如果我在这里坐一个小时,那并不那么有趣。
所以我认为最大的技巧是通过一段材料并以对话的形式呈现,并以正确的方式提示它。显然,Google 内部的 Gemini 模型可能非常好,语音模型也变得更好了。
但实际上,我认为他们发现了音频格式的产品市场契合度。结果证明是播客形式——字面上——这相当疯狂。
有人在 Threads 上标记我,说:“男性声音听起来像你。”我听了,虽然不是同样的语调,但有同样的节奏和我会问的问题类型。这是否意味着我只是播客中“平凡中间”的混合体,还是他们复制了我的声音?我希望是后者。
如果人们要么厌倦听同样的两个人谈论一切,要么相反,他们习惯了同样的两个人并更愿意他们保持不变并建立信任,那将会很有趣。
我不知道,我认为人类非常迅速且容易拟人化,这有点像我们人类大脑的一个技巧。所以你觉得你认识这些人,因为你听他们谈论了很多事情。很难预测我们会走向何方,作为一个平台,我们也以同样的方式看待它。
当然,人们也在将这些播客上传到 Spotify,我不知道是否有人有超高的参与度,但肯定有人在听。
所以这是同样的问题:这是否会成为创意人士的工具,他们可以写故事但不想围绕它制作播客,或者只是没有人采访他们,所以他们只是围绕自己的材料进行采访?
我认为你会遇到同样的问题,如果你只是让它谈论某件事,它不会很好。你需要一个好的素材来源。
那么这是一个让创意人士变得更高效和更有创造力的工具,还是创意人士的替代品?我打赌这是另一个工具。
这很有趣,因为它有点扩展了长尾。这些播客生成器,尤其是 NotebookLM,你可以用它来为一些如此小众的东西创建播客,以至于你永远不会有类似的节目,使用 AI 代码,对吧?
是的。
这与编码相似。使用生成式 AI,你现在可以编写以前从未编写过的代码,因为你可以更快更便宜地完成。也许播客也是如此,会有更多以前从未制作过的播客。
我喜欢这个。一个有用的框架是金融框架,比如某物的成本降为零。当编写代码的成本降为零,制作播客的成本降为零,预测的成本降为零时,通常会发生的事情是该商品的替代品受到挑战。但该商品的补充品,比如:“如果咖啡的价格降为零,那么茶将被取代,但糖作为补充品将会爆炸。”
所以我认为会发生的事情正是你所说的。我们将会有大量关于小众内容的内容,因为制作播客没有意义。所以一种思考方式就是成本降为零。
所以我确实认为目录会爆炸。那么这意味着什么?嗯,这可能意味着推荐问题变得更加重要,因为现在更难跟踪上传的所有内容。
我还认为,如果你有这样一个关于任何主题的完美讨论的广阔海洋,推荐问题变得更有价值,目录越大。
但我也认为你会看到与我们在音乐中看到的相同的事情。超级明星实际上也会变得更大。这是我觉得很有趣的地方。
人们会说,Netflix 赢了吗还是 YouTube?嗯,事实是两者都赢了。他们会说,独立音乐赢了吗还是泰勒·斯威夫特?嗯,他们都赢了,但泰勒·斯威夫特比以往更大。
好吧,让我们谈谈 AI 推荐。这是 Spotify 的重要组成部分,愿景是最终你希望 Spotify 成为我们周围的这个环境朋友,了解我们所处的情境。这对吗?你为什么要追求这个?
Spotify 成立于 2006 年,那时还比较早,有趣的是,那是在机器学习成为一件事情之前,所以 Spotify 非常专注于社交功能。
为了推荐的目的,我们需要社交功能,因为这就是大多数人通过朋友发现音乐的方式。所以我们希望你能与人们建立联系。然后 AI 出现了,或者当时被称为机器学习,我们意识到通过我们拥有的所有播放列表数据几乎是用户的标签。
他们为自己创建了 Spotify 的集合,“这些曲目搭配得很好。这些曲目搭配得很好。”
所以我们得到了很多标签数据,我们在内部说,“现在,有些人有一个碰巧了解他们品味的音乐朋友等等,但大多数人没有。所以现在我们可以为每个人构建这个朋友,那就是 AI。”
但有趣的是,为每个人构建一个可以提供音乐推荐的朋友,比如“Discover Weekly”,一直是一个类比。我认为现在随着 AI 的发展,这个类比实际上正在成为现实。
所以你可以看到我们在朝这个方向稍微移动。你有了 AI DJ,它开始给 Spotify 一个与你交谈的声音。我认为随着这些 LLM 的发展——至少对于某些品牌——你会开始与它们建立真实的关系。我希望事实是你认为 Spotify 实际上是一个朋友,不再是一个类比,而是现实。
这就是一个“人”,这是一个了解我的东西。这是一个音乐智能,一个播客智能,一个书籍智能,我实际上喜欢听它告诉我新事物并建议我感兴趣的东西。
所以我认为这就是我们正在前进的方向。我认为其他品牌也在朝这个方向发展。我认为如果你看看像 Duolingo 这样的人,他们实际上一直通过四个角色进行沟通,当你收到推送通知时,如果不是来自 Duolingo,那就是来自 Lily 或 Sarah 或其他人。
如果我离开几个小时,他们真的会给我很大的压力。
有了 AI,你实际上可以与这些角色交谈。所以我认为这是许多公司正在进行的旅程,看到它的展开很有趣。这意味着以前被称为“品牌”的一部分现在就像“个性”。
你希望你的公司拥有什么样的个性?不是作为一个类比,而是字面上,Spotify 应该有什么个性?我认为在科技领域工作是一个迷人的时代,这是我们非常关注的事情。
你有这个 AI DJ,它还可以。我听到的反馈是人们最初对它感到兴奋,然后逐渐远离它。那么 AI DJ 实际上发生了什么?人们在使用它吗?
所以在数据中,他们并没有远离它。它实际上非常成功。
所以我的朋友们只是相当挑剔的音乐听众。
嗯,对于使用它的人来说,它实际上是他们最大的集合。比他们的 Discover Weekly 使用量还要大。所以这是一个相当二元的体验。我认为这是为那些不知道自己想听什么,只是想放点东西的人准备的。
当我们推出AI DJ时,最大的创新在于我们成功地将一个真实人的声音数字化,使其听起来非常逼真。但它在音乐周围所说的内容在某种程度上是启发式的,时间长了会显得有些重复。
因此,自那以后,我们最近投入了大量资金推出大型语言模型(LLM),这些模型实际上可以讲述关于音乐的有趣故事,我们发现这对应用程序的用户留存率有非常强的影响。
以前,它可能会说:“这是这首歌,来自某某,我想你会喜欢。” 现在我们可以说:“这位艺术家刚刚在哥本哈根演出过。” 你开始听到有趣的故事,感觉更加个性化。
我认为另一个缺失的功能是,我希望有一天它能够与你对话,你可以直接对它说:“不,这不太好。我这周的‘Discover Weekly’不是我想要的。” 并给予实际反馈。技术上来说,这在现在的LLM中是非常可能实现的,所以我希望这能实现。这不应该是单向的关系——由于技术原因,Spotify一直是单向的。它应该变成双向的关系。
我想和你谈谈我们应该在多大程度上允许算法决定我们的音乐体验和播客体验,而我们又应该在多大程度上自己做主?我们应该对自己的选择有多少自主权?
《纽约客》记者Kyle Chayka最近 写道 他要离开Spotify。他说:“通过Spotify,我可以几乎即时浏览几十年的已发布音乐;我可以自由地试听新音乐人的作品。然而,找到我想听的东西变得令人沮丧地困难。”
他说,应用程序推送给我的内容比我自己选择的音乐更明显。你怎么看待这个观点?
我百分之百会让这个人回到Spotify。我认为这里有一个有趣的权衡是现实的。有些人希望减少摩擦。他们希望花更少的时间去搜索。你想让事情尽可能简单,对吧?但有一个极端是你坐在那里,只是接收,而不发出任何信号——也许只有几个点击等等。这是我们想要避免的。
Spotify的有趣之处在于,我们正在重新强调,它实际上是一个你可以投入很多精力创建自己播放列表的平台。这里有一个权衡,我们的愿景是机器学习应该如此出色,以至于你再也不需要创建播放列表。那将是目标,因为那样你就为用户提供了极大的便利,理论上是这样。但这样你也没有收到任何信号,用户也没有投入。
所以,我们实际上正在重新强调播放列表。多年来,我们更多地转向机器学习和算法,因为它有效;人们听得更多,他们更欣赏这项服务。但我们需要迎合每个人,包括这位记者。
Spotify的用户群体分为许多不同类型的人。你有只听播放列表的听众,有“硬核专辑听众”,还有只听一种类型艺术家的“艺术家电台听众”。构建一个服务于每个人的服务是一个巨大的挑战,因为人们非常不同。
我们尽力确保那些希望他们的音乐库是“专辑、专辑、专辑”的音乐爱好者能够获得他们的服务,但同时你也有其他人只想让他们的每日混音在空中播放。所以我们正在努力为两者服务。你永远无法百分之百取悦每个人,但我们正在努力以统计方式确保对大多数人来说是极大的改善,但我们的目标是迎合每个人。
我确实认为有一个真实的观点是,走向零用户投入——这在短期内似乎很好——但我不认为这在长期内是好的,因为你实际上失去了来自用户的信号。最后,我认为他们在体验中感觉参与度较低。即使参与度看起来很高,如果你没有做出任何反馈,我不知道你有多少感觉这是你的服务。
昨晚我和Kyle在私信中交流,问他觉得我应该问你什么。他建议的其中一个问题是:“Spotify用户是否应该能够调整他们的推荐?”
是的,绝对应该。我们正在研究这些事情,包括显而易见的事情,你可以说:“我不喜欢这个特定的东西。” 但我认为自由文本元素非常有趣。你可以与它对话,它会学到更多,但你可能也会获得更多信任。
让我问你一个更广泛的问题,我觉得这很有趣。Kyle写了一本书叫《Filter World》。主要观点是,我们被算法调节的世界变得过于平淡,实际上,算法已经趋于平坦。你怎么看待这个观点?
我认为这是一个非常有趣的观点。我想从两个方面来回答这个问题,一个是针对Spotify的。我们收到的反馈是,人们觉得它对他们已经听过的东西很棒,但感觉自己被困在一个泡沫中——“我得到的都是相同的东西。我没有得到新的东西。” 这是Spotify特有的挑战,因为大多数时候,当你在听音乐时,你的手机是在口袋里的。
假设你在听独立民谣,那么我们很容易说:“这是另一首独立民谣歌曲。” 你会说:“哦,这是个不错的推荐。” 但如果我们开始在这里播放Metallica,你会想:“这是什么?”
所以我们大多数的推荐库存自然被限制在他们正在听的内容上,因为我们不能放入非常随机的东西。你会说:“这是个糟糕的推荐。”
当我们想向你展示一些全新的东西时,这对我们来说是一个挑战。我最喜欢的例子是:我喜欢雷鬼音乐,但从我的听歌历史中你看不出来。我们如何解决这个问题?
所以我们大约两年前开始投资其他类型的前景推荐,有点像你在社交媒体上看到的动态,但你可以字面上说:“好吧,我无聊了。我想要广泛一点。” 然后你可以进入这些音乐的前景动态中,在许多曲目中滑动。它们非常高效,但命中率会很低,因为现在我们进入了一个我们不知道你是否喜欢的领域。
然后我认为你需要一个非常高效的用户界面来定位大量内容,对吧?因为命中率可能是二十分之一。你不会听二十首歌。那是一个多小时的音乐,你需要快速进行。所以我们正在努力解决这个问题,比如当Alex无聊时,他想要拓展,我们知道他一发出信号。我们以前没有工具来解决这个问题,所以我们构建了它。这是答案的一部分。
但这个答案的更哲学部分是,算法是否趋于平坦?因为它们在某种程度上试图找到统计模式和平均值。
我认为如果你看推荐技术——我认为这还没有被广泛了解——但这些基于深度学习的系统,它们在某种程度上趋于平坦,如果你添加更多的用户数据或更多的参数,它们并没有像LLM那样变得更好。没有扩展定律。它只是“就是这样”,你可以移动0.2%。最近发生了一些事情,称为生成性推荐,你实际上使用大型语言模型而不是这些旧的深度学习模型,你基本上将用户行为视为一种语言。
所以你有一个用户的序列——他们点击这个,他们听那个,他们点击这个,他们听那个。然后如果你将其转化为标记,就像你可以将语言转化为标记并尝试预测句子中的缺失词一样,你可以尝试预测序列中的缺失动作。
事实证明,这些生成性推荐确实随着更多的用户数据和更多的参数而扩展,就像LLM一样。所以这是一个冗长的方式来说,我认为他是对的,推荐确实趋于平坦。也确实有人在改变推荐堆栈,现在不清楚为什么它们不能持续变得更好。
所以我希望推荐变得更智能,因为现在它不仅仅是一个统计平均值。它们可以查看你多年来的特定用户历史,它们可能会理解实际上又是圣诞节了,去年圣诞节你做了这个。我希望它变得更智能。
关于推荐的最后一个问题来自Ranjan Roy,他在我们的周五节目中。他希望Spotify有一个家长模式,这样如果你有孩子,你可以说:“我在儿童模式下,不要模糊我的推荐。” 你怎么看待这个问题?
所以我们有一系列不同的解决方案。显然,有一个家庭计划,所以希望你的孩子可以有自己的账户。
那不是要多花钱吗?
确实如此。另一个解决方案是,你可以为你的孩子创建一个播放列表,然后如果你点击设置,你可以说:“不要将其包括在我的推荐中”,这样它实际上不会破坏你的推荐。所以有这些解决方案。
我们也在努力理解所有这些都是儿童音乐。所以虽然这是你品味档案的一部分,但我们不应该在你的其他集合中播放这些,因为这可能是你为特定用例做的事情。所以你可能想要一个儿童音乐播放列表,但你不希望这些音乐影响你的其他集合。
这有一个算法组件,有一个订阅计划组件,然后回到更多的用户控制。你已经可以说这个播放列表不应该被视为我的品味,我们将构建更多这样的控制。
好的,Ranjan会很高兴听到这个。
关于推荐的最后一个问题,我不知道你是否看过这个YouTuber,他叫Fontana。他谈到我们过去经常在收音机上听音乐,那是经常播放的音乐。那时的音乐经常是在我们和其他人、朋友在一起时播放的,度过美好时光。这导致了更多的舞曲、摇滚专辑颂歌等。
今天我们主要通过流媒体平台访问音乐,他说这些是更个性化的推荐,这在某种程度上改变了音乐的制作方式,甚至是音乐的热门曲目。你怎么看待这个观点?
所以这里有一个哲学问题,已经被研究过几次,那就是:你脑中是否有一种与生俱来的品味?我们的工作是寻找并发现它,还是我们播放的内容实际上影响了你的喜好。有各种各样的大学实验,你向不同的群体播放不同的歌曲,然后看看他们喜欢什么。似乎这两者都有。
你有某种与生俱来的品味,但你也会受到你所听到的内容的影响。对于这个观点,像收音机可以改变你的品味。所以我认为这个观点是有道理的。
我认为关于我们音乐聆听的有趣之处在于,当我们调查用户并问他们:“你有多少比例的聆听是与他人一起的?” 这是一个巨大的比例,双位数的百分比。
所以音乐实际上仍然是一种非常社交的活动,在某些情况下我们可以看到这一点。我们有一个叫做“Jam”的功能,它像火箭一样起飞。对我们来说,它表现得非常好。通过“Jam”,我们可以基本上检测到两个手机何时靠近。就像:“嘿,你想加入Alex的Jam吗?”
现在我们有一个“联合队列”。所以在派对上,你现在用Spotify派对的方式是你不必去打断,你可以只拿出你的手机,加入队列,然后排队。
我们有很多联合聆听,但对个人来说,这看起来像是个人聆听。所以我认为这实际上比人们想象的要多。这不是百分之百的个人聆听,但因为我们没有将它们视为群体聆听,我们仍然将它们视为个人聆听。但现在我们获得了更多关于什么是好的群体音乐的数据,这就成为了一个不同的类别。
所以我认为广播的使用场景正在发生。你在聚会和与他人一起时听到歌曲,还有在开车时等等。对这些服务来说,这看起来像是孤独的聆听,但实际上是相当社交的,对吧?
Spotify 正在大力投资播客。这已经持续了很长时间,最初主要通过原创策略,现在也包括有声书。将所有这些格式整合到一个应用程序中的决策是如何做出的?而且,我的意思是,播客和有声书对你们来说是好生意吗?
事情是这样的,我们在内部看到很多开发人员在 Spotify 体验中通过 RSS 黑客播客。我们在 Hack 周上一次又一次地看到了这一点。起初我们认为这可能是一个小众的、随机的需求。但我们一次又一次地看到了。
你知道,Spotify 仍然只有成千上万的员工,所以这不是一个非常具有代表性的社会样本,但它是社会的一部分样本。如果你多次看到相同的用户需求,你应该认真对待。
所以我们开始研究这个,然后我们看到播客有很大的潜力并且在增长,但我们认为没有人对此做出有趣的事情。所以我们决定接触它,因为我们在内部看到了使用需求。我们看到市场在增长,评估了它,然后发现没有人真正投资于它。Apple 没有投资,而他们拥有大约 98% 的市场份额。这就是我们如何接触它的原因。
然后问题是,为什么它在同一个应用程序中?为什么不作为一个单独的应用程序?对此有两种看法。一种是这是一个战略决策。当前对新事物的最大障碍,不幸的是,不一定是应用程序的质量,而是用户获取成本。
分发就是一切。
分发仍然是一切。实际上,在 iPhone 时代初期,有很多有机分发。人们每天都去应用商店。现在几乎没有人去了,所以你几乎必须为每一个新闻付费。因此,用户获取成本可能是大多数商业计划的最大障碍。
如果我们建立一个单独的应用程序,我们将不得不重新获取我们自己的用户,这将使其非常昂贵。我们已经看到所有这些大公司——美国科技公司——推出一个又一个应用程序,但没有一个成功。然后我们看看中国,他们使用不同的“超级应用”策略,在他们自己的分发上加倍下注。所以你可以把播客看作是预装的。
所以从战略角度来看,这很有意义。但我实际上对这一点有一个用户角度,我认为这是更好的体验。我认为在 2024 年,用户不应该为了内容而适应软件,软件应该适应内容。如果你播放一段音乐,应该有跳过按钮。如果你播放播客,改变跳过按钮为 15 秒擦洗并不是火箭科学,如果你播放有声书,改变为章节。拜托,这是 2024 年,为什么你必须为此切换应用程序,对吧?
我们相信这对我们来说在战略上是最好的——因为这样我们可以在自己的分发上加倍下注——但我们也认为从长远来看这是正确的用户体验。这对用户来说是最简单的。现在我们在同一个应用程序中有这些美丽的连接,比如有声书和作者在播客中被采访的内容是无缝的。这就是我们在同一个应用程序中这样做的原因。
那么谈谈可发现性,因为这是播客最大的问题。例如,如果我在听科技节目,而我没有听“Big Technology Podcasts”,我可能想知道有一个这样的节目。
据我所知——无论是从产品人员还是播客制作人那里,可发现性一直是最大的问题。所以我很好奇你对这个可发现性问题有什么看法。
我认为你完全正确。短格式更容易,因为发现就是消费。就像在 TikTok 上的一个谈话:这不像是有一个推荐,当你观看时,你就消费了。音乐几乎是一样的,三分钟。虽然不完全一样,但几乎是这样,如果你发现了它,你也消费了它。
播客则不同。你需要一个预告片,因为这可能需要一个小时的投入。书籍实际上更难,因为这可能需要 15 小时的投入。所以我认为很多挑战在于创建一个好的表示,一个好的短格式表示这种长格式内容,以便了解你是否应该投入时间,对吧?这是我们正在大量投资的事情。
播客世界长期以来没有这种情况,对吧?我认为这也是为什么,如果你看看旧的 Apple 播客世界,只有少数节目拥有大量追随者,几乎是永远的,但对于一个新节目来说真的很难打入。
我认为现在正在改变,这些短格式预览正在——TikTok、YouTube、Spotify 上发生——你可以快速浏览并了解一个节目是关于什么的。我认为视频实际上在帮助,这在音乐中也是一样的。我们看到音乐视频在发现时刻非常重要,带有音乐视频的新发布在 AB 测试中比没有音乐视频的新发布表现要好得多。
我认为对于播客来说也是一样的。如果你快速说,我对科技播客感兴趣,拥有这些播客的视频帮助很大。所以这就是我们构建的这些“前景提要”,你可以在你的兴趣范围内快速浏览大量材料,摩擦更小。
所以我们在“预览问题”上投入了很多。而对于书籍来说,要获得一个好的推荐,一个好的理解是很难的;你可以使用 LLM 来尝试总结它们,你可以使用作者自己的总结。这是我们正在大量投资的事情。
好的,所以你已经为播客引入了视频,我知道这个会有视频,我希望通过 Spotify 做更多的视频播客。但你会做一个像 TikTok 那样的短视频提要吗?
嗯,我们已经有了这个介绍。作为创作者,你可以上传你的视频播客。你也可以选择,如果这是我想要的短格式表示,在某种发现提要中。Spotify 有音乐、播客和书籍的发现提要。
但重要的是要知道,虽然它们看起来像 TikTok,在 TikTok 或 Instagram 上——项目本身就是消费,对吧?他们在衡量你在提要中停留的时间。我们实际上在做一些不同的事情。看起来一样,但我们做的是完全相反的。
你多长时间离开提要?
你多长时间保存它。所以我们试图让人们保存以供以后使用。我们根据你保存了多少东西来对它们进行排名,而不是你停留的时间,这驱动了一个非常不同的推荐,对吧?我们试图让人们将你的节目保存到图书馆以收听完整的内容。这是最终的信息。我们实际上不希望你停留在那个提要中。我们希望你快速浏览并保存一堆东西,这样你的图书馆就充满了有趣的播客。
我们在播客的结尾,我想知道人们在 Spotify 上有多常听到播客的结尾?
我不知道我是否可以分享,但你可以看到这样的曲线,从一百开始,然后下降。它因创作者而异,但你在开始时会有下降,然后在某个点之后,大多数人会坚持到最后,对吧?然后在九十几百分比时有一个非常大的下降,通常是结束音乐或其他东西。
对,结束音乐会影响可发现性吗?Spotify 是否会说,“好吧,我们在最后一分钟之前有六十几百分比,但然后他们在完成之前下降到 30%。”所以我们应该突然结束吗?
现在我们对此进行了控制。我们知道这是结束字幕,人们会继续。
所以我们可以慢慢地结束。
是的,你可以有一个好的退出歌曲。
好退出歌曲播放。
关键问题与行动计划
关键问题 1: 如何评估生成式人工智能在音乐和播客创作中的实际应用及其对创作者的影响?
行动计划:
- 市场调研:研究团队将对生成式人工智能在音乐和播客创作中的应用进行深入调研,分析当前市场上已有的工具和平台,评估其对创作者的影响及潜在的商业模式。
- 用户访谈:数据团队将与音乐创作者和播客制作者进行访谈,收集他们对生成式AI工具的使用体验和反馈,以了解这些工具如何改变创作过程及其对创作质量的影响。
关键问题 2: 在内容推荐系统中,如何平衡算法推荐与用户自主选择之间的关系?
行动计划:
- 用户行为分析:数据团队将分析用户在Spotify上的行为数据,识别用户对推荐内容的接受度和反馈,评估算法推荐对用户选择的影响程度。
- 设计用户反馈机制:研究团队将设计并测试新的用户反馈机制,允许用户对推荐内容进行更细致的调整和反馈,以增强用户的参与感和满意度。
关键问题 3: 如何利用生成式AI技术提升播客和音乐的发现性,解决内容过载问题?
行动计划:
- 开发短视频预览功能:研究团队将探索在Spotify平台上引入短视频预览功能,以便用户在选择播客或音乐时能够快速了解内容,从而提高发现性。
- 实施个性化推荐算法:数据团队将研究并实施基于用户历史行为的个性化推荐算法,利用生成式AI技术为用户提供更精准的内容推荐,减少内容过载带来的困扰。
请告诉我们你对此篇总结的改进建议,如存在内容不相关、低质、重复或评分不准确,我们会对其进行分析修正