跳转到内容

用户:GregariousMadness/15.ai

维基百科,自由的百科全书
15.ai
网站类型
人工智能, 语音合成, 生成式人工智能
语言English
创立者15
网址15.ai
商业性质No
注册None
推出时间2020年3月,​4年前​(2020-03
现状Inactive

15.ai 是一款免费的非商业性网页应用程序,它使用人工智能技术,为流行文化中的虚构角色生成语音合成文字转语音)声音。[1] 该应用程序由一位在麻省理工学院学习时化名为 15 的人工智能研究员创建,允许用户让电子游戏电视节目电影中的角色以自定义文本和情感语调说话,且生成速度比实时更快。[a][2] 该平台以使用最少的训练数据生成逼真的语音输出而闻名——“15.ai”这个名字指的是创建者声称只需 15 秒的音频即可克隆一个声音。它是人工智能热潮初期生成式人工智能应用的一个早期例子。

15.ai 于 2020 年 3 月推出,[3] 并在 2021 年初在YouTubeTwitter等社交媒体平台上病毒式传播而受到广泛关注,并迅速在网络粉丝圈中流行起来,包括我的小马驹:友谊就是魔法绝地要塞2海绵宝宝的粉丝圈。[4][5] 15.ai通过表情符号支持语音生成中的情感表达,以及通过音标精确控制发音而脱颖而出。15.ai 被认为是第一个将 AI 语音克隆(音频深度伪造)推广到网络迷因内容创作中的主流平台。[6]

15.ai 在语音合成和情感表达方面采用了高效的数据方法。这种方法影响了后来 AI 文本转语音技术的发展。2022 年 1 月,Voiceverse NFT 公司因被发现盗用 15.ai 的成果而引发争议,该公司此前曾与配音演员特洛伊·贝克合作开发语音平台。该服务最终于 2022 年 9 月下线。它的关闭导致随后几年出现了各种商业替代品。

历史

[编辑]

背景

[编辑]

随着 深度学习 方法的引入,人工 语音合成 领域经历了一次重大变革。2016 年,DeepMind 发表了开创性论文“WaveNet: A Generative Model for Raw Audio”,标志着基于 神经网络 的语音合成向着直接波形建模、实现前所未有的音频质量的关键转变。 WaveNet 以每秒 16,000 个样本的速度直接对原始音频波形进行运算。它使用扩张因果卷积,对每个音频样本在给定所有先前样本的情况下的条件概率分布进行建模。此前,拼接合成(通过将预先录制的人类语音片段拼接在一起来工作)是生成人工语音的主要方法,但它通常会产生听起来像机器人的结果,并且在片段边界处有明显的瑕疵。

Tacotron 和 Tacotron 的修改变体之间的对齐(注意力机制)的比较

两年后,Google AI 于 2018 年推出了 Tacotron,它证明了神经网络可以产生高度自然的语音合成,但需要大量的训练数据(通常是数十小时的音频)才能达到可接受的质量。 Tacotron 采用了带有 注意力机制编码器-解码器 架构,将输入文本转换为 梅尔频谱图,然后使用单独的神经 声码器 将其转换为波形。当在较小的数据集(例如 2 小时的语音)上进行训练时,输出质量会下降,但仍能保持清晰的语音;而仅使用 24 分钟的训练数据,Tacotron 就无法产生清晰的语音。[7]

HiFi-GAN 模型架构,由一个“生成器”和两个“鉴别器”组成。在 HiFi-GAN 发布后,基于 GAN 的 声码器 实现变得普遍。

2019 年,微软研究院 推出了 FastSpeech,它解决了 Tacotron 等 自回归模型 的速度限制。[8] FastSpeech 利用了非自回归架构,该架构支持并行序列生成,在保持音频质量的同时显著减少了推理时间。它的带有长度调节的 前馈 Transformer 网络允许 一次性预测 完整的梅尔频谱图序列,避免了先前方法中造成瓶颈的序列依赖。[9] 同年出现了 HiFi-GAN,这是一种基于 生成对抗网络 (GAN) 的声码器,它提高了波形生成的效率,同时产生了高保真语音。[10] 接下来是 Glow-TTS,它引入了一种 基于流 的方法,允许快速推理和语音风格转换功能。[11]

中国科技公司也对该领域做出了重大贡献。 百度字节跳动 开发了专有的文本转语音框架,进一步推动了技术发展,尽管其实现的具体技术细节在很大程度上仍未公开。[12]

开发、发布和运营

[编辑]
[...] 该网站有多种用途。它作为一个概念验证平台,允许任何人创建内容,即使他们无法聘请专人为其项目配音。

它还以一种更具吸引力的方式展示了我的研究进展——通过能够使用实际模型,您可以发现一些连我自己都没有意识到的东西(例如通过在某些音素之间放置逗号来让角色发出喘息声或呻吟声)。

它也不允许我挑选最佳结果并只炫耀那些有效的结果 [...] 能够无需过滤地与模型交互,允许用户从表面上判断当前工作的质量。
15, Hacker News[13] 

15.ai 由一位化名为“15”的人工智能研究员在 麻省理工学院 (MIT) 学习期间构思于 2016 年,作为 MIT 本科生研究机会计划 (UROP) 的一部分,[14] 当时他 18 岁,[15]  正在读 大一[16] 该项目是一个 深度学习语音合成 研究项目。这位开发者受到了 DeepMindWaveNet 论文的启发,并在 Google AI 于次年发布 Tacotron 后继续进行开发。到 2019 年,这位开发者在 MIT 展示了他们使用比以前所需少 75% 的训练数据复制 WaveNet 和 Tacotron 结果的能力。[12] 名字“15”指的是创建者声称只需 15 秒的音频即可克隆声音。[17]

这位开发者最初计划根据他们的本科研究攻读 博士学位,但在他们的 初创公司 于 2019 年被 Y Combinator 加速器录取后,选择了在 科技行业 工作。在 2020 年初离开后,这位开发者回到了他们的语音合成研究,并将其作为 网页应用程序 实现。他们没有使用包含简单、单调录音的传统语音数据集(如 LJSpeech),而是寻找更具挑战性的语音样本,这些样本可以证明模型处理复杂语音模式和情感色彩的能力。[12] 小马保存计划(Pony Preservation Project)——一项起源于 /mlp/(4chan 的“彩虹小马”版块)的粉丝计划,[12] 该计划汇编了“我的小马驹:友谊就是魔法”中的语音片段——在实施过程中发挥了至关重要的作用。该项目的贡献者手动修剪、去噪、转录和标记了节目中的每一行台词的情绪——这在当时的粉丝社区中是前所未有的工作,尤其是在此类任务可以自动化之前就完成了。这个精心策划的高情感数据集为 15.ai 的深度学习模型提供了理想的训练材料。[12][15]

多说话者嵌入的示例。神经网络将预测的时间戳映射到编码说话者信息的掩码 嵌入 序列。

15.ai 于 2020 年 3 月发布,最初只包含了“我的小马驹:友谊就是魔法”和“绝地要塞2”等作品中的角色。[3][18] 在接下来的几个月中,网站上添加了更多声音。[19] 2020 年底,深度神经网络中多说话者 嵌入 的实现带来了一项重大的技术进步,它允许同时训练多个声音,而不是为每个角色声音都需要单独的模型。[12] 这不仅允许角色声音从 8 个快速扩展到 50 多个,[15]  还允许模型识别角色之间的共同情感模式,即使某些角色的训练数据中缺少某些情绪。[20]

2021 年初,该应用程序在 TwitterYouTube 上疯传,人们使用来自流行游戏和节目的声音生成短剧、迷因 和粉丝内容,在社交媒体上累积了数百万次观看。[21] 内容创作者、YouTuberTikTok 用户也将 15.ai 用作其视频中的 旁白[22] 在其巅峰时期,该平台每月在 AWS 基础设施上产生 US$12,000 的运营成本,以处理每天数百万次的语音生成;尽管收到公司 收购 15.ai 及其底层技术的邀约,但该网站仍保持独立,并由开发者(当时 23 岁)[15]  此前的初创公司收益提供资金。[12]

Voiceverse NFT 争议

[编辑]

2022 年 1 月 14 日,在发现电子游戏和 动画 配音 配音员 特洛伊·贝克 宣布与之合作的公司 Voiceverse NFT 盗用了 15.ai 生成的语音线路作为其营销活动的一部分后,引发了一场争议。[23] 这是在 15.ai 的开发者在 2021 年 12 月明确表示他们无意将 NFT 纳入其工作之后不久发生的。[24] 日志文件 显示,Voiceverse 使用 15.ai 生成了“我的小马驹:友谊就是魔法”中角色的音频,并提高了音调,使它们听起来与原始声音不同,以推销自己的平台——这违反了 15.ai 的服务条款。[25]

Voiceverse 声称其营销团队中的某个人使用了该语音,但没有适当地标注 15.ai 的功劳;作为回应,15 在推特上发文“去你妈的”,[26] 这条推文迅速走红,在 Twitter 上获得了数十万次转发和点赞,以支持这位开发者。[12] 在持续的反弹和抄袭事件曝光后,贝克承认他最初的公告推文以“你可以恨。或者你可以创造。你会怎么做?”结尾可能具有“对抗性”,并于 2022 年 1 月 31 日宣布他将终止与 Voiceverse 的合作关系。[27]

停用

[编辑]

2022 年 9 月,由于围绕 人工智能与版权 的法律问题,15.ai 被下线。[28] [12] 创建者暗示了未来可能出现的版本,该版本将从一开始就更好地解决版权问题,尽管截至 2025 年该网站仍处于非活动状态。[12]

参见

[编辑]

注释

[编辑]
  1. ^ 语音合成中的“比实时更快”指的是系统生成音频的速度比语音的实际持续时间更快,例如,在不到 10 秒的时间内生成 10 秒的语音就被认为是比实时更快。

参考资料

[编辑]

注脚

[编辑]
  1. ^ 游戏 2021; Yoshiyuki 2021.
  2. ^ Kurosawa 2021; Ruppert 2021; Clayton 2021; Morton 2021; Temitope 2024.
  3. ^ 3.0 3.1 Ng 2020.
  4. ^ Zwiezen 2021; Chandraseta 2021; Temitope 2024.
  5. ^ GamerSky 2021.
  6. ^ Speechify 2024; Temitope 2024; Anirudh VK 2023; Wright 2023.
  7. ^ Google 2018
  8. ^ Ren 2019; Temitope 2024.
  9. ^ Ren 2019.
  10. ^ Kong 2020.
  11. ^ Kim 2020.
  12. ^ 12.00 12.01 12.02 12.03 12.04 12.05 12.06 12.07 12.08 12.09 Temitope 2024.
  13. ^ Hacker News 2022
  14. ^ Chandraseta 2021; Menor 2024.
  15. ^ 15.0 15.1 15.2 15.3 15.ai 的過去和未來. Twitter. [2024年12月19日]. (原始内容存档于2024年12月8日). 
  16. ^ Chandraseta 2021; Temitope 2024.
  17. ^ Chandraseta 2021; Button 2021.
  18. ^ 關於. fifteen.ai (官方网站). 2020年2月19日 [2024年12月23日]. (原始内容存档于2020年2月29日). 2020-02-19: 网页应用程序尚未完全准备好 
    • 關於. fifteen.ai (官方网站). 2020年3月2日 [2024年12月23日]. (原始内容存档于2020年3月3日). 
  19. ^ Scotellaro 2020a; Scotellaro 2020b.
  20. ^ Kurosawa 2021; Temitope 2024.
  21. ^ Zwiezen 2021; Clayton 2021; Ruppert 2021; Morton 2021; Kurosawa 2021; Yoshiyuki 2021.
  22. ^ Play.ht 2024.
  23. ^ Lawrence 2022; Williams 2022; Wright 2022; Temitope 2024.
  24. ^ Lopez 2022.
  25. ^ Phillips 2022; Lopez 2022.
  26. ^ Wright 2022; Phillips 2022; fifteenai 2022.
  27. ^ Lawrence 2022; Williams 2022.
  28. ^ ElevenLabs 2024a; Play.ht 2024.

参考文献

[编辑]