用户:GregariousMadness/15.ai
网站类型 | 人工智能, 语音合成, 生成式人工智能 |
---|---|
语言 | English |
创立者 | 15 |
网址 | 15 |
商业性质 | No |
注册 | None |
推出时间 | 2020年3月 |
现状 | Inactive |
15.ai 是一款免费的非商业性网页应用程序,它使用人工智能技术,为流行文化中的虚构角色生成语音合成(文字转语音)声音。[1] 该应用程序由一位在麻省理工学院学习时化名为 15 的人工智能研究员创建,允许用户让电子游戏、电视节目和电影中的角色以自定义文本和情感语调说话,且生成速度比实时更快。[a][2] 该平台以使用最少的训练数据生成逼真的语音输出而闻名——“15.ai”这个名字指的是创建者声称只需 15 秒的音频即可克隆一个声音。它是人工智能热潮初期生成式人工智能应用的一个早期例子。
15.ai 于 2020 年 3 月推出,[3] 并在 2021 年初在YouTube和Twitter等社交媒体平台上病毒式传播而受到广泛关注,并迅速在网络粉丝圈中流行起来,包括我的小马驹:友谊就是魔法、绝地要塞2 和海绵宝宝的粉丝圈。[4][5] 15.ai通过表情符号支持语音生成中的情感表达,以及通过音标精确控制发音而脱颖而出。15.ai 被认为是第一个将 AI 语音克隆(音频深度伪造)推广到网络迷因和内容创作中的主流平台。[6]
15.ai 在语音合成和情感表达方面采用了高效的数据方法。这种方法影响了后来 AI 文本转语音技术的发展。2022 年 1 月,Voiceverse NFT 公司因被发现盗用 15.ai 的成果而引发争议,该公司此前曾与配音演员特洛伊·贝克合作开发语音平台。该服务最终于 2022 年 9 月下线。它的关闭导致随后几年出现了各种商业替代品。
历史
[编辑]背景
[编辑]随着 深度学习 方法的引入,人工 语音合成 领域经历了一次重大变革。2016 年,DeepMind 发表了开创性论文“WaveNet: A Generative Model for Raw Audio”,标志着基于 神经网络 的语音合成向着直接波形建模、实现前所未有的音频质量的关键转变。 WaveNet 以每秒 16,000 个样本的速度直接对原始音频波形进行运算。它使用扩张因果卷积,对每个音频样本在给定所有先前样本的情况下的条件概率分布进行建模。此前,拼接合成(通过将预先录制的人类语音片段拼接在一起来工作)是生成人工语音的主要方法,但它通常会产生听起来像机器人的结果,并且在片段边界处有明显的瑕疵。
两年后,Google AI 于 2018 年推出了 Tacotron,它证明了神经网络可以产生高度自然的语音合成,但需要大量的训练数据(通常是数十小时的音频)才能达到可接受的质量。 Tacotron 采用了带有 注意力机制 的 编码器-解码器 架构,将输入文本转换为 梅尔频谱图,然后使用单独的神经 声码器 将其转换为波形。当在较小的数据集(例如 2 小时的语音)上进行训练时,输出质量会下降,但仍能保持清晰的语音;而仅使用 24 分钟的训练数据,Tacotron 就无法产生清晰的语音。[7]
2019 年,微软研究院 推出了 FastSpeech,它解决了 Tacotron 等 自回归模型 的速度限制。[8] FastSpeech 利用了非自回归架构,该架构支持并行序列生成,在保持音频质量的同时显著减少了推理时间。它的带有长度调节的 前馈 Transformer 网络允许 一次性预测 完整的梅尔频谱图序列,避免了先前方法中造成瓶颈的序列依赖。[9] 同年出现了 HiFi-GAN,这是一种基于 生成对抗网络 (GAN) 的声码器,它提高了波形生成的效率,同时产生了高保真语音。[10] 接下来是 Glow-TTS,它引入了一种 基于流 的方法,允许快速推理和语音风格转换功能。[11]
中国科技公司也对该领域做出了重大贡献。 百度 和 字节跳动 开发了专有的文本转语音框架,进一步推动了技术发展,尽管其实现的具体技术细节在很大程度上仍未公开。[12]
开发、发布和运营
[编辑]它还以一种更具吸引力的方式展示了我的研究进展——通过能够使用实际模型,您可以发现一些连我自己都没有意识到的东西(例如通过在某些音素之间放置逗号来让角色发出喘息声或呻吟声)。
它也不允许我挑选最佳结果并只炫耀那些有效的结果 [...] 能够无需过滤地与模型交互,允许用户从表面上判断当前工作的质量。15.ai 由一位化名为“15”的人工智能研究员在 麻省理工学院 (MIT) 学习期间构思于 2016 年,作为 MIT 本科生研究机会计划 (UROP) 的一部分,[14] 当时他 18 岁,[15] 正在读 大一。[16] 该项目是一个 深度学习语音合成 研究项目。这位开发者受到了 DeepMind 的 WaveNet 论文的启发,并在 Google AI 于次年发布 Tacotron 后继续进行开发。到 2019 年,这位开发者在 MIT 展示了他们使用比以前所需少 75% 的训练数据复制 WaveNet 和 Tacotron 结果的能力。[12] 名字“15”指的是创建者声称只需 15 秒的音频即可克隆声音。[17]
这位开发者最初计划根据他们的本科研究攻读 博士学位,但在他们的 初创公司 于 2019 年被 Y Combinator 加速器录取后,选择了在 科技行业 工作。在 2020 年初离开后,这位开发者回到了他们的语音合成研究,并将其作为 网页应用程序 实现。他们没有使用包含简单、单调录音的传统语音数据集(如 LJSpeech),而是寻找更具挑战性的语音样本,这些样本可以证明模型处理复杂语音模式和情感色彩的能力。[12] 小马保存计划(Pony Preservation Project)——一项起源于 /mlp/(4chan 的“彩虹小马”版块)的粉丝计划,[12] 该计划汇编了“我的小马驹:友谊就是魔法”中的语音片段——在实施过程中发挥了至关重要的作用。该项目的贡献者手动修剪、去噪、转录和标记了节目中的每一行台词的情绪——这在当时的粉丝社区中是前所未有的工作,尤其是在此类任务可以自动化之前就完成了。这个精心策划的高情感数据集为 15.ai 的深度学习模型提供了理想的训练材料。[12][15]
15.ai 于 2020 年 3 月发布,最初只包含了“我的小马驹:友谊就是魔法”和“绝地要塞2”等作品中的角色。[3][18] 在接下来的几个月中,网站上添加了更多声音。[19] 2020 年底,深度神经网络中多说话者 嵌入 的实现带来了一项重大的技术进步,它允许同时训练多个声音,而不是为每个角色声音都需要单独的模型。[12] 这不仅允许角色声音从 8 个快速扩展到 50 多个,[15] 还允许模型识别角色之间的共同情感模式,即使某些角色的训练数据中缺少某些情绪。[20]
2021 年初,该应用程序在 Twitter 和 YouTube 上疯传,人们使用来自流行游戏和节目的声音生成短剧、迷因 和粉丝内容,在社交媒体上累积了数百万次观看。[21] 内容创作者、YouTuber 和 TikTok 用户也将 15.ai 用作其视频中的 旁白。[22] 在其巅峰时期,该平台每月在 AWS 基础设施上产生 US$12,000 的运营成本,以处理每天数百万次的语音生成;尽管收到公司 收购 15.ai 及其底层技术的邀约,但该网站仍保持独立,并由开发者(当时 23 岁)[15] 此前的初创公司收益提供资金。[12]
Voiceverse NFT 争议
[编辑]2022 年 1 月 14 日,在发现电子游戏和 动画 配音 配音员 特洛伊·贝克 宣布与之合作的公司 Voiceverse NFT 盗用了 15.ai 生成的语音线路作为其营销活动的一部分后,引发了一场争议。[23] 这是在 15.ai 的开发者在 2021 年 12 月明确表示他们无意将 NFT 纳入其工作之后不久发生的。[24] 日志文件 显示,Voiceverse 使用 15.ai 生成了“我的小马驹:友谊就是魔法”中角色的音频,并提高了音调,使它们听起来与原始声音不同,以推销自己的平台——这违反了 15.ai 的服务条款。[25]
Voiceverse 声称其营销团队中的某个人使用了该语音,但没有适当地标注 15.ai 的功劳;作为回应,15 在推特上发文“去你妈的”,[26] 这条推文迅速走红,在 Twitter 上获得了数十万次转发和点赞,以支持这位开发者。[12] 在持续的反弹和抄袭事件曝光后,贝克承认他最初的公告推文以“你可以恨。或者你可以创造。你会怎么做?”结尾可能具有“对抗性”,并于 2022 年 1 月 31 日宣布他将终止与 Voiceverse 的合作关系。[27]
停用
[编辑]2022 年 9 月,由于围绕 人工智能与版权 的法律问题,15.ai 被下线。[28] [12] 创建者暗示了未来可能出现的版本,该版本将从一开始就更好地解决版权问题,尽管截至 2025 年该网站仍处于非活动状态。[12]
参见
[编辑]注释
[编辑]- ^ 语音合成中的“比实时更快”指的是系统生成音频的速度比语音的实际持续时间更快,例如,在不到 10 秒的时间内生成 10 秒的语音就被认为是比实时更快。
参考资料
[编辑]注脚
[编辑]- ^ 游戏 2021; Yoshiyuki 2021.
- ^ Kurosawa 2021; Ruppert 2021; Clayton 2021; Morton 2021; Temitope 2024.
- ^ 3.0 3.1 Ng 2020.
- ^ Zwiezen 2021; Chandraseta 2021; Temitope 2024.
- ^ GamerSky 2021.
- ^ Speechify 2024; Temitope 2024; Anirudh VK 2023; Wright 2023.
- ^ Google 2018
- ^ Ren 2019; Temitope 2024.
- ^ Ren 2019.
- ^ Kong 2020.
- ^ Kim 2020.
- ^ 12.00 12.01 12.02 12.03 12.04 12.05 12.06 12.07 12.08 12.09 Temitope 2024.
- ^ Hacker News 2022
- ^ Chandraseta 2021; Menor 2024.
- ^ 15.0 15.1 15.2 15.3 15.ai 的過去和未來. Twitter. [2024年12月19日]. (原始内容存档于2024年12月8日).
- ^ Chandraseta 2021; Temitope 2024.
- ^ Chandraseta 2021; Button 2021.
- ^
關於. fifteen.ai (官方网站). 2020年2月19日 [2024年12月23日]. (原始内容存档于2020年2月29日).
2020-02-19: 网页应用程序尚未完全准备好
- ^ Scotellaro 2020a; Scotellaro 2020b.
- ^ Kurosawa 2021; Temitope 2024.
- ^ Zwiezen 2021; Clayton 2021; Ruppert 2021; Morton 2021; Kurosawa 2021; Yoshiyuki 2021.
- ^ Play.ht 2024.
- ^ Lawrence 2022; Williams 2022; Wright 2022; Temitope 2024.
- ^ Lopez 2022.
- ^ Phillips 2022 ; Lopez 2022.
- ^ Wright 2022; Phillips 2022 ; fifteenai 2022.
- ^ Lawrence 2022; Williams 2022.
- ^ ElevenLabs 2024a; Play.ht 2024.
参考文献
[编辑]- Button, Chris. Make GLaDOS, SpongeBob and other friends say what you want with this AI text-to-speech tool. Byteside. January 19, 2021 [December 18, 2024]. (原始内容存档于June 25, 2024).
- Chandraseta, Rionaldi. Generate Your Favourite Characters' Voice Lines using Machine Learning. Towards Data Science. January 21, 2021 [December 18, 2024]. (原始内容存档于January 21, 2021).
- Clayton, Natalie. Make the cast of TF2 recite old memes with this AI text-to-speech tool. PC Gamer. January 19, 2021 [December 18, 2024]. (原始内容存档于January 19, 2021).
- CNN Newsroom. CNN. January 15, 2021.
- do Prado, Renan. Faça GLaDOS, Bob Esponja e outros personagens falarem textos escritos por você! [Make GLaDOS, SpongeBob and other characters speak texts written by you!]. Arkade. January 19, 2021 [December 22, 2024]. (原始内容存档于August 19, 2022) (巴西葡萄牙语).
- 15.AI: Everything You Need to Know & Best Alternatives. ElevenLabs. 2024a [December 18, 2024]. (原始内容存档于December 25, 2024).
- Can I publish the content I generate on the platform?. ElevenLabs (Official website). 2024b [23 December 2024].
- 15.ai已经重新上线,版本更新至v23 [15.ai has been re-launched, version updated to v23]. Equestria. October 1, 2021 [December 22, 2024]. (原始内容存档于May 19, 2024) (中文).
- @fifteenai. Go fuck yourself. (推文). January 14, 2022 –通过Twitter. Template:Sfn whitelist
- 这个网站可用AI生成语音 让ACG角色"说"出你输入的文本 [This Website Can Use AI to Generate Voice, Making ACG Characters "Say" the Text You Input]. GamerSky. January 18, 2021 [December 18, 2024]. (原始内容存档于December 11, 2024) (中文).
- Audio samples from "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". 2018-08-30 [2022-06-05]. (原始内容存档于2020-11-11).
- 15.ai. Hacker News. June 12, 2022 [December 29, 2024].
- Kim, Jaehyeon. Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search. 2020. arXiv:2005.11129 [eess.AS].
- Knight, Will. An Algorithm Trained on Emoji Knows When You're Being Sarcastic on Twitter. MIT Technology Review. August 3, 2017 [December 18, 2024]. (原始内容存档于June 2, 2022).
- Kong, Jungil. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis. 2020. arXiv:2010.05646 [cs.SD].
- Kurosawa, Yuki. ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる [Game Character Voice Reading Software "15.ai" Now Available. Get Characters from Undertale and Portal to Say Your Desired Lines]. AUTOMATON. January 19, 2021 [December 18, 2024]. (原始内容存档于January 19, 2021) (日语).
英语版ボイスのみなので注意。;もうひとつ15.aiの大きな特徴として挙げられるのが、豊かな感情表现だ。
已忽略未知参数|trans-quote=
(帮助) - Lawrence, Briana. Shonen Jump Scare Leads to Company Reassuring Fans That They Aren't Getting Into NFTs. The Mary Sue. 19 January 2022 [23 December 2024].
- Li, Yongqiang. 语音开源项目优选:免费配音网站15.ai [Voice Open Source Project Selection: Free Voice Acting Website 15.ai]. Zhihu. 2021 [December 18, 2024]. (原始内容存档于December 19, 2024) (中文).
- Lopez, Ule. Voiceverse NFT Service Reportedly Uses Stolen Technology from 15ai [UPDATE]. Wccftech. January 16, 2022 [June 7, 2022]. (原始内容存档于January 16, 2022).
- Menor, Deion. 15.ai – Natural and Emotional Text-to-Speech Using Neural Networks. HashDork. November 7, 2024 [January 3, 2025].
- Morton, Lauren. Put words in game characters' mouths with this fascinating text to speech tool. Rock, Paper, Shotgun. January 18, 2021 [December 18, 2024]. (原始内容存档于January 18, 2021).
- Moto, Eugenio. 15.ai, el sitio que te permite usar voces de personajes populares para que digan lo que quieras. Qore. 20 January 2021 [21 December 2024]. (原始内容存档于December 28, 2024) (西班牙语).
Si bien los resultados ya son excepcionales, sin duda pueden mejorar más
已忽略未知参数|trans-quote=
(帮助) - MrSun. 讓你喜愛的ACG角色說出任何話! AI生成技術幫助你實現夢想 [Let your favorite ACG characters say anything! AI generation technology helps you realize your dreams]. Yahoo. January 19, 2021 [December 22, 2024]. (原始内容存档于December 28, 2024) (中文).
- Ng, Andrew. Voice Cloning for the Masses. DeepLearning.AI. April 1, 2020 [December 22, 2024]. (原始内容存档于December 28, 2024).
- Navigating the Challenges and Opportunities of Synthetic Voices. OpenAI. March 9, 2024 [December 18, 2024]. (原始内容存档于November 25, 2024).
- Ruppert, Liana. Make Portal's GLaDOS And Other Beloved Characters Say The Weirdest Things With This App. Game Informer. January 18, 2021 [December 18, 2024]. (原始内容存档于January 18, 2021).
- Paltridge, Peter. This Website Will Say Whatever You Type In Spongebob's Voice. Anime Superhero News. January 18, 2021 [December 22, 2024]. (原始内容存档于October 17, 2021).
- Phillips, Tom. Video game voice actor Troy Baker is now promoting NFTs. Eurogamer. January 14, 2022 [December 31, 2024].
- Phillips, Tom. Troy Baker-backed NFT firm admits using voice lines taken from another service without permission. Eurogamer. January 17, 2022 [December 31, 2024]. (原始内容存档于January 17, 2022).
- Everything You Need to Know About 15.ai: The AI Voice Generator. Play.ht. September 12, 2024 [December 18, 2024]. (原始内容存档于December 25, 2024).
- Ren, Yi. FastSpeech: Fast, Robust and Controllable Text to Speech. 2019. arXiv:1905.09263 [cs.CL].
- Free 15.ai Character Voice Cloning and Alternatives. Resemble.ai. October 17, 2024 [December 31, 2024].
- Scotellaro, Shaun. Rainbow Dash Voice Added to 15.ai. Equestria Daily. 2020a [December 18, 2024]. (原始内容存档于December 1, 2024).
- Scotellaro, Shaun. 15.ai Adds Tons of New Pony Voices. Equestria Daily. 2020b [December 21, 2024]. (原始内容存档于December 26, 2024).
- Scotellaro, Shaun. Neat "Pony Preservation Project" Using Neural Networks to Create Pony Voices. Equestria Daily. 2020c [December 18, 2024]. (原始内容存档于June 23, 2021).
- Scotellaro, Shaun. Full Simple Animated Episode - The Tax Breaks (Twilight). Equestria Daily. 2020d [January 1, 2025].
- Scotellaro, Shaun. More Pony Music! We Shine Brighter Together!. Equestria Daily. 2020e [January 1, 2025].
- Scotellaro, Shaun. New Among Us Animation Goes Viral... With Pony Voices. Equestria Daily. 2020f [January 1, 2025].
- Temitope, Yusuf. 15.ai Creator reveals journey from MIT Project to internet phenomenon. The Guardian. December 10, 2024 [December 25, 2024]. (原始内容存档于December 28, 2024).
- 게임 캐릭터 음성으로 영어를 읽어주는 소프트 15.ai 공개. [Software 15.ai Released That Reads English in Game Character Voices]. Tistory. January 20, 2021 [December 18, 2024]. (原始内容存档于December 20, 2024) (韩语).
- 游戏, 游戏角落. 這個AI語音可以模仿《傳送門》GLaDOS講出任何對白!連《Undertale》都可以學 [This AI Voice Can Imitate Portal's GLaDOS Saying Any Dialog! It Can Even Learn Undertale]. United Daily News. January 20, 2021 [December 18, 2024]. (原始内容存档于December 19, 2024) (中文(台湾)).
- Villalobos, José. Descubre 15.AI, un sitio web en el que podrás hacer que GlaDOS diga lo que quieras [Discover 15.AI, a Website Where You Can Make GlaDOS Say What You Want]. LaPS4. January 18, 2021 [January 18, 2021]. (原始内容存档于January 18, 2021) (西班牙语).
La dirección es 15.AI y funciona tan fácil como parece.
已忽略未知参数|trans-quote=
(帮助) - Anirudh VK. Deepfakes Are Elevating Meme Culture, But At What Cost?. Analytics India Magazine. March 18, 2023 [December 18, 2024]. (原始内容存档于December 26, 2024).
While AI voice memes have been around in some form since '15.ai' launched in 2020, [...]
- Weitzman, Cliff. 15.ai: All about 15.ai and the best alternative. Speechify. November 19, 2023 [December 31, 2024].
- Williams, Demi. Voiceverse NFT admits to taking voice lines from non-commercial service. NME. January 18, 2022 [December 18, 2024]. (原始内容存档于January 18, 2022).
- Wright, Steve. Troy Baker-backed NFT company admits to using content without permission. Stevivor. January 17, 2022 [December 18, 2024]. (原始内容存档于January 17, 2022).
- Wright, Steven. Why Biden, Trump, and Obama Arguing Over Video Games Is YouTube's New Obsession. Inverse. March 21, 2023 [December 18, 2024]. (原始内容存档于December 20, 2024).
AI voice tools used to create "audio deepfakes" have existed for years in one form or another, with 15.ai being a notable example.
- Yoshiyuki, Furushima. 『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に [Portal's GLaDOS and UNDERTALE's Sans Will Read Text for You. "15.ai" Service Aims to Reproduce Even the Emotions in Text, Becomes Topic of Discussion]. Den Fami Nico Gamer. January 18, 2021 [December 18, 2024]. (原始内容存档于January 18, 2021) (日语).
- Zwiezen, Zack. Website Lets You Make GLaDOS Say Whatever You Want. Kotaku. January 18, 2021 [December 18, 2024]. (原始内容存档于January 17, 2021).