跳转到内容

草稿:15.ai

维基百科,自由的百科全书
15.ai
网站类型
人工智能, 语音合成, 生成式人工智慧
语言英语
创立者15
网址15.ai
商业性质
注册
推出时间2020年3月,​4年前​(2020-03
现状已停止运营

15.ai是一个免费的非商业化网络应用程序,利用人工智能生成热门媒体中虚构角色的文本转语音[1]由一位在麻省理工学院期间名为15的人工智能研究员开发,该应用允许用户让电子游戏电视节目电影中的角色以定制文本进行情感化语音表达,其生成速度比实时还快。[a][2]该平台因其使用极少的训练数据就能生成逼真的语音而闻名——"15.ai"这一名称即源于开发者声称只需15秒的音频即可克隆出语音。这是人工智能热潮初期生成式人工智能应用的早期示例。

15.ai于2020年3月推出,[3]在2021年初因在YouTubeTwitter社交媒体平台上爆红而广受关注,并迅速在互联网粉丝群体中流行,包括《我的小马驹:友谊就是魔法》、《军团要塞2》以及《海绵宝宝》的粉丝群体。[4][5]该服务通过支持表情符号表达情感语境以及通过音标转录实现精准发音控制而脱颖而出。15.ai被认为是首个在迷因和内容创作中普及人工智能语音克隆(音频深度伪造)的主流平台。[6]

15.ai在数据高效语音合成和情感表达方面的创新对后续的AI文本转语音技术发展产生了深远影响。2022年1月,Voiceverse NFT爆出争议,因其与声优Troy Baker合作的公司被发现盗用了15.ai的工作成果。最终,该服务于2022年9月下线,其停运促使之后几年中各种商业替代品的涌现。

歷史

[编辑]

背景

[编辑]

人工语音合成领域因深度学习方法的引入而经历了显著变革。2016年,DeepMind发表了具有里程碑意义的论文《WaveNet: A Generative Model for Raw Audio》,标志着语音合成向基于神经网络的方法的重要转变。WaveNet通过直接对波形建模,展现了前所未有的音频质量。它采用扩张因果卷积,直接处理每秒16,000采样点的原始音频波形,建模每个音频采样在给定所有之前采样条件下的概率分布。在此之前,主流的语音合成方法是拼接合成,这种方法通过拼接预先录制的人类语音片段生成语音,但通常会产生机器人般的声音,并在片段边界处出现明显的音质瑕疵。

Tacotron与其改进版本的注意力(对齐)对比图

两年后,Google AI于2018年推出了Tacotron,展示了神经网络可以生成高度自然的语音合成,但需要大量的训练数据——通常需要数十小时的音频——才能达到可接受的质量。Tacotron采用了编码器-解码器架构,并结合注意力机制,将输入文本转换为梅尔频谱图,然后使用单独的神经网络声码器将其转换为波形。在较小的数据集上训练时,例如2小时的语音,输出质量有所下降,但仍能保持可理解的语音;而仅使用24分钟的训练数据时,Tacotron无法生成可理解的语音。[7]

HiFi-GAN模型架构,包括一个生成器和两个判别器。HiFi-GAN发布后,基于GAN的声码器实现变得广泛应用。

2019年,微软研究院推出了FastSpeech,解决了像Tacotron这样的自回归模型在速度上的局限性。[8]FastSpeech采用了非自回归架构,实现了并行序列生成,大大减少了推理时间,同时保持了音频质量。其具有长度调节的前馈Transformer网络允许一次性预测完整的梅尔频谱序列,避免了先前方法中的顺序依赖瓶颈。[9]同年,HiFi-GAN作为一种基于生成对抗网络(GAN)的声码器出现,提升了波形生成的效率,同时生成了高保真语音。[10]随后,Glow-TTS引入了一种基于流的方式,既能快速推理,又具备语音风格迁移的能力。[11]

中国科技公司也在该领域做出了重要贡献。百度字节跳动开发了专有的文本转语音框架,进一步推动了技术的进步,尽管其具体技术细节大多未公开。[12]

开发、发布与运营

[编辑]
[...]该网站有多种用途。它不仅是一个概念验证平台,使任何人都可以创建内容,即使他们无法聘请人来为项目配音。

它还以更具吸引力的方式展示了我研究的进展——通过实际使用模型,你可以发现一些连我自己都没意识到的功能(比如通过在某些音素之间添加逗号,让角色发出喘息或呻吟声)。

它也让我无法挑选最佳结果,只展示那些成功的例子[...]能够无过滤地与模型互动,允许用户直观地评估当前工作的质量。
15, Hacker News[13]

15.ai的构思始于2016年,是一位名为"15"的开发者在麻省理工学院(MIT)大一期间作为深度学习语音合成研究项目的一部分而启动的。[14]该项目是MIT本科生研究机会计划(UROP)的内容之一。[15]这位开发者受DeepMind WaveNet论文的启发,并在随后的学习过程中持续开发,Google AI于次年发布了Tacotron。到2019年,该开发者在MIT展示了使用比以往少75%的训练数据复制WaveNet和Tacotron结果的能力。[12]"15"这个名字源于开发者声称只需15秒的数据即可克隆语音的说法。[16]

开发者原本计划基于本科研究攻读博士学位,但在他们的创业公司于2019年被Y Combinator加速器录取后,选择进入科技行业工作。2020年初离职后,开发者重返语音合成研究,并将其实现为一个网络应用程序。他们没有使用LJSpeech等常规语音数据集,这些数据集包含简单、单调的录音,而是寻找更具挑战性的语音样本,以展示模型处理复杂语音模式和情感语调的能力。"小马保存计划"——一个源于4chanMy Little Pony板块/mlp/的粉丝倡议——在实现过程中发挥了关键作用。[12]该项目的贡献者手动修剪、去噪、转录并标注了《小马宝莉:友谊是魔法》中每一行的情感标签——这是当时粉丝社区中前所未有的工作,尤其是在这些任务能够自动化之前完成。这一经过精心策划的高度情感化数据集,为15.ai的深度学习模型提供了理想的训练材料。[12][17]

多說話者嵌入的示例。神經網絡將預測的時間戳映射到編碼說話者信息的掩碼嵌入序列。

15.ai于2020年3月推出,最初仅提供了一些角色的语音,包括《小马宝莉:友谊是魔法》和《军团要塞2》的角色。[3][18]随后的几个月里,网站不断新增语音。[19]2020年底,该平台在技术上取得了一项重要突破——深度神经网络中引入了多说话人嵌入技术,使多个语音能够同时训练,而无需为每个角色语音创建单独的模型。[12]这不仅使语音库从最初的八个角色迅速扩展到超过五十个角色,[17]还使模型能够识别跨角色的常见情感模式,即使某些角色的训练数据中缺少某些情感。[20]

2021年初,该应用在TwitterYouTube上迅速走红,人们利用其生成的热门游戏和节目中的语音创作短剧、迷因和粉丝内容,这些内容在社交媒体上获得了数百万次观看。[21]内容创作者、YouTuberTikToker也将15.ai作为视频配音的一部分使用。[22]在其巅峰时期,该平台每月运营成本高达12,000美元,主要用于支持每天数百万次语音生成所需的AWS基础设施;尽管有公司提出收购15.ai及其底层技术的意向,但该网站始终保持独立运营,其资金来源于开发者此前创业的个人收益。[12]当时,这位开发者年仅23岁。[17]

Voiceverse NFT争议

[编辑]

2022年1月14日,一场争议爆发——人们发现视频游戏和动漫配音演员Troy Baker宣布合作的Voiceverse NFT公司在其营销活动中不当使用了15.ai生成的语音。[23]这一事件发生在15.ai开发者于2021年12月明确表示对将NFT纳入其工作没有兴趣后不久。[24]日志文件显示,Voiceverse生成了《小马宝莉:友谊是魔法》中角色的音频,并通过调高音调使其与原始语音不同,以推销自己的平台,这违反了15.ai的服务条款。[25]

Voiceverse声称,他们的营销团队中有人未经适当授权使用了15.ai的语音;对此,15在推特上回应道"去你妈的",[26]该推文迅速走红,在Twitter上获得了数十万次转发和点赞,支持开发者的声音不断。[12]在持续的反对声浪和抄袭事件曝光后,Baker承认他最初的声明推文中以"你可以憎恨,也可以创造。你会选择什么?"结尾可能显得"挑衅",并于2022年1月31日宣布终止与Voiceverse的合作关系。[27]

停运

[编辑]

2022年9月,15.ai因涉及人工智能和版权的法律问题而被下线。[28][12]开发者曾暗示未来可能会推出一个更好地解决版权问题的版本,尽管截至2025年,网站仍处于停运状态。

功能

[编辑]

該平台是非商業性的,[29]并且无需用户注册或账户。[30]用户通过输入文本并选择角色语音来生成语音,可以选择添加情感上下文和语音转录的可选参数。每次请求会生成三个具有不同情感表现的音频变体,按信心评分排序。[14]可用的角色包括《絕地要塞2》和《小马宝莉:友谊是魔法》中的多个角色;《传送门》系列中的GLaDOS、Wheatley和Sentry Turret;《海绵宝宝》中的海绵宝宝;《HuniePop》中的Kyu Sugardust,《Persona 4》中的Rise Kujikawa;《达莉亚》中的Daria Morgendorffer和Jane Lane;《Aqua Teen Hunger Force》中的Carl Brutananadilewski;《史帝芬宇宙》中的Steven Universe;《Undertale》中的Sans;《Celeste》中的Madeline和其他多个角色;《Doctor Who》中的第十任博士;《史丹利的寓言》中的旁白;以及《2001太空漫遊》中的HAL 9000[31]在超过五十个[17]可用语音中,三十个是来自《小马宝莉:友谊是魔法》的角色。[32]某些"无声"角色,如Chell和Gordon Freeman,可以作为玩笑选择,当任何文本被提交时,它们会发出无声的音频文件。[33]

DeepMoji模型生成的表情符号概率分布。这些表情符号分布作为技术指标和图表的一部分在15.ai上展示。[34]

深度学习模型的非确定性特性导致语音输出出现变化,每次生成的语音具有不同的语调,类似于配音演员在录制不同版本时的表现。[35]15.ai引入了情感上下文功能,让用户通过引导短语指定生成语音的情感基调。[12]该情感上下文功能使用了DeepMoji,这是由MIT媒体实验室开发的情感分析神经网络。[36]DeepMoji于2017年推出,处理了来自2013至2017年间12亿条推文的表情符号嵌入,分析情感内容。测试显示,该系统能比人工评估员更准确地识别情感元素,包括讽刺。[37]如果输入内容包含附加上下文(通过竖线分隔),则竖线后面的内容会作为情感上下文被使用。[34]例如,如果输入为"Today is a great day!|I'm very sad.",所选择的角色将以表达"I'm very sad."时的情感说出"Today is a great day!"这句话。[38]

将文本"daisy bell"转换为语音的示例,从英语正字法开始。英语单词首先解析为ARPABET音素字符串,然后通过音高预测器和梅尔谱图生成器生成音频。

该应用程序使用了来自牛津词典API、维基词典和CMU发音词典的发音数据,[39]其中CMU发音词典基于ARPABET,这是一套英语音标符号,最初由1970年代的高级研究计划署(ARPA)开发。对于现代和互联网特有术语,系统还包含了来自用户生成内容网站的数据,如RedditUrban Dictionary4chanGoogle[39]支持输入ARPABET音标,允许用户纠正发音错误或在异名词(拼写相同但发音不同的单词)之间指定所需的发音。用户可以通过在输入框中将音素字符串括在大括号中来调用ARPABET音标(例如,{AA1 R P AH0 B EH2 T}用来指定"ARPABET"这个词的发音(/ˈɑːrpəˌbɛt/)。[40]界面会用颜色编码显示解析后的单词,以指示发音的确定性:绿色表示单词已存在于发音查找表中,蓝色表示手动输入的ARPABET发音,红色表示发音需要通过算法预测。[34]

15.ai的后续版本引入了多语者功能。不同于为每个声音训练独立模型,15.ai使用了一个统一的模型,通过语者嵌入(即学习的数值表示,捕捉每个角色独特的声音特征)同时学习多个声音。[12][17]结合DeepMoji提供的情感上下文,这种神经网络架构使模型能够学习不同角色的情感表达和讲话风格中的共享模式,即使个别角色的训练数据中缺乏某些情感上下文的例子。[20]

该界面包括了技术指标和图表,[34]根据开发者的说法,这些内容突出了网站的研究性质。[17]到了2021年9月发布的v23版本,界面显示了全面的模型分析信息,包括单词解析结果和情感分析数据。之前版本中引入的流式生成对抗网络(GAN)混合vocoder和去噪器也进行了简化,去除了手动参数输入。[34]

评价

[编辑]

评论界的评价

[编辑]

评论家普遍认为15.ai易于使用,且能够令人信服地复刻角色声音,但在某些情况下效果参差不齐。[41]PC Gamer的Natalie Clayton写道,尽管海绵宝宝的声音复刻得很好,但在模仿The Stanley Parable中的旁白时遇到了困难,她表示:"算法根本无法捕捉Kevan Brighting那种幽默诙谐的语调。[42]Kotaku的Zack Zwiezen报道说,"[他的]女朋友坚信这是来自GLaDOS配音演员Ellen McLain的新台词。"[43]AI电子报Towards Data Science的Rionaldi Chandraseta观察到:"具有大量训练数据的角色会产生更自然的对话,语气的起伏和单词间的停顿更加清晰,尤其是在较长的句子中。"[38]台湾的《联合报》也突出了15.ai复刻GLaDOS机械声音的能力,并称赞其广泛的角色声音选项。[44]Yahoo! News台湾指出,"Portal中的GLaDOS几乎能完美地发音",但也批评了一些不完美之处,如"字数限制和语调控制,某些词汇的发音仍然有些怪异。"[45]AI电子报Byteside的Chris Button称,能够仅凭15秒数据克隆声音"非常惊人",但也称赞这项技术"令人印象深刻"。[46]该平台的语音生成能力经常在My Little Pony: Friendship Is Magic(《我的小马驹:友情是魔法》)的粉丝新闻网站Equestria Daily上被报道,包括更新、粉丝创作和新角色声音的添加。[47]在介绍15.ai新角色添加的一篇帖子中,Equestria Daily的创始人Shaun Scotellaro——在线昵称"Sethisto"——写道:"由于缺乏样本可供参考,某些角色的声音并不完美,但即便如此,许多声音仍然相当令人印象深刻。"[32]

多个其他评论家也指出,字数限制、韵律选项和仅支持英语的特点并不完全令人满意。[5][45]动漫和超级英雄新闻网站Anime Superhero News的Peter Paltridge认为:"语音合成技术已经发展到一个程度,那些昂贵的技术几乎无法与真实人类的语音区分开",但也指出,"在某些方面,SAM仍然比这更先进。你可以通过特殊字符来影响SAM的语调,并随意改变他的音高。而在15.ai中,你只能接受随机的语调变化。"[48]相反,Rock, Paper, Shotgun的Lauren Morton称赞了发音控制的深度——"如果你愿意深入挖掘"。[49]同样,西班牙新闻网站Qore.com的Eugenio Moto写道,"最有经验的用户可以改变参数,例如重音或语调。"[50]Den Fami Nico Gamer的Takayuki Furushima强调了"平滑的发音",AUTOMATON的Yuki Kurosawa也提到其"丰富的情感表达"作为一大特点;两位日本作者均指出该平台不支持日语。[51]巴西游戏新闻网站Arkade的Renan do Prado和西班牙游戏网站LaPS4的José Villalobos指出,尽管用户在葡萄牙语和西班牙语中可以创造有趣的结果,但该平台在英语中表现最佳。[52]中国游戏新闻网站GamerSky称该应用"有趣",但也批评了字数限制和语调问题。[5]韩国视频游戏网站Zuntata写道:"让人惊讶的是,15.ai仅凭30秒的数据,就能实现接近100%的发音准确率。"[53]机器学习教授Yongqiang Li在他的博客中写道,他惊讶地发现该应用是免费的。[54]

伦理问题

[编辑]

配音演员对15.ai的能力反应不一。尽管一些业内专业人士承认其技术创新,但也有人对这一技术对他们职业的影响表示担忧。[55]当配音演员Troy Baker宣布与Voiceverse NFT合作,后者未经授权使用了15.ai的技术时,这一事件在配音行业引发了广泛争议。[56]批评者担心自动化配音可能会减少配音演员的就业机会,存在声音冒充的风险,以及可能被用于不当内容的潜在滥用。[57]围绕Voiceverse NFT的争议及随后的讨论突显了行业对AI语音合成技术的广泛担忧。[58]

虽然15.ai将其使用范围局限于虚构角色,并未复刻真人或名人的声音,[59]计算机科学家Andrew Ng指出,类似技术也可能被用于模仿真实人物的声音,包括用于不良目的。[3]在他2020年对15.ai的评估中,他写道:

"声音克隆可能具有巨大的生产力。在好莱坞,它可能彻底改变虚拟演员的使用。在卡通片和有声读物中,它可以让配音演员参与更多的制作。在在线教育中,孩子们可能会更专注于由他们最喜爱的个性声音传递的课程。还有多少YouTube的教学视频制作者希望由合成的摩根·弗里曼为他们的剧本配音?"

然而,他也写道:

"...但在没有得到同意的情况下合成一名演员的声音,可以说是不道德的,甚至可能是非法的。这项技术将成为深度伪造者的诱饵,他们可能会从社交网络上抓取录音,冒充私人个体的声音。"[3]

影响

[编辑]

15.ai是音频深度伪造的早期先驱之一,推动了2020年AI热潮初期基于AI语音合成的迷因的出现。[60]15.ai被认为是第一个在互联网迷因和内容创作中普及AI声音克隆的主流平台,尤其通过其能够实时生成令人信服的角色声音的能力,无需大量技术专长。[61]该平台的影响力在粉丝社区中尤为显著,包括《小马宝莉:友谊的魔法》、《传送门》、《团队要塞2》和《海绵宝宝》粉丝群体,在这些社区中,15.ai使得病毒性内容的创作成为可能,并在Twitter和YouTube等社交媒体平台上获得了数百万次观看。[62]《团队要塞2》的内容创作者还使用该平台,通过Source Filmmaker制作短视频迷因和复杂的叙事动画。[63]粉丝创作包括小品和新的粉丝动画,[64]跨界内容——例如Game Informer记者Liana Ruppert演示的结合《传送门》和《质量效应》对话的内容,[65]病毒视频的重制(包括臭名昭著的Big Bill Hell's Cars汽车经销商恶搞视频[66]),使用AI生成角色声音改编的同人小说,[67]音乐视频和新音乐作品——例如限制级的Pony Zone系列[68]⸺以及角色唱海洋民谣的内容。[69]一些粉丝创作引起了主流媒体的关注,例如2021年1月CNN白天节目中播出的一个病毒剪辑,将《小鬼当家2:迷失在纽约》中的唐纳德·特朗普客串替换为重型武器男的AI生成声音。[70][71]一些用户将15.ai的语音合成与VoiceAttack(一种语音命令软件)结合,创建了个人助手。[35]

尽管15.ai已不再运营,其影响力仍被后来的技术发展所延续,[72]多个商业替代平台如ElevenLabs[b]和Speechify等应运而生,填补了这一空白。[28]当代的生成语音AI公司都承认15.ai的开创性作用。PlayHT将15.ai的问世称为"文本转语音(TTS)和语音合成领域的突破"。[22]Speechify的创始人兼CEO Cliff Weitzman称15.ai"通过成为第一个提供来自粉丝群体的流行现有角色的语音克隆,令AI语音克隆在内容创作中变得流行"。[74]

在停运之前,15.ai确立了多个技术先例,影响了后续的AI语音合成技术发展。其集成DeepMoji进行情感分析,展示了情感感知语音生成的可行性,而其对ARPABET音标转录的支持则为公共语音合成工具中精确发音控制设立了标准。[12]该平台的统一多说话人模型,使得不同角色的声音能够同时进行训练,这一方法尤其具有影响力。这种方法使系统能够识别不同角色之间情感表达的共性,即使某些情感在单一角色的训练数据中不存在。例如,如果一个角色有快乐语音示例但没有愤怒示例,而另一个角色则有愤怒但没有快乐示例,系统仍能通过理解情感如何影响语音的共同模式,生成这两种情感的表达。[20]

15.ai还在减少语音合成训练数据需求方面做出了重要贡献。早期的系统,如Google AI的Tacotron和Microsoft Research的FastSpeech,需要数十小时的音频才能生成可接受的结果,并且在训练数据不足24分钟时无法生成清晰的语音。[7][9]相比之下,15.ai展示了使用显著更少的训练数据生成语音的能力——具体来说,"15.ai"这一名称来源于创始人声称只需15秒的数据就能克隆一个人的声音。[75]这种数据效率的做法影响了后续AI语音合成技术的发展,因为15秒的标准成为后续语音合成系统的参考点。OpenAI在2024年证实了这一原始声明,即仅需15秒的数据即可克隆人类的声音。[76]

參見

[编辑]

註釋

[编辑]
  1. ^ 语音合成中的"比实时更快"一词意味着系统生成音频的速度超过了实际讲话的时长——例如,生成10秒钟的语音时间不到10秒钟,就被视为比实时更快。
  2. ^ 使用"11.ai"作为其网站域名的合法别名[73]

參考資料

[编辑]

註腳

[编辑]
  1. ^ 遊戲 2021; Yoshiyuki 2021.
  2. ^ Kurosawa 2021; Ruppert 2021; Clayton 2021; Morton 2021; Temitope 2024.
  3. ^ 3.0 3.1 3.2 3.3 Ng 2020.
  4. ^ Zwiezen 2021; Chandraseta 2021; Temitope 2024.
  5. ^ 5.0 5.1 5.2 GamerSky 2021.
  6. ^ Speechify 2024; Temitope 2024; Anirudh VK 2023; Wright 2023.
  7. ^ 7.0 7.1 Google 2018
  8. ^ Ren 2019; Temitope 2024.
  9. ^ 9.0 9.1 Ren 2019.
  10. ^ Kong 2020.
  11. ^ Kim 2020.
  12. ^ 12.00 12.01 12.02 12.03 12.04 12.05 12.06 12.07 12.08 12.09 12.10 Temitope 2024.
  13. ^ Hacker News 2022
  14. ^ 14.0 14.1 Chandraseta 2021; Menor 2024.
  15. ^ Chandraseta 2021; Temitope 2024.
  16. ^ Chandraseta 2021; Button 2021.
  17. ^ 17.0 17.1 17.2 17.3 17.4 17.5 15.ai的過去和未來. Twitter. [2024-12-19]. (原始内容存档于2024-12-08). 
  18. ^ 關於. fifteen.ai (官方網站). 2020-02-19 [2024-12-23]. (原始内容存档于2020-02-29). 2020-02-19: 網頁應用程式尚未完全準備好 
    • 關於. fifteen.ai (官方網站). 2020-03-02 [2024-12-23]. (原始内容存档于2020-03-03). 
  19. ^ Scotellaro 2020a; Scotellaro 2020b.
  20. ^ 20.0 20.1 20.2 Kurosawa 2021; Temitope 2024.
  21. ^ Zwiezen 2021; Clayton 2021; Ruppert 2021; Morton 2021; Kurosawa 2021; Yoshiyuki 2021.
  22. ^ 22.0 22.1 Play.ht 2024.
  23. ^ Lawrence 2022; Williams 2022; Wright 2022; Temitope 2024.
  24. ^ Lopez 2022.
  25. ^ Phillips 2022; Lopez 2022.
  26. ^ Wright 2022; Phillips 2022; fifteenai 2022.
  27. ^ Lawrence 2022; Williams 2022.
  28. ^ 28.0 28.1 ElevenLabs 2024a; Play.ht 2024.
  29. ^ Williams 2022.
  30. ^ Phillips 2022.
  31. ^ Zwiezen 2021; Clayton 2021; Morton 2021; Ruppert 2021; Villalobos 2021; Yoshiyuki 2021; Kurosawa 2021.
  32. ^ 32.0 32.1 Scotellaro 2020b.
  33. ^ Morton 2021; 遊戲 2021.
  34. ^ 34.0 34.1 34.2 34.3 34.4 www.equestriacn.com 2021.
  35. ^ 35.0 35.1 Yoshiyuki 2021.
  36. ^ Kurosawa 2021; Chandraseta 2021.
  37. ^ Knight 2017.
  38. ^ 38.0 38.1 Chandraseta 2021.
  39. ^ 39.0 39.1 Kurosawa 2021.
  40. ^ www.equestriacn.com 2021; Kurosawa 2021; Temitope 2024.
  41. ^ Clayton 2021; Ruppert 2021; Moto 2021; Scotellaro 2020c; Villalobos 2021.
  42. ^ Clayton 2021.
  43. ^ Zwiezen 2021.
  44. ^ 遊戲 2021.
  45. ^ 45.0 45.1 MrSun 2021.
  46. ^ Button 2021.
  47. ^ Scotellaro 2020a; Scotellaro 2020b; Scotellaro 2020c; Scotellaro 2020d; Scotellaro 2020e; Scotellaro 2020f.
  48. ^ Paltridge 2021.
  49. ^ Morton 2021.
  50. ^ Moto 2021.
  51. ^ Yoshiyuki 2021; Kurosawa 2021.
  52. ^ do Prado 2021; Villalobos 2021.
  53. ^ zuntata.tistory.com 2021.
  54. ^ Li 2021.
  55. ^ Phillips 2022; Temitope 2024; Menor 2024.
  56. ^ Lawrence 2022; Phillips 2022; Wright 2022.
  57. ^ Phillips 2022; Menor 2024.
  58. ^ Phillips 2022; Lawrence 2022.
  59. ^ fifteenai 2020; Menor 2024.
  60. ^ MrSun 2021; Anirudh VK 2023.
  61. ^ Temitope 2024; Morton 2021.
  62. ^ Scotellaro 2020c; 遊戲 2021; Kurosawa 2021; Morton 2021; Temitope 2024.
  63. ^ Clayton 2021; Zwiezen 2021; Morton 2021.
  64. ^ Morton 2021; Kurosawa 2021.
  65. ^ Ruppert 2021.
  66. ^ Zwiezen 2021; Morton 2021.
  67. ^ Scotellaro 2020d.
  68. ^ Scotellaro 2020e.
  69. ^ Zwiezen 2021; Ruppert 2021.
  70. ^ Clayton 2021; CNN 2021.
  71. ^ The Heavy on CNN. Reddit. 2021年1月19日 [2024年12月31日]. 
  72. ^ Wright 2023.
  73. ^ ElevenLabs 2024b.
  74. ^ Speechify 2024.
  75. ^ Chandraseta 2021; Button 2021; Temitope 2024.
  76. ^ OpenAI 2024; Temitope 2024.

參考文獻

[编辑]

Category:生成式人工智能 Category:深度偽造 Category:語音合成 Category:网络应用程序 Category:2020年代潮流與趨勢 Category:2020年代网络文化 Category:2020年网络文化 Category:2020年軟體 Category:2020年建立的网站