User:GregariousMadness/15.ai
网站类型 | 人工智能, 语音合成, 生成式人工智慧 |
---|---|
语言 | English |
创立者 | 15 |
网址 | 15 |
商业性质 | No |
注册 | None |
推出时间 | 2020年3月 |
现状 | Inactive |
15.ai 是一款免費的非商業性網頁應用程式,它使用人工智能技術,為流行文化中的虛構角色生成語音合成(文字轉語音)聲音。[1] 該應用程式由一位在麻省理工学院學習時化名為 15 的人工智能研究員創建,允許用戶讓電子遊戲、電視節目和電影中的角色以自定義文本和情感語調說話,且生成速度比實時更快。[a][2] 該平台以使用最少的訓練數據生成逼真的語音輸出而聞名——“15.ai”這個名字指的是創建者聲稱只需 15 秒的音頻即可克隆一個聲音。它是人工智能热潮初期生成式人工智慧應用的一個早期例子。
15.ai 於 2020 年 3 月推出,[3] 並在 2021 年初在YouTube和Twitter等社交媒體平台上病毒式傳播而受到廣泛關注,並迅速在網絡粉絲圈中流行起來,包括我的小马驹:友谊就是魔法、絕地要塞2 和海綿寶寶的粉絲圈。[4][5] 15.ai通過表情符號支持語音生成中的情感表达,以及通過音標精確控制發音而脫穎而出。15.ai 被認為是第一個將 AI 語音克隆(音頻深度偽造)推廣到網絡迷因和內容創作中的主流平台。[6]
15.ai 在語音合成和情感表達方面採用了高效的數據方法。这种方法影响了后来 AI 文本转语音技术的发展。2022 年 1 月,Voiceverse NFT 公司因被發現盜用 15.ai 的成果而引發爭議,該公司此前曾與配音演員特洛伊·貝克合作開發語音平台。該服務最終於 2022 年 9 月下線。它的關閉導致隨後幾年出現了各種商業替代品。
歷史
[编辑]背景
[编辑]隨著 深度學習 方法的引入,人工 語音合成 領域經歷了一次重大變革。2016 年,DeepMind 發表了開創性論文“WaveNet: A Generative Model for Raw Audio”,標誌著基於 神經網絡 的語音合成向著直接波形建模、實現前所未有的音頻質量的關鍵轉變。 WaveNet 以每秒 16,000 個樣本的速度直接對原始音頻波形進行運算。它使用擴張因果卷積,對每個音頻樣本在給定所有先前樣本的情況下的條件概率分佈進行建模。此前,拼接合成(通過將預先錄製的人類語音片段拼接在一起來工作)是生成人工語音的主要方法,但它通常會產生聽起來像機器人的結果,並且在片段邊界處有明顯的瑕疵。
兩年後,Google AI 於 2018 年推出了 Tacotron,它證明了神經網絡可以產生高度自然的語音合成,但需要大量的訓練數據(通常是數十小時的音頻)才能達到可接受的質量。 Tacotron 採用了帶有 注意力机制 的 編碼器-解碼器 架構,將輸入文本轉換為 梅爾頻譜圖,然後使用單獨的神經 聲碼器 將其轉換為波形。當在較小的數據集(例如 2 小時的語音)上進行訓練時,輸出質量會下降,但仍能保持清晰的語音;而僅使用 24 分鐘的訓練數據,Tacotron 就無法產生清晰的語音。[7]
2019 年,微軟研究院 推出了 FastSpeech,它解決了 Tacotron 等 自回歸模型 的速度限制。[8] FastSpeech 利用了非自回歸架構,該架構支持並行序列生成,在保持音頻質量的同時顯著減少了推理時間。它的帶有長度調節的 前饋 Transformer 網絡允許 一次性預測 完整的梅爾頻譜圖序列,避免了先前方法中造成瓶頸的序列依賴。[9] 同年出現了 HiFi-GAN,這是一種基於 生成對抗網絡 (GAN) 的聲碼器,它提高了波形生成的效率,同時產生了高保真語音。[10] 接下來是 Glow-TTS,它引入了一種 基於流 的方法,允許快速推理和語音風格轉換功能。[11]
中國科技公司也對該領域做出了重大貢獻。 百度 和 字節跳動 開發了專有的文本轉語音框架,進一步推動了技術發展,儘管其實現的具體技術細節在很大程度上仍未公開。[12]
開發、發佈和運營
[编辑]它還以一種更具吸引力的方式展示了我的研究進展——通過能夠使用實際模型,您可以發現一些連我自己都沒有意識到的東西(例如通過在某些音素之間放置逗號來讓角色發出喘息聲或呻吟聲)。
它也不允許我挑選最佳結果並只炫耀那些有效的結果 [...] 能夠無需過濾地與模型交互,允許用戶從表面上判斷當前工作的質量。15.ai 由一位化名為“15”的人工智能研究員在 麻省理工學院 (MIT) 學習期間構思於 2016 年,作為 MIT 本科生研究機會計劃 (UROP) 的一部分,[14] 當時他 18 歲,[15] 正在讀 大一。[16] 該項目是一個 深度學習語音合成 研究項目。這位開發者受到了 DeepMind 的 WaveNet 論文的啟發,並在 Google AI 於次年發佈 Tacotron 後繼續進行開發。到 2019 年,這位開發者在 MIT 展示了他們使用比以前所需少 75% 的訓練數據複製 WaveNet 和 Tacotron 結果的能力。[12] 名字“15”指的是創建者聲稱只需 15 秒的音頻即可克隆聲音。[17]
這位開發者最初計劃根據他們的本科研究攻讀 博士學位,但在他們的 初創公司 於 2019 年被 Y Combinator 加速器錄取後,選擇了在 科技行業 工作。在 2020 年初離開後,這位開發者回到了他們的語音合成研究,並將其作為 網頁應用程式 實現。他們沒有使用包含簡單、單調錄音的傳統語音數據集(如 LJSpeech),而是尋找更具挑戰性的語音樣本,這些樣本可以證明模型處理複雜語音模式和情感色彩的能力。[12] 小馬保存計劃(Pony Preservation Project)——一項起源於 /mlp/(4chan 的“彩虹小馬”版塊)的粉絲計劃,[12] 該計劃彙編了“我的小馬駒:友誼就是魔法”中的語音片段——在實施過程中發揮了至關重要的作用。該項目的貢獻者手動修剪、去噪、轉錄和標記了節目中的每一行台詞的情緒——這在當時的粉絲社區中是前所未有的工作,尤其是在此類任務可以自動化之前就完成了。這個精心策劃的高情感數據集為 15.ai 的深度學習模型提供了理想的訓練材料。[12][15]
15.ai 於 2020 年 3 月發佈,最初只包含了“我的小馬駒:友誼就是魔法”和“絕地要塞2”等作品中的角色。[3][18] 在接下來的幾個月中,網站上添加了更多聲音。[19] 2020 年底,深度神經網絡中多說話者 嵌入 的實現帶來了一項重大的技術進步,它允許同時訓練多個聲音,而不是為每個角色聲音都需要單獨的模型。[12] 這不僅允許角色聲音從 8 個快速擴展到 50 多個,[15] 還允許模型識別角色之間的共同情感模式,即使某些角色的訓練數據中缺少某些情緒。[20]
2021 年初,該應用程式在 Twitter 和 YouTube 上瘋傳,人們使用來自流行遊戲和節目的聲音生成短劇、迷因 和粉絲內容,在社交媒體上累積了數百萬次觀看。[21] 內容創作者、YouTuber 和 TikTok 用戶也將 15.ai 用作其視頻中的 旁白。[22] 在其巔峰時期,該平台每月在 AWS 基礎設施上產生 US$12,000 的運營成本,以處理每天數百萬次的語音生成;儘管收到公司 收購 15.ai 及其底層技術的邀約,但該網站仍保持獨立,並由開發者(當時 23 歲)[15] 此前的初創公司收益提供資金。[12]
Voiceverse NFT 爭議
[编辑]2022 年 1 月 14 日,在發現電子遊戲和 動畫 配音 配音員 特洛伊·貝克 宣布與之合作的公司 Voiceverse NFT 盜用了 15.ai 生成的語音線路作為其營銷活動的一部分後,引發了一場爭議。[23] 這是在 15.ai 的開發者在 2021 年 12 月明確表示他們無意將 NFT 納入其工作之後不久發生的。[24] 日誌文件 顯示,Voiceverse 使用 15.ai 生成了“我的小馬駒:友誼就是魔法”中角色的音頻,並提高了音調,使它們聽起來與原始聲音不同,以推銷自己的平台——這違反了 15.ai 的服務條款。[25]
Voiceverse 聲稱其營銷團隊中的某個人使用了該語音,但沒有適當地標註 15.ai 的功勞;作為回應,15 在推特上發文“去你媽的”,[26] 這條推文迅速走紅,在 Twitter 上獲得了數十萬次轉發和點贊,以支持這位開發者。[12] 在持續的反彈和抄襲事件曝光後,貝克承認他最初的公告推文以“你可以恨。或者你可以創造。你會怎麼做?”結尾可能具有“對抗性”,並於 2022 年 1 月 31 日宣布他將終止與 Voiceverse 的合作關係。[27]
停用
[编辑]2022 年 9 月,由於圍繞 人工智能與版權 的法律問題,15.ai 被下線。[28] [12] 創建者暗示了未來可能出現的版本,該版本將從一開始就更好地解決版權問題,儘管截至 2025 年該網站仍处于非活動狀態。[12]
參見
[编辑]註釋
[编辑]- ^ 語音合成中的“比實時更快”指的是系統生成音頻的速度比語音的實際持續時間更快,例如,在不到 10 秒的時間內生成 10 秒的語音就被認為是比實時更快。
參考資料
[编辑]註腳
[编辑]- ^ 遊戲 2021; Yoshiyuki 2021.
- ^ Kurosawa 2021; Ruppert 2021; Clayton 2021; Morton 2021; Temitope 2024.
- ^ 3.0 3.1 Ng 2020.
- ^ Zwiezen 2021; Chandraseta 2021; Temitope 2024.
- ^ GamerSky 2021.
- ^ Speechify 2024; Temitope 2024; Anirudh VK 2023; Wright 2023.
- ^ Google 2018
- ^ Ren 2019; Temitope 2024.
- ^ Ren 2019.
- ^ Kong 2020.
- ^ Kim 2020.
- ^ 12.00 12.01 12.02 12.03 12.04 12.05 12.06 12.07 12.08 12.09 Temitope 2024.
- ^ Hacker News 2022
- ^ Chandraseta 2021; Menor 2024.
- ^ 15.0 15.1 15.2 15.3 15.ai 的過去和未來. Twitter. [2024年12月19日]. (原始内容存档于2024年12月8日).
- ^ Chandraseta 2021; Temitope 2024.
- ^ Chandraseta 2021; Button 2021.
- ^
關於. fifteen.ai (官方網站). 2020年2月19日 [2024年12月23日]. (原始内容存档于2020年2月29日).
2020-02-19: 網頁應用程式尚未完全準備好
- ^ Scotellaro 2020a; Scotellaro 2020b.
- ^ Kurosawa 2021; Temitope 2024.
- ^ Zwiezen 2021; Clayton 2021; Ruppert 2021; Morton 2021; Kurosawa 2021; Yoshiyuki 2021.
- ^ Play.ht 2024.
- ^ Lawrence 2022; Williams 2022; Wright 2022; Temitope 2024.
- ^ Lopez 2022.
- ^ Phillips 2022 ; Lopez 2022.
- ^ Wright 2022; Phillips 2022 ; fifteenai 2022.
- ^ Lawrence 2022; Williams 2022.
- ^ ElevenLabs 2024a; Play.ht 2024.
參考文獻
[编辑]- Button, Chris. Make GLaDOS, SpongeBob and other friends say what you want with this AI text-to-speech tool. Byteside. January 19, 2021 [December 18, 2024]. (原始内容存档于June 25, 2024).
- Chandraseta, Rionaldi. Generate Your Favourite Characters' Voice Lines using Machine Learning. Towards Data Science. January 21, 2021 [December 18, 2024]. (原始内容存档于January 21, 2021).
- Clayton, Natalie. Make the cast of TF2 recite old memes with this AI text-to-speech tool. PC Gamer. January 19, 2021 [December 18, 2024]. (原始内容存档于January 19, 2021).
- CNN Newsroom. CNN. January 15, 2021.
- do Prado, Renan. Faça GLaDOS, Bob Esponja e outros personagens falarem textos escritos por você! [Make GLaDOS, SpongeBob and other characters speak texts written by you!]. Arkade. January 19, 2021 [December 22, 2024]. (原始内容存档于August 19, 2022) (巴西葡萄牙语).
- 15.AI: Everything You Need to Know & Best Alternatives. ElevenLabs. 2024a [December 18, 2024]. (原始内容存档于December 25, 2024).
- Can I publish the content I generate on the platform?. ElevenLabs (Official website). 2024b [23 December 2024].
- 15.ai已经重新上线,版本更新至v23 [15.ai has been re-launched, version updated to v23]. Equestria. October 1, 2021 [December 22, 2024]. (原始内容存档于May 19, 2024) (中文).
- @fifteenai. Go fuck yourself. (推文). January 14, 2022 –通过Twitter. Template:Sfn whitelist
- 这个网站可用AI生成语音 让ACG角色"说"出你输入的文本 [This Website Can Use AI to Generate Voice, Making ACG Characters "Say" the Text You Input]. GamerSky. January 18, 2021 [December 18, 2024]. (原始内容存档于December 11, 2024) (中文).
- Audio samples from "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". 2018-08-30 [2022-06-05]. (原始内容存档于2020-11-11).
- 15.ai. Hacker News. June 12, 2022 [December 29, 2024].
- Kim, Jaehyeon. Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search. 2020. arXiv:2005.11129 [eess.AS].
- Knight, Will. An Algorithm Trained on Emoji Knows When You're Being Sarcastic on Twitter. MIT Technology Review. August 3, 2017 [December 18, 2024]. (原始内容存档于June 2, 2022).
- Kong, Jungil. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis. 2020. arXiv:2010.05646 [cs.SD].
- Kurosawa, Yuki. ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる [Game Character Voice Reading Software "15.ai" Now Available. Get Characters from Undertale and Portal to Say Your Desired Lines]. AUTOMATON. January 19, 2021 [December 18, 2024]. (原始内容存档于January 19, 2021) (日语).
英語版ボイスのみなので注意。;もうひとつ15.aiの大きな特徴として挙げられるのが、豊かな感情表現だ。
已忽略未知参数|trans-quote=
(帮助) - Lawrence, Briana. Shonen Jump Scare Leads to Company Reassuring Fans That They Aren't Getting Into NFTs. The Mary Sue. 19 January 2022 [23 December 2024].
- Li, Yongqiang. 语音开源项目优选:免费配音网站15.ai [Voice Open Source Project Selection: Free Voice Acting Website 15.ai]. Zhihu. 2021 [December 18, 2024]. (原始内容存档于December 19, 2024) (中文).
- Lopez, Ule. Voiceverse NFT Service Reportedly Uses Stolen Technology from 15ai [UPDATE]. Wccftech. January 16, 2022 [June 7, 2022]. (原始内容存档于January 16, 2022).
- Menor, Deion. 15.ai – Natural and Emotional Text-to-Speech Using Neural Networks. HashDork. November 7, 2024 [January 3, 2025].
- Morton, Lauren. Put words in game characters' mouths with this fascinating text to speech tool. Rock, Paper, Shotgun. January 18, 2021 [December 18, 2024]. (原始内容存档于January 18, 2021).
- Moto, Eugenio. 15.ai, el sitio que te permite usar voces de personajes populares para que digan lo que quieras. Qore. 20 January 2021 [21 December 2024]. (原始内容存档于December 28, 2024) (西班牙语).
Si bien los resultados ya son excepcionales, sin duda pueden mejorar más
已忽略未知参数|trans-quote=
(帮助) - MrSun. 讓你喜愛的ACG角色說出任何話! AI生成技術幫助你實現夢想 [Let your favorite ACG characters say anything! AI generation technology helps you realize your dreams]. Yahoo. January 19, 2021 [December 22, 2024]. (原始内容存档于December 28, 2024) (中文).
- Ng, Andrew. Voice Cloning for the Masses. DeepLearning.AI. April 1, 2020 [December 22, 2024]. (原始内容存档于December 28, 2024).
- Navigating the Challenges and Opportunities of Synthetic Voices. OpenAI. March 9, 2024 [December 18, 2024]. (原始内容存档于November 25, 2024).
- Ruppert, Liana. Make Portal's GLaDOS And Other Beloved Characters Say The Weirdest Things With This App. Game Informer. January 18, 2021 [December 18, 2024]. (原始内容存档于January 18, 2021).
- Paltridge, Peter. This Website Will Say Whatever You Type In Spongebob's Voice. Anime Superhero News. January 18, 2021 [December 22, 2024]. (原始内容存档于October 17, 2021).
- Phillips, Tom. Video game voice actor Troy Baker is now promoting NFTs. Eurogamer. January 14, 2022 [December 31, 2024].
- Phillips, Tom. Troy Baker-backed NFT firm admits using voice lines taken from another service without permission. Eurogamer. January 17, 2022 [December 31, 2024]. (原始内容存档于January 17, 2022).
- Everything You Need to Know About 15.ai: The AI Voice Generator. Play.ht. September 12, 2024 [December 18, 2024]. (原始内容存档于December 25, 2024).
- Ren, Yi. FastSpeech: Fast, Robust and Controllable Text to Speech. 2019. arXiv:1905.09263 [cs.CL].
- Free 15.ai Character Voice Cloning and Alternatives. Resemble.ai. October 17, 2024 [December 31, 2024].
- Scotellaro, Shaun. Rainbow Dash Voice Added to 15.ai. Equestria Daily. 2020a [December 18, 2024]. (原始内容存档于December 1, 2024).
- Scotellaro, Shaun. 15.ai Adds Tons of New Pony Voices. Equestria Daily. 2020b [December 21, 2024]. (原始内容存档于December 26, 2024).
- Scotellaro, Shaun. Neat "Pony Preservation Project" Using Neural Networks to Create Pony Voices. Equestria Daily. 2020c [December 18, 2024]. (原始内容存档于June 23, 2021).
- Scotellaro, Shaun. Full Simple Animated Episode - The Tax Breaks (Twilight). Equestria Daily. 2020d [January 1, 2025].
- Scotellaro, Shaun. More Pony Music! We Shine Brighter Together!. Equestria Daily. 2020e [January 1, 2025].
- Scotellaro, Shaun. New Among Us Animation Goes Viral... With Pony Voices. Equestria Daily. 2020f [January 1, 2025].
- Temitope, Yusuf. 15.ai Creator reveals journey from MIT Project to internet phenomenon. The Guardian. December 10, 2024 [December 25, 2024]. (原始内容存档于December 28, 2024).
- 게임 캐릭터 음성으로 영어를 읽어주는 소프트 15.ai 공개. [Software 15.ai Released That Reads English in Game Character Voices]. Tistory. January 20, 2021 [December 18, 2024]. (原始内容存档于December 20, 2024) (韩语).
- 遊戲, 遊戲角落. 這個AI語音可以模仿《傳送門》GLaDOS講出任何對白!連《Undertale》都可以學 [This AI Voice Can Imitate Portal's GLaDOS Saying Any Dialog! It Can Even Learn Undertale]. United Daily News. January 20, 2021 [December 18, 2024]. (原始内容存档于December 19, 2024) (中文(臺灣)).
- Villalobos, José. Descubre 15.AI, un sitio web en el que podrás hacer que GlaDOS diga lo que quieras [Discover 15.AI, a Website Where You Can Make GlaDOS Say What You Want]. LaPS4. January 18, 2021 [January 18, 2021]. (原始内容存档于January 18, 2021) (西班牙语).
La dirección es 15.AI y funciona tan fácil como parece.
已忽略未知参数|trans-quote=
(帮助) - Anirudh VK. Deepfakes Are Elevating Meme Culture, But At What Cost?. Analytics India Magazine. March 18, 2023 [December 18, 2024]. (原始内容存档于December 26, 2024).
While AI voice memes have been around in some form since '15.ai' launched in 2020, [...]
- Weitzman, Cliff. 15.ai: All about 15.ai and the best alternative. Speechify. November 19, 2023 [December 31, 2024].
- Williams, Demi. Voiceverse NFT admits to taking voice lines from non-commercial service. NME. January 18, 2022 [December 18, 2024]. (原始内容存档于January 18, 2022).
- Wright, Steve. Troy Baker-backed NFT company admits to using content without permission. Stevivor. January 17, 2022 [December 18, 2024]. (原始内容存档于January 17, 2022).
- Wright, Steven. Why Biden, Trump, and Obama Arguing Over Video Games Is YouTube's New Obsession. Inverse. March 21, 2023 [December 18, 2024]. (原始内容存档于December 20, 2024).
AI voice tools used to create "audio deepfakes" have existed for years in one form or another, with 15.ai being a notable example.
- Yoshiyuki, Furushima. 『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に [Portal's GLaDOS and UNDERTALE's Sans Will Read Text for You. "15.ai" Service Aims to Reproduce Even the Emotions in Text, Becomes Topic of Discussion]. Den Fami Nico Gamer. January 18, 2021 [December 18, 2024]. (原始内容存档于January 18, 2021) (日语).
- Zwiezen, Zack. Website Lets You Make GLaDOS Say Whatever You Want. Kotaku. January 18, 2021 [December 18, 2024]. (原始内容存档于January 17, 2021).