跳转到内容

User:GregariousMadness/15.ai

维基百科,自由的百科全书
15.ai
网站类型
人工智能, 语音合成, 生成式人工智慧
语言English
创立者15
网址15.ai
商业性质No
注册None
推出时间2020年3月,​4年前​(2020-03
现状Inactive

15.ai 是一款免費的非商業性網頁應用程式,它使用人工智能技術,為流行文化中的虛構角色生成語音合成文字轉語音)聲音。[1] 該應用程式由一位在麻省理工学院學習時化名為 15 的人工智能研究員創建,允許用戶讓電子遊戲電視節目電影中的角色以自定義文本和情感語調說話,且生成速度比實時更快。[a][2] 該平台以使用最少的訓練數據生成逼真的語音輸出而聞名——“15.ai”這個名字指的是創建者聲稱只需 15 秒的音頻即可克隆一個聲音。它是人工智能热潮初期生成式人工智慧應用的一個早期例子。

15.ai 於 2020 年 3 月推出,[3] 並在 2021 年初在YouTubeTwitter等社交媒體平台上病毒式傳播而受到廣泛關注,並迅速在網絡粉絲圈中流行起來,包括我的小马驹:友谊就是魔法絕地要塞2海綿寶寶的粉絲圈。[4][5] 15.ai通過表情符號支持語音生成中的情感表达,以及通過音標精確控制發音而脫穎而出。15.ai 被認為是第一個將 AI 語音克隆(音頻深度偽造)推廣到網絡迷因內容創作中的主流平台。[6]

15.ai 在語音合成和情感表達方面採用了高效的數據方法。这种方法影响了后来 AI 文本转语音技术的发展。2022 年 1 月,Voiceverse NFT 公司因被發現盜用 15.ai 的成果而引發爭議,該公司此前曾與配音演員特洛伊·貝克合作開發語音平台。該服務最終於 2022 年 9 月下線。它的關閉導致隨後幾年出現了各種商業替代品。

歷史

[编辑]

背景

[编辑]

隨著 深度學習 方法的引入,人工 語音合成 領域經歷了一次重大變革。2016 年,DeepMind 發表了開創性論文“WaveNet: A Generative Model for Raw Audio”,標誌著基於 神經網絡 的語音合成向著直接波形建模、實現前所未有的音頻質量的關鍵轉變。 WaveNet 以每秒 16,000 個樣本的速度直接對原始音頻波形進行運算。它使用擴張因果卷積,對每個音頻樣本在給定所有先前樣本的情況下的條件概率分佈進行建模。此前,拼接合成(通過將預先錄製的人類語音片段拼接在一起來工作)是生成人工語音的主要方法,但它通常會產生聽起來像機器人的結果,並且在片段邊界處有明顯的瑕疵。

Tacotron 和 Tacotron 的修改變體之間的對齊(注意力机制)的比較

兩年後,Google AI 於 2018 年推出了 Tacotron,它證明了神經網絡可以產生高度自然的語音合成,但需要大量的訓練數據(通常是數十小時的音頻)才能達到可接受的質量。 Tacotron 採用了帶有 注意力机制編碼器-解碼器 架構,將輸入文本轉換為 梅爾頻譜圖,然後使用單獨的神經 聲碼器 將其轉換為波形。當在較小的數據集(例如 2 小時的語音)上進行訓練時,輸出質量會下降,但仍能保持清晰的語音;而僅使用 24 分鐘的訓練數據,Tacotron 就無法產生清晰的語音。[7]

HiFi-GAN 模型架構,由一個“生成器”和兩個“鑑別器”組成。在 HiFi-GAN 發佈後,基於 GAN 的 聲碼器 實現變得普遍。

2019 年,微軟研究院 推出了 FastSpeech,它解決了 Tacotron 等 自回歸模型 的速度限制。[8] FastSpeech 利用了非自回歸架構,該架構支持並行序列生成,在保持音頻質量的同時顯著減少了推理時間。它的帶有長度調節的 前饋 Transformer 網絡允許 一次性預測 完整的梅爾頻譜圖序列,避免了先前方法中造成瓶頸的序列依賴。[9] 同年出現了 HiFi-GAN,這是一種基於 生成對抗網絡 (GAN) 的聲碼器,它提高了波形生成的效率,同時產生了高保真語音。[10] 接下來是 Glow-TTS,它引入了一種 基於流 的方法,允許快速推理和語音風格轉換功能。[11]

中國科技公司也對該領域做出了重大貢獻。 百度字節跳動 開發了專有的文本轉語音框架,進一步推動了技術發展,儘管其實現的具體技術細節在很大程度上仍未公開。[12]

開發、發佈和運營

[编辑]
[...] 該網站有多種用途。它作為一個概念驗證平台,允許任何人創建內容,即使他們無法聘請專人為其項目配音。

它還以一種更具吸引力的方式展示了我的研究進展——通過能夠使用實際模型,您可以發現一些連我自己都沒有意識到的東西(例如通過在某些音素之間放置逗號來讓角色發出喘息聲或呻吟聲)。

它也不允許我挑選最佳結果並只炫耀那些有效的結果 [...] 能夠無需過濾地與模型交互,允許用戶從表面上判斷當前工作的質量。
15, Hacker News[13] 

15.ai 由一位化名為“15”的人工智能研究員在 麻省理工學院 (MIT) 學習期間構思於 2016 年,作為 MIT 本科生研究機會計劃 (UROP) 的一部分,[14] 當時他 18 歲,[15]  正在讀 大一[16] 該項目是一個 深度學習語音合成 研究項目。這位開發者受到了 DeepMindWaveNet 論文的啟發,並在 Google AI 於次年發佈 Tacotron 後繼續進行開發。到 2019 年,這位開發者在 MIT 展示了他們使用比以前所需少 75% 的訓練數據複製 WaveNet 和 Tacotron 結果的能力。[12] 名字“15”指的是創建者聲稱只需 15 秒的音頻即可克隆聲音。[17]

這位開發者最初計劃根據他們的本科研究攻讀 博士學位,但在他們的 初創公司 於 2019 年被 Y Combinator 加速器錄取後,選擇了在 科技行業 工作。在 2020 年初離開後,這位開發者回到了他們的語音合成研究,並將其作為 網頁應用程式 實現。他們沒有使用包含簡單、單調錄音的傳統語音數據集(如 LJSpeech),而是尋找更具挑戰性的語音樣本,這些樣本可以證明模型處理複雜語音模式和情感色彩的能力。[12] 小馬保存計劃(Pony Preservation Project)——一項起源於 /mlp/(4chan 的“彩虹小馬”版塊)的粉絲計劃,[12] 該計劃彙編了“我的小馬駒:友誼就是魔法”中的語音片段——在實施過程中發揮了至關重要的作用。該項目的貢獻者手動修剪、去噪、轉錄和標記了節目中的每一行台詞的情緒——這在當時的粉絲社區中是前所未有的工作,尤其是在此類任務可以自動化之前就完成了。這個精心策劃的高情感數據集為 15.ai 的深度學習模型提供了理想的訓練材料。[12][15]

多說話者嵌入的示例。神經網絡將預測的時間戳映射到編碼說話者信息的掩碼 嵌入 序列。

15.ai 於 2020 年 3 月發佈,最初只包含了“我的小馬駒:友誼就是魔法”和“絕地要塞2”等作品中的角色。[3][18] 在接下來的幾個月中,網站上添加了更多聲音。[19] 2020 年底,深度神經網絡中多說話者 嵌入 的實現帶來了一項重大的技術進步,它允許同時訓練多個聲音,而不是為每個角色聲音都需要單獨的模型。[12] 這不僅允許角色聲音從 8 個快速擴展到 50 多個,[15]  還允許模型識別角色之間的共同情感模式,即使某些角色的訓練數據中缺少某些情緒。[20]

2021 年初,該應用程式在 TwitterYouTube 上瘋傳,人們使用來自流行遊戲和節目的聲音生成短劇、迷因 和粉絲內容,在社交媒體上累積了數百萬次觀看。[21] 內容創作者、YouTuberTikTok 用戶也將 15.ai 用作其視頻中的 旁白[22] 在其巔峰時期,該平台每月在 AWS 基礎設施上產生 US$12,000 的運營成本,以處理每天數百萬次的語音生成;儘管收到公司 收購 15.ai 及其底層技術的邀約,但該網站仍保持獨立,並由開發者(當時 23 歲)[15]  此前的初創公司收益提供資金。[12]

Voiceverse NFT 爭議

[编辑]

2022 年 1 月 14 日,在發現電子遊戲和 動畫 配音 配音員 特洛伊·貝克 宣布與之合作的公司 Voiceverse NFT 盜用了 15.ai 生成的語音線路作為其營銷活動的一部分後,引發了一場爭議。[23] 這是在 15.ai 的開發者在 2021 年 12 月明確表示他們無意將 NFT 納入其工作之後不久發生的。[24] 日誌文件 顯示,Voiceverse 使用 15.ai 生成了“我的小馬駒:友誼就是魔法”中角色的音頻,並提高了音調,使它們聽起來與原始聲音不同,以推銷自己的平台——這違反了 15.ai 的服務條款。[25]

Voiceverse 聲稱其營銷團隊中的某個人使用了該語音,但沒有適當地標註 15.ai 的功勞;作為回應,15 在推特上發文“去你媽的”,[26] 這條推文迅速走紅,在 Twitter 上獲得了數十萬次轉發和點贊,以支持這位開發者。[12] 在持續的反彈和抄襲事件曝光後,貝克承認他最初的公告推文以“你可以恨。或者你可以創造。你會怎麼做?”結尾可能具有“對抗性”,並於 2022 年 1 月 31 日宣布他將終止與 Voiceverse 的合作關係。[27]

停用

[编辑]

2022 年 9 月,由於圍繞 人工智能與版權 的法律問題,15.ai 被下線。[28] [12] 創建者暗示了未來可能出現的版本,該版本將從一開始就更好地解決版權問題,儘管截至 2025 年該網站仍处于非活動狀態。[12]

參見

[编辑]

註釋

[编辑]
  1. ^ 語音合成中的“比實時更快”指的是系統生成音頻的速度比語音的實際持續時間更快,例如,在不到 10 秒的時間內生成 10 秒的語音就被認為是比實時更快。

參考資料

[编辑]

註腳

[编辑]
  1. ^ 遊戲 2021; Yoshiyuki 2021.
  2. ^ Kurosawa 2021; Ruppert 2021; Clayton 2021; Morton 2021; Temitope 2024.
  3. ^ 3.0 3.1 Ng 2020.
  4. ^ Zwiezen 2021; Chandraseta 2021; Temitope 2024.
  5. ^ GamerSky 2021.
  6. ^ Speechify 2024; Temitope 2024; Anirudh VK 2023; Wright 2023.
  7. ^ Google 2018
  8. ^ Ren 2019; Temitope 2024.
  9. ^ Ren 2019.
  10. ^ Kong 2020.
  11. ^ Kim 2020.
  12. ^ 12.00 12.01 12.02 12.03 12.04 12.05 12.06 12.07 12.08 12.09 Temitope 2024.
  13. ^ Hacker News 2022
  14. ^ Chandraseta 2021; Menor 2024.
  15. ^ 15.0 15.1 15.2 15.3 15.ai 的過去和未來. Twitter. [2024年12月19日]. (原始内容存档于2024年12月8日). 
  16. ^ Chandraseta 2021; Temitope 2024.
  17. ^ Chandraseta 2021; Button 2021.
  18. ^ 關於. fifteen.ai (官方網站). 2020年2月19日 [2024年12月23日]. (原始内容存档于2020年2月29日). 2020-02-19: 網頁應用程式尚未完全準備好 
    • 關於. fifteen.ai (官方網站). 2020年3月2日 [2024年12月23日]. (原始内容存档于2020年3月3日). 
  19. ^ Scotellaro 2020a; Scotellaro 2020b.
  20. ^ Kurosawa 2021; Temitope 2024.
  21. ^ Zwiezen 2021; Clayton 2021; Ruppert 2021; Morton 2021; Kurosawa 2021; Yoshiyuki 2021.
  22. ^ Play.ht 2024.
  23. ^ Lawrence 2022; Williams 2022; Wright 2022; Temitope 2024.
  24. ^ Lopez 2022.
  25. ^ Phillips 2022; Lopez 2022.
  26. ^ Wright 2022; Phillips 2022; fifteenai 2022.
  27. ^ Lawrence 2022; Williams 2022.
  28. ^ ElevenLabs 2024a; Play.ht 2024.

參考文獻

[编辑]