中國首個音(yīn)樂SOTA模型「天工音(yīn)樂大(dà)模型」今日公

2024年4月(yuè)17日,在“天工”大(dà)模型一周年之際,昆侖萬維重磅宣布,“天工3.0”基座大(dà)模型與“天工SkyMusic”音(yīn)樂大(dà)模型正式開啓公測!一年前的(de)今天,第一版天工大(dà)模型正式對外發布上線,一年來我們不斷叠代模型,叠代應用(yòng)産品,模型和(hé)應用(yòng)都越做(zuò)越好,以此回報廣大(dà)用(yòng)戶的(de)支持。

  “天工3.0”擁有4000億參數,超越了(le)3140億參數的(de)Grok-1,是全球最大(dà)的(de)開源MoE大(dà)模型。“天工3.0”在語義理(lǐ)解、邏輯推理(lǐ)、通(tōng)用(yòng)性、泛化(huà)性、不确定性知識、學習能力等領域擁有突破性的(de)性能提升,數學/推理(lǐ)/代碼/文創能力提升超過30%。

(天工3.0模型參數超越Grok-1,成全球最大(dà)開源MoE專家混合大(dà)模型)

  強大(dà)的(de)模型技術實力賦予“天工3.0”超強的(de)性能表現。在MMBench等多(duō)項權威多(duō)模态測評結果中,“天工3.0”超越GPT-4V,全球領先。

(天工3.0多(duō)模态性能超越GPT-4V,全球領先)

  同時,“天工3.0”旗下(xià)的(de)“天工SkyMusic”音(yīn)樂大(dà)模型也(yě)在今日面向全社會開放公測。“天工SkyMusic”是中國首個音(yīn)樂SOTA模型,更是中國的(de)自研大(dà)模型技術第一次在AIGC領域領跑全球。

(天工SkyMusic綜合性能超越Suno V3,取得(de)音(yīn)樂大(dà)模型SOTA,領跑全球)

  天工SkyMusic:中國首個音(yīn)樂AIGC SOTA模型

  此前,大(dà)模型已經在文本、圖像等多(duō)個技術領域取得(de)突破,帶來産業全面變革。然而,在AI音(yīn)樂生成領域,全球遲遲等不到一款産品,開啓“音(yīn)樂ChatGPT時刻”。

  這是因爲一直以來,AI音(yīn)樂行業大(dà)量研究都集中在符号音(yīn)樂生成技術路線上,并且大(dà)多(duō)隻能實現無人(rén)聲背景音(yīn)樂(Background Music,BGM)的(de)生成,音(yīn)樂的(de)質量、效果、審美(měi)都遠遠達不到可(kě)用(yòng)水(shuǐ)平,産業遲遲未能爆發。

(“天工SkyMusic”自研AI音(yīn)樂大(dà)模型技術架構)

  與行業主流路徑不同,“天工SkyMusic”采用(yòng)自研大(dà)模型音(yīn)樂音(yīn)頻生成技術路線。這一路線直接通(tōng)過大(dà)模型技術實現樂器、人(rén)聲、旋律、音(yīn)量、音(yīn)符的(de)一體化(huà)端到端音(yīn)樂生成,技術難度極大(dà),全球隻有包括昆侖萬維在内的(de)極少數頂尖玩家參與。

  在與海外頂尖的(de)AI音(yīn)樂大(dà)模型Suno V3的(de)橫向測評中,“天工SkyMusic”在人(rén)聲&BGM音(yīn)質、人(rén)聲自然度、發音(yīn)可(kě)懂(dǒng)度等領域顯著領先對手,并以6.65分(fēn)的(de)綜合得(de)分(fēn)超越Suno V3,成爲全球AI音(yīn)樂SOTA模型。

  此外,“天工SkyMusic”還擁有獨創的(de)參考音(yīn)樂生成與方言歌(gē)曲生成能力。

  參考音(yīn)樂生成:用(yòng)戶可(kě)上傳自有參考音(yīn)樂,或選擇“天工SkyMusic”資料庫中現有的(de)參考音(yīn)樂,從而生成風格、唱腔類似的(de)歌(gē)曲,進一步降低音(yīn)樂大(dà)模型的(de)使用(yòng)門檻,讓不熟悉樂理(lǐ)知識的(de)用(yòng)戶也(yě)能輕松玩轉。

  方言歌(gē)曲生成:“天工SkyMusic”生成的(de)音(yīn)樂不僅在人(rén)聲自然度、發聲可(kě)懂(dǒng)度等領域表現優秀,更能夠支持粵語、成都話、北(běi)京話等衆多(duō)方言,讓用(yòng)戶能夠更自由地實現音(yīn)樂表達,傳播方言文化(huà)。

  “天工SkyMusic”是中國首個公開可(kě)用(yòng)的(de)AI音(yīn)樂生成模型,更是中國自研大(dà)模型技術第一次在AIGC領域領跑全球。

  當前,在文本大(dà)模型領域,OpenAI吸引了(le)全球的(de)注意力;但是在AI搜索、AI音(yīn)樂生成等細分(fēn)領域,中國玩家們正在奮勇前行,不斷通(tōng)過自研技術取得(de)細分(fēn)領域頂尖的(de)SOTA表現,共同建設中國大(dà)模型産業,打造自主可(kě)控的(de)大(dà)模型産業生态。

  天工3.0:4000億參數,全球最大(dà)開源MoE大(dà)模型

  在上一代“天工2.0”MoE大(dà)模型的(de)領先基礎上,“天工3.0”實現了(le)全面的(de)性能升級,采用(yòng)了(le)4000億級參數MoE混合專家模型架構,是目前全球模型參數最大(dà)、性能最強的(de)開源MoE模型。

  “天工3.0”的(de)邏輯推理(lǐ)能力、語義理(lǐ)解能力、應對複雜需求能力、内容創作能力全面升級,并新增了(le)多(duō)輪搜索與綜合工具調用(yòng)、圖表繪制、研究模式、增強模式、改圖擴圖等多(duō)項AI能力,爲用(yòng)戶帶來全新AI體驗。

  多(duō)輪搜索與綜合工具調用(yòng):“天工3.0”針對模型獨立規劃、調用(yòng)、組合外部工具及整合信息的(de)能力進行了(le)專項訓練,使其能夠獨立生成并調用(yòng)代碼,完成包括産業研究、産品橫評、信息分(fēn)析、圖片生成、圖表繪制等多(duō)種複雜用(yòng)戶需求。

  同時,“天工3.0”能夠通(tōng)過強大(dà)的(de)語義理(lǐ)解能力将用(yòng)戶任務拆解成細分(fēn)環節,實時判斷是否需要聯網或調用(yòng)工具,進行單輪或多(duō)輪的(de)聯網搜索、工具調用(yòng),完成包括多(duō)輪搜索、熱點信息分(fēn)析、圖片生成等複雜用(yòng)戶需求。

(Query:查詢最新中國曆史電影(yǐng)票(piào)房(fáng)排行,圖表展示)

  圖表繪制:“天工3.0”全面提高(gāo)了(le)邏輯推理(lǐ)能力與用(yòng)戶自然語言Query的(de)理(lǐ)解能力,使其能夠更精準地判斷用(yòng)戶需求,獨立生成并調用(yòng)代碼,結合文本需求實時進行内容分(fēn)析及圖表構建,爲用(yòng)戶帶來更直觀、高(gāo)效的(de)對比結果。

(Query:北(běi)京、上海、重慶哪個好玩?)

  多(duō)輪搜索、綜合工具調用(yòng)、圖表繪制等都是“天工3.0”所獨有的(de)大(dà)模型綜合能力,其從底層打通(tōng)了(le)“天工3.0”的(de)AI搜索、AI對話、AI代碼生成、AI圖片識别、AI圖像生成等底層能力,通(tōng)過語義識别能力直接觸發,爲用(yòng)戶帶來更加便捷、高(gāo)效的(de)AI體驗,成爲真正的(de)AI生産力工具。

  此外,“天工3.0”中還增加了(le)研究模式、增強模式、改圖擴圖等多(duō)項AI能力。

  研究模式:在研究模式中,“天工3.0”能夠圍繞用(yòng)戶的(de)某個簡單指令進行相關問題的(de)延伸,自動生成研究大(dà)綱、圖譜、實踐總結、思維導圖,幫助用(yòng)戶快(kuài)速清晰地把握核心内容,完成用(yòng)戶複雜的(de)研究需求。

(Query:康乾盛世年代)

  增強模式:在增強模式中,“天工3.0”能夠針對用(yòng)戶的(de)複雜Query進行拆解、細化(huà)、并進行追問、信息理(lǐ)解與補全,使其在自然語義理(lǐ)解方面性能更強,面對不确定性知識時表現更好,能夠更精準、高(gāo)效地滿足用(yòng)戶需求。

(Query:2024年春節檔電影(yǐng);“天工3.0”理(lǐ)解并追問用(yòng)戶需求)

  改圖擴圖:“天工3.0”多(duō)模态性能取得(de)全面突破,超越GPT-4V,綜合排名全球第一。在強大(dà)的(de)技術底座支持下(xià),“天工3.0”的(de)AI繪圖能力新增了(le)圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化(huà)、墊圖擴圖等全新功能。

(“天工3.0”的(de)AI改圖、修圖、擴圖等功能)

  關于昆侖萬維

  自去年4月(yuè)17日“天工”大(dà)模型正式推出以來,昆侖萬維已圍繞“天工”系列大(dà)模型建起AI大(dà)模型、AI搜索、AI音(yīn)樂、AI視頻、AI社交、AI遊戲等AI業務矩陣,是國内模型技術與工程能力最強、布局最全面的(de)人(rén)工智能科技企業之一。

  這一年裏,除了(le)對“天工”系列基座大(dà)模型進行不斷升級叠代,昆侖萬維還推出了(le)國内第一款AI搜索引擎“天工AI搜索”、開源了(le)百億級大(dà)語言模型“天工Skywork-13B”、推出國内領先的(de)AI Agent開發平台“天工SkyAgents”等一系列前沿大(dà)模型産品。

  當前,“天工”系列大(dà)模型已集成了(le)AI音(yīn)樂、AI搜索、AI寫作、AI長文本閱讀、AI畫圖、AI語音(yīn)合成、AI漫畫創作、AI圖片識别、AI代碼寫作、AI表格生成等多(duō)項能力,并将在未來加入AI視頻功能,對标“超級應用(yòng)”,成爲人(rén)工智能時代的(de)“超級大(dà)模型”(Super Model)。在“實現通(tōng)用(yòng)人(rén)工智能,讓每個人(rén)更好地塑造和(hé)表達自我”的(de)公司使命驅動下(xià),昆侖萬維将始終緻力于AI技術與産品的(de)創新開拓,不斷提高(gāo)AI産品的(de)用(yòng)戶體驗,與用(yòng)戶、研究人(rén)員、開發者們攜手,共創國産大(dà)模型的(de)未來。

(責任編輯:譚夢桐)