科技研發

中國首個音(yīn)樂SOTA模型「天工音(yīn)樂大(dà)模型」今日公

2024年4月(yuè)17日，在“天工”大(dà)模型一周年之際，昆侖萬維重磅宣布，“天工3.0”基座大(dà)模型與“天工SkyMusic”音(yīn)樂大(dà)模型正式開啓公測！一年前的(de)今天，第一版天工大(dà)模型正式對外發布上線，一年來我們不斷叠代模型，叠代應用(yòng)産品，模型和(hé)應用(yòng)都越做(zuò)越好，以此回報廣大(dà)用(yòng)戶的(de)支持。

　　“天工3.0”擁有4000億參數，超越了(le)3140億參數的(de)Grok-1，是全球最大(dà)的(de)開源MoE大(dà)模型。“天工3.0”在語義理(lǐ)解、邏輯推理(lǐ)、通(tōng)用(yòng)性、泛化(huà)性、不确定性知識、學習能力等領域擁有突破性的(de)性能提升，數學/推理(lǐ)/代碼/文創能力提升超過30%。

(天工3.0模型參數超越Grok-1，成全球最大(dà)開源MoE專家混合大(dà)模型)

　　強大(dà)的(de)模型技術實力賦予“天工3.0”超強的(de)性能表現。在MMBench等多(duō)項權威多(duō)模态測評結果中，“天工3.0”超越GPT-4V，全球領先。

(天工3.0多(duō)模态性能超越GPT-4V，全球領先)

　　同時，“天工3.0”旗下(xià)的(de)“天工SkyMusic”音(yīn)樂大(dà)模型也(yě)在今日面向全社會開放公測。“天工SkyMusic”是中國首個音(yīn)樂SOTA模型，更是中國的(de)自研大(dà)模型技術第一次在AIGC領域領跑全球。

(天工SkyMusic綜合性能超越Suno V3，取得(de)音(yīn)樂大(dà)模型SOTA，領跑全球)

　　天工SkyMusic：中國首個音(yīn)樂AIGC SOTA模型

　　此前，大(dà)模型已經在文本、圖像等多(duō)個技術領域取得(de)突破，帶來産業全面變革。然而，在AI音(yīn)樂生成領域，全球遲遲等不到一款産品，開啓“音(yīn)樂ChatGPT時刻”。

　　這是因爲一直以來，AI音(yīn)樂行業大(dà)量研究都集中在符号音(yīn)樂生成技術路線上，并且大(dà)多(duō)隻能實現無人(rén)聲背景音(yīn)樂(Background Music，BGM)的(de)生成，音(yīn)樂的(de)質量、效果、審美(měi)都遠遠達不到可(kě)用(yòng)水(shuǐ)平，産業遲遲未能爆發。

(“天工SkyMusic”自研AI音(yīn)樂大(dà)模型技術架構)

　　與行業主流路徑不同，“天工SkyMusic”采用(yòng)自研大(dà)模型音(yīn)樂音(yīn)頻生成技術路線。這一路線直接通(tōng)過大(dà)模型技術實現樂器、人(rén)聲、旋律、音(yīn)量、音(yīn)符的(de)一體化(huà)端到端音(yīn)樂生成，技術難度極大(dà)，全球隻有包括昆侖萬維在内的(de)極少數頂尖玩家參與。

　　在與海外頂尖的(de)AI音(yīn)樂大(dà)模型Suno V3的(de)橫向測評中，“天工SkyMusic”在人(rén)聲&BGM音(yīn)質、人(rén)聲自然度、發音(yīn)可(kě)懂(dǒng)度等領域顯著領先對手，并以6.65分(fēn)的(de)綜合得(de)分(fēn)超越Suno V3，成爲全球AI音(yīn)樂SOTA模型。

　　此外，“天工SkyMusic”還擁有獨創的(de)參考音(yīn)樂生成與方言歌(gē)曲生成能力。

　　參考音(yīn)樂生成：用(yòng)戶可(kě)上傳自有參考音(yīn)樂，或選擇“天工SkyMusic”資料庫中現有的(de)參考音(yīn)樂，從而生成風格、唱腔類似的(de)歌(gē)曲，進一步降低音(yīn)樂大(dà)模型的(de)使用(yòng)門檻，讓不熟悉樂理(lǐ)知識的(de)用(yòng)戶也(yě)能輕松玩轉。

　　方言歌(gē)曲生成：“天工SkyMusic”生成的(de)音(yīn)樂不僅在人(rén)聲自然度、發聲可(kě)懂(dǒng)度等領域表現優秀，更能夠支持粵語、成都話、北(běi)京話等衆多(duō)方言，讓用(yòng)戶能夠更自由地實現音(yīn)樂表達，傳播方言文化(huà)。

　　“天工SkyMusic”是中國首個公開可(kě)用(yòng)的(de)AI音(yīn)樂生成模型，更是中國自研大(dà)模型技術第一次在AIGC領域領跑全球。

　　當前，在文本大(dà)模型領域，OpenAI吸引了(le)全球的(de)注意力；但是在AI搜索、AI音(yīn)樂生成等細分(fēn)領域，中國玩家們正在奮勇前行，不斷通(tōng)過自研技術取得(de)細分(fēn)領域頂尖的(de)SOTA表現，共同建設中國大(dà)模型産業，打造自主可(kě)控的(de)大(dà)模型産業生态。

　　天工3.0：4000億參數，全球最大(dà)開源MoE大(dà)模型

　　在上一代“天工2.0”MoE大(dà)模型的(de)領先基礎上，“天工3.0”實現了(le)全面的(de)性能升級，采用(yòng)了(le)4000億級參數MoE混合專家模型架構，是目前全球模型參數最大(dà)、性能最強的(de)開源MoE模型。

　　“天工3.0”的(de)邏輯推理(lǐ)能力、語義理(lǐ)解能力、應對複雜需求能力、内容創作能力全面升級，并新增了(le)多(duō)輪搜索與綜合工具調用(yòng)、圖表繪制、研究模式、增強模式、改圖擴圖等多(duō)項AI能力，爲用(yòng)戶帶來全新AI體驗。

　　多(duō)輪搜索與綜合工具調用(yòng)：“天工3.0”針對模型獨立規劃、調用(yòng)、組合外部工具及整合信息的(de)能力進行了(le)專項訓練，使其能夠獨立生成并調用(yòng)代碼，完成包括産業研究、産品橫評、信息分(fēn)析、圖片生成、圖表繪制等多(duō)種複雜用(yòng)戶需求。

　　同時，“天工3.0”能夠通(tōng)過強大(dà)的(de)語義理(lǐ)解能力将用(yòng)戶任務拆解成細分(fēn)環節，實時判斷是否需要聯網或調用(yòng)工具，進行單輪或多(duō)輪的(de)聯網搜索、工具調用(yòng)，完成包括多(duō)輪搜索、熱點信息分(fēn)析、圖片生成等複雜用(yòng)戶需求。

(Query：查詢最新中國曆史電影(yǐng)票(piào)房(fáng)排行，圖表展示)

　　圖表繪制：“天工3.0”全面提高(gāo)了(le)邏輯推理(lǐ)能力與用(yòng)戶自然語言Query的(de)理(lǐ)解能力，使其能夠更精準地判斷用(yòng)戶需求，獨立生成并調用(yòng)代碼，結合文本需求實時進行内容分(fēn)析及圖表構建，爲用(yòng)戶帶來更直觀、高(gāo)效的(de)對比結果。

(Query：北(běi)京、上海、重慶哪個好玩？)

　　多(duō)輪搜索、綜合工具調用(yòng)、圖表繪制等都是“天工3.0”所獨有的(de)大(dà)模型綜合能力，其從底層打通(tōng)了(le)“天工3.0”的(de)AI搜索、AI對話、AI代碼生成、AI圖片識别、AI圖像生成等底層能力，通(tōng)過語義識别能力直接觸發，爲用(yòng)戶帶來更加便捷、高(gāo)效的(de)AI體驗，成爲真正的(de)AI生産力工具。

　　此外，“天工3.0”中還增加了(le)研究模式、增強模式、改圖擴圖等多(duō)項AI能力。

　　研究模式：在研究模式中，“天工3.0”能夠圍繞用(yòng)戶的(de)某個簡單指令進行相關問題的(de)延伸，自動生成研究大(dà)綱、圖譜、實踐總結、思維導圖，幫助用(yòng)戶快(kuài)速清晰地把握核心内容，完成用(yòng)戶複雜的(de)研究需求。

(Query：康乾盛世年代)

　　增強模式：在增強模式中，“天工3.0”能夠針對用(yòng)戶的(de)複雜Query進行拆解、細化(huà)、并進行追問、信息理(lǐ)解與補全，使其在自然語義理(lǐ)解方面性能更強，面對不确定性知識時表現更好，能夠更精準、高(gāo)效地滿足用(yòng)戶需求。

(Query：2024年春節檔電影(yǐng)；“天工3.0”理(lǐ)解并追問用(yòng)戶需求)

　　改圖擴圖：“天工3.0”多(duō)模态性能取得(de)全面突破，超越GPT-4V，綜合排名全球第一。在強大(dà)的(de)技術底座支持下(xià)，“天工3.0”的(de)AI繪圖能力新增了(le)圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化(huà)、墊圖擴圖等全新功能。

(“天工3.0”的(de)AI改圖、修圖、擴圖等功能)

　　關于昆侖萬維

　　自去年4月(yuè)17日“天工”大(dà)模型正式推出以來，昆侖萬維已圍繞“天工”系列大(dà)模型建起AI大(dà)模型、AI搜索、AI音(yīn)樂、AI視頻、AI社交、AI遊戲等AI業務矩陣，是國内模型技術與工程能力最強、布局最全面的(de)人(rén)工智能科技企業之一。

　　這一年裏，除了(le)對“天工”系列基座大(dà)模型進行不斷升級叠代，昆侖萬維還推出了(le)國内第一款AI搜索引擎“天工AI搜索”、開源了(le)百億級大(dà)語言模型“天工Skywork-13B”、推出國内領先的(de)AI Agent開發平台“天工SkyAgents”等一系列前沿大(dà)模型産品。

　　當前，“天工”系列大(dà)模型已集成了(le)AI音(yīn)樂、AI搜索、AI寫作、AI長文本閱讀、AI畫圖、AI語音(yīn)合成、AI漫畫創作、AI圖片識别、AI代碼寫作、AI表格生成等多(duō)項能力，并将在未來加入AI視頻功能，對标“超級應用(yòng)”，成爲人(rén)工智能時代的(de)“超級大(dà)模型”(Super Model)。在“實現通(tōng)用(yòng)人(rén)工智能，讓每個人(rén)更好地塑造和(hé)表達自我”的(de)公司使命驅動下(xià)，昆侖萬維将始終緻力于AI技術與産品的(de)創新開拓，不斷提高(gāo)AI産品的(de)用(yòng)戶體驗，與用(yòng)戶、研究人(rén)員、開發者們攜手，共創國産大(dà)模型的(de)未來。

(責任編輯：譚夢桐)