【編者按】AIGC席卷之下,技術(shù)加持讓虛擬人類逐漸變得真假難辨。在競爭激烈的市場環(huán)境中,億萬分身不眠不休億萬產(chǎn)業(yè)無窮無盡,越來越多的虛擬人類被開發(fā)、應(yīng)用于互聯(lián)網(wǎng)中。技術(shù)使機(jī)器充分具備了人的特點(diǎn),人類也在追求智能化的道路上越走越遠(yuǎn)。英劇《黑鏡》在“Be Right Back”使用人工智能克隆人類聲音的場景,已經(jīng)不局限在熒屏中了。在虛擬人類作為技術(shù)創(chuàng)新與文藝創(chuàng)作相結(jié)合的載體的今天,“AI孫燕姿”們打開的“虛擬人與人”的世界不是一場簡單的“雙廚狂喜”“夢幻聯(lián)動”,思考它們?nèi)绾畏?wù)于現(xiàn)實(shí),助推于產(chǎn)業(yè),反哺于社會,認(rèn)知它們能夠在我們的世界中走多遠(yuǎn),了解其如何在技術(shù)的支持下變得“人性化”非常重要。
5月23日,真身孫燕姿回應(yīng)AI“分身”,她表示:“人類無法超越AI,做自己就夠了?!被貞?yīng)背后,是繼ChatGPT后,AIGC迎來的第二次現(xiàn)象級事件。
(資料圖片)
在B站上,一首由“AI孫燕姿”演唱的《發(fā)如雪》意外出圈。截至5月20日,這段發(fā)布于4月14日的視頻播放量已經(jīng)達(dá)到了180.7萬。AI孫燕姿成了新的流量密碼,相關(guān)平臺上,由其翻唱的歌曲呈現(xiàn)爆發(fā)態(tài)勢,粗略計(jì)算已超過1000個(gè)。
人工智能沉浮十年,終于在ChatGPT出現(xiàn)的那一刻找到了落地的應(yīng)用場景,隨即在產(chǎn)業(yè)領(lǐng)域延伸出無限可能。夾雜著市場爆發(fā)的期待和揮之不去的侵權(quán)爭議,AI孫燕姿攪動的,正是AI音樂這一細(xì)分領(lǐng)域的一池春水。
AI翻唱
從訓(xùn)練到推理
5月19日中午,科技博主小亦在自己的抖音賬號上傳了最新一期視頻。這一次,他的主題從AI孫燕姿轉(zhuǎn)向了AI張雨生。此前,他用兩天的時(shí)間分離了200多首歌曲的素材,又用一天多的時(shí)間進(jìn)行了3000次左右的訓(xùn)練。
小亦在抖音上運(yùn)營著一個(gè)叫“AI君主小亦”的賬號,4月底,他發(fā)現(xiàn)了這項(xiàng)技術(shù),開始鉆研應(yīng)用,并在抖音上上傳了自己嘗試后制作的視頻。目前,小亦上傳的AI孫燕姿版《需要人陪》播放量已經(jīng)超過200萬,AI孫燕姿版的《不為誰而作的歌》還曾登上抖音熱搜榜單。
比起AI孫燕姿的“以假亂真”,這首AI張雨生版的《沒離開過》并沒有達(dá)到小亦理想中的效果。小亦在視頻中坦言,由于張雨生的高音素材相對太少,不能滿足充分訓(xùn)練需求,所以對成品質(zhì)量有影響,現(xiàn)在他正在著手解決這一問題。
據(jù)了解,整個(gè)翻唱的技術(shù)底座是一個(gè)來源于全球最大開源社區(qū)Github中的項(xiàng)目So-vits-svc。公開資料顯示,該項(xiàng)目是基于VITS、soft-vc、VISinger2等一系列項(xiàng)目開發(fā)的開源免費(fèi)AI語音轉(zhuǎn)換軟件。在小亦的個(gè)人工作室,他為北京商報(bào)記者詳細(xì)地展示了制作AI孫燕姿音樂作品的完整過程,大致可以概括為收集素材、分離“干聲”、進(jìn)行訓(xùn)練、翻唱歌曲四個(gè)步驟。
首先要找到足夠數(shù)量的孫燕姿本人演唱的歌曲,通常在幾百首左右,之后通過相關(guān)技術(shù)手段,將歌曲中的伴奏、混響、和聲等與人聲分離,再在這個(gè)基礎(chǔ)上進(jìn)行切割,刪除空白片段,將每個(gè)片段控制在5-20秒之間。準(zhǔn)備妥當(dāng)之后就可以開始訓(xùn)練了。
為了滿足硬件上的需求,小亦專門在算力市場租用顯存。他的日志顯示,一些訓(xùn)練達(dá)到2000次的時(shí)候就被小亦手動暫停了,他解釋稱,由于訓(xùn)練耗時(shí)相對較長,中止訓(xùn)練是為了提早檢驗(yàn)效果,以便優(yōu)化訓(xùn)練參數(shù)配置,在確認(rèn)無誤后,會重新訓(xùn)練到大約3萬次,以達(dá)到最佳效果。另外,雖然訓(xùn)練次數(shù)本著多多益善的原則,但如果素材本身有局限,即使訓(xùn)練次數(shù)翻倍,成品質(zhì)量也不會有太大的提升。
完成上述工作就相當(dāng)于完成了AI翻唱99%的進(jìn)度,最后一步就是“推理”,即將需要被替換的音頻上傳。替換一首歌曲的時(shí)間通常需要3分鐘左右,相比之下,訓(xùn)練的過程則要持續(xù)數(shù)個(gè)甚至數(shù)十個(gè)小時(shí)。
聲智科技數(shù)智人產(chǎn)品副總裁黃赟賀稱,AI孫燕姿屬于AI翻唱領(lǐng)域的應(yīng)用案例,涵蓋了擬人化的語音合成、情感計(jì)算和音樂合成等技術(shù),這些技術(shù)主要以深度學(xué)習(xí)為技術(shù)底座,屬于AI語言、語音和圖像三大技術(shù)領(lǐng)域中的語音分支。
為什么最先出圈的會是AI孫燕姿?黃赟賀認(rèn)為,AI分身有“虛擬偶像”的特征,可以鏈接粉絲和偶像產(chǎn)生互動感,具有娛樂性。此次AI孫燕姿在B站火出圈,也是AI產(chǎn)品在合適的應(yīng)用場景落地能引發(fā)用戶自傳播效應(yīng)的佐證。
還有人認(rèn)為這是因?yàn)閷O燕姿本人咬字清晰,習(xí)慣尾音短,句尾收音干凈,容易被AI化。但在小亦看來,最主要的原因還是在于孫燕姿的聲音集已經(jīng)通過互聯(lián)網(wǎng)公開,因此方便大家直接拿來訓(xùn)練,如果要訓(xùn)練其他人的音色,付出的時(shí)間成本與技術(shù)成本相對較高,自然也就篩掉了一部分出于好奇心理進(jìn)行嘗試的用戶。
風(fēng)險(xiǎn)外溢
繞不過的版權(quán)檻
當(dāng)互聯(lián)網(wǎng)沉浸在AI孫燕姿掀起的狂歡時(shí),人民網(wǎng)評卻潑來了一盆“冷水”——AI歌手需系好法律這個(gè)第一紐扣。評論指出,AI歌手涉及的法律問題主要有兩方面,分別為聲音權(quán)和著作報(bào)酬分配權(quán)。
值得一提的是,早在AI孫燕姿走紅之前,So-vits-svc就已經(jīng)停止更新了。So-vits-svc的創(chuàng)作團(tuán)隊(duì)聲明,他們不知道也無法知道用戶使用該項(xiàng)目的目的是什么,所有基于該項(xiàng)目訓(xùn)練的AI模型和合成音頻與項(xiàng)目貢獻(xiàn)者無關(guān),由此產(chǎn)生的一切問題由用戶自行承擔(dān)。
小亦用“刪庫跑路”這個(gè)詞概括這種行為,背后的原因直指歌曲侵權(quán)。他也曾在自己制作的AI孫燕姿版的《需要人陪》下面做出類似的聲明,比如“僅供娛樂,如涉及侵權(quán)請聯(lián)系刪除”。
侵權(quán)成了AI歌手浪潮里最大的“不和諧”因素。北京卓緯律師事務(wù)所合伙人、律師孫志峰稱,AI歌手現(xiàn)象可能有多個(gè)層面的法律風(fēng)險(xiǎn)。
比如,AI歌手如果未經(jīng)許可使用歌手姓名、肖像的,涉嫌侵犯姓名權(quán)、肖像權(quán)。如果AI歌手的表演宣傳過程中導(dǎo)致歌手形象或社會評價(jià)降低的,可能侵犯歌手的名譽(yù)權(quán)。AI歌手未經(jīng)著作權(quán)人許可,演唱表演相應(yīng)歌曲的,還可能侵犯詞曲的著作權(quán)。
此外,使用AI模型生成AI歌手實(shí)施侵權(quán)行為的,屬于直接侵權(quán),按照前述規(guī)則判定。AI模型開發(fā)者,如果其算法并不符合技術(shù)中立規(guī)則,算法及訓(xùn)練用于侵權(quán)用途,或者直接開發(fā)了侵犯他人權(quán)利的AI模型的,則可能也構(gòu)成直接侵權(quán),或誘導(dǎo)、幫助等間接侵權(quán)。發(fā)布侵權(quán)AI歌手表演的平臺,如果明知或應(yīng)知侵權(quán),未采取屏蔽/斷開連接等方式,則構(gòu)成侵權(quán)。
“人們在面對一項(xiàng)新技術(shù)的時(shí)候,總是習(xí)慣用原有的觀念去看待、理解,因此出現(xiàn)爭議也是很正常的?!毙∫嗾J(rèn)為。他還給網(wǎng)友提了個(gè)醒,如果繼續(xù)做某個(gè)AI歌手翻唱的音樂,在自娛自樂的范圍內(nèi)可以任意發(fā)揮,但也要防止一旦大量傳播走紅之后,遭遇版權(quán)商的“釜底抽薪”。
對此,小亦也找到了“卡bug”一般的應(yīng)對方法:在聲紋尚未立法的當(dāng)下,即便所有人一聽就知道訓(xùn)練的是哪位歌手的聲音,但只要?jiǎng)?chuàng)作者不明確地標(biāo)注出來,然后再用他的聲音去復(fù)制一些沒有版權(quán)或者不太可能維權(quán)的歌曲,就不會有任何問題,“雖然這樣的邏輯可能有些不道德,但卻在‘法無禁止即可為’的范疇之內(nèi)”。
今年4月,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《生成式人工智能服務(wù)管理辦法(征求意見稿)》,為生成式人工智能劃出了詳細(xì)的范圍,即基于算法、模型、規(guī)則生成文本、圖片、聲音、視頻、代碼等內(nèi)容的技術(shù)。
同時(shí),征求意見稿也指出,利用生成式人工智能生成的內(nèi)容應(yīng)當(dāng)真實(shí)準(zhǔn)確,采取措施防止生成虛假信息;提供生成式人工智能產(chǎn)品或服務(wù),應(yīng)當(dāng)尊重他人合法利益,防止傷害他人身心健康,損害肖像權(quán)、名譽(yù)權(quán)和個(gè)人隱私,侵犯知識產(chǎn)權(quán)等。
本月早些時(shí)候,抖音也發(fā)布了《關(guān)于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議》,其中提到,發(fā)布者應(yīng)對人工智能生成內(nèi)容進(jìn)行顯著標(biāo)識,需對人工智能生成內(nèi)容產(chǎn)生的相應(yīng)后果負(fù)責(zé),禁止利用生成式人工智能技術(shù)創(chuàng)作、發(fā)布侵權(quán)內(nèi)容,包括但不限于肖像權(quán)、知識產(chǎn)權(quán)等。
商業(yè)空間
專業(yè)玩家的市場
AI音樂惹麻煩已有先例。公開報(bào)道顯示,今年4月,一名網(wǎng)友曾以加拿大說唱歌手德雷克和加拿大歌手威肯的聲音為原型,利用AI技術(shù)生成了一首時(shí)長兩分鐘的歌曲《我心可鑒》,此后歌曲迅速爆火并傳播到了多個(gè)平臺。
德雷克所屬的音樂公司環(huán)球音樂集團(tuán)認(rèn)為,這首AI合成歌曲違反了版權(quán)法,向平臺方投訴令其下架的同時(shí),還要求Spotify和蘋果等流媒體平臺切斷AI對其內(nèi)部音樂的訪問權(quán)限,防止開發(fā)人員利用其版權(quán)音樂訓(xùn)練AI模型。
環(huán)球音樂集團(tuán)在音樂雜志《公告牌》上發(fā)布的一份聲明中稱:“平臺負(fù)有法律和道德責(zé)任,限制侵權(quán)者使用其服務(wù)”,“我們將毫不猶豫地采取措施保護(hù)我們和音樂人的權(quán)利”。
AI音樂仿佛陷入了一種矛盾,揮之不去的侵權(quán)爭議之下,還醞釀著巨大的商業(yè)化空間。小亦的視頻走紅之后,國內(nèi)也有版權(quán)商找到了他,不過交流的主題并不是侵權(quán)問題,而是AI音樂的商業(yè)化未來。
用AI技術(shù)“復(fù)活”去世的親人,實(shí)現(xiàn)黃家駒、張國榮的“數(shù)字永生”,面對AI音樂商業(yè)化,網(wǎng)友早已腦洞大開。
在與版權(quán)商的交流中,小亦意識到,因?yàn)橛邪鏅?quán)的護(hù)城河以及未來聲紋立法的可能性,普通人想借這項(xiàng)技術(shù)做大規(guī)模的商業(yè)化是不太現(xiàn)實(shí)的,但這也意味著企業(yè)級玩家和音樂人可以享受巨大的紅利,因?yàn)樗麄冇邪鏅?quán)和完整的后續(xù)轉(zhuǎn)化銜接鏈路。
而在充分商業(yè)化之后,未來的音樂也可能會實(shí)現(xiàn)歌手、歌曲和歌唱技巧的自定義,關(guān)鍵就在于哪個(gè)巨頭會先出手整合資源。音樂形式也可能出現(xiàn)更新,比如由AI編詞作曲、AI制作MV、AI歌手演唱的,完全意義上的AI音樂。普通人或許也能從中受益,即便是五音不全的人也能借助AI完成好聽的音樂。
事實(shí)上,AI音樂領(lǐng)域里,專業(yè)的玩家早已出現(xiàn)。上個(gè)月,恰逢7周年,網(wǎng)易嚴(yán)選發(fā)布AI主題曲《如期》,據(jù)悉,該歌曲由網(wǎng)易云音樂旗下網(wǎng)易天音提供的AI技術(shù)輔助支持。2020年底,網(wǎng)易便已發(fā)布首支AI生成歌曲《醒來》。
另有媒體報(bào)道,于2022年2月成立于南京的AI科技音樂公司“期音科技”也已經(jīng)實(shí)現(xiàn)了全流程AI音樂創(chuàng)作,開始提供To B服務(wù),并上線了面向C端體驗(yàn)者的小程序“伯牙智能創(chuàng)作”。今年2月,昆侖萬維還曾在互動平臺表示,公司布局的AI生成音樂方向目前已開始商業(yè)化。
不過黃赟賀也提到,技術(shù)還在不斷發(fā)展完善,在音樂合成領(lǐng)域還需要人類剪輯、拼接和平滑才能達(dá)到更好的效果,即便如此,在音樂情感表達(dá)方面也存在諸多技術(shù)方面的挑戰(zhàn),當(dāng)前AI翻唱還很難模仿人類歌手在聲音方面的獨(dú)特性,在觸動人類情感方面還存在較大差距。
“但是AI技術(shù)整體在日新月異發(fā)展,如果與當(dāng)前流行的ChatGPT這樣的大型語言模型技術(shù)結(jié)合,則可以創(chuàng)造出更多虛擬的音樂歌手形象甚至創(chuàng)造出更多新的數(shù)字音樂?!秉S赟賀稱。
張勒(化名)是一名Live演出活動的運(yùn)營工作人員,他雖然不能準(zhǔn)確地概括出音樂圈對于AI技術(shù)的態(tài)度,但從他個(gè)人的角度,還是表現(xiàn)出了對AI的支持,“它的走紅背后,是人們對理想化的追尋以及情懷的復(fù)刻。從這個(gè)意義上說,AI和真人并不沖突”。
“但現(xiàn)場音樂,終歸還是要回到現(xiàn)場的?!苯涣鞯慕Y(jié)尾,張勒如此說道。
關(guān)鍵詞:
責(zé)任編輯:Rex_24