要說(shuō)這段時(shí)間哪家公司風(fēng)頭正盛,那非三只羊莫屬,隔三差五就要上一回新聞,還是法制欄目的那種。
這不前幾天,月餅門的事件還沒(méi)過(guò)去,又來(lái)了個(gè)錄音門。
事情是這樣的, 9 月 20 號(hào)的時(shí)候網(wǎng)上突然流傳出了一段,疑似三只羊高管盧某的錄音。
錄音里涉及到了多位三只羊的女主播,具體內(nèi)容咱在這就不多做討論了,但確實(shí)很炸裂。
錄音爆出來(lái)后,就在網(wǎng)上迅速引起了一波熱度。
有人說(shuō)這段錄音純純是男的喝多了吹的牛逼,但討論的風(fēng)向很快又變成了這玩意兒,到底是不是 AI 生成的,甚至還釣出來(lái)不少所謂的 AI 行家,開(kāi)始一頓分析。
結(jié)果沒(méi)兩天,警方的通報(bào)就出來(lái)了:都散散吧,是 AI 干的。
而這次事件的另外一位主角, Reecho 睿聲公司也終于浮出了水面,錘了自己的用戶一把。
有意思的是,即使是官方都出面了,但還是有網(wǎng)友覺(jué)得盧某是 “ 酒后吐真言 ” ,通報(bào)也不過(guò)是把鍋,甩給了沒(méi)法兒自證的 AI 。
但不管咋說(shuō),人官方調(diào)查通報(bào)都出來(lái)了,你信也好不信也罷,這事兒就這么定調(diào)了。
不過(guò)以我對(duì) AI 語(yǔ)音的了解,像三只羊錄音門這種情況,的確是有可能的,主要是現(xiàn)階段的 AI 語(yǔ)音技術(shù),確實(shí)已經(jīng)挺成熟的了。
因?yàn)槲覀冎恍枰蟼饕粌删湓挘O碌闹苯铀o AI 就行,分分鐘就能克隆一個(gè)人的音色。
這么說(shuō)吧,現(xiàn)在 AI 語(yǔ)音合成里比較常見(jiàn)、開(kāi)源項(xiàng)目也比較多的,就數(shù) TTS 、 SVC&RVC 兩大類技術(shù)。
所謂 TTS ,簡(jiǎn)單來(lái)說(shuō)就是 Text To Speech ,把文本轉(zhuǎn)化成語(yǔ)音。
像很多 AI 數(shù)字人、有聲書、視頻配音,大伙兒刷抖音經(jīng)常聽(tīng)到的 “ 注意看,這個(gè)男人叫小帥 ” ,還有剪映素材庫(kù)里那些 TVB 女聲、廣西表哥,基本都是 TTS 干的。
像這次三只羊錄音門牽扯到的 Reecho 睿聲,也是一個(gè) TTS 模型的生成網(wǎng)站。
上來(lái)先用《 意大利面拌 42 號(hào)混凝土 》的 “ 名篇節(jié)選 ” 整一波,你別說(shuō),你還真別說(shuō)。
音色的復(fù)刻程度能有個(gè) 80%-90% ,而且說(shuō)話的語(yǔ)氣也賊像,不仔細(xì)聽(tīng)還以為在做什么正經(jīng)科普。
我們本來(lái)還想借著 AI 差評(píng)君給大伙兒送一波福利,但沒(méi)想到這個(gè) AI 小小翻車了一下, 10 臺(tái) iPhone 16 說(shuō)成了 “ 一零臺(tái) iPhone sixteen” 。
穿幫的實(shí)在是太明顯了,這福利想送都送不出去呀,可惜可惜。
借 AI 的口,你甚至還能聽(tīng)到管廣大網(wǎng)友們借錢。就連國(guó)慶節(jié)自愿加班 7 天,還不要加班費(fèi)這種話,從這位 “AI ” 的嘴里說(shuō)出來(lái),你也能聽(tīng)出心甘情愿的味道。
除此之外,人家那個(gè)聲音市場(chǎng)里還可以自己選訓(xùn)練好的聲音 AI ,不僅有我們的好朋友影視颶風(fēng) Tim ,甚至還有主播電棍,坤哥和派蒙,就連五星評(píng)論家麥克阿瑟也能拿來(lái)用。
有一說(shuō)一,這種程度的克隆已經(jīng)相當(dāng)逼真了,所以現(xiàn)在回頭看三只羊錄音門,好像 AI 參與的可信度又高了一點(diǎn)。
有些朋友可能還覺(jué)得,那這個(gè) AI 怎么就能把那種醉意、含糊不清的話都模擬出來(lái)呢?
這就得說(shuō)到 SVC&RVC 了。
這里面 SVC ( Singing Voice Conversion )是用來(lái)唱歌的,而 RVC ( Retrieval-based-Voice-Conversion )的場(chǎng)景多用在直播,這倆都是實(shí)時(shí)把語(yǔ)音轉(zhuǎn)換成 AI 訓(xùn)練的音色,俗稱變聲器。
由于輸入的是音頻,所以它就能把一個(gè)人的聲音轉(zhuǎn)化的更真實(shí),甚至連語(yǔ)氣、聲調(diào)這些東西都可以轉(zhuǎn)化得很自然。如果是歌聲轉(zhuǎn)換,甚至還能模仿音色和唱腔。
像 GitHub 上有個(gè)叫 So-Vits-SVC 的開(kāi)源項(xiàng)目,就一手打造了AI 孫燕姿、唱《 淚橋 》比原唱伍佰還好聽(tīng)的陶喆。
類似的開(kāi)源項(xiàng)目還有很多,而且都很好上手。舉個(gè)例子, b 站的大佬 “ 花兒不哭 ” 今年就上線了一個(gè)開(kāi)源模型 GPT-SoVITs ,下載好直接拿語(yǔ)音喂就行了。
你要懶的自己訓(xùn)練,那還可以在魔搭社區(qū)用 “xz 喬希 ” 的項(xiàng)目直接開(kāi)玩;甚至剪映和必剪這些剪輯軟件里都已經(jīng)用上了自家的 AI 語(yǔ)音,除了那些營(yíng)銷號(hào)語(yǔ)音你也可以生成自己的。
乃至于隨便找個(gè)工具集合網(wǎng)站一搜,多得是可以直接上手用的產(chǎn)品。
我們之前用 “ 花兒不哭 ” 開(kāi)源的 RVC 實(shí)時(shí)變聲算法,也做過(guò)一個(gè)差評(píng)君變聲器。
甚至還專門做了一個(gè)非常差評(píng)的初始界面。
而且當(dāng)時(shí)我們還專門給變聲器做了個(gè)硬件外掛,現(xiàn)在還擱辦公室里呢。
人在這邊對(duì)著麥說(shuō)話,音響那邊實(shí)時(shí)就能把聲音變成蛋蛋的。
看起來(lái)挺牛逼是吧,不過(guò)這玩意也不是突然就這么先進(jìn)了。
主要語(yǔ)音生成這一塊確實(shí)低調(diào),你就說(shuō)這幾年這些 AI 的宣傳,一個(gè)個(gè)都好像是奔著炸裂全宇宙去的。三天兩頭畫大餅,誰(shuí)還惦記語(yǔ)音生成是怎么個(gè)情況。
關(guān)注的人少,再加上技術(shù)積累也多,那可不就是悶聲發(fā)大財(cái)嘛。只不過(guò)現(xiàn)在突然出圈了,大家才感覺(jué)到驚奇。
說(shuō)到底還是 AI 時(shí)代這些東西的門檻都降低了,你想 cos 哪個(gè)人的聲線都相當(dāng)方便。
不過(guò)實(shí)話,技術(shù)進(jìn)步是一回事兒,但就事論事地說(shuō),用這玩意兒來(lái)違法犯罪的案例,并不在少數(shù)。
也不是咱制造啥恐慌,新華網(wǎng)去年九月就報(bào)道過(guò)了相關(guān)的詐騙手段,你想想家里年紀(jì)大的老人,要是接到跟你說(shuō)話聲音一模一樣的詐騙電話,說(shuō)你遇到了危險(xiǎn),會(huì)不會(huì)把棺材本都給騙子騙走?
不止國(guó)內(nèi),這事在國(guó)外照樣有,就連美國(guó)知名密碼管理工具公司 LastPass 的 CEO ,都被偽造聲音拿去詐騙了。
盡管現(xiàn)在已經(jīng)有不少機(jī)構(gòu)在琢磨怎么處理安全問(wèn)題,探索怎么識(shí)別偽造語(yǔ)音等證據(jù),比如有研究表明,目前可以通過(guò)算法聲紋認(rèn)證和語(yǔ)音取證等辦法,對(duì) AI 合成語(yǔ)音進(jìn)行鑒別。
但這些更多還是在找 AI 語(yǔ)音上的 bug 來(lái)鑒定的,就好像數(shù)手指和穿模來(lái)鑒定 AI 圖片一樣,只要模型一升級(jí),這些辦法可能就也沒(méi)轍了。
不過(guò),要從根本上解決問(wèn)題,就還得從生成式模型本身出發(fā)。
給 AI 生成的圖片、音視頻也打上類似水印的標(biāo)記,同時(shí)設(shè)備和軟件也能夠檢索到這些標(biāo)簽,提醒大家這些內(nèi)容并非真實(shí)。
像是谷歌就已經(jīng)開(kāi)始研究在 AI 生成的音頻聲譜上,添加能被視覺(jué)化的特定標(biāo)記,這樣既不會(huì)影響用戶聽(tīng)感也方便識(shí)別。
總的來(lái)說(shuō),在生成式 AI 的影響下,以后眼見(jiàn)不一定為實(shí),耳聽(tīng)也可能為虛。歸根結(jié)底技術(shù)在發(fā)展的同時(shí),防范技術(shù)濫用的對(duì)策也必須做好。
別光想著說(shuō) “ 技術(shù)無(wú)罪 ” ,上個(gè)這么喊的人已經(jīng)蹲了好多年,現(xiàn)在都出來(lái)了。
不過(guò)對(duì)三只羊來(lái)說(shuō),雖然始作俑者已經(jīng)被抓,但這人靠 AI 推在他們身上這把勁,估計(jì)影響還會(huì)持續(xù)挺久,至于后續(xù)怎么發(fā)展,我們還是再等等看吧。
本文鏈接:http://m.88neiyi.com/news-132280.html三只羊“財(cái)色錄音”是假的!但背后技術(shù)是真的恐怖