你是否曾在視頻會議中,被背景噪音干擾,聽不清對方講話?又是否在觀看在線課程時,因混響問題而苦惱,影響學習體驗?…… 這些干擾溝通的音頻雜音,如何從 “無解” 變為 “可消”?答案藏在一場充滿意外的科研旅程中。去年榮獲“廣東好人”稱號,視源股份的音頻專家劉榮帶領團隊,用生活噪音作燃料、以浴室靈感為火種,打破傳統技術瓶頸,將復雜聲場化作清晰人聲—— 這場靜悄悄的音頻革命,讓聲音從此告別模糊,讓每一句對話都回歸清晰與純粹。
有意思的是,劉榮帶領團隊在布滿荊棘的研發道路上,上演了一段充滿挑戰與驚喜的特殊“噪聲” 收集故事。
順著這段奇妙的探索軌跡深入探尋,在視源股份的研發故事里,有這樣一群人,他們的行為乍一看有些奇怪。在會議室中,常常能看到兩三人一組,帶著各種奇怪的“裝備”。桌子上擺滿了各式各樣的筆、形狀各異的茶杯,還有尺子、裝修用的小管子、瓷磚碎片等物品。他們神情專注,既不交談,也不做常規的會議記錄,而是拿著這些物品,在會議室的各個角落“折騰”。一會兒在桌子上用力丟筆,一會兒用茶杯在不同位置輕敲桌面,甚至拿著尺子在屏幕上寫寫畫畫,還讓裝修材料相互碰撞,整個會議室充斥著各種奇怪的聲音。
原來,他們是在為音頻降噪技術的研發錄制噪聲數據。這些看似毫無頭緒的噪聲,在劉榮的團隊里,可是極為寶貴的“寶貝”。“這些噪聲數據是神經網絡訓練的關鍵‘養料’,是我們實現音頻降噪突破的重要基礎。”劉榮解釋道。
之所以要收集如此多樣的噪聲數據,是為了解決不同場景下的噪聲問題。在音頻降噪技術的模型訓練中,需要輸入帶噪的語音。帶噪語音由純凈語音混合噪聲數據構成,模型的優劣與輸入數據的豐富程度密切相關。“簡單來說,模型接觸到的噪聲類型越多,它就越‘見多識廣’,適應能力也就越強,越能精準地識別和消除噪聲。所以,收集大量不同的噪聲數據至關重要。” 劉榮補充道。
而錄制噪聲數據的工作繁瑣又耗時。每次錄制通常由兩三人參與,一組人往往只錄制半小時左右。這是因為每個人操作道具的手法不同,為了保證收集到的數據足夠豐富多樣,就需要不斷更換人員和場地。從不同風格的會議室,到熱鬧程度不同的餐廳,再到忙碌節奏各異的廚房,他們不放過任何一個可能產生獨特噪聲的角落。“雖然過程很辛苦,但只有讓模型接觸到足夠多不同類型的噪聲,它才能變得更‘聰明’,更好地識別和消除噪聲。”劉榮說道。
如今模型的“燃料”越來越豐富。劉榮團隊已積攢下幾十萬條噪聲數據與幾百萬條語音數據。訓練時,這些數據相互搭配,一條噪聲對應一條語音,噪聲幅度隨機調整。如此產生的組合數據可達幾千萬甚至更多,且訓練時均為隨機組合。豐富的數據極大增強了模型的學習能力,為團隊研發的音頻降噪技術筑牢了根基,讓該技術在各類場景應用中表現卓越。
“收集這些噪聲數據,就是為了解決音頻降噪領域那些長期沒攻克的難題。”談及研發初衷,劉榮語氣堅定。早年深耕傳統音頻降噪技術,他在麥克風信號處理領域積累頗豐,卻也清晰認識到傳統方法的局限性:“像高跟鞋走路聲、拍掌聲這類非穩態噪聲,用傳統頻譜分析處理,很難達到理想效果。”
其中,提升語音識別率成為橫在團隊面前的“硬骨頭”。早在2020年左右,團隊就嘗試用降噪后的數據優化語音識別。劉榮回憶道,起初大家滿懷期待,“都覺得降噪后的語音會更利于識別,可實際調試時才發現,無論怎么調整降噪、去混響環節,語音識別率始終原地踏步。” 這個難題持續困擾團隊數月甚至半年,“那段時間,大家翻遍資料、反復試驗,卻始終找不到突破口。”
轉機發生在2023年底的一個夜晚。當時正在洗澡的劉榮,腦海中突然閃過靈感:“傳統信號自適應濾波處理需要參考信號,而應用場景里很難獲取,為什么不能用神經網絡處理后的干凈語音替代呢?”“當時我興奮極了,回去單位之后趕緊進行試驗去驗證該想法。”劉榮回憶道。幸運的是,試驗結果令人驚喜——語音識別率實現大幅躍升:在原本識別率較高的場景,從91%、92%提升至95%、96%;而原本只有60%左右的低識別率場景,更是躍升至80% - 85%。
“這個靈感就像一束光,徹底打開了研發新思路。”回憶起關鍵突破時刻,劉榮仍難掩激動。團隊通過研究發現,這一創新核心在于顯著提升信噪比與信混比,有效攻克了噪聲與混響干擾的難題。
音頻降噪是一個發展數十年的成熟領域,但劉榮團隊另辟蹊徑,聚焦語音信號增強。“我們的目標,就是在嘈雜環境里精準留下人聲。”劉榮解釋道,傳統頻譜分析技術依賴人工標注參數,一遇到復雜場景就難以發揮作用。
2021年底,團隊迎來關鍵突破,將自研的神經網絡降噪和去混響模型應用到MAXHUB智能交互平板上,成為行業首批實現技術落地的團隊。“當時學術界的研究成果雖然不少,但模型參數多、計算量大,根本沒法滿足實時使用的需求。”劉榮回憶說。
為了讓技術真正“能用”,團隊在多個環節大膽創新。當時業界連去混響的訓練數據都沒有,他們就從零開始搭建訓練框架、生成數據,還申請了專利。在模型優化上,通過精簡網絡結構、壓縮計算量,把實驗室里的理論模型變成了能實際運行的產品方案。如今,這套AI音頻處理技術已經涵蓋回聲消除、聲源定位等多個功能。
說起攻克技術難題的過程,劉榮直言“只能硬扛”。團隊一方面緊盯學術界論文、行業競賽,尋找新思路;另一方面扎根實驗室,在服務器上反復調試模型參數。需要采集數據時,他們就帶著設備去會議室、商場等真實場景錄制音頻。“只有讓模型接觸到真實復雜的聲音,才能在實際應用中發揮作用。”
這些努力最終換來了顯著成果。“和老技術相比,現在的降噪效果完全是兩個檔次。”劉榮說,以前處理不了的突發噪聲,現在都能輕松消除。市場反饋也印證了技術實力:過去會議室里常見的“聽不清”抱怨,如今越來越少了。
“現在我們雖然解決了基本的聽清問題,但音頻體驗不能止步于此。”劉榮說道,“我們希望能讓聲音像經過‘美顏’一樣,聽起來更加自然、舒適,給用戶帶來更優質的聽覺享受。”他形象地比喻道,“就像相機從單純拍清楚,發展到如今加入美顏功能,讓照片更賞心悅目。音頻技術也應如此,在保證清晰的基礎上,實現‘美化’升級,帶給用戶來更愉悅的感受。”
目前,團隊正在積極探索基于大模型和生成式方式的音頻處理技術。“我們希望通過識別語音信號中的信息,重新生成高質量的語音,達到類似專業播音的效果。”劉榮充滿信心地說,“雖然這項技術目前還處于早期研究階段,在算法優化、計算效率等方面面臨諸多挑戰,但我們有信心不斷攻克難題,推動音頻降噪技術邁向新的高度。”
從“噪聲獵人” 到 “聲音美容師”,劉榮在音頻降噪領域的創新探索,不僅為視源股份的產品帶來了技術優勢,也為整個行業的發展提供了寶貴的經驗。這位 “廣東好人” 用匠心與智慧,激勵著更多科研人員在技術創新的道路上不斷前行,讓清晰、美好的聲音,成為數字化時代的溝通標配。
