DCASE 2020權威聲學比賽：騰訊多媒體實驗室斬獲雙項指標國內第一

2020-07-05 16:33:40

來源：智匯工業(yè)

點擊：3113

A⁺ A^-

關鍵詞：DCASE 騰訊多媒體實驗室

近日，在第六屆國際權威聲學場景和事件檢測及分類競賽 (Detection and Classification of Acoustic Scenes and Events, DCASE 2020) 中，騰訊多媒體實驗室天籟音頻研究團隊首次參加了聲學場景識別 (Acoustic Scene Classification, Task 1) 任務競賽，并從47支來自全球頂尖學術界和工業(yè)界的聲學研究隊伍中脫穎而出，取得雙項指標國內第一、國際第二的成績。

此次參賽是騰訊多媒體實驗室領銜美國佐治亞理工大學信號與信息處理中心實驗室，中國科技術大學語音及語言信息處理國家工程實驗室聯(lián)合參與，從最終評估的結果上看，在綜合Task 1a (不限制聲學模型大小評估識別性能)與 Task 1b (限制模型大小條件下評估識別性能)兩個任務中，取得了綜合第一名的成績，在兩個子任務中分別位列第二名，與第一名分數(shù)相比僅差0.3%。

DCASE 比賽是由倫敦瑪麗女王大學（Queen Mary University of London）在2013年首次發(fā)起的聲學場景識別挑戰(zhàn)，后續(xù)由坦佩雷理工大學(Tamper University of Technology)持續(xù)發(fā)起，近些年引起了國內外眾多尖端聲學研究界的廣泛關注，包括谷歌、紐約大學等。

本次DCASE 2020比賽，共設置六個任務，包括聲學場景識別、異常機器聲音的非監(jiān)督識別、聲學事件檢測、聲學事件分離、城市聲音標記和自動為音頻生成標題紀要，吸引了包括亞馬遜、英特爾、高通驍龍等國際公司和清華大學、新加坡南洋理工大學、香港中文大學等頂級高校的共138 個隊伍、473個有效系統(tǒng)參賽。

其中，多媒體實驗室所參加的聲學場景識別任務 (Task 1)，共有47支隊伍與179個提交系統(tǒng)參與，是所有任務中參賽隊伍最多、提交系統(tǒng)最多、競爭程序最激烈的任務。清華大學、北京大學(深圳)、新加坡南洋理工大學等國內外頂級高校，以及高通人工智能研究院(首爾)、美國 Intel 研究院(加利福尼亞)等知名通信、科技公司均在其中。

Task 1包含了兩個子任務，子任務task 1a的聲學場景識別系統(tǒng)要求識別不同終端設備，比如手機、ipad或其它錄音設備采集的音頻，識別成不同的類別。如下圖（左）所示，將不同設備不同場景采集的信號正確分類成“地鐵站”、“公園”和“公共廣場”。采用不同設備來評估場景識別系統(tǒng)就是為了驗證系統(tǒng)對多種設備的魯棒性。子任務task 1b的聲學場景識別系統(tǒng)限制性的將模型大小壓縮在500k以內，在此條件下，需要場景識別系統(tǒng)盡可能高效的識別“室內”、“室外”、“交通”這三種常見的聲學大場景。這里對聲學模型大小提出要求的初衷就是為了更好地將現(xiàn)有科學研究方法迅速轉換成可以真正意義的落地產(chǎn)品，以克服設備上運行深度學習網(wǎng)絡高CPU消耗的難題。

本次聲學場景識別任務，涵蓋機場、室內購物、地鐵站臺、街道行人、公共廣場等10個通用聲學場景。在現(xiàn)實生活中，這些通用聲學場景，通常同時存在多個聲音，并且會被環(huán)境噪聲干擾。此次任務，通過研究來識別真實場景的聲音場景和聲音事件，對于讓聲音場景識別應用落地具有重要意義。

聲學場景識別就是利用機器學習模仿人腦，對周邊的環(huán)境進行有效及時的判斷。隨著深度學習的高度演化，聲學場景識別的正確率有了飛躍提升。高識別率的場景識別系統(tǒng)則更進一步擴大其在生活中的應用場景。如智能“嬰兒哭聲”監(jiān)控，可以有效幫助父母及時照看突然驚醒孩子，“槍聲場景檢測”可以應用在各類安防設備上，“鳥類啼叫場景”檢測可以有效監(jiān)測自然界生態(tài)的變化，“馬路上警笛場景”檢測可提醒路行人及車輛讓出交通空間，“地鐵”場景檢測和“睡眠質量監(jiān)測”等。

實際上，DCASE2020的聲學場景識別任務，與多媒體實驗室自研的音視頻實時通信產(chǎn)品——“騰訊會議”中的聲學場景識別落地應用最為貼近?；陬I先的騰訊天籟音頻解決方案，騰訊會議可以讓不同地點、場景、設備終端同時遠程接入，讓遠程在線溝通可行高效。但由于不同入會者處的場景環(huán)境千變萬化，或在安靜辦公室，或在嘈雜的公共場所，不同場景需要對音頻流進行不同處理。如會議入會方檢測到街道環(huán)境，需要對風聲和交通噪音進行處理；如在開重要會議，如果某參會方所處嘈雜聲學場景并忘記關閉麥克風，系統(tǒng)可提醒主持人或自動禁止嘈雜端麥克風；如檢測到音樂場景，則不啟動降噪算法，保證音樂可以高質量的傳輸?shù)綄Χ?；如檢測到漏回聲場景，特別是一些移動端設備大音量外放聲音時，可以開啟殘留回聲消除算法。

作為騰訊頂級的科技實驗室之一，騰訊多媒體實驗室將繼續(xù)致力于端到端實時語音通信、音頻引擎、音頻處理、音頻場景事件檢測識別等業(yè)界領先的人人通信基礎理論，加大在關鍵技術和應用系統(tǒng)的研究和開發(fā)的投入，提供基于云和客戶端的多種行業(yè)解決方案，讓聲學場景識別更廣泛落地應用。

(審核編輯: 智匯龍龍)

聲明：除特別說明之外，新聞內容及圖片均來自網(wǎng)絡及各大主流媒體。版權歸原作者所有。如認為內容侵權，請聯(lián)系我們刪除。

分享

天天操免费视频,国产免费aa,三级视频黄色,98精品国产,久久深爱网,国产精品久久国产精麻豆96堂,色偷偷色偷偷色偷偷在线视频

DCASE 2020權威聲學比賽：騰訊多媒體實驗室斬獲雙項指標國內第一

點擊排行

專題