天天操免费视频,国产免费aa,三级视频黄色,98精品国产,久久深爱网,国产精品久久国产精麻豆96堂,色偷偷色偷偷色偷偷在线视频

DCASE 2020權(quán)威聲學(xué)比賽:騰訊多媒體實(shí)驗(yàn)室斬獲雙項(xiàng)指標(biāo)國內(nèi)第一

來源:智匯工業(yè)

點(diǎn)擊:3022

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:DCASE 騰訊 多媒體實(shí)驗(yàn)室

    近日,在第六屆國際權(quán)威聲學(xué)場景和事件檢測及分類競賽 (Detection and Classification of Acoustic Scenes and Events, DCASE 2020) 中,騰訊多媒體實(shí)驗(yàn)室天籟音頻研究團(tuán)隊(duì)首次參加了聲學(xué)場景識別 (Acoustic Scene Classification, Task 1) 任務(wù)競賽,并從47支來自全球頂尖學(xué)術(shù)界和工業(yè)界的聲學(xué)研究隊(duì)伍中脫穎而出,取得雙項(xiàng)指標(biāo)國內(nèi)第一、國際第二的成績。


    此次參賽是騰訊多媒體實(shí)驗(yàn)室領(lǐng)銜美國佐治亞理工大學(xué)信號與信息處理中心實(shí)驗(yàn)室,中國科技術(shù)大學(xué)語音及語言信息處理國家工程實(shí)驗(yàn)室聯(lián)合參與,從最終評估的結(jié)果上看,在綜合Task 1a (不限制聲學(xué)模型大小評估識別性能)與 Task 1b (限制模型大小條件下評估識別性能)兩個(gè)任務(wù)中,取得了綜合第一名的成績,在兩個(gè)子任務(wù)中分別位列第二名,與第一名分?jǐn)?shù)相比僅差0.3%。


    DCASE 比賽是由倫敦瑪麗女王大學(xué)(Queen Mary University of London)在2013年首次發(fā)起的聲學(xué)場景識別挑戰(zhàn),后續(xù)由坦佩雷理工大學(xué)(Tamper University of Technology)持續(xù)發(fā)起,近些年引起了國內(nèi)外眾多尖端聲學(xué)研究界的廣泛關(guān)注,包括谷歌、紐約大學(xué)等。


    本次DCASE 2020比賽,共設(shè)置六個(gè)任務(wù),包括聲學(xué)場景識別、異常機(jī)器聲音的非監(jiān)督識別、聲學(xué)事件檢測、聲學(xué)事件分離、城市聲音標(biāo)記和自動(dòng)為音頻生成標(biāo)題紀(jì)要,吸引了包括亞馬遜、英特爾、高通驍龍等國際公司和清華大學(xué)、新加坡南洋理工大學(xué)、香港中文大學(xué)等頂級高校的共138 個(gè)隊(duì)伍、473個(gè)有效系統(tǒng)參賽。


    其中,多媒體實(shí)驗(yàn)室所參加的聲學(xué)場景識別任務(wù) (Task 1),共有47支隊(duì)伍與179個(gè)提交系統(tǒng)參與,是所有任務(wù)中參賽隊(duì)伍最多、提交系統(tǒng)最多、競爭程序最激烈的任務(wù)。清華大學(xué)、北京大學(xué)(深圳)、新加坡南洋理工大學(xué)等國內(nèi)外頂級高校,以及高通人工智能研究院(首爾)、 美國 Intel 研究院(加利福尼亞)等知名通信、科技公司均在其中。


    Task 1包含了兩個(gè)子任務(wù),子任務(wù)task 1a的聲學(xué)場景識別系統(tǒng)要求識別不同終端設(shè)備,比如手機(jī)、ipad或其它錄音設(shè)備采集的音頻,識別成不同的類別。如下圖(左)所示,將不同設(shè)備不同場景采集的信號正確分類成“地鐵站”、“公園”和“公共廣場”。采用不同設(shè)備來評估場景識別系統(tǒng)就是為了驗(yàn)證系統(tǒng)對多種設(shè)備的魯棒性。子任務(wù)task 1b的聲學(xué)場景識別系統(tǒng)限制性的將模型大小壓縮在500k以內(nèi),在此條件下,需要場景識別系統(tǒng)盡可能高效的識別“室內(nèi)”、“室外”、“交通”這三種常見的聲學(xué)大場景。 這里對聲學(xué)模型大小提出要求的初衷就是為了更好地將現(xiàn)有科學(xué)研究方法迅速轉(zhuǎn)換成可以真正意義的落地產(chǎn)品,以克服設(shè)備上運(yùn)行深度學(xué)習(xí)網(wǎng)絡(luò)高CPU消耗的難題。


    本次聲學(xué)場景識別任務(wù),涵蓋機(jī)場、室內(nèi)購物、地鐵站臺、街道行人、公共廣場等10個(gè)通用聲學(xué)場景。在現(xiàn)實(shí)生活中,這些通用聲學(xué)場景,通常同時(shí)存在多個(gè)聲音,并且會被環(huán)境噪聲干擾。此次任務(wù),通過研究來識別真實(shí)場景的聲音場景和聲音事件,對于讓聲音場景識別應(yīng)用落地具有重要意義。


    聲學(xué)場景識別就是利用機(jī)器學(xué)習(xí)模仿人腦,對周邊的環(huán)境進(jìn)行有效及時(shí)的判斷。隨著深度學(xué)習(xí)的高度演化,聲學(xué)場景識別的正確率有了飛躍提升。高識別率的場景識別系統(tǒng)則更進(jìn)一步擴(kuò)大其在生活中的應(yīng)用場景。如智能“嬰兒哭聲”監(jiān)控,可以有效幫助父母及時(shí)照看突然驚醒孩子,“槍聲場景檢測”可以應(yīng)用在各類安防設(shè)備上,“鳥類啼叫場景”檢測可以有效監(jiān)測自然界生態(tài)的變化,“馬路上警笛場景”檢測可提醒路行人及車輛讓出交通空間,“地鐵”場景檢測和“睡眠質(zhì)量監(jiān)測”等。


    實(shí)際上,DCASE2020的聲學(xué)場景識別任務(wù),與多媒體實(shí)驗(yàn)室自研的音視頻實(shí)時(shí)通信產(chǎn)品——“騰訊會議”中的聲學(xué)場景識別落地應(yīng)用最為貼近?;陬I(lǐng)先的騰訊天籟音頻解決方案,騰訊會議可以讓不同地點(diǎn)、場景、設(shè)備終端同時(shí)遠(yuǎn)程接入,讓遠(yuǎn)程在線溝通可行高效。但由于不同入會者處的場景環(huán)境千變?nèi)f化,或在安靜辦公室,或在嘈雜的公共場所,不同場景需要對音頻流進(jìn)行不同處理。如會議入會方檢測到街道環(huán)境,需要對風(fēng)聲和交通噪音進(jìn)行處理;如在開重要會議,如果某參會方所處嘈雜聲學(xué)場景并忘記關(guān)閉麥克風(fēng),系統(tǒng)可提醒主持人或自動(dòng)禁止嘈雜端麥克風(fēng);如檢測到音樂場景,則不啟動(dòng)降噪算法,保證音樂可以高質(zhì)量的傳輸?shù)綄Χ?;如檢測到漏回聲場景,特別是一些移動(dòng)端設(shè)備大音量外放聲音時(shí),可以開啟殘留回聲消除算法。


    作為騰訊頂級的科技實(shí)驗(yàn)室之一,騰訊多媒體實(shí)驗(yàn)室將繼續(xù)致力于端到端實(shí)時(shí)語音通信、音頻引擎、音頻處理、音頻場景事件檢測識別等業(yè)界領(lǐng)先的人人通信基礎(chǔ)理論,加大在關(guān)鍵技術(shù)和應(yīng)用系統(tǒng)的研究和開發(fā)的投入,提供基于云和客戶端的多種行業(yè)解決方案,讓聲學(xué)場景識別更廣泛落地應(yīng)用。


    (審核編輯: 智匯龍龍)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。