贏了柯潔的AlphaGo讓很多人看到了AI太過強(qiáng)大的一面,然而我們大多數(shù)人在生活中感受到的AI卻是十分“智障”的,不太有人工智能應(yīng)該有的樣子。
這種巨大的反差主要是因?yàn)槟軕?yīng)用在生活中的人工智能,還長時(shí)間處于早期階段。
比如語音助手。
但對(duì)話和翻譯其實(shí)是人工智能最早涉足的領(lǐng)域。
能讓機(jī)器理解人類的語言,或者模仿人類的語言是大家對(duì)人工智能最初的幻想,所以在早先,圖靈測(cè)試一度成為評(píng)判人工智能的標(biāo)準(zhǔn)。
對(duì)話和翻譯應(yīng)用的是人工智能眾多學(xué)科分支里自然語言處理(Nature Language Processing,簡(jiǎn)稱NLP)的部分,目的是要解決人和機(jī)器之間的溝通問題,是人工智能處理的發(fā)端,至今仍面臨很多問題。
就拿對(duì)話系統(tǒng)來說,市面上各個(gè)巨頭都推出自家智能語音助理,但鮮有一款能完全擺脫“智障”的嫌疑。
可以說在這條賽道上,大家跑的都不快。但盡管如此還是堅(jiān)持在跑,就連長期困頓在手機(jī)里的Siri,也要推出自己的智能音箱。
“盡管目前形勢(shì)不太樂觀,但是一直跑下去,總會(huì)見到成效?!?月1日,微軟亞洲研究院副院長周明表示,再堅(jiān)持5-10年自然語言處理就會(huì)看到長足發(fā)展。
周明博士認(rèn)為自然語言處理的發(fā)展有三個(gè)階段:
第一層是基礎(chǔ)技術(shù):分詞、詞性標(biāo)注、語義分析。
第二層是核心技術(shù):詞匯、短語、句子、篇章的表示。包括機(jī)器翻譯、提問和回答、信息檢索、信息抽取、聊天和對(duì)話、知識(shí)工程、語言生成、推薦系統(tǒng)。
第三層是“NLP+”:仿照“人工智能+”或“互聯(lián)網(wǎng)+”的概念,實(shí)際上就是把自然語言處理技術(shù)深入到各個(gè)應(yīng)用系統(tǒng)和垂直領(lǐng)域中。比較有名的是搜索引擎、智能客服、商業(yè)智能和語音助手,還有更多在垂直領(lǐng)域——法律、醫(yī)療、教育等各個(gè)方面的應(yīng)用。
關(guān)于第三層的“NLP+”,市面上大大小小的語音助手有不少,從微軟畢業(yè)的有兩個(gè):小娜(Cortana)和小冰。雖然都是語音助手,但是兩者還是有些區(qū)別。
小娜通過手機(jī)和智能設(shè)備介入,讓人與電腦進(jìn)行交流:用戶發(fā)布命令,小娜理解并執(zhí)行任務(wù)。同時(shí),小娜能夠記憶一些用戶性格特點(diǎn)、喜好、習(xí)慣,然后主動(dòng)給一些貼心提示。
比如,你過去經(jīng)常路過某個(gè)地方買牛奶,在你下次路過的時(shí)候,她就會(huì)提醒你,問你要不要買。她從過去的被動(dòng)到現(xiàn)在的主動(dòng),從原來的手機(jī),到微軟所有的產(chǎn)品,比如Xbox和Windows,都得到了應(yīng)用。
小冰純粹就是閑聊了,沒想幫你解決什么問題,它閑聊的主要目的是希望盡可能的“像人一樣”。
“它是一種新的理念,很多人一開始不理解。人們跟小冰一起的這種閑聊有什么意思?其實(shí)閑聊也是人工智能的一部分,我們?nèi)伺c人見面的時(shí)候,寒喧、問候、甚至瞎扯,天南海北地聊,這個(gè)沒有智能是完成不了的,實(shí)際上除了語言方面的智能,還得有知識(shí)智能,必須得懂某一個(gè)領(lǐng)域的知識(shí)才能聊起來。所以,小冰是試圖把各個(gè)語言的知識(shí)融匯貫通,實(shí)現(xiàn)一個(gè)開放語言自由的聊天過程。”
而小冰最開始是怎么學(xué)習(xí)聊天的?主要是跟網(wǎng)友學(xué)的。
首先將網(wǎng)上的論壇、微博或是網(wǎng)站里出現(xiàn)過的對(duì)話句子抽取出來,當(dāng)成訓(xùn)練語料庫。當(dāng)用戶輸入一個(gè)句子時(shí),系統(tǒng)會(huì)從語料庫里找到一個(gè)跟這個(gè)句子最相像的句子,而這個(gè)句子對(duì)應(yīng)的答復(fù)就可以直接輸出作為電腦的回復(fù)。雖然看起來簡(jiǎn)單粗暴,但確實(shí)奏效。
有的時(shí)候,系統(tǒng)找到的句子可能對(duì)應(yīng)了很多回復(fù),它不知道哪個(gè)回復(fù)最適合當(dāng)前的輸入語句。這時(shí)就會(huì)再有一個(gè)匹配的過程,去判斷輸入語句跟語料庫里的回復(fù)在語義上是相關(guān)的或者是一致的。
到目前,小冰已經(jīng)覆蓋了三種語言:中文、日文、英文,累積了上億用戶,平均聊天的回?cái)?shù)23輪,平時(shí)聊天時(shí)長大概是25分鐘左右。
目前取得的自然語言方面的成果,是微軟18年的努力。
微軟在1998年11月5日成立微軟亞洲研究院時(shí)就開創(chuàng)了自然語言處理的研究領(lǐng)域,除了200多篇頂級(jí)期刊的論文,還有大量的NLP人才。
2014年5月,微軟推出小冰,同年7月,推出Cortana。
2016年,微軟首席執(zhí)行官薩提亞在大會(huì)上提出了一個(gè)概念“對(duì)話即平臺(tái)”(“Conversation as a Platform” ,他認(rèn)為圖形界面的下一代就是對(duì)話,它會(huì)對(duì)整個(gè)人工智能、計(jì)算機(jī)設(shè)備帶來一場(chǎng)新的革命。
而小冰和小娜就是微軟為這場(chǎng)革命做出的準(zhǔn)備。
其實(shí)無論小冰這種閑聊,還是小娜這種注重任務(wù)執(zhí)行的技術(shù),背后單元處理引擎無外乎就三層技術(shù)。
第一層:通用聊天,需要掌握溝通技巧、通用聊天數(shù)據(jù)、主題聊天數(shù)據(jù),還要知道用戶畫像,投其所好。第二層:信息服務(wù)和問答,需要搜索的能力,問答的能力,還需要對(duì)常見問題表進(jìn)行收集、整理和搜索,從知識(shí)圖表、文檔和圖表中找出相應(yīng)信息,并且回答問題,這些統(tǒng)稱為Info Bot。第三層:面向特定任務(wù)的對(duì)話能力,例如訂咖啡、訂花、買火車票,任務(wù)是固定的,狀態(tài)也是固定的,狀態(tài)轉(zhuǎn)移也是清晰的,就可以用Bot一個(gè)一個(gè)實(shí)現(xiàn)。通過一個(gè)調(diào)度系統(tǒng),通過用戶的意圖調(diào)用相應(yīng)的Bot 執(zhí)行相應(yīng)的任務(wù)。它用到的技術(shù)就是對(duì)用戶意圖的理解,對(duì)話的管理,領(lǐng)域知識(shí),對(duì)話圖譜等。
除了創(chuàng)造出小娜小冰,微軟還要技術(shù)釋放,讓開發(fā)者能開發(fā)自己的Bot。如果開發(fā)者的機(jī)器不懂自然語言,這時(shí)就可以通過一個(gè)叫Bot Framework的工具來實(shí)現(xiàn)。
任何一個(gè)開發(fā)者只用幾行代碼,就可以通過Bot Framework完成自己所需要的Bot。比如,有人想做一個(gè)送披薩外賣的Bot,可以用Bot的框架填入相應(yīng)的知識(shí)、相應(yīng)的數(shù)據(jù),就可以實(shí)現(xiàn)一個(gè)簡(jiǎn)單的Bot。很多沒有開發(fā)能力的小業(yè)主,通過簡(jiǎn)單操作,就可以做一個(gè)小Bot吸引來很多客戶。
在這個(gè)開源平臺(tái)里有很多小冰的關(guān)鍵技術(shù)。微軟有一個(gè)叫做LUIS(Language Understanding Intelligent Service)的平臺(tái),提供了用戶的意圖理解能力、實(shí)體識(shí)別能力、對(duì)話的管理能力等等。
比如說這句話“read me the headlines”,識(shí)別的結(jié)果就是朗讀,內(nèi)容就是今天的頭條新聞。再比如說“Pause for 5 minutes”,識(shí)別的結(jié)果是暫停,暫停多長時(shí)間?有一個(gè)參數(shù):5分鐘。通過LUIS,我以把意圖和重要的信息抽取出來,讓Bot來讀取。
這些對(duì)于人類來說甚至不需要?jiǎng)幽X思考的對(duì)話,對(duì)于機(jī)器來說是難到了另一個(gè)層次上。
周明博士認(rèn)為人工智能有四個(gè)層次,從下往上依次是:運(yùn)算智能、感知智能、認(rèn)知智能和創(chuàng)造智能。
運(yùn)算智能已經(jīng)達(dá)到很高的水平了,感受一下來自世界頂級(jí)圍棋選手對(duì)AlphaGo的評(píng)價(jià)。
其次是感知智能,主要體現(xiàn)在聽覺、視覺和觸覺方面,也就是我們通常說的語音技術(shù)、圖像技術(shù)。語音技術(shù)用的就多了,比如讓Siri聽懂你說的話,圖像識(shí)別主要應(yīng)用在人臉識(shí)別上,喜歡跟隨科技潮流的公司一般會(huì)把門禁換成人臉識(shí)別。
認(rèn)知智能是我們今天說的重點(diǎn),主要包括語言、知識(shí)和推理。語言的重要性體現(xiàn)在什么地方呢?Siri不能只是識(shí)別出來你在說啥,它需要根據(jù)你說的話做出回應(yīng),這時(shí)候就需要理解你在說什么。
創(chuàng)造智能就是一種最高級(jí)的形態(tài)了,也就是當(dāng)AI擁有想象力的時(shí)候。
在運(yùn)算和語音、圖像識(shí)別上,機(jī)器已經(jīng)能達(dá)到很高的準(zhǔn)度,目前的主要缺口在認(rèn)知智能上。過去認(rèn)知智能主要集中在自然語言處理,它簡(jiǎn)單理解了句子、篇章,實(shí)現(xiàn)了幫助搜索引擎、仿照系統(tǒng)提供一些基本的功能、提供一些簡(jiǎn)單的對(duì)話翻譯。
周明博士認(rèn)為語言智能是人工智能皇冠上的明珠,如果語言智能能實(shí)現(xiàn)突破,跟它同屬認(rèn)知智能的知識(shí)和推理就會(huì)得到長足的發(fā)展,就能推動(dòng)整個(gè)人工智能體系,有更多的場(chǎng)景可以落地。
對(duì)于未來語音智能的發(fā)展,周明博士認(rèn)為有幾個(gè)方向:
第一,隨著大數(shù)據(jù)、深度學(xué)習(xí)、云計(jì)算這三大要素推動(dòng),口語機(jī)器翻譯會(huì)完全普及。
第二,自然語言的會(huì)話、聊天、問答、對(duì)話達(dá)到實(shí)用程度。
第三,智能客服加上人工客服完美的結(jié)合,一定會(huì)大大提高客服的效率。
第四,自動(dòng)寫對(duì)聯(lián)、寫詩、寫新聞稿和歌曲等等,
第五,在會(huì)話方面,語音助手、物聯(lián)網(wǎng)、智能硬件、智能家居等等,凡是用到人機(jī)交互的,基本上都可以得到應(yīng)用。
最后,在很多場(chǎng)景下,比如說法律、醫(yī)療診斷、醫(yī)療咨詢、法律顧問、投融資等等,這些方面自然語言會(huì)得到廣泛的應(yīng)用。
當(dāng)然,現(xiàn)在的自然語言現(xiàn)在也面臨許多困境。最關(guān)鍵的一點(diǎn)是如何通過無監(jiān)督學(xué)習(xí)充分利用未標(biāo)注數(shù)據(jù)。現(xiàn)在都依賴于帶標(biāo)注的數(shù)據(jù),沒有帶標(biāo)注的數(shù)據(jù)沒有辦法利用。但是很多場(chǎng)景下,標(biāo)注數(shù)據(jù)不夠,找人工標(biāo)注代價(jià)又極大。
那么如何用這些沒有標(biāo)注的數(shù)據(jù)?這就要通過一個(gè)所謂無監(jiān)督的學(xué)習(xí)過程,或者半監(jiān)督的學(xué)習(xí)過程增強(qiáng)整體的學(xué)習(xí)過程。
再給NLP一些時(shí)間,語音助手也許就能說服你它其實(shí)是人工智能了。
(審核編輯: 林靜)
分享