亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

當(dāng)前位置: 首頁 > 科技新聞 >

王小川:只有掌握語言 AI才能具備創(chuàng)造力和推理

時(shí)間:2020-02-21 13:13來源:網(wǎng)絡(luò)整理 瀏覽:
作者:沈知涵如果用一句話概括搜狗一直在做的事情,那就是讓表達(dá)和獲取信息更簡單,而這兩件事情又都起源于一點(diǎn)——語言。過去,搜狗用搜索和輸入法

作者:沈知涵

如果用一句話概括搜狗一直在做的事情,那就是讓表達(dá)和獲取信息更簡單,而這兩件事情又都起源于一點(diǎn)——語言。

過去,搜狗用搜索和輸入法以語言為核心幫助用戶做輸入和輸出。

如今,這兩條線正在無限延伸,構(gòu)成了搜狗的語言 AI 戰(zhàn)略。

其一,是以語言為核心的自然交互。王小川稱這是機(jī)器通過深度學(xué)習(xí)之后產(chǎn)生人的「感知」能力。

王小川在現(xiàn)場展示了搜狗新的降噪算法,傳統(tǒng)錄音硬件對于噪音的識別更多是通過麥克風(fēng)矩陣來實(shí)現(xiàn)的,而今天搜狗的工程師通過對現(xiàn)實(shí)場景中 4 萬種真實(shí)噪音的學(xué)習(xí),讓機(jī)器有了分辨噪音的能力。王小川表示這項(xiàng)降噪技術(shù)也將會應(yīng)用在新一代的錄音筆中。

得益于在 OCR 識別、唇語識別和語音識別、語音合成、語音變聲多項(xiàng)技術(shù)上的積累,搜狗的自然交互能力已經(jīng)逐漸實(shí)現(xiàn)了在 AI 錄音筆、合成主播等方面的實(shí)際商業(yè)使用。

其二,是在語言之上提取出跟語言的關(guān)聯(lián)關(guān)系,讓機(jī)器產(chǎn)生人的「認(rèn)知」能力,王小川稱之為知識計(jì)算。搜狗在 GeekPark IF X 發(fā)布了行業(yè)首創(chuàng)的多模態(tài)同傳,在聽的過程中,機(jī)器能夠?qū)崟r(shí)閱讀 PPT,將它所看到的內(nèi)容拓展成知識網(wǎng)絡(luò),在聽和看的基礎(chǔ)上,又多了思考的一步。隨著知識計(jì)算能力的提升,搜狗未來將在知識性問答、醫(yī)療助診、智能助理等領(lǐng)域里面注入更多 AI 能力。

在 GeekPark IF X 上,王小川分享了圍繞著 AI 戰(zhàn)略搜狗近期的探索和積累,以及他所構(gòu)想的語言 AI 的未來。而他又將如何一步步駛向那個(gè)終點(diǎn)?

以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演講,經(jīng)極客公園編輯整理:

張鵬說今天要談一下未來 10 年(2020-2030 年),還要求我?guī)硪恍┯藏洠勎磥?10 年一定會談到 AI。

首先從我們最近發(fā)布的一個(gè)硬貨開始,就是搜狗出品的 AI 錄音筆,錄音筆是今年上市的,我很高興這個(gè)錄音筆已經(jīng)被市場接受了,極客公園基本上人手一支,不是我贈送的,是他們掏錢買的,同時(shí)也有了很多的復(fù)購率。

錄音筆是一個(gè)很小眾的市場,但是因?yàn)橛辛巳斯ぶ悄艿募映?,錄音筆變成今年電商中間的一個(gè)小爆款。搜狗 AI 錄音筆相對傳統(tǒng)錄音筆,不僅有麥克風(fēng)的矩陣,同時(shí)還有 AI 降噪、實(shí)時(shí)轉(zhuǎn)寫文字、云端的存儲和搜索、智能編輯、同聲傳譯等功能。所以,這個(gè)產(chǎn)品上線之后把整個(gè)市場改變了,像索尼、愛國者、紐曼都跟搜狗成立了一個(gè)聯(lián)盟,而搜狗成為了聯(lián)盟的盟主。

這個(gè)產(chǎn)品上線之前,整個(gè)錄音筆市場銷量逐年下滑,市場保有量只有 400 萬支,但是今年 3 月份的時(shí)候,搜狗上線錄音筆第一代產(chǎn)品,出現(xiàn)了一個(gè)奇怪的現(xiàn)象,主流電商平臺的錄音筆搜索量開始有了上升,到 12 月份我們發(fā)布了第二代錄音筆,也得到了很多好評,所以搜狗開始一點(diǎn)點(diǎn)的變硬。這件事情就像之前手機(jī)從傳統(tǒng)走向智能一樣,而且有了 AI 能力的注入,會帶來一個(gè)新的改變,AI 注入之后對于 C 端消費(fèi)品有了一些變化。

談到硬件我個(gè)人有一些觀點(diǎn),大家談的比較多的是音箱,我基本的判斷是人工智能對于硬件的助力,使得硬件方向有兩大趨勢:

第一,會變得更加便攜。以前放在桌上的 PC 機(jī)很大,隨后智能硬件開始走向筆記本、iPad、手機(jī),甚至開始走向穿戴,因此未來個(gè)人硬件的趨勢是越來越移動化、便攜化。

第二,更強(qiáng)的 IO 能力。從之前的計(jì)算能力走向傳感器能力、基于 AI 的處理能力,從人去適應(yīng)機(jī)器變成機(jī)器去適應(yīng)人,最后機(jī)器開始接管你的感官成為人的助力。

智能硬件從以前的手機(jī)開始走向手表、耳機(jī)、到未來走向眼鏡,這是我對于未來 10 年路徑的一個(gè)暢想。這有可能會改變我們以手機(jī)為中心的方式,我相信在 10 年時(shí)間里面,很有可能眼鏡和耳機(jī)會取代手機(jī)作為我們接觸外界信息的通道,這就是 AI 未來對硬件產(chǎn)生影響的變化。

硬件背后,是人去接受這個(gè)世界。除了有圖像和語音之外,很重要的一個(gè)事情就是語言。其實(shí)一只貓或者狗都會有圖像和聲音的處理能力,但是惟有人能夠處理語言,語言是我們與世界交互的一種抽象的方式。

就像亞里士多德講到的,語言是心靈印象的符號,而且是人類思維的工具,是知識的載體,并且有了語言,人類社會才能溝通交流。不管是我們生產(chǎn)語言,還是計(jì)算機(jī)處理語言,語言是最難的一件事情,語言是人工智能皇冠上的明珠。

在圖靈測試?yán)锩嫣岬剑瑱C(jī)器能夠用語言與人交流,就代表它擁有智能,今天我們的人工智能還不具有創(chuàng)造力和通用的推理能力,但是我們可以去做這樣的一個(gè)猜想,只有當(dāng)它掌握了語言之后,它才能夠完整的擁有創(chuàng)造力和推用的推理。如果有機(jī)器能夠跟你對話,你就會覺得它具有智能,因此語言在智能當(dāng)中是有極其重要的位置,也是人跟動物一個(gè)重大的區(qū)別。

我們會看到以語言為核心變成了我們?nèi)ニ伎既斯ぶ悄馨l(fā)展路徑的關(guān)鍵節(jié)點(diǎn)。搜狗做輸入法、搜索,其實(shí)就是處理語言的,也是幫你更好的表達(dá)、更好的獲取信息。今天我們雖然提到有語音、圖像,但是別忘了核心是語言。

語言往下我有兩部分分享:

第一,自然交互。自然交互讓人跟機(jī)器之間能夠用語音、圖像、手勢各種方式產(chǎn)生交流,其中用到了語音、圖像技術(shù),包括視覺的技術(shù)。

第二,認(rèn)知問題,我們叫做知識計(jì)算?;谡Z言,機(jī)器能夠做問答和對話,機(jī)器翻譯是認(rèn)知技術(shù)入門的門檻。有了更好的感知技術(shù),機(jī)器會從手機(jī)走向新的智能硬件,有了更好的認(rèn)知技術(shù),機(jī)器對知識產(chǎn)生理解和推理,尤其是在垂直領(lǐng)域擁有問答的能力。新的硬件形式和新的對話和問答能力,智能硬件未來會走向智能助理,這也是整個(gè) AI 行業(yè)在產(chǎn)品層面上面最明珠的地方,蘋果大概在 2006 年就開始推出這樣的能力。到今天 Google、百度、阿里、小米做這樣的音箱產(chǎn)品,其實(shí)內(nèi)核都是在做智能助理,只是外殼上我認(rèn)為不是最好的方向。

布局的時(shí)候,從語音圖像有大量的技術(shù)要去做,包括語音識別、語音合成,包括了搜索獨(dú)有辨識的能力,往下可以作為展開,我把一些搜狗走在行業(yè)最前沿的點(diǎn),給大家做一個(gè)簡單的匯報(bào)。

語音識別這是自然交互里面最自然的事情。搜狗輸入法今天我們做到了每天超過 8 億次的使用量,而且上升的很快。我最近批了一批服務(wù)器,在春節(jié)期間的時(shí)候可能就會超過 9-10 億次的日請求量。我們也積累了大量的數(shù)據(jù),包括了語種、方言各種能力。

語言識別聽著很簡單的一件事情,其實(shí)并不是純粹的單點(diǎn)技術(shù),在識別過程當(dāng)中,對于語音、語義的理解還有哪些點(diǎn)需要攻克的呢?

在剛剛播放的視頻中,首先,大家感覺到有人聲的分離,機(jī)器能識別不同的人,能動態(tài)的去判斷這是第一個(gè)人還是第二個(gè)人。第二,做掌聲、笑聲或者其它聲音的識別,幫助我們理解內(nèi)容。第三,中英文混合,這是非常難的事情,從傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)中,得不到一個(gè)混合的模型,這里面會加入一些特定知識,來改變這個(gè)系統(tǒng)。

在這個(gè)識別背后還會有更復(fù)雜的技術(shù)需要我們解決,我們做錄音筆時(shí)會考慮很多問題,其中一件事是在嘈雜環(huán)境里怎么讓機(jī)器聽清人的聲音,幫助后面的識別,這是我們最前沿的技術(shù)。

傳統(tǒng)的硬件是用麥克風(fēng)矩陣實(shí)現(xiàn)的,用多個(gè)麥克風(fēng)進(jìn)行中間的數(shù)字計(jì)算、信號處理,今天依靠人工智能,我們有了新的方法,搜狗的工程師在現(xiàn)實(shí)場景中對 4 萬種噪音進(jìn)行了學(xué)習(xí),使得機(jī)器有能力分辨噪音。

在這個(gè)視頻中,原始的機(jī)器識別、處理是不夠的。為了讓錄音筆、聲音的交互更好,我們有了新的算法,(降噪)技術(shù)在實(shí)驗(yàn)中已經(jīng)完成了,期待在以后新款的錄音筆當(dāng)中能給大家?guī)順O致的 AI 體驗(yàn)。

從語音識別里面我們往前做了很多前沿的事情,除了語音識別還有一個(gè)重要的領(lǐng)域,就是語音的合成,在語音合成的時(shí)候,今天大家聽過了林志玲、高曉松的聲音,語音可以惟妙惟肖,用人的音色做表達(dá)。

但是,當(dāng)你做長篇演講、音頻付費(fèi)節(jié)目的時(shí)候,傳統(tǒng)機(jī)器所合成的聲音情感是不足夠的,搜狗是全球首次實(shí)現(xiàn)用機(jī)器模擬人,在得到音頻課程的整節(jié)課程中完全用機(jī)器合成,大家聽一下這個(gè)聲音。

(播放視頻)這個(gè)不只是聲音跟梁寧很像,更難得的是讓一半的聽眾沒有意識到整篇文章不是她本人讀的。因?yàn)橐黄恼略谝纛l付費(fèi)節(jié)目里面,已經(jīng)是一個(gè)表演了,對節(jié)奏把握、情感的輸出要求很高。

技術(shù)做的多的同學(xué)都知道,以今天的 AI 能力,機(jī)器不會有如此精準(zhǔn)的認(rèn)知理解,所以這個(gè)里面我們用了另外一種技術(shù),其實(shí)是一種聲音的皮膚,把梁寧的聲音變成一種聲音皮膚,技術(shù)上稱為特征的提取能力,可以讓另外一個(gè)人讀這篇文章,再把聲音皮膚附到這個(gè)聲音里面來,使得合成的聲音可以表達(dá)他的情感,經(jīng)過合成之后,最后由梁寧來呈現(xiàn)。

這種做法之后可以改善整個(gè)音頻節(jié)目生產(chǎn)的環(huán)節(jié),表演者和生產(chǎn)者做到一定的分離,以避免人員離職等等帶來的各種困難。加上聲音皮膚,大家可以假想有蠟筆小新、高曉松,也可以模仿一些帶有方言的聲音。

這種情況下,有個(gè)電影叫《頭號玩家》,使得我們現(xiàn)在每一個(gè)人在互聯(lián)網(wǎng)上,不僅可以換成其它的形象,也可以換成自己想要的一個(gè)聲音的形象。在生活中也有實(shí)際的用處,我們馬上開年會了,如果我要表演唱歌,作為一個(gè)五音不全的人怎么來做呢?這是我自己的聲音做的提取,然后可以加上《藍(lán)精靈》里面唱的一首歌,比我自己唱的好聽。

這樣一些技術(shù),也使得在交互中間能夠做到了人機(jī)本身的結(jié)合,使得這樣的制作能力能夠有放大。在這里面除了我們提到聲音的識別、合成以外,我們也做了一些更前沿的工作,是從語音走向了視覺,因此我們提到了搜狗分身,這是我們產(chǎn)品上一個(gè)重大的進(jìn)展。這個(gè)產(chǎn)品發(fā)展到現(xiàn)在經(jīng)歷了多次的技術(shù)迭代,從最早的給新華社所做的主持人,到后來可以做到央視的主持人,到第二代能夠讓它更豐富的表達(dá),第三代能夠站起來有手勢,到第四代之后就開始做到了多語言、多場景的播報(bào)能力,然后到了第五代之后開始能夠做交互,比如平安普惠的保險(xiǎn)項(xiàng)目,后面的服務(wù)人員已經(jīng)被機(jī)器取代了。實(shí)際你在保險(xiǎn)簽約的時(shí)候,是機(jī)器人更你做交互回答。我們很快發(fā)布的是第六代擁有大角度、大幅度的動作能力,這是天氣預(yù)報(bào)的播報(bào),大家可以看一下。

這樣的技術(shù)在今年發(fā)布之后已經(jīng)得到了全球 200 多家媒體的的廣泛報(bào)道,也是機(jī)器在取代人上面的一次重大應(yīng)用。所以,這里面我們可以看到,從語言為核心,背后配上了語音、人的表情、肢體、唇語,能夠使得人機(jī)的交互,走到更自然的狀態(tài)。

除了最簡單的感知問題以外,我們也在認(rèn)知里面做了非常多的積累,剛才我們提到了翻譯是中間最簡單、入門的門檻,這里面我們做了很多的積累,這個(gè)問題很重大,而且我們現(xiàn)在做的也非常的努力。全球 20% 的人口是說中文的,中文是第一母語的國家,英文作為母語的人口只占全球的 4%,是第四大語言,印第語和葡萄牙語也比英語大。

但是,在這種情況里面,我們?nèi)?95% 的信息是用英文所寫的,100% 的國際商貿(mào)活動是用英文的,因此如何幫助中國人跟外國人進(jìn)行更好的交流,這變成了一個(gè)重大的技術(shù)課題,我們作為做輸入法、搜索以語言為核心的公司,投了很多的力量來做相關(guān)的積累。

所以,2016 年在第三次世界互聯(lián)網(wǎng)大會上我們行業(yè)首家發(fā)布了大會的同傳,2017 年搜狗發(fā)布了英文搜索,你用中文詞能搜索全球的英文信息,搜索結(jié)果用中文展示出來。在第四屆互聯(lián)網(wǎng)大上,我們首個(gè)實(shí)現(xiàn)了深度學(xué)習(xí)的離線翻譯,以及有英譯中功能的同傳,2019 年 1 月份在極客公園大會上英中同傳首次發(fā)布。

到今天我們會發(fā)布新一代的同傳給大家,從 2017 年的同傳到 2018 年的個(gè)性化,今年我們做的是這樣一個(gè)多模態(tài)和自主有學(xué)習(xí)能力的同傳,真的同傳人員不僅是聽聲音的,他會去看你的這樣一個(gè) PPT,我們今天這場會的同傳就是機(jī)器實(shí)時(shí)閱讀我的 PPT,同時(shí)識別中間的文字,并且把它轉(zhuǎn)化成知識圖譜,拓展它的知識邊界,就好像一個(gè)人一樣,看到我說了深度學(xué)習(xí),就想到你可能會說卷積神經(jīng)元網(wǎng)絡(luò),隨后是在知識庫查表,能找到中英對話實(shí)時(shí)加載的知識。

所以,從以前能聽、會看的多模態(tài),到現(xiàn)在這樣一個(gè)同傳系統(tǒng),它帶有一些簡單的思考能力,通過知識圖譜能夠?qū)崟r(shí)的把它看到的東西拓展成知識網(wǎng)絡(luò),放到同傳生態(tài)系統(tǒng)中去,利用這樣的技術(shù),搜狗同傳的翻譯正確性提升了 40%。

這張圖展示的是通過視覺技術(shù)能夠?qū)崟r(shí)看到的詞匯,同時(shí)把它拓展成相應(yīng)的知識,變成平行的語料,和傳統(tǒng)同傳系統(tǒng)做融合,這就是知識計(jì)算在同傳當(dāng)中首次的重大應(yīng)用。

同樣在知識計(jì)算之后,我們強(qiáng)調(diào)一個(gè)核心觀點(diǎn),就是機(jī)器做閱讀理解之后做問答,傳統(tǒng)的搜索是通過關(guān)鍵詞給你 10 條鏈接,隨著技術(shù)的進(jìn)步,我們整個(gè)處理能力會從詞變成句子、段落、篇章,用戶的表達(dá)也可能會轉(zhuǎn)換成句子,機(jī)器的閱讀理解也會走向篇章和整個(gè)文章體系,這是技術(shù)進(jìn)步帶來的機(jī)會。

好幾家做音箱的公司也是盡可能把問答技術(shù)做到設(shè)備里去,因此在明年大家會看到一款新的搜索產(chǎn)品誕生,這件事情就不是用關(guān)鍵詞對應(yīng) 10 條鏈接了,而是在問答里面走出重大的一步,我們可以看一個(gè)簡單的 demo。

這是早年間的一個(gè)系統(tǒng),這個(gè)系統(tǒng)并不能做到對知識推理的理解能力,更多是找到事實(shí)類的問題,但是它很厲害的地方不是簡單從數(shù)據(jù)做檢索,而是能做通篇閱讀理解,這是我們兩年前發(fā)布的一個(gè)節(jié)目中用的系統(tǒng),背后用了真實(shí)的技術(shù)。

今天的技術(shù)有很多的拓展,機(jī)器對于這樣一個(gè)問題的理解,甚至幫你構(gòu)造問題,幫你掌握怎么提問,也做了非常多的努力,因此在這里面從翻譯走向問答,也會在明年有一個(gè)新的突破。另外對話技術(shù)在輸入法中間會做更多的呈現(xiàn)。

在未來幾年的時(shí)間里面,也許用不到 10 年,我們構(gòu)建了一個(gè)基本的路徑,自然交互會從文字走向語音、圖像理解,所以看到我們的錄音筆、同傳、合成主播這個(gè)技術(shù)的前面,是在語音圖像的交互能力里面做增強(qiáng),但是背后還是語言。

另外一條道路就是認(rèn)知能力不斷地提升,會使得從搜索走向、輔助醫(yī)療、輔助問答以及合并語音圖像技術(shù),最終走向行業(yè)終極的理想,就是每個(gè)人都擁有一個(gè)個(gè)人助理,在一些垂直領(lǐng)域當(dāng)中,能夠幫你去做秘書的工作,或者是成為你的分身,跟世界進(jìn)行溝通,這個(gè)是我們規(guī)劃的藍(lán)圖。

到明年的時(shí)候,我們會完善這張圖,給大家呈現(xiàn)一個(gè)離個(gè)人助理更近的 AI 時(shí)代的產(chǎn)品,用機(jī)器幫助每一個(gè)人,讓表達(dá)、獲取信息更加的簡單,這個(gè)是我們的一些思考,謝謝!

推薦內(nèi)容