&

作者：沈知涵

如果用一句話概括搜狗一直在做的事情，那就是讓表達(dá)和獲取信息更簡單，而這兩件事情又都起源于一點(diǎn)——語言。

過去，搜狗用搜索和輸入法以語言為核心幫助用戶做輸入和輸出。

如今，這兩條線正在無限延伸，構(gòu)成了搜狗的語言 AI 戰(zhàn)略。

其一，是以語言為核心的自然交互。王小川稱這是機(jī)器通過深度學(xué)習(xí)之后產(chǎn)生人的「感知」能力。

王小川在現(xiàn)場展示了搜狗新的降噪算法，傳統(tǒng)錄音硬件對于噪音的識別更多是通過麥克風(fēng)矩陣來實(shí)現(xiàn)的，而今天搜狗的工程師通過對現(xiàn)實(shí)場景中 4 萬種真實(shí)噪音的學(xué)習(xí)，讓機(jī)器有了分辨噪音的能力。王小川表示這項(xiàng)降噪技術(shù)也將會應(yīng)用在新一代的錄音筆中。

得益于在 OCR 識別、唇語識別和語音識別、語音合成、語音變聲多項(xiàng)技術(shù)上的積累，搜狗的自然交互能力已經(jīng)逐漸實(shí)現(xiàn)了在 AI 錄音筆、合成主播等方面的實(shí)際商業(yè)使用。

其二，是在語言之上提取出跟語言的關(guān)聯(lián)關(guān)系，讓機(jī)器產(chǎn)生人的「認(rèn)知」能力，王小川稱之為知識計(jì)算。搜狗在 GeekPark IF X 發(fā)布了行業(yè)首創(chuàng)的多模態(tài)同傳，在聽的過程中，機(jī)器能夠?qū)崟r(shí)閱讀 PPT，將它所看到的內(nèi)容拓展成知識網(wǎng)絡(luò)，在聽和看的基礎(chǔ)上，又多了思考的一步。隨著知識計(jì)算能力的提升，搜狗未來將在知識性問答、醫(yī)療助診、智能助理等領(lǐng)域里面注入更多 AI 能力。

在 GeekPark IF X 上，王小川分享了圍繞著 AI 戰(zhàn)略搜狗近期的探索和積累，以及他所構(gòu)想的語言 AI 的未來。而他又將如何一步步駛向那個(gè)終點(diǎn)？

以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演講，經(jīng)極客公園編輯整理：

張鵬說今天要談一下未來 10 年（2020-2030 年），還要求我?guī)硪恍┯藏洠勎磥?10 年一定會談到 AI。

首先從我們最近發(fā)布的一個(gè)硬貨開始，就是搜狗出品的 AI 錄音筆，錄音筆是今年上市的，我很高興這個(gè)錄音筆已經(jīng)被市場接受了，極客公園基本上人手一支，不是我贈送的，是他們掏錢買的，同時(shí)也有了很多的復(fù)購率。

錄音筆是一個(gè)很小眾的市場，但是因?yàn)橛辛巳斯ぶ悄艿募映?，錄音筆變成今年電商中間的一個(gè)小爆款。搜狗 AI 錄音筆相對傳統(tǒng)錄音筆，不僅有麥克風(fēng)的矩陣，同時(shí)還有 AI 降噪、實(shí)時(shí)轉(zhuǎn)寫文字、云端的存儲和搜索、智能編輯、同聲傳譯等功能。所以，這個(gè)產(chǎn)品上線之后把整個(gè)市場改變了，像索尼、愛國者、紐曼都跟搜狗成立了一個(gè)聯(lián)盟，而搜狗成為了聯(lián)盟的盟主。

這個(gè)產(chǎn)品上線之前，整個(gè)錄音筆市場銷量逐年下滑，市場保有量只有 400 萬支，但是今年 3 月份的時(shí)候，搜狗上線錄音筆第一代產(chǎn)品，出現(xiàn)了一個(gè)奇怪的現(xiàn)象，主流電商平臺的錄音筆搜索量開始有了上升，到 12 月份我們發(fā)布了第二代錄音筆，也得到了很多好評，所以搜狗開始一點(diǎn)點(diǎn)的變硬。這件事情就像之前手機(jī)從傳統(tǒng)走向智能一樣，而且有了 AI 能力的注入，會帶來一個(gè)新的改變，AI 注入之后對于 C 端消費(fèi)品有了一些變化。

談到硬件我個(gè)人有一些觀點(diǎn)，大家談的比較多的是音箱，我基本的判斷是人工智能對于硬件的助力，使得硬件方向有兩大趨勢：

第一，會變得更加便攜。以前放在桌上的 PC 機(jī)很大，隨后智能硬件開始走向筆記本、iPad、手機(jī)，甚至開始走向穿戴，因此未來個(gè)人硬件的趨勢是越來越移動化、便攜化。

第二，更強(qiáng)的 IO 能力。從之前的計(jì)算能力走向傳感器能力、基于 AI 的處理能力，從人去適應(yīng)機(jī)器變成機(jī)器去適應(yīng)人，最后機(jī)器開始接管你的感官成為人的助力。

智能硬件從以前的手機(jī)開始走向手表、耳機(jī)、到未來走向眼鏡，這是我對于未來 10 年路徑的一個(gè)暢想。這有可能會改變我們以手機(jī)為中心的方式，我相信在 10 年時(shí)間里面，很有可能眼鏡和耳機(jī)會取代手機(jī)作為我們接觸外界信息的通道，這就是 AI 未來對硬件產(chǎn)生影響的變化。

硬件背后，是人去接受這個(gè)世界。除了有圖像和語音之外，很重要的一個(gè)事情就是語言。其實(shí)一只貓或者狗都會有圖像和聲音的處理能力，但是惟有人能夠處理語言，語言是我們與世界交互的一種抽象的方式。

就像亞里士多德講到的，語言是心靈印象的符號，而且是人類思維的工具，是知識的載體，并且有了語言，人類社會才能溝通交流。不管是我們生產(chǎn)語言，還是計(jì)算機(jī)處理語言，語言是最難的一件事情，語言是人工智能皇冠上的明珠。

在圖靈測試?yán)锩嫣岬剑瑱C(jī)器能夠用語言與人交流，就代表它擁有智能，今天我們的人工智能還不具有創(chuàng)造力和通用的推理能力，但是我們可以去做這樣的一個(gè)猜想，只有當(dāng)它掌握了語言之后，它才能夠完整的擁有創(chuàng)造力和推用的推理。如果有機(jī)器能夠跟你對話，你就會覺得它具有智能，因此語言在智能當(dāng)中是有極其重要的位置，也是人跟動物一個(gè)重大的區(qū)別。

我們會看到以語言為核心變成了我們?nèi)ニ伎既斯ぶ悄馨l(fā)展路徑的關(guān)鍵節(jié)點(diǎn)。搜狗做輸入法、搜索，其實(shí)就是處理語言的，也是幫你更好的表達(dá)、更好的獲取信息。今天我們雖然提到有語音、圖像，但是別忘了核心是語言。

語言往下我有兩部分分享：

第一，自然交互。自然交互讓人跟機(jī)器之間能夠用語音、圖像、手勢各種方式產(chǎn)生交流，其中用到了語音、圖像技術(shù)，包括視覺的技術(shù)。

第二，認(rèn)知問題，我們叫做知識計(jì)算?；谡Z言，機(jī)器能夠做問答和對話，機(jī)器翻譯是認(rèn)知技術(shù)入門的門檻。有了更好的感知技術(shù)，機(jī)器會從手機(jī)走向新的智能硬件，有了更好的認(rèn)知技術(shù)，機(jī)器對知識產(chǎn)生理解和推理，尤其是在垂直領(lǐng)域擁有問答的能力。新的硬件形式和新的對話和問答能力，智能硬件未來會走向智能助理，這也是整個(gè) AI 行業(yè)在產(chǎn)品層面上面最明珠的地方，蘋果大概在 2006 年就開始推出這樣的能力。到今天 Google、百度、阿里、小米做這樣的音箱產(chǎn)品，其實(shí)內(nèi)核都是在做智能助理，只是外殼上我認(rèn)為不是最好的方向。

布局的時(shí)候，從語音圖像有大量的技術(shù)要去做，包括語音識別、語音合成，包括了搜索獨(dú)有辨識的能力，往下可以作為展開，我把一些搜狗走在行業(yè)最前沿的點(diǎn)，給大家做一個(gè)簡單的匯報(bào)。

語音識別這是自然交互里面最自然的事情。搜狗輸入法今天我們做到了每天超過 8 億次的使用量，而且上升的很快。我最近批了一批服務(wù)器，在春節(jié)期間的時(shí)候可能就會超過 9-10 億次的日請求量。我們也積累了大量的數(shù)據(jù)，包括了語種、方言各種能力。

語言識別聽著很簡單的一件事情，其實(shí)并不是純粹的單點(diǎn)技術(shù)，在識別過程當(dāng)中，對于語音、語義的理解還有哪些點(diǎn)需要攻克的呢？

在剛剛播放的視頻中，首先，大家感覺到有人聲的分離，機(jī)器能識別不同的人，能動態(tài)的去判斷這是第一個(gè)人還是第二個(gè)人。第二，做掌聲、笑聲或者其它聲音的識別，幫助我們理解內(nèi)容。第三，中英文混合，這是非常難的事情，從傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)中，得不到一個(gè)混合的模型，這里面會加入一些特定知識，來改變這個(gè)系統(tǒng)。

在這個(gè)識別背后還會有更復(fù)雜的技術(shù)需要我們解決，我們做錄音筆時(shí)會考慮很多問題，其中一件事是在嘈雜環(huán)境里怎么讓機(jī)器聽清人的聲音，幫助后面的識別，這是我們最前沿的技術(shù)。

傳統(tǒng)的硬件是用麥克風(fēng)矩陣實(shí)現(xiàn)的，用多個(gè)麥克風(fēng)進(jìn)行中間的數(shù)字計(jì)算、信號處理，今天依靠人工智能，我們有了新的方法，搜狗的工程師在現(xiàn)實(shí)場景中對 4 萬種噪音進(jìn)行了學(xué)習(xí)，使得機(jī)器有能力分辨噪音。

在這個(gè)視頻中，原始的機(jī)器識別、處理是不夠的。為了讓錄音筆、聲音的交互更好，我們有了新的算法，（降噪）技術(shù)在實(shí)驗(yàn)中已經(jīng)完成了，期待在以后新款的錄音筆當(dāng)中能給大家?guī)順O致的 AI 體驗(yàn)。

從語音識別里面我們往前做了很多前沿的事情，除了語音識別還有一個(gè)重要的領(lǐng)域，就是語音的合成，在語音合成的時(shí)候，今天大家聽過了林志玲、高曉松的聲音，語音可以惟妙惟肖，用人的音色做表達(dá)。

但是，當(dāng)你做長篇演講、音頻付費(fèi)節(jié)目的時(shí)候，傳統(tǒng)機(jī)器所合成的聲音情感是不足夠的，搜狗是全球首次實(shí)現(xiàn)用機(jī)器模擬人，在得到音頻課程的整節(jié)課程中完全用機(jī)器合成，大家聽一下這個(gè)聲音。

（播放視頻）這個(gè)不只是聲音跟梁寧很像，更難得的是讓一半的聽眾沒有意識到整篇文章不是她本人讀的。因?yàn)橐黄恼略谝纛l付費(fèi)節(jié)目里面，已經(jīng)是一個(gè)表演了，對節(jié)奏把握、情感的輸出要求很高。

技術(shù)做的多的同學(xué)都知道，以今天的 AI 能力，機(jī)器不會有如此精準(zhǔn)的認(rèn)知理解，所以這個(gè)里面我們用了另外一種技術(shù)，其實(shí)是一種聲音的皮膚，把梁寧的聲音變成一種聲音皮膚，技術(shù)上稱為特征的提取能力，可以讓另外一個(gè)人讀這篇文章，再把聲音皮膚附到這個(gè)聲音里面來，使得合成的聲音可以表達(dá)他的情感，經(jīng)過合成之后，最后由梁寧來呈現(xiàn)。

這種做法之后可以改善整個(gè)音頻節(jié)目生產(chǎn)的環(huán)節(jié)，表演者和生產(chǎn)者做到一定的分離，以避免人員離職等等帶來的各種困難。加上聲音皮膚，大家可以假想有蠟筆小新、高曉松，也可以模仿一些帶有方言的聲音。

這種情況下，有個(gè)電影叫《頭號玩家》，使得我們現(xiàn)在每一個(gè)人在互聯(lián)網(wǎng)上，不僅可以換成其它的形象，也可以換成自己想要的一個(gè)聲音的形象。在生活中也有實(shí)際的用處，我們馬上開年會了，如果我要表演唱歌，作為一個(gè)五音不全的人怎么來做呢？這是我自己的聲音做的提取，然后可以加上《藍(lán)精靈》里面唱的一首歌，比我自己唱的好聽。

這樣一些技術(shù)，也使得在交互中間能夠做到了人機(jī)本身的結(jié)合，使得這樣的制作能力能夠有放大。在這里面除了我們提到聲音的識別、合成以外，我們也做了一些更前沿的工作，是從語音走向了視覺，因此我們提到了搜狗分身，這是我們產(chǎn)品上一個(gè)重大的進(jìn)展。這個(gè)產(chǎn)品發(fā)展到現(xiàn)在經(jīng)歷了多次的技術(shù)迭代，從最早的給新華社所做的主持人，到后來可以做到央視的主持人，到第二代能夠讓它更豐富的表達(dá)，第三代能夠站起來有手勢，到第四代之后就開始做到了多語言、多場景的播報(bào)能力，然后到了第五代之后開始能夠做交互，比如平安普惠的保險(xiǎn)項(xiàng)目，后面的服務(wù)人員已經(jīng)被機(jī)器取代了。實(shí)際你在保險(xiǎn)簽約的時(shí)候，是機(jī)器人更你做交互回答。我們很快發(fā)布的是第六代擁有大角度、大幅度的動作能力，這是天氣預(yù)報(bào)的播報(bào)，大家可以看一下。

這樣的技術(shù)在今年發(fā)布之后已經(jīng)得到了全球 200 多家媒體的的廣泛報(bào)道，也是機(jī)器在取代人上面的一次重大應(yīng)用。所以，這里面我們可以看到，從語言為核心，背后配上了語音、人的表情、肢體、唇語，能夠使得人機(jī)的交互，走到更自然的狀態(tài)。

除了最簡單的感知問題以外，我們也在認(rèn)知里面做了非常多的積累，剛才我們提到了翻譯是中間最簡單、入門的門檻，這里面我們做了很多的積累，這個(gè)問題很重大，而且我們現(xiàn)在做的也非常的努力。全球 20% 的人口是說中文的，中文是第一母語的國家，英文作為母語的人口只占全球的 4%，是第四大語言，印第語和葡萄牙語也比英語大。

但是，在這種情況里面，我們?nèi)?95% 的信息是用英文所寫的，100% 的國際商貿(mào)活動是用英文的，因此如何幫助中國人跟外國人進(jìn)行更好的交流，這變成了一個(gè)重大的技術(shù)課題，我們作為做輸入法、搜索以語言為核心的公司，投了很多的力量來做相關(guān)的積累。

所以，2016 年在第三次世界互聯(lián)網(wǎng)大會上我們行業(yè)首家發(fā)布了大會的同傳，2017 年搜狗發(fā)布了英文搜索，你用中文詞能搜索全球的英文信息，搜索結(jié)果用中文展示出來。在第四屆互聯(lián)網(wǎng)大上，我們首個(gè)實(shí)現(xiàn)了深度學(xué)習(xí)的離線翻譯，以及有英譯中功能的同傳，2019 年 1 月份在極客公園大會上英中同傳首次發(fā)布。

到今天我們會發(fā)布新一代的同傳給大家，從 2017 年的同傳到 2018 年的個(gè)性化，今年我們做的是這樣一個(gè)多模態(tài)和自主有學(xué)習(xí)能力的同傳，真的同傳人員不僅是聽聲音的，他會去看你的這樣一個(gè) PPT，我們今天這場會的同傳就是機(jī)器實(shí)時(shí)閱讀我的 PPT，同時(shí)識別中間的文字，并且把它轉(zhuǎn)化成知識圖譜，拓展它的知識邊界，就好像一個(gè)人一樣，看到我說了深度學(xué)習(xí)，就想到你可能會說卷積神經(jīng)元網(wǎng)絡(luò)，隨后是在知識庫查表，能找到中英對話實(shí)時(shí)加載的知識。

所以，從以前能聽、會看的多模態(tài)，到現(xiàn)在這樣一個(gè)同傳系統(tǒng)，它帶有一些簡單的思考能力，通過知識圖譜能夠?qū)崟r(shí)的把它看到的東西拓展成知識網(wǎng)絡(luò)，放到同傳生態(tài)系統(tǒng)中去，利用這樣的技術(shù)，搜狗同傳的翻譯正確性提升了 40%。

這張圖展示的是通過視覺技術(shù)能夠?qū)崟r(shí)看到的詞匯，同時(shí)把它拓展成相應(yīng)的知識，變成平行的語料，和傳統(tǒng)同傳系統(tǒng)做融合，這就是知識計(jì)算在同傳當(dāng)中首次的重大應(yīng)用。

同樣在知識計(jì)算之后，我們強(qiáng)調(diào)一個(gè)核心觀點(diǎn)，就是機(jī)器做閱讀理解之后做問答，傳統(tǒng)的搜索是通過關(guān)鍵詞給你 10 條鏈接，隨著技術(shù)的進(jìn)步，我們整個(gè)處理能力會從詞變成句子、段落、篇章，用戶的表達(dá)也可能會轉(zhuǎn)換成句子，機(jī)器的閱讀理解也會走向篇章和整個(gè)文章體系，這是技術(shù)進(jìn)步帶來的機(jī)會。

好幾家做音箱的公司也是盡可能把問答技術(shù)做到設(shè)備里去，因此在明年大家會看到一款新的搜索產(chǎn)品誕生，這件事情就不是用關(guān)鍵詞對應(yīng) 10 條鏈接了，而是在問答里面走出重大的一步，我們可以看一個(gè)簡單的 demo。

這是早年間的一個(gè)系統(tǒng)，這個(gè)系統(tǒng)并不能做到對知識推理的理解能力，更多是找到事實(shí)類的問題，但是它很厲害的地方不是簡單從數(shù)據(jù)做檢索，而是能做通篇閱讀理解，這是我們兩年前發(fā)布的一個(gè)節(jié)目中用的系統(tǒng)，背后用了真實(shí)的技術(shù)。

今天的技術(shù)有很多的拓展，機(jī)器對于這樣一個(gè)問題的理解，甚至幫你構(gòu)造問題，幫你掌握怎么提問，也做了非常多的努力，因此在這里面從翻譯走向問答，也會在明年有一個(gè)新的突破。另外對話技術(shù)在輸入法中間會做更多的呈現(xiàn)。

在未來幾年的時(shí)間里面，也許用不到 10 年，我們構(gòu)建了一個(gè)基本的路徑，自然交互會從文字走向語音、圖像理解，所以看到我們的錄音筆、同傳、合成主播這個(gè)技術(shù)的前面，是在語音圖像的交互能力里面做增強(qiáng)，但是背后還是語言。

另外一條道路就是認(rèn)知能力不斷地提升，會使得從搜索走向、輔助醫(yī)療、輔助問答以及合并語音圖像技術(shù)，最終走向行業(yè)終極的理想，就是每個(gè)人都擁有一個(gè)個(gè)人助理，在一些垂直領(lǐng)域當(dāng)中，能夠幫你去做秘書的工作，或者是成為你的分身，跟世界進(jìn)行溝通，這個(gè)是我們規(guī)劃的藍(lán)圖。

到明年的時(shí)候，我們會完善這張圖，給大家呈現(xiàn)一個(gè)離個(gè)人助理更近的 AI 時(shí)代的產(chǎn)品，用機(jī)器幫助每一個(gè)人，讓表達(dá)、獲取信息更加的簡單，這個(gè)是我們的一些思考，謝謝！

亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

王小川：只有掌握語言 AI才能具備創(chuàng)造力和推理