360人工智能的落地和實(shí)現(xiàn)

2019-07-09 15:54

分享到：

去年，我們講到人工智能有“三要素”：算法、算力和數(shù)據(jù)。從今年開始，我們把場(chǎng)景加入進(jìn)來(lái)，開始用“四元分析”的方式來(lái)理解人工智能。

　　為什么要加入場(chǎng)景？去年大家對(duì)人工智能非常熱情，包括學(xué)校、企業(yè)都在討論。但是，一年過(guò)去了，大家在想人工智能到底給我們帶來(lái)了什么實(shí)實(shí)在在的價(jià)值？其實(shí)，加入場(chǎng)景非常重要的原因是人工智能終究是一種技術(shù)，人工智能必須要落實(shí)到精準(zhǔn)的場(chǎng)景，才有它實(shí)實(shí)在在的價(jià)值。

　　學(xué)術(shù)界追逐精度的極限

　　我們現(xiàn)在來(lái)看一下，在學(xué)術(shù)界是怎么做人工智能。因?yàn)槿斯ぶ悄艿母拍顚?shí)在太大了，現(xiàn)在深度學(xué)習(xí)熱，那我們就看下在學(xué)術(shù)界里研究深度學(xué)習(xí)，會(huì)做一些什么事情。

　　一般情況下，學(xué)術(shù)界是把問(wèn)題設(shè)立好之后，去思考研究一些新的算法，然后在具體的問(wèn)題上，力圖在精度上達(dá)到極限。從深度學(xué)習(xí)上設(shè)計(jì)更好的模型結(jié)構(gòu)方面，大家可以看到在過(guò)去這些年，像初的Hinton用基本的網(wǎng)絡(luò)結(jié)構(gòu)，到谷歌的GoogleNet，微軟的殘差網(wǎng)絡(luò)（ResNet），到今年我們參加比賽所設(shè)計(jì)的模型，可以看到基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)是推動(dòng)學(xué)術(shù)界往前走的核心。但是除了基本的網(wǎng)絡(luò)結(jié)構(gòu)之外，更大的網(wǎng)絡(luò)、更深的網(wǎng)絡(luò)以及不同的網(wǎng)絡(luò)模型的融合，也是大家追逐精度的常用方法。

　　另一方面，我們要訓(xùn)練這些網(wǎng)絡(luò)，可能需要更多的計(jì)算資源，比如像圖形處理器集群（GPU Cluster），比如說(shuō)我們希望有更便捷的訓(xùn)練平臺(tái)，比如說(shuō)像Caffe、MxNet、Tensorflow等等。當(dāng)然，更重要的是大家在一點(diǎn)點(diǎn)往前推動(dòng)的同時(shí)，積累了很多小的經(jīng)驗(yàn)，這些經(jīng)驗(yàn)通過(guò)學(xué)術(shù)報(bào)告，通過(guò)論文的形式來(lái)分享。大家都站在巨人的肩膀上在一步一步往前走。當(dāng)然，還有怎么樣用其它的非標(biāo)注的數(shù)據(jù)來(lái)提升解決問(wèn)題的能力。所有的一切都合在一起，在解決具體問(wèn)題的時(shí)候，能夠把精度達(dá)到極限。

　　學(xué)術(shù)界很多時(shí)候研究的目的，是要有成果論文發(fā)在較優(yōu)質(zhì)的學(xué)術(shù)雜志上，也希望這些算法能夠具有普適性，除了能解決自己的問(wèn)題，其他人也能借鑒，較好能開源，所有的人都可以去使用，這樣就能很好的提升自己在這個(gè)領(lǐng)域的影響力。

　　剛剛說(shuō)的像深度學(xué)習(xí)去解決圖像識(shí)別的很多問(wèn)題，大家可以看到在過(guò)去的幾年，錯(cuò)誤在一點(diǎn)一點(diǎn)的降低，這正是大家在追逐精度的極限。

　　沒(méi)有瑕疵的用戶體驗(yàn)如何產(chǎn)生？

　　但是工業(yè)界不是這樣。工業(yè)界要去探索商業(yè)，注定要有經(jīng)濟(jì)上的考慮，思考盈利模式，那對(duì)人工智能的考慮就會(huì)不一樣。

　　在工業(yè)界里待過(guò)就會(huì)明白，人工智能本身并不是一個(gè)產(chǎn)品，不是單純靠人工智能就能獲得利益，必須要通過(guò)與自己的業(yè)務(wù)和場(chǎng)景相結(jié)合，才能發(fā)揮它的價(jià)值，核心算法只是其中的一個(gè)模塊而已。無(wú)論是往前端走，還是往后端走，還是需要很多不同類型的人，才可以做出一個(gè)產(chǎn)品。

　　重要的是，人工智能并不是一個(gè)靜態(tài)的東西。比如說(shuō)訓(xùn)練出來(lái)的模型，要用到某個(gè)業(yè)務(wù)場(chǎng)景里面，業(yè)務(wù)場(chǎng)景里產(chǎn)生新的數(shù)據(jù)，這些數(shù)據(jù)進(jìn)一步提升人工智能模型的能力，再用到場(chǎng)景里面，這是一個(gè)閉環(huán)和不斷迭代的過(guò)程。

　　另一方面，也是很多從學(xué)術(shù)界到工業(yè)界的教授和學(xué)者經(jīng)常很容易犯的一個(gè)很嚴(yán)重的錯(cuò)誤。就是認(rèn)為技術(shù)在真正推動(dòng)產(chǎn)品，但其實(shí)，用在具體的場(chǎng)景里面，技術(shù)只是起到一個(gè)非常小的作用，如果說(shuō)它的貢獻(xiàn)大概到30%到40%就不錯(cuò)了。

　　一個(gè)成功的產(chǎn)品，還需要產(chǎn)品工程師和非常多的人，大家一起才能做出一個(gè)非常完美的用戶體驗(yàn)的產(chǎn)品出來(lái)。一個(gè)核心點(diǎn)就是我們做技術(shù)的人，做研究的人，要明白永遠(yuǎn)沒(méi)有完美的算法，算法永遠(yuǎn)是有瑕疵存在的，我們一定要和場(chǎng)景工程師在一起，通過(guò)好的產(chǎn)品設(shè)計(jì)，把這些算法上的瑕疵避免掉，產(chǎn)生沒(méi)有瑕疵的用戶體驗(yàn)。

　　比如說(shuō)有一個(gè)很現(xiàn)實(shí)的場(chǎng)景，人臉的檢測(cè)和定位的技術(shù)之后，大家都想做一些非常有趣的增強(qiáng)現(xiàn)實(shí)的應(yīng)用。早期的時(shí)候，我們特別享受技術(shù)有多么牛，比如早期產(chǎn)品的設(shè)計(jì)模式，會(huì)看一張圖能不能把我的臉換成劉德華的臉，即使在臉動(dòng)的時(shí)候，在張嘴閉嘴的時(shí)候，看起來(lái)都像劉德華。可是，很多時(shí)候如果產(chǎn)品的定位是這樣子，技術(shù)永遠(yuǎn)都不可能做得非常好，為什么呢？人臉的場(chǎng)景，光照條件或者是姿態(tài)不一樣，就會(huì)產(chǎn)生一種燒傷臉的感覺(jué)，不會(huì)產(chǎn)生很好的效果。但是，像我們，還有國(guó)外的一些創(chuàng)業(yè)公司，他們的想法就是沒(méi)有必要把人臉全都換掉，只要利用人臉定位的技術(shù)，可以在臉上加一些花卉，有蝴蝶飛，這樣即使人臉定位的技術(shù)還不是很完美，還有一些抖動(dòng)的情況，產(chǎn)生出來(lái)的視覺(jué)效果，還是可以接受的。這是一個(gè)典型的例子，需要算法和產(chǎn)品相互結(jié)合才能產(chǎn)生沒(méi)有瑕疵的用戶體驗(yàn)。

　　我佩服的應(yīng)該是Snapchat, 他們的技術(shù)是做算法的和做工程設(shè)計(jì)的人在一起，一個(gè)一個(gè)的效果不停地打磨。他們用的人臉的技術(shù)，像分割的技術(shù)，像SLAM（simultaneous localization and mapping，即時(shí)定位與地圖構(gòu)建）技術(shù)，這些技術(shù)都不是完美的。在這種情況下，通過(guò)工程師的產(chǎn)品設(shè)計(jì)，把每一個(gè)特效都做的非常有意思，非常酷。

　　此外，除了考慮用戶體驗(yàn)，工業(yè)界設(shè)計(jì)一個(gè)產(chǎn)品還會(huì)考慮其它方面。比如，當(dāng)前把視覺(jué)，語(yǔ)音和相關(guān)的技術(shù)用在智能硬件上的時(shí)候，可能會(huì)想，到底這個(gè)產(chǎn)品是不是能滿足某種高頻的剛需？

　　我原來(lái)在新加坡每年寫很多文章，一年寫50、60篇的文章都有可能。那時(shí)候有一個(gè)很明顯的特點(diǎn)，在寫文章的時(shí)候我們會(huì)造一個(gè)場(chǎng)景，這個(gè)場(chǎng)景從用戶需求來(lái)說(shuō)，根本就不存在；從寫文章的角度來(lái)說(shuō)是有價(jià)值的，從產(chǎn)品的角度來(lái)說(shuō)，不一定有價(jià)值。工業(yè)界還會(huì)考慮一款產(chǎn)品用到的技術(shù)有沒(méi)有成熟？比如說(shuō)家用機(jī)器人，可以端茶送水，可以聊天，這是不可能的，技術(shù)上還有一個(gè)過(guò)程。

　　另外，工業(yè)界還會(huì)考慮技術(shù)成熟了，但有沒(méi)有壁壘？假設(shè)沒(méi)有技術(shù)壁壘的話，今天做一個(gè)產(chǎn)品出來(lái)，比較前沿的大公司，都有專家團(tuán)隊(duì)，你把這個(gè)產(chǎn)品做出來(lái)立馬又失掉了，技術(shù)上的壁壘也一定要有。

　　另外一方面，就是學(xué)術(shù)界想得少的：我們做一個(gè)場(chǎng)景，一定要有變現(xiàn)的模式。沒(méi)有一個(gè)變現(xiàn)的模式，我們的產(chǎn)品出來(lái)了，但是今后掙不了錢，也不可能讓這個(gè)公司維系下去。這些都是工業(yè)界和學(xué)術(shù)界思考的點(diǎn)不一樣的地方。

　　用四元分析來(lái)看學(xué)界和工業(yè)界的區(qū)別

　　總的來(lái)說(shuō)，學(xué)界進(jìn)行人工智能，深度學(xué)習(xí)的研究，一直是在追求精度和極限。用四元分析的方法來(lái)說(shuō)就非常有意思，即我們的場(chǎng)景和數(shù)據(jù)確定了，然后設(shè)定一個(gè)問(wèn)題，設(shè)定一個(gè)數(shù)據(jù)集，假設(shè)有足夠多的計(jì)算機(jī)資源，怎么樣設(shè)計(jì)新的算法，讓精度能夠達(dá)到極限？

　　我們知道有很多的數(shù)據(jù)集，比如ImageNet，號(hào)稱人工智能的世界杯；人臉研究界有LFW（Labeled Faces in the Wild，人臉圖片的數(shù)據(jù)庫(kù)，用來(lái)研究不受限的人臉識(shí)別問(wèn)題）；在視頻領(lǐng)域有美國(guó)組織的TRECVID；語(yǔ)音的話有Switchboard。他們共同特點(diǎn)就是：?jiǎn)栴}和數(shù)據(jù)都是確定的，用盡量多的計(jì)算機(jī)資源，去設(shè)計(jì)不同的算法，終是希望達(dá)到精度的上限。

　　但是我們不得不承認(rèn)，這里面很多的成果是沒(méi)有辦法商業(yè)化的。為什么？在ImageNet上，假設(shè)訓(xùn)練了1000多層的網(wǎng)絡(luò)，把9個(gè)或更多網(wǎng)絡(luò)全部合在一起能達(dá)成一個(gè)很好的精度，在現(xiàn)實(shí)的場(chǎng)景下是不可能用這么大的模型和這么多的資源去做一件事情。所以，很多的成果，是假設(shè)將來(lái)計(jì)算能力達(dá)到一定的程度，精度能夠達(dá)到這個(gè)上限。

　　AI研究的另外一個(gè)維度是追求用戶體驗(yàn)的極限。用四元分析的方法，是把場(chǎng)景和算力固定了。這是什么意思？假設(shè)我們要做一個(gè)機(jī)器人，這個(gè)機(jī)器人希望它能識(shí)別你，這時(shí)候場(chǎng)景是確定的。算力確定了是說(shuō)，這個(gè)場(chǎng)景推出的時(shí)候，用什么樣的芯片和什么樣的硬件，其實(shí)已經(jīng)確定了。我們要做的事情是在這樣一個(gè)確定場(chǎng)景和算力的情況下，怎么樣去提升數(shù)據(jù)和算法，跟具體的應(yīng)用場(chǎng)景去形成一個(gè)閉環(huán)，去不斷地迭代，去提升它的性能。這跟學(xué)術(shù)界把場(chǎng)景和數(shù)據(jù)固定是完全不一樣。在這種場(chǎng)景下，可以不停的用收集到的新數(shù)據(jù)不停提升和優(yōu)化模型，在數(shù)據(jù)，算法和場(chǎng)景形成一個(gè)閉環(huán)。雖然我們能把所有的問(wèn)題解決，但是在具體的場(chǎng)景下，也有可能逐步地提升它的性能。

　　這時(shí)候做的事情很有意思，要做很多數(shù)據(jù)的清洗、標(biāo)注。為了把產(chǎn)品的價(jià)格降低，比如用一個(gè)很差的CPU就能夠去做計(jì)算，肯定要不停地去優(yōu)化模型的速度。另一方面，很多時(shí)候，滿足這種體驗(yàn)的需求會(huì)有一些新的問(wèn)題出來(lái)。

　　如果我們仔細(xì)想一想，學(xué)術(shù)界多數(shù)做的事情是在思考，在想它的極限在哪，主要用腦；工業(yè)界并不是強(qiáng)調(diào)用腦，而是用心——就是怎么樣能把這個(gè)場(chǎng)景做出來(lái)，并不一定要有非常高大上的算法，就是要從用戶使用產(chǎn)品的維度上，讓用戶感覺(jué)這個(gè)產(chǎn)品非常好。

　　學(xué)術(shù)界和工業(yè)界又不是完全割裂的：工業(yè)界敢去提某一個(gè)產(chǎn)品的設(shè)想，是看到了在學(xué)術(shù)界有一些前沿的成果，可以在工業(yè)界來(lái)用。同時(shí)，工業(yè)界也在逐步提煉它的問(wèn)題，扔給學(xué)術(shù)界，希望他們?nèi)プ鲞@種前沿的探索。比如說(shuō)工業(yè)界可以想，三年、五年以后會(huì)往哪些方向去推動(dòng)，他就可以把這些任務(wù)推給學(xué)術(shù)界。

　　現(xiàn)在有很多公司，在中國(guó)和在美國(guó)紛紛建立AI實(shí)驗(yàn)室，其實(shí)有兩種目標(biāo)。一方面是長(zhǎng)期希望能瞄準(zhǔn)將來(lái)前沿的領(lǐng)域，做技術(shù)的積累；另一方面是要追求產(chǎn)品更好的落地，所以現(xiàn)在很多公司就建起了自己人工智能的實(shí)驗(yàn)室。

　　在人工智能深度學(xué)習(xí)的研究，學(xué)術(shù)界和工業(yè)界的差別還是很大的，同時(shí)也相互作用，相互增強(qiáng)。學(xué)術(shù)界和工業(yè)界一起合作，研究和產(chǎn)業(yè)相結(jié)合，一定會(huì)把人工智能帶上另外一個(gè)階段。

上一篇： 光合能源—咸寧第一家微逆變器光伏發(fā)電量對(duì)比數(shù)據(jù)