隨著科技的快速發(fā)展,人臉識(shí)別、語音識(shí)別和自動(dòng)駕駛這些成為了高科技的代言詞。其實(shí)早在1956年,人工智能這個(gè)“術(shù)語”就被正式提出了。但是由于當(dāng)時(shí)的科技水平的低下,計(jì)算能力方面的欠缺,這方面的發(fā)展一直處于摸索階段。
一直到20世紀(jì)80年代初,隨著一類名為“專家系統(tǒng)”的AI程序開始為全世界的公司所采用,人工智能才興起了第二次熱潮。各國開始投入大量資金,例如日本經(jīng)濟(jì)產(chǎn)業(yè)省雄心勃勃旨在打造“第五代計(jì)算機(jī)”的研究計(jì)劃,目標(biāo)是制造出能夠與人對(duì)話、翻譯語言、解釋圖像,并且能像人一樣推理的機(jī)器。80年代后期,產(chǎn)業(yè)界對(duì)人工智能系統(tǒng)投入巨大但只產(chǎn)生有限的應(yīng)用產(chǎn)生質(zhì)疑,人工智能的泡沫逐漸破裂,投入大幅消減,人工智能再一次步入寒冬。
那么,人工智能到底將靠什么走向大眾?筆者認(rèn)為,視覺AI技術(shù)將是發(fā)展方向。
簡單來說,視覺AI就是研究如何讓機(jī)器會(huì)“看”,即用攝影機(jī)和電腦代替人眼對(duì)圖像進(jìn)行特征提取和分析,并由此訓(xùn)練模型對(duì)新的圖像數(shù)據(jù)進(jìn)行檢測、識(shí)別等任務(wù),建立能夠從圖像或者多模態(tài)數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。源于深度學(xué)習(xí)的突破,視覺AI的識(shí)別能力突飛猛進(jìn),2012年的兩個(gè)轟動(dòng)事件,更被視為視覺AI的發(fā)展拐點(diǎn)。當(dāng)時(shí),由多倫多大學(xué)Geoffrey Hinton領(lǐng)導(dǎo)的團(tuán)隊(duì),在一項(xiàng)名為ImageNet的圖像識(shí)別競賽中,利用深度學(xué)習(xí)和GPU的強(qiáng)大計(jì)算能力,將錯(cuò)誤率降低了10%,震驚學(xué)術(shù)界,因?yàn)?/span>之前這項(xiàng)錯(cuò)誤率每年只會(huì)降低1%—2%。
同年,“谷歌大腦之父”吳恩達(dá)帶領(lǐng)團(tuán)隊(duì),利用10億參數(shù)的神經(jīng)網(wǎng)絡(luò),在沒有任何先驗(yàn)知識(shí)的情況下,僅僅通過觀看無標(biāo)注的YouTube的視頻,創(chuàng)造了一套貓臉識(shí)別系統(tǒng)——從海量照片里自動(dòng)識(shí)別出貓臉。視覺AI迅速成為人工智能領(lǐng)域最重量級(jí)的研究領(lǐng)域,源自于其在安防、醫(yī)療、無人駕駛等多個(gè)領(lǐng)域的應(yīng)用前景。當(dāng)下AI+醫(yī)療的紅火,對(duì)推動(dòng)這個(gè)行業(yè)的發(fā)展起到了不可磨滅的作用,還有豐富的應(yīng)用場景和海量的機(jī)會(huì)等待挖掘,例如個(gè)性化醫(yī)療、可穿戴智能醫(yī)療設(shè)備的實(shí)時(shí)監(jiān)測與分析等。
放眼未來,更多的應(yīng)用前景都將貼上視覺AI的標(biāo)簽。比如,人臉識(shí)別技術(shù)有望在更多的物聯(lián)網(wǎng)終端設(shè)備上應(yīng)用,讓安全便捷的身份認(rèn)證無處不在,提升生活體驗(yàn);在AI+工業(yè)領(lǐng)域,工業(yè)機(jī)器人、物流機(jī)器人將更多替代傳統(tǒng)勞動(dòng)力;在AI+文化領(lǐng)域,基于AI的增強(qiáng)現(xiàn)實(shí)技術(shù),可以將古代文物、古代場景生動(dòng)復(fù)原得以假亂真;在AI+教育領(lǐng)域,利用視覺技術(shù)實(shí)現(xiàn)學(xué)生的注意力管理、跟蹤學(xué)生的知識(shí)點(diǎn)掌握,實(shí)現(xiàn)真正的因材施教。