2017 年 6 月 24 日,又拍云旗下技術(shù)沙龍 Open Talk 來到人工智能公司最為集中的城市之一——深圳,探討了“大數(shù)據(jù)和機(jī)器學(xué)習(xí)最佳實踐”這一熱門話題;阿基米公社的活動現(xiàn)場擠滿了被話題吸引來的不雅觀眾。
大數(shù)據(jù)、機(jī)器學(xué)習(xí)已經(jīng)成為研究人工智能不能或缺的兩大要素,本次Open Talk的講師來自華為、數(shù)果科技、又拍云等公司在大數(shù)據(jù)、機(jī)器學(xué)習(xí)領(lǐng)域頗有實戰(zhàn)經(jīng)驗的工程師,分享了各自業(yè)務(wù)在大數(shù)據(jù)、機(jī)器學(xué)習(xí)方面的實踐經(jīng)驗,深受現(xiàn)場不雅觀眾認(rèn)可。此次Open Talk由IT大咖說提供直播支持。
訓(xùn)練人工智能,如何搭配硬件?“內(nèi)容識別”是又拍云于 2017 年推出的首個人工智能產(chǎn)品,可應(yīng)用于圖片、直播、點播等場景,智能識別色情、廣告、暴恐等不良內(nèi)容,其中鑒黃識別率已經(jīng)高達(dá)99.7%。
在Open Talk現(xiàn)場,負(fù)責(zé)又拍云“內(nèi)容識別”開發(fā)工作的葉靖,在《又拍云的深度學(xué)習(xí)實踐》的分享中,介紹了又拍云在開發(fā)“內(nèi)容識別”項目的過程中,所用到的各種工具和技術(shù),以及又拍云在人工智能方面的各種嘗試,面臨的挑戰(zhàn)等。
又拍云“內(nèi)容識別”的開發(fā)基于超千億張的圖片數(shù)據(jù),以及深度神經(jīng)網(wǎng)絡(luò),“最重要的一個工具就是GPU,GPU性能好,CPU運(yùn)算速度都是 50 幾毫秒,但GPU可以達(dá)到0. 17 毫秒。但GPU還有很多不足的地方,GPU對硬件依賴性很高又不易擴(kuò)展,不能像內(nèi)存那樣擴(kuò)展到 100 多G;此外還需要針對GPU重寫算法,CPU的代碼不能直接拿到GPU上跑,并且比較復(fù)雜?!比~靖分享了對研發(fā)“人工智能”時候的硬件選擇,也介紹了其中存在的問題:“GPU從數(shù)據(jù)、內(nèi)存拷貝數(shù)據(jù)的速度比較慢慢,寫代碼時要盡量制止內(nèi)存的拷貝。”
“我們選擇了 4 張 1070 顯卡,配置了SSD,因為很多數(shù)據(jù)從機(jī)械硬盤讀取的話嚴(yán)重影響訓(xùn)練速度。在CPU上,為了突破CPU的通道限制,我們選擇了 8 核CPU* 2 的配置。在操作系統(tǒng)的選擇上,又拍云采用了Ubuntu
16.04,一開始選擇了14.04,結(jié)果出現(xiàn)了一大堆的問題?!比~靖好不藏私的分享內(nèi)容,引起了現(xiàn)場不雅觀眾熱烈的提問。
海量用戶數(shù)據(jù)的處理妙招人工智能的訓(xùn)練需要大數(shù)據(jù),面臨大數(shù)據(jù)的處理也需要人工智能的參與。數(shù)果智能聯(lián)合創(chuàng)始人、首席架構(gòu)師黃強(qiáng)在本次 Open Talk 上分享了《海量用戶行為數(shù)據(jù)的儲存和分析》。
“用一句話來說,用戶行為數(shù)據(jù)就是用戶在產(chǎn)品上的操作行為的記錄?!秉S強(qiáng)高度概括了用戶行為數(shù)據(jù)的含義,“其中包孕了時間、地點、頁面信息等信息?!币话闫髽I(yè)的用戶數(shù)到了幾十萬,用戶一天下來做的所有的操作行為,像一個用戶行為數(shù)據(jù)包羅用戶的IP、sessionID、imei、終端ID,這個數(shù)據(jù)量是非常龐大的,每一天就是一個App都是幾百億甚至上千億的數(shù)據(jù)量。
這些數(shù)據(jù)里,高基數(shù)的維度很多?!拔艺J(rèn)為基數(shù)在百萬以上就比較高了?!秉S強(qiáng)認(rèn)為。什么是基數(shù)?好比說用戶ID有一個很大的量,一個維度下有多少個不重復(fù)的值,這種值就可以叫ID,如果基數(shù)很高,這個值會非常多。高基數(shù)產(chǎn)生的數(shù)據(jù)量非常龐大,幾千萬到上千億都是有可能,還有用戶行為是持續(xù)的。這些都是用戶行為數(shù)據(jù)的處理難點。
黃強(qiáng)分享了用戶行為數(shù)據(jù)處理環(huán)節(jié)的幾個步驟:第一步是采集,通過SDK等方式、工具采集數(shù)據(jù);采集到數(shù)據(jù)之后需要進(jìn)行存儲,“數(shù)據(jù)量非常大,需要拆成很多份,采用分布式資源,才能最大化利用一臺設(shè)備的計算資源?!币驗閿?shù)據(jù)被拆散了,所以數(shù)據(jù)處理還需要加入“查詢”功能,把查詢結(jié)果做一個合并,輸出最終結(jié)果。此外就是數(shù)據(jù)的索引,克分為倒排索引和正向索引兩種方式。
數(shù)據(jù)很重要,更重要的是呈現(xiàn)方式和互通華為消費(fèi)者BG數(shù)據(jù)分析架構(gòu)師王在清作為壓軸嘉賓,帶來了《數(shù)據(jù)分析與洞察》。王在清 因工作需求,從市場銷售分析投入到數(shù)據(jù)分析領(lǐng)域,后續(xù)進(jìn)入架構(gòu)、數(shù)據(jù)挖掘等領(lǐng)域,曾參與多項跨國企業(yè)的全球BI/DW 建設(shè)工作,擅長分析物(產(chǎn)品、事件)與人(客戶、員工)。
在活動現(xiàn)場,王在清主要介紹了華為消費(fèi)者BG的數(shù)字化建設(shè)與數(shù)據(jù)驅(qū)動,從建立數(shù)據(jù)體系到分析洞察應(yīng)用。
很多年前,許多公司都在落地信息化,建了一大堆IT系統(tǒng),“但全部都是數(shù)據(jù)孤島,數(shù)據(jù)跟數(shù)據(jù)沒有什么連接。從現(xiàn)在回來看,這些數(shù)據(jù)開始建設(shè)的時候,就應(yīng)該有一個統(tǒng)一的視圖,借助統(tǒng)一的視圖完善數(shù)據(jù)的關(guān)聯(lián)。一開始有一個整合視圖以后,還可以是數(shù)據(jù)島,但是島與島的交通線是一致的,而不是事后兩邊各建一個橋,,運(yùn)氣欠好還建兩座橋。”