在過去的兩年里,企業(yè)生產(chǎn)的數(shù)據(jù)量超過了之前整個人類歷史創(chuàng)造的數(shù)據(jù)總和。要為如此大規(guī)模的數(shù)據(jù)提供安適保障,專家們不得不重新思考,該以何種方式?jīng)Q定敏感文件的授權與撤銷;更加重要的是,該如何識別和追蹤不成制止的異常拜候,并排查出哪些是真正具有危險的行為。
對于數(shù)據(jù)安適而言,最為關鍵的問題就是:“這個行為正常嗎?如果不正常,那么它是被允許的嗎?”Imperva的機器學習創(chuàng)新技術可以為這一問題提供答案。機器學習把模式識別算法應用在每一位用戶的每一次SQL查詢上,,把內部威脅扼殺在搖籃之中。
數(shù)據(jù)安適中的機器學習
機器學習作為一種人工智能,可以讓計算機檢測出各種模式,并使用通過訓練或不雅觀察而習得的算法來建立行為基線。機器學習可以大規(guī)模地處理和分析人力難以駕馭的大量數(shù)據(jù),而提供人類可以理解的分析結果。
傳統(tǒng)的安適控制通常基于最小拜候特權模型。這個模型在理論上是成立的,但是在實踐中卻很難得到大規(guī)模的實現(xiàn)。要想以人工的方式?jīng)Q定每個用戶對每種數(shù)據(jù)具體的拜候權,自己就足夠令人望而卻步了。而在此基礎之上,還要從拜候日志中篩選并識別出潛在的不良行為,這就更難以實現(xiàn)了。即使是在一個只有 50 到 200 個數(shù)據(jù)庫的小企業(yè)環(huán)境中,這個過程也會讓 20 人規(guī)模的IT部門難以招架。而在更大的企業(yè)中,數(shù)據(jù)庫的數(shù)量很可能達到 1 萬以上。
好消息是,機器學習有望減輕這份負擔。對機器學習而言,更多的信息意味著更多的學習燃料。系統(tǒng)學習更多的輸入,就能通過學習給出更高質量的結果。
話雖如此,機器學習的有效應用依然要求人類大腦的參與,需要透徹理解他們想要解決的問題并可以把恰當?shù)乃惴☉迷谇‘數(shù)膯栴}上。算法并不是萬能鑰匙,而企業(yè)結構也不都是一樣的。真正創(chuàng)新式的機器學習必需更進一步。
上下文中的機器學習
簡單的機器學習可以處理日志文件并解讀拜候行為模式;可是,僅僅按照何人在何時登錄何種資源來生成行為模型,是遠遠不夠的。在數(shù)據(jù)安適的問題領域中,真正的需求是對潛在的惡意數(shù)據(jù)濫用提早一步的識別,這就需要機器學習更深地了解被拜候的具體數(shù)據(jù)。
機器學習可以把建立數(shù)據(jù)拜候模式基線的手動進程自動化。使用模式識別,機器學習可以識別對等群組中個體的正常行為,還可以動態(tài)地學習真正有效的對等群組,而開脫對于靜態(tài)的“組織結構圖”的依賴——后者極少能夠反映人們的真實工作狀態(tài)。
過去幾年,人工智能與機器學習在模式識別上取得了顯著的進展。例如,F(xiàn)acebook的機器學習應用,不但可以識別圖像中有什么,并且還能識別場景的上下文,以及其中是否包羅其它已知的實體或地標。同理,Imperva設計師在數(shù)據(jù)集合上應用了恰當?shù)臋C器學習算法,創(chuàng)造了一個檢查對等群組分支使用模式的系統(tǒng)。這個技術已經(jīng)超出了識別登錄和拜候時長的范疇,可以針對性地識別和建立正常的用戶數(shù)據(jù)拜候行為,可以輕松過濾出潛在的有危險的行為,制止其損害企業(yè)數(shù)據(jù)。
對于安適團隊而言,關鍵的問題在于:在一次個人拜候中,發(fā)生了什么,行為是否良好?他們需要制作一份事件清單,以備適當規(guī)模的SOC團隊調查。出于實用性的考慮,得出的數(shù)據(jù)必需滿足三點要求:有限性,保證團隊可以輕松地消化信息:精確性,排除噪音,提高信度;以及上下文的豐富性,讓調查無須從零開始。
讓機器學習更聰明
Imperva開發(fā)者通過把機器學習算法的豐富知識和關于構成差別種類用戶不當數(shù)據(jù)拜候行為的特定專業(yè)知識相結合,達到了三個目標。
利用模式識別算法處理數(shù)據(jù)安適信息,與Facebook圖像識別相似,只不過識另外對象換成了上下文中的數(shù)據(jù)拜候模式,包孕上萬名員工的賬戶,以及每天上百億次的個人數(shù)據(jù)拜候。基于行為的群組自動識別,可以精確定義每個用戶的拜候權限,并按照用戶與企業(yè)文件的交互變革進行動態(tài)調整。在對比試驗中,Imperva應用機器學習動態(tài)對等群組分析算法,發(fā)現(xiàn)了大量其他方式無法注意到的問題。
以往,大多數(shù)機器學習應用都從很高的視角不雅觀測數(shù)據(jù)拜候,好比:王剛在星期二上午 8 點 12 分登入了一個特定的數(shù)據(jù)庫,并在 8 點 39 分登出。可是它們無法確定王剛在那 27 分鐘內真正做了些什么,所以很難判定行為模式是否正常,是否存在潛在的數(shù)據(jù)濫用。
而Imperva機器學習在理解模式識別算法的基礎上,可以更加聰明地識別威脅數(shù)據(jù)的用戶行為模式。檢查每個用戶的每次SQL查詢,意味著機器學習不但可以識別王剛在何時登錄了多長時間,并且更為重要的是,還可以學習到他拜候了什么。然后,我們可以參照他的對等群組,比較他的行為與其他人的行為,最終判定數(shù)據(jù)拜候到底是正常的,還是不正常的。
大規(guī)模、動態(tài)化、結合上下文與專業(yè)知識的機器學習,能夠提早適應新興的威脅形態(tài),永遠領先一步,提早預防數(shù)據(jù)違規(guī)。