主頁 > 知識(shí)庫 > 總結(jié)Hadoop集群技術(shù)近年來對(duì)大數(shù)據(jù)處理的推動(dòng)

總結(jié)Hadoop集群技術(shù)近年來對(duì)大數(shù)據(jù)處理的推動(dòng)

熱門標(biāo)簽:七臺(tái)河商家地圖標(biāo)注注冊(cè) 威海語音外呼系統(tǒng)廠家 百度高德騰訊地圖標(biāo)注公司 搜地圖標(biāo)注怎么找店鋪 廣安電銷外呼系統(tǒng) 個(gè)人家庭地圖標(biāo)注教程 百度地圖標(biāo)注不能編輯 徐州穩(wěn)定外呼系統(tǒng)代理商 勝威電話外呼系統(tǒng)密碼

1. 引子

什么是大數(shù)據(jù)?麥肯錫公司的報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》中給出的大數(shù)據(jù)定義是:大數(shù)據(jù)指的是規(guī)模超過現(xiàn)有數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集,并同時(shí)強(qiáng)調(diào)并不是超過某個(gè)特定數(shù)量級(jí)的數(shù)據(jù)集才是大數(shù)據(jù)。

國際數(shù)據(jù)公司(IDC)用四個(gè)維度的特征來定義大數(shù)據(jù),即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動(dòng)的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價(jià)值的大?。╒alue)。

亞馬遜的大數(shù)據(jù)科學(xué)家John Rauser的定義比較直接:“超過單臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量則為大數(shù)據(jù)”。

最后我們來看看維基百科上的大數(shù)據(jù)定義:“Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. ”翻譯成中文的意思是:大數(shù)據(jù)指的是數(shù)據(jù)規(guī)模龐大和復(fù)雜到難以通過現(xiàn)有的數(shù)據(jù)庫管理工具或者傳統(tǒng)的數(shù)據(jù)處理應(yīng)用程序進(jìn)行處理的數(shù)據(jù)集合。

上述大數(shù)據(jù)的概念中無一例外都突出了“大”字。從表面上看,數(shù)據(jù)規(guī)模的增長(zhǎng)的確為處理數(shù)據(jù)帶來了很大的問題。具體來說,在同樣時(shí)間內(nèi)獲取與以前相同價(jià)值的數(shù)據(jù)變得不可為了。換言之,本質(zhì)問題是數(shù)據(jù)的價(jià)值密度變低了,數(shù)據(jù)交換速率變慢了,所以催生了很多新型數(shù)據(jù)處理技術(shù)和工具,如Google的GFS和MapReduce,Apache Hadoop生態(tài)系統(tǒng),美國伯克利大學(xué)AMPLab的Spark等;出現(xiàn)了對(duì)時(shí)間敏感程度不同的計(jì)算模式,如批式計(jì)算模式、交互式計(jì)算模式、流計(jì)算模式、實(shí)時(shí)計(jì)算模式等。計(jì)算模式的差異只是決定獲取價(jià)值的技術(shù)不同,取決于上層業(yè)務(wù)需求的不同。實(shí)際上,所謂大數(shù)據(jù)問題的本質(zhì)應(yīng)是數(shù)據(jù)的資產(chǎn)化和服務(wù)化,而挖掘數(shù)據(jù)的內(nèi)在價(jià)值是研究大數(shù)據(jù)的最終目標(biāo)。

2. 大數(shù)據(jù)技術(shù)源起Google

Google在搜索引擎上所獲得的巨大成功,很大程度上是由于采用了先進(jìn)的大數(shù)據(jù)管理和處理技術(shù),是針對(duì)搜索引擎所面臨的日益膨脹的海量數(shù)據(jù)存儲(chǔ)問題以及在此之上的海量數(shù)據(jù)處理問題而設(shè)計(jì)的。

Google提出了一整套基于分布式并行集群方式的基礎(chǔ)架構(gòu)技術(shù),利用軟件的能力來處理集群中經(jīng)常發(fā)生的節(jié)點(diǎn)失效問題。Google使用的大數(shù)據(jù)平臺(tái)主要包括五個(gè)相互獨(dú)立又緊密結(jié)合在一起的系統(tǒng):分布式資源管理系統(tǒng)Borg,Google文件系統(tǒng)(GFS),針對(duì)Google應(yīng)用程序的特點(diǎn)提出的MapReduce 編程模式,分布式的鎖機(jī)制Chubby以及大規(guī)模分布式數(shù)據(jù)庫BigTable。

Borg是這五個(gè)系統(tǒng)中最為神秘的一個(gè),直到2015年Google才在EuroSys 2015上發(fā)表了題為“Large-scale cluster management at Google with Borg”的論文。稱Google內(nèi)部不僅像計(jì)算型的應(yīng)用,比如MapReduce、Pregel等運(yùn)行在Borg上,存儲(chǔ)類的應(yīng)用,比如GFS,BigTable和Megastore等也運(yùn)行在上面,真正做到了批處理作業(yè)和長(zhǎng)周期服務(wù)的混合部署和資源動(dòng)態(tài)調(diào)度。得益于此項(xiàng)技術(shù),可以使平均資源利用率達(dá)到30%~75%以上,大大高于業(yè)界平均水平的6%~12%。

GFS是一個(gè)大型的分布式文件系統(tǒng),它為Google云計(jì)算提供海量存儲(chǔ),并且與Chubby、MapReduce和BigTable等技術(shù)結(jié)合得十分緊密,處于系統(tǒng)的底層。它的設(shè)計(jì)受到Google特殊的應(yīng)用負(fù)載和技術(shù)環(huán)境的影響。相對(duì)于傳統(tǒng)的分布式文件系統(tǒng),為了達(dá)到成本、可靠性和性能的最佳平衡,GFS從多個(gè)方面進(jìn)行了簡(jiǎn)化。

MapReduce是處理海量數(shù)據(jù)的并行編程模式,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。MapReduce通過“Map(映射)”和“Reduce(化簡(jiǎn))”這樣兩個(gè)簡(jiǎn)單的概念來參加運(yùn)算。用戶只需要提供自己的Map 函數(shù)以及Reduce 函數(shù)就可以在集群上進(jìn)行大規(guī)模的分布式數(shù)據(jù)處理。這一編程環(huán)境能夠使程序設(shè)計(jì)人員編寫大規(guī)模的并行應(yīng)用程序時(shí)不用考慮集群的可靠性、可擴(kuò)展性等問題。應(yīng)用程序編寫人員只需要將精力放在應(yīng)用程序本身,關(guān)于集群的處理問題則交由平臺(tái)來完成。與傳統(tǒng)的分布式程序設(shè)計(jì)相比,MapReduce封裝了并行處理、容錯(cuò)處理、本地化計(jì)算、負(fù)載均衡等細(xì)節(jié),具有簡(jiǎn)單而強(qiáng)大的接口。正是由于MapReduce具有函數(shù)式編程語言和矢量編程語言的共性,使得這種編程模式特別適合于非結(jié)構(gòu)化和結(jié)構(gòu)化的海量數(shù)據(jù)的搜索、挖掘、分析等應(yīng)用。

Chubby是提供粗粒度鎖服務(wù)的一個(gè)文件系統(tǒng),它基于松耦合分布式文件系統(tǒng),解決了分布式系統(tǒng)的一致性問題。這種鎖只是一個(gè)建議性的鎖而不是強(qiáng)制性的鎖。通過使用Chubby的鎖服務(wù),用戶可以確保數(shù)據(jù)操作過程中的一致性。GFS使用Chubby來選取一個(gè)GFS主服務(wù)器,BigTable使用Chubby指定一個(gè)主服務(wù)器并發(fā)現(xiàn)、控制與其相關(guān)的子表服務(wù)器。

大規(guī)模分布式數(shù)據(jù)庫BigTable是基于GFS和Chubby開發(fā)的分布式存儲(chǔ)系統(tǒng)。很多應(yīng)用程序?qū)τ跀?shù)據(jù)的組織是非常有規(guī)則的。一般來說,數(shù)據(jù)庫對(duì)于處理格式化的數(shù)據(jù)還是非常方便的。但是由于關(guān)系數(shù)據(jù)庫要求很強(qiáng)的一致性,很難將其擴(kuò)展到很大的規(guī)模。為了處理Google內(nèi)部大量的格式化以及半格式化數(shù)據(jù),Google構(gòu)建了弱一致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)BigTable。BigTablede在很多方面和數(shù)據(jù)庫類似,但它并不是真正意義上的數(shù)據(jù)庫。Google包括Web索引、衛(wèi)星圖像數(shù)據(jù)等在內(nèi)的很多海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)都是存儲(chǔ)在BigTable中的。

3. Hadoop開啟了大數(shù)據(jù)時(shí)代的大門

Google的技術(shù)雖好但不開源。如果沒有Doug Cutting和他的Hadoop開源軟件,我們就看不到如今大數(shù)據(jù)技術(shù)和應(yīng)用的飛速發(fā)展。Doug Cutting主導(dǎo)的Apache Nutch項(xiàng)目是Hadoop軟件的源頭,該項(xiàng)目始于2002年,是Apache Lucene 的子項(xiàng)目之一。當(dāng)時(shí)的系統(tǒng)架構(gòu)尚無法擴(kuò)展到存儲(chǔ)并處理擁有數(shù)十億網(wǎng)頁的網(wǎng)絡(luò)化數(shù)據(jù)。Google在2003年于SOSP上公開了描述其分布式文件系統(tǒng)的論文“The Google File System”,為Nutch提供了及時(shí)的幫助。2004年,Nutch的分布式文件系統(tǒng)(NDFS)開始開發(fā)。同年,Google在OSDI上發(fā)表了題為“MapReduce: Simplified Data Processing on Large Clusters”的論文,受到啟發(fā)的Doug Cutting等人開始實(shí)現(xiàn)MapReduce計(jì)算框架并與NDFS(Nutch Distributed File System)結(jié)合起來,共同支持Nutch的主要算法。至2006年,它逐漸成為一套完整而獨(dú)立的軟件,已經(jīng)到Y(jié)ahoo!工作的Doug Cutting將這套大數(shù)據(jù)處理軟件命名為Hadoop。2008年初,Hadoop成為Apache的頂級(jí)項(xiàng)目,除Yahoo!之外在眾多互聯(lián)網(wǎng)企業(yè)中得到應(yīng)用。

早期的Hadoop,包括Hadoop v1以及更早之前的版本,主要由兩個(gè)核心組件構(gòu)成:HDFS和MapReduce,其中HDFS是Google GFS的開源版本,MapReduce計(jì)算框架實(shí)現(xiàn)了由Google工程師提出的MapReduce編程模型。還有一些圍繞在Hadoop周圍的開源項(xiàng)目,為完善大數(shù)據(jù)處理的全生命周期提供了必要的配套和補(bǔ)充。這些軟件常用的有ZooKeeper、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等。2012年5月,Hadoop v2的alpha版本發(fā)布,其中最重要的變化是在Hadoop核心組件中增加了YARN(Yet Another Resource Negotiator)。YARN的出現(xiàn)是為了把計(jì)算框架與資源管理徹底分離開,解決Hadoop v1由此帶來的擴(kuò)展性差、單點(diǎn)故障和不能同時(shí)支持多種計(jì)算框架的問題。YARN對(duì)標(biāo)的恰好就是Google的Borg系統(tǒng)。至此,Hadoop方才能夠與Google的大數(shù)據(jù)平臺(tái)比肩。

一個(gè)好的、有生命力的開源生態(tài)系統(tǒng)要有一個(gè)核心,這個(gè)核心要是差異化和非平凡的,還要有廣泛的應(yīng)用和活躍的社區(qū)。Hadoop恰好具備這三個(gè)特征,以Hadoop為核心的大數(shù)據(jù)開源生態(tài)系統(tǒng)逐漸形成,Hadoop也成為自Linux以來最成功的開源軟件,沒有之一。受人民大學(xué)信息學(xué)院院長(zhǎng)杜小勇老師的委托,我在CNCC 2015上組織了一個(gè)名為“大數(shù)據(jù)開源生態(tài)系統(tǒng)”的論壇。論壇邀請(qǐng)了來自互聯(lián)網(wǎng)企業(yè)、硬件廠商、系統(tǒng)集成商以及學(xué)術(shù)界的同行分享在大數(shù)據(jù)開源方面的工作和體會(huì)。在最后的Panel環(huán)節(jié),討論了為什么要做開源和怎么做開源這兩個(gè)問題。回答是比較分散的,有開源是唯一選擇的,有拉通產(chǎn)業(yè)鏈的,有認(rèn)為開源是新業(yè)態(tài)新商業(yè)模式的,有認(rèn)為開源促進(jìn)技術(shù)進(jìn)步的??傊诋a(chǎn)業(yè)鏈不同的環(huán)節(jié)上的機(jī)構(gòu)做開源的動(dòng)機(jī)和目標(biāo)自然是不同的,但只有這樣,產(chǎn)業(yè)鏈中不同角色都能夠在生態(tài)系統(tǒng)中找到自己的位置,這樣的生態(tài)系統(tǒng)才是健壯的有生命力的,不是嗎?

4. Hadoop的發(fā)展歷史和應(yīng)用之路

大數(shù)據(jù)領(lǐng)域第一個(gè)吃螃蟹的是互聯(lián)網(wǎng)行業(yè)。這是因?yàn)榇髷?shù)據(jù)概念和技術(shù)都來源于互聯(lián)網(wǎng)企業(yè)的老大哥Google的原因。以Hadoop投入實(shí)際應(yīng)用來看:

從2006年到2008年是Hadoop的誕生階段。只有國外少數(shù)幾個(gè)互聯(lián)網(wǎng)巨頭在嘗試,國內(nèi)互聯(lián)網(wǎng)行業(yè)在學(xué)習(xí)這項(xiàng)新技術(shù)。2006年,Yahoo!構(gòu)建100節(jié)點(diǎn)規(guī)模的Hadoop機(jī)群用于Webmap業(yè)務(wù)。2007年,Yahoo!構(gòu)建1000節(jié)點(diǎn)規(guī)模的Hadoop機(jī)群。2008年,Yahoo!的Hadoop機(jī)群擴(kuò)展到2000節(jié)點(diǎn)規(guī)模,F(xiàn)acebook貢獻(xiàn)Hive項(xiàng)目到開源社區(qū)。

從2008年到2010年是Hadoop的少年階段。在互聯(lián)網(wǎng)行業(yè)已經(jīng)開始投入實(shí)際應(yīng)用,應(yīng)用集中在網(wǎng)頁存儲(chǔ)檢索,日志處理和用戶行為分析等方面。2009年,Yahoo!使用4000節(jié)點(diǎn)的機(jī)群運(yùn)行Hadoop,支持廣告系統(tǒng)和Web搜索的研究;Facebook使用600節(jié)點(diǎn)的機(jī)群運(yùn)行 Hadoop,存儲(chǔ)內(nèi)部日志數(shù)據(jù),支持其上的數(shù)據(jù)分析和機(jī)器學(xué)習(xí);百度用Hadoop處理每周200TB的數(shù)據(jù),進(jìn)行搜索日志分析和網(wǎng)頁數(shù)據(jù)挖掘工作。2010年,F(xiàn)acebook的Hadoop機(jī)群擴(kuò)展到1000節(jié)點(diǎn);百度用Hadoop每天可處理1PB的數(shù)據(jù);中國移動(dòng)通信研究院基于Hadoop開發(fā)了“大云”(BigCloud)系統(tǒng),不但用于相關(guān)數(shù)據(jù)分析,還對(duì)外提供服務(wù);淘寶的Hadoop系統(tǒng)達(dá)到千臺(tái)規(guī)模,用于存儲(chǔ)并處理電子商務(wù)的交易相關(guān)數(shù)據(jù)。

從2010年到2015年是Hadoop的青年階段。在互聯(lián)網(wǎng)行業(yè)無不將Hadoop作為大數(shù)據(jù)計(jì)算的標(biāo)準(zhǔn)配置,且應(yīng)用形式趨于多樣化;企業(yè)計(jì)算領(lǐng)域開始實(shí)踐基于Hadoop的大數(shù)據(jù)應(yīng)用;在追求大數(shù)據(jù)處理能力的同時(shí),也開始思考系統(tǒng)適配性和效率問題?;ヂ?lián)網(wǎng)行業(yè)出現(xiàn)了大量數(shù)據(jù)分析類應(yīng)用,比如支付寶的交易數(shù)據(jù)離線分析系統(tǒng)等;用Hadoop與生態(tài)系統(tǒng)中的其他軟件一起構(gòu)成更為復(fù)雜的應(yīng)用系統(tǒng),比如騰訊的廣點(diǎn)通精準(zhǔn)廣告投放系統(tǒng),電信運(yùn)營(yíng)商的基于用戶畫像的精準(zhǔn)營(yíng)銷系統(tǒng)等。除互聯(lián)網(wǎng)行業(yè)外,出現(xiàn)了網(wǎng)絡(luò)通訊大數(shù)據(jù)、金融大數(shù)據(jù)、交通旅游大數(shù)據(jù)、工業(yè)制造大數(shù)據(jù)、醫(yī)療健康大數(shù)據(jù)、社會(huì)治理大數(shù)據(jù)、教育大數(shù)據(jù)等,大數(shù)據(jù)理念和技術(shù)已經(jīng)融入各行各業(yè)。Hadoop源于互聯(lián)網(wǎng)行業(yè),在應(yīng)用于企業(yè)計(jì)算時(shí),需要進(jìn)行適配,原因在于互聯(lián)網(wǎng)應(yīng)用和企業(yè)計(jì)算應(yīng)用在需求、服務(wù)、研發(fā)和運(yùn)維體系方面有本質(zhì)的不同?;ヂ?lián)網(wǎng)應(yīng)用業(yè)務(wù)邏輯簡(jiǎn)單、服務(wù)于海量用戶、非固定使用人群、系統(tǒng)的用戶體驗(yàn)至上、持續(xù)交付、能夠快速響應(yīng)的專業(yè)運(yùn)維;而企業(yè)計(jì)算應(yīng)用業(yè)務(wù)邏輯復(fù)雜、有限數(shù)量用戶、固定使用人群、系統(tǒng)更強(qiáng)調(diào)穩(wěn)定可靠、版本交付、層級(jí)式的技術(shù)支持。一時(shí)間市面上出現(xiàn)了很多面向企業(yè)用戶的Hadoop發(fā)行版,以易部署、好配置,以及使用和管理方便為切入點(diǎn),吸引著企業(yè)用戶的眼球。

5.大數(shù)據(jù)技術(shù)的發(fā)展趨勢(shì)

系統(tǒng)架構(gòu)的專業(yè)化。從當(dāng)今IT技術(shù)的發(fā)展角度看,提出系統(tǒng)結(jié)構(gòu)上的解決方案是“應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)架構(gòu)與技術(shù)”。也就是說根據(jù)具體類型應(yīng)用的需求,在系統(tǒng)架構(gòu)和關(guān)鍵技術(shù)上進(jìn)行創(chuàng)新。為了降低成本并獲得更好的能效,大數(shù)據(jù)應(yīng)用系統(tǒng)越來越趨向扁平化、專用化的系統(tǒng)架構(gòu)和數(shù)據(jù)處理技術(shù),逐漸擺脫了傳統(tǒng)的通用技術(shù)體系。比如并行數(shù)據(jù)庫更鮮明的分化為面向事務(wù)處理的OLTP類數(shù)據(jù)庫和面向分析的OLAP類數(shù)據(jù)庫等。傳統(tǒng)的應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器和存儲(chǔ)服務(wù)器這樣的典型三層架構(gòu)受到極大的沖擊。應(yīng)用開發(fā)人員更深入的理解計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),“程序” = “算法” + “數(shù)據(jù)結(jié)構(gòu)”將逐漸演變成“程序” = “算法” + “數(shù)據(jù)結(jié)構(gòu)” + “系統(tǒng)結(jié)構(gòu)”。

大數(shù)據(jù)生態(tài)系統(tǒng)范圍擴(kuò)大??寺×薌oogle的GFS和MapReduce的Apache Hadoop自2008年以來逐漸為互聯(lián)網(wǎng)企業(yè)接納,并成為大數(shù)據(jù)處理領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。但2013年出現(xiàn)的Spark作為一匹黑馬可以說終結(jié)了這一神話,大數(shù)據(jù)技術(shù)不再一家獨(dú)大。由于應(yīng)用不同導(dǎo)致Hadoop一套軟件系統(tǒng)不可能滿足所有需求,在全面兼容Hadoop的基礎(chǔ)上,Spark通過更多的利用內(nèi)存處理大幅提高系統(tǒng)性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Spark SQL等的出現(xiàn)并不是取代Hadoop,而是擴(kuò)大了大數(shù)據(jù)技術(shù)生態(tài)環(huán)境,促使生態(tài)環(huán)境向良性和完整發(fā)展。今后在非易失存儲(chǔ)層次、網(wǎng)絡(luò)通信層次、易失存儲(chǔ)層次和計(jì)算框架層次還會(huì)出現(xiàn)更多、更好和更專用化的軟件系統(tǒng)。

系統(tǒng)整體效能更為用戶重視。在全球互聯(lián)網(wǎng)企業(yè)的努力下,Hadoop已經(jīng)可以處理百PB級(jí)的數(shù)據(jù),在不考慮時(shí)間維度的前提下,價(jià)值密度低的數(shù)據(jù)可以處理了。在解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù)無法處理如此量級(jí)的數(shù)據(jù)之后,業(yè)界正在向系統(tǒng)能效要價(jià)值。能效問題一方面體現(xiàn)在系統(tǒng)性能上?;ヂ?lián)網(wǎng)服務(wù)強(qiáng)調(diào)用戶體驗(yàn),原本做不到實(shí)時(shí)的應(yīng)用在向?qū)崟r(shí)化靠攏,比如前端系統(tǒng)及業(yè)務(wù)日志從產(chǎn)生到收集入庫的延遲從1到2天時(shí)間進(jìn)化到10秒以內(nèi)。傳統(tǒng)企業(yè)無法忍受關(guān)系數(shù)據(jù)庫動(dòng)輒幾十分鐘的查詢分析性能,紛紛求助于性價(jià)比更好的技術(shù)和產(chǎn)品。這些需求使大數(shù)據(jù)交互式查詢分析、流式計(jì)算、內(nèi)存計(jì)算成為業(yè)界研發(fā)和應(yīng)用的新方向。能效問題的另一方面體現(xiàn)在系統(tǒng)功耗和成本上。中科院計(jì)算所陳云霽研究員領(lǐng)導(dǎo)研究的專用神經(jīng)網(wǎng)絡(luò)處理器技術(shù),可大幅加速機(jī)器學(xué)習(xí)負(fù)載,與通用芯片和GPU相比,計(jì)算速度提高幾十倍,功耗只有十分之一,整體能效提高450倍。百度云存儲(chǔ)萬臺(tái)定制ARM服務(wù)器可節(jié)電約25%,存儲(chǔ)密度提升70%,每瓦特計(jì)算能力提升34倍(用GPU取代CPU計(jì)算),每GB存儲(chǔ)成本降低50%。

個(gè)性化服務(wù)的需求愈發(fā)強(qiáng)烈。個(gè)性化對(duì)應(yīng)于互聯(lián)網(wǎng)服務(wù)的長(zhǎng)尾部分,這部分需求在傳統(tǒng)的系統(tǒng)設(shè)計(jì)中因?yàn)閺?fù)雜性原因是被舍棄的,但正是這部分體現(xiàn)出個(gè)性化服務(wù)的需求。個(gè)性化服務(wù),即系統(tǒng)能夠提供滿足不同個(gè)體需求的差異化服務(wù),比如個(gè)性化推薦,廣告精準(zhǔn)投放等。就拿個(gè)性化推薦技術(shù)來說,目前已經(jīng)開始從簡(jiǎn)單的商品推薦走向復(fù)雜的內(nèi)容推薦。根據(jù)用戶的特性與偏好,推薦內(nèi)容的特征,以及當(dāng)時(shí)的上下文數(shù)據(jù)(客戶端設(shè)備類型、用戶所處時(shí)空數(shù)據(jù)等),向特定用戶提供個(gè)性化的內(nèi)容推薦服務(wù),內(nèi)容包括商品(包括電商和零售)、廣告、新聞和資訊等。在移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)飛速發(fā)展的時(shí)代,個(gè)性化推薦將成為用戶獲取信息最直接的渠道之一。

價(jià)值挖掘的理論和技術(shù)亟待發(fā)展。對(duì)數(shù)據(jù)進(jìn)行淺層分析的理論和技術(shù),主要體現(xiàn)在分布式系統(tǒng)和關(guān)系型數(shù)據(jù)庫理論的結(jié)合與再創(chuàng)新,目前已經(jīng)有較大幅度進(jìn)展。但是,從數(shù)據(jù)中抽取隱含的信息或者知識(shí),也就是價(jià)值挖掘,這方面的理論和技術(shù)還比較缺乏。一是缺乏成熟的數(shù)據(jù)挖掘建模方法和工具,經(jīng)驗(yàn)對(duì)于挖掘出有價(jià)值信息的影響甚大,原始數(shù)據(jù)與隱含信息之間存在技術(shù)缺失,所以“啤酒+尿布”的案例并不是天天都能產(chǎn)生的。二是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)面臨應(yīng)用問題。與大數(shù)據(jù)相結(jié)合,已經(jīng)在諸如語音識(shí)別、圖像識(shí)別、廣告推薦和風(fēng)險(xiǎn)控制等場(chǎng)景中得以初步應(yīng)用,但這方面的技術(shù)和軟件工具成熟度不高,還有很大提升空間。此外,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的應(yīng)用場(chǎng)景還不夠廣泛,這既是機(jī)遇也是挑戰(zhàn)。

6. 結(jié)語

Hadoop開源軟件自2006年起至今已經(jīng)走過十個(gè)年頭,這對(duì)于任何軟件來說生命周期不可謂不長(zhǎng)。但是,Hadoop也在經(jīng)歷來自其他開源黑馬的沖擊。Spark在早期發(fā)展階段通過全面兼容Hadoop而借力于后者成熟的生態(tài)系統(tǒng)。時(shí)至今日,Spark正在挑戰(zhàn)Hadoop的權(quán)威,因?yàn)镾park已經(jīng)將發(fā)展目標(biāo)定位在取代Hadoop。Hadoop老矣,尚能飯否? Hadoop的近100位Committer在積極的為Hadoop謀劃未來,讓我們拭目以待吧!我們已經(jīng)步入數(shù)據(jù)化全覆蓋的時(shí)代,社會(huì)生活、各行各業(yè)都在因數(shù)據(jù)而發(fā)生巨變。近年來,大數(shù)據(jù)已成為國家層面的基礎(chǔ)性戰(zhàn)略資源,正日益對(duì)全球生產(chǎn)、流通、分配、消費(fèi)活動(dòng)以及經(jīng)濟(jì)運(yùn)行機(jī)制、社會(huì)生活方式和國家治理能力產(chǎn)生重要影響。推動(dòng)大數(shù)據(jù)發(fā)展已成為國際社會(huì)的行動(dòng)共識(shí)。

標(biāo)簽:吳忠 昭通 婁底 三明 云浮 臨沂 滁州 威海

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《總結(jié)Hadoop集群技術(shù)近年來對(duì)大數(shù)據(jù)處理的推動(dòng)》,本文關(guān)鍵詞  總結(jié),Hadoop,集群,技術(shù),近年來,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《總結(jié)Hadoop集群技術(shù)近年來對(duì)大數(shù)據(jù)處理的推動(dòng)》相關(guān)的同類信息!
  • 本頁收集關(guān)于總結(jié)Hadoop集群技術(shù)近年來對(duì)大數(shù)據(jù)處理的推動(dòng)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章