Spark | MapReduce | |
數(shù)據(jù)存儲(chǔ)結(jié)構(gòu) | 使用內(nèi)存構(gòu)建彈性分布式數(shù)據(jù)集RDD,對(duì)數(shù)據(jù)進(jìn)行運(yùn)算和cache。 | 磁盤(pán)HDFS文件系統(tǒng)的split |
編程范式 | DAG(Transformation+Action) | Map+Reduce |
計(jì)算中間結(jié)果的存儲(chǔ) | 在內(nèi)存中維護(hù),存取速度比磁盤(pán)高幾個(gè)數(shù)量級(jí) | 落到磁盤(pán),IO及序列化、反序列化代價(jià)大 |
Task維護(hù)方式 | 線程 | 進(jìn)程 |
時(shí)間 | 對(duì)于小數(shù)據(jù)集讀取能夠達(dá)到亞秒級(jí)的延遲 | 需要數(shù)秒時(shí)間才能啟動(dòng)任務(wù) |
時(shí)間跨度在數(shù)十分鐘到數(shù)小時(shí)
Haoop MapReduce
時(shí)間跨度在數(shù)十秒到數(shù)分鐘
Cloudera、Impala 這兩者實(shí)時(shí)性均優(yōu)于hive。
時(shí)間跨度在數(shù)百毫秒到數(shù)秒
Storm
Spark采用Executor的優(yōu)點(diǎn):(相比于Hadoop的MR)
當(dāng)執(zhí)行一個(gè)Application時(shí),Driver會(huì)向集群管理器申請(qǐng)資源,啟動(dòng)Executor,
并向Executor發(fā)送應(yīng)用程序代碼和文件,然后在Executor上執(zhí)行Task,運(yùn)行結(jié)束后,
執(zhí)行結(jié)果會(huì)返回給Driver,或者寫(xiě)到HDFS或者其他數(shù)據(jù)庫(kù)中。
1. 為應(yīng)用構(gòu)建起基本的運(yùn)行環(huán)境,即由Driver創(chuàng)建一個(gè)SparkContext進(jìn)行資源的申請(qǐng)、任務(wù)的分配和監(jiān)控。
2. 資源管理器為Executor分配資源,并啟動(dòng)Executor進(jìn)程。
4. Task在Executor上運(yùn)行把執(zhí)行結(jié)果反饋給TaskScheduler,然后反饋給DAGScheduler,運(yùn)行完畢后寫(xiě)入數(shù)據(jù)并釋放所有資源。
1. 每個(gè)Application都有自己專(zhuān)屬的Executor進(jìn)程,并且該進(jìn)程在Application運(yùn)行期間一直駐留。Executor進(jìn)程以多線程的方式運(yùn)行Task。
2. Spark運(yùn)行過(guò)程與資源管理器無(wú)關(guān),只要能夠獲取Executor進(jìn)程并保持通信即可。
3. Task采用了數(shù)據(jù)本地性和推測(cè)執(zhí)行等優(yōu)化機(jī)制。(計(jì)算向數(shù)據(jù)靠攏。)
類(lèi)似于MR1.0,slot為資源分配單位,但性能并不好。
Mesos和Spark有一定的親緣關(guān)系。
mesos和yarn的聯(lián)系
這種部署方式較為繁瑣。
Spark用快速的小批量計(jì)算模擬流計(jì)算,并非真實(shí)的流計(jì)算。
無(wú)法實(shí)現(xiàn)毫秒級(jí)的流計(jì)算,對(duì)于需要毫秒級(jí)實(shí)時(shí)響應(yīng)的企業(yè)應(yīng)用而言,仍需采用流計(jì)算框架Storm等。
好處如下:
現(xiàn)狀:
1. Spark目前還是無(wú)法取代Hadoop生態(tài)系統(tǒng)中的一些組件所實(shí)現(xiàn)的功能。
2. 現(xiàn)有的Hadoop組件開(kāi)發(fā)的應(yīng)用,完全遷移到Spark上需要一定的成本。
到此這篇關(guān)于Spark簡(jiǎn)介以及與Hadoop對(duì)比分析的文章就介紹到這了,更多相關(guān)Spark與Hadoop內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
標(biāo)簽:那曲 松原 蕪湖 慶陽(yáng) 泰州 朝陽(yáng) 銅川 周口
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Spark簡(jiǎn)介以及與Hadoop對(duì)比分析》,本文關(guān)鍵詞 Spark,簡(jiǎn)介,以及,與,Hadoop,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。