

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1、kafka的message包括哪些信息一個(gè)Kafka的Message由一個(gè)固定長(zhǎng)度的header和一個(gè)變長(zhǎng)的消息體body組成header部分由一個(gè)字節(jié)的magic(文件格式)和四個(gè)字節(jié)的CRC32(用于判斷body消息體是否正常)構(gòu)成。當(dāng)magic的值為1的時(shí)候,會(huì)在magic和crc32之間多一個(gè)字節(jié)的數(shù)據(jù):attributes(保存一些相關(guān)屬性,比如是否壓縮、壓縮格式等等);如果magic的值為0,那么不存在attribute
2、s屬性body是由N個(gè)字節(jié)構(gòu)成的一個(gè)消息體,包含了具體的keyvalue消息2、怎么查看kafka的offset0.9版本以上,可以用最新的Consumerclient客戶(hù)端,有consumer.seekToEnd()consumer.position()可以用于得到當(dāng)前最新的offset:3、hadoop的shuffle過(guò)程一、Map端的shuffleMap端會(huì)處理輸入數(shù)據(jù)并產(chǎn)生中間結(jié)果,這個(gè)中間結(jié)果會(huì)寫(xiě)到本地磁盤(pán),而不是HDFS。每
3、個(gè)Map的輸出會(huì)先寫(xiě)到內(nèi)存緩沖區(qū)中,當(dāng)寫(xiě)入的數(shù)據(jù)達(dá)到設(shè)定的閾值時(shí),系統(tǒng)將會(huì)啟動(dòng)一個(gè)線程將緩沖區(qū)的數(shù)據(jù)寫(xiě)到磁盤(pán),這個(gè)過(guò)程叫做spill。在spill寫(xiě)入之前,會(huì)先進(jìn)行二次排序,首先根據(jù)數(shù)據(jù)所屬的partition進(jìn)行排序,然后每個(gè)partition中的數(shù)據(jù)再按key來(lái)排序。partition的目是將記錄劃分到不同的Reducer上去,以期望能夠達(dá)到負(fù)載均衡,以后的Reducer就會(huì)根據(jù)partition來(lái)讀取自己對(duì)應(yīng)的數(shù)據(jù)。接著運(yùn)行com
4、biner(如果設(shè)置了的話),combiner的本質(zhì)也是一個(gè)Reducer,其目的是對(duì)將要寫(xiě)入到磁盤(pán)上的文件先進(jìn)行一次處理,這樣,寫(xiě)入到磁盤(pán)的數(shù)Spark有很多種模式,最簡(jiǎn)單就是單機(jī)本地模式,還有單機(jī)偽分布式模式,復(fù)雜的則運(yùn)行在集群中,目前能很好的運(yùn)行在Yarn和Mesos中,當(dāng)然Spark還有自帶的Stalone模式,對(duì)于大多數(shù)情況Stalone模式就足夠了,如果企業(yè)已經(jīng)有Yarn或者M(jìn)esos環(huán)境,也是很方便部署的。stalone(
5、集群模式):典型的Materslave模式,不過(guò)也能看出Master是有單點(diǎn)故障的;Spark支持ZooKeeper來(lái)實(shí)現(xiàn)HAonyarn(集群模式):運(yùn)行在yarn資源管理器框架之上,由yarn負(fù)責(zé)資源管理,Spark負(fù)責(zé)任務(wù)調(diào)度和計(jì)算onmesos(集群模式):運(yùn)行在mesos資源管理器框架之上,由mesos負(fù)責(zé)資源管理,Spark負(fù)責(zé)任務(wù)調(diào)度和計(jì)算oncloud(集群模式):比如AWS的EC2,使用這個(gè)模式能很方便的訪問(wèn)Amazo
6、n的S3Spark支持多種分布式存儲(chǔ)系統(tǒng):HDFS和S35、HDFS讀寫(xiě)數(shù)據(jù)的過(guò)程讀:1、跟namenode通信查詢(xún)?cè)獢?shù)據(jù),找到文件塊所在的datanode服務(wù)器2、挑選一臺(tái)datanode(就近原則,然后隨機(jī))服務(wù)器,請(qǐng)求建立socket流3、datanode開(kāi)始發(fā)送數(shù)據(jù)(從磁盤(pán)里面讀取數(shù)據(jù)放入流,以packet為單位來(lái)做校驗(yàn))4、客戶(hù)端以packet為單位接收,現(xiàn)在本地緩存,然后寫(xiě)入目標(biāo)文件寫(xiě):1、根namenode通信請(qǐng)求上傳文件
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2018最新java面試題整理
- 最新-黨務(wù)崗位面試題
- 最新麻醉專(zhuān)業(yè)面試題
- 最新社區(qū)面試題.doc
- 數(shù)據(jù)分析面試題
- 數(shù)據(jù)庫(kù)面試題
- 最新大廠數(shù)據(jù)湖面試題及知識(shí)點(diǎn)總結(jié)
- 最新大廠數(shù)據(jù)湖面試題及知識(shí)點(diǎn)總結(jié)
- 2018年度最新python面試題及內(nèi)容答案
- 最新書(shū)記員面試題~
- 最新書(shū)記員面試題
- 數(shù)據(jù)庫(kù)筆試面試題
- 數(shù)據(jù)庫(kù)面試題整理
- mysql數(shù)據(jù)庫(kù)面試題
- 數(shù)據(jù)庫(kù)筆試面試題
- 最新結(jié)構(gòu)化面試題~庫(kù)
- 最新結(jié)構(gòu)化面試題庫(kù)
- 數(shù)據(jù)庫(kù)面試題(附答案)
- 算法大全-面試題-數(shù)據(jù)結(jié)構(gòu)
- java數(shù)據(jù)結(jié)構(gòu)類(lèi)面試題
評(píng)論
0/150
提交評(píng)論