以前很多業(yè)務(wù)都是用scribe做日志收集的支撐的,后來fb停止了對scribe的開發(fā)支持。而且scribe在機器上編譯一次的代價太大了,各種坑,正好后來flume從1.3.0開始加入了對scribe的支持。就可以把原來scribe上面接入的數(shù)據(jù)轉(zhuǎn)用flume收集了。雖然我很喜歡scribe,但是失去了官方支持畢竟還是很鬧心的。
站在用戶的角度思考問題,與客戶深入溝通,找到靜海網(wǎng)站設(shè)計與靜海網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名與空間、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋靜海地區(qū)。
agent.channels=c1 agent.channels.c1.capacity=20000 agent.channels.c1.transactionCapacity=10000 agent.channels.c1.type=memory agent.sinks=k1 agent.sinks.k1.channel=c1 agent.sinks.k1.hdfs.batchSize=8000 agent.sinks.k1.hdfs.filePrefix=log agent.sinks.k1.hdfs.fileType=DataStream agent.sinks.k1.hdfs.path=hdfs://NNHA/data/flume/%{category}/%Y%m%d agent.sinks.k1.hdfs.rollCount=0 agent.sinks.k1.hdfs.rollInterval=86400 agent.sinks.k1.hdfs.round=true agent.sinks.k1.hdfs.roundUnit=minute agent.sinks.k1.hdfs.roundValue=1 agent.sinks.k1.hdfs.serializer.appendNewline=false agent.sinks.k1.hdfs.useLocalTimeStamp=true agent.sinks.k1.hdfs.writeFormat=TEXT agent.sinks.k1.type=hdfs agent.sources=r1 agent.sources.r1.channels=c1 agent.sources.r1.host=0.0.0.0 agent.sources.r1.port=1463 agent.sources.r1.type=org.apache.flume.source.scribe.ScribeSource agent.sources.r1.workerThreads=5
主要是serializer.appendNewline設(shè)置為false,否則會每條自動添加一個回車上去,其他也沒什么太多好解釋的,用過flume的自然秒懂,hdfs.path里面,%{category}就是意味著原來scribe里面的category。
flume 1.6的新特性里面是加入了對kafka的source和sink的支持,以及對數(shù)據(jù)內(nèi)容的正則過濾傳遞,這點很有用,貌似下個月或者下下個月會有本關(guān)于flume的新書上市。