1,日志的采集
創(chuàng)新互聯(lián)專注于諸暨網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供諸暨營(yíng)銷型網(wǎng)站建設(shè),諸暨網(wǎng)站制作、諸暨網(wǎng)頁(yè)設(shè)計(jì)、諸暨網(wǎng)站官網(wǎng)定制、成都微信小程序服務(wù),打造諸暨網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供諸暨網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。
從flume agent 上的數(shù)據(jù)一般分到兩條線上一條是kafka 集群 ,后期可以用流式處理(spark streaming 或storm 等等)一條是到hdfs,后期可以用hive處理,
業(yè)界叫l(wèi)ambda架構(gòu) architecture (一般公司的推薦系統(tǒng),就是用這種架構(gòu))
flume-ng agent 采集收集日志后,聚合在一個(gè)節(jié)點(diǎn)上(也可以不聚合)
為什么要聚合?為什么不直接寫到kafka集群?
假如公司規(guī)模比較大,有無(wú)數(shù)個(gè)flume節(jié)點(diǎn),這么多都連kafka,會(huì)增加復(fù)雜度,有個(gè)聚合節(jié)點(diǎn)(會(huì)是多個(gè)節(jié)點(diǎn)組成,防止單節(jié)點(diǎn)掛了),還可以對(duì)日志格式統(tǒng)一處理,篩選不要的數(shù)據(jù)
hdfs 可以永久保存數(shù)據(jù),mr 可以處理多久數(shù)據(jù)都行
kafka 集群數(shù)據(jù)可以存儲(chǔ)一定時(shí)間不能長(zhǎng)期存儲(chǔ),sparkstreaming 只能處理一定時(shí)間訪問(wèn)內(nèi)數(shù)據(jù)
storm 流
數(shù)據(jù)源 nginx 日志,MySQL 日志,tomcat 日志等等->
flume ->
kafka 消息件 消息發(fā)送到這里緩存數(shù)據(jù)一段時(shí)間 ->
spark streaming+spark sql on yarn cluster (實(shí)時(shí)計(jì)算) -> 存儲(chǔ)
1.->redis adminLTE + flask 前端組件 + echarts3 集成到監(jiān)控的系統(tǒng)上
2.->influxdb 時(shí)序分布式數(shù)據(jù)庫(kù) grafana 可視化組件(這兩種結(jié)合比較好)
(elk kibana )
存儲(chǔ)+可視化分析
畫(huà)圖工具
http://www.processon.com/