產(chǎn)品服務(wù)器設(shè)置了「外網(wǎng)帶寬使用率 = 100%,統(tǒng)計(jì)粒度5分鐘,連續(xù)1次滿足條件則每1小時(shí)告警一次」告警策略,基本上我每天都收到多條告警信息。
10年積累的成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有華州免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
放大一點(diǎn)查看數(shù)據(jù):
服務(wù)器部署了 web 服務(wù) 和 用于存儲(chǔ)圖片資源,報(bào)表導(dǎo)出和資源(平均200KB左右,非 kb)一張,部分頁(yè)面有時(shí)候會(huì)放好幾張圖片展示。如果是連續(xù)的瀏覽充電站、商城,或者導(dǎo)出報(bào)表,是很容易觸發(fā)2次峰值而導(dǎo)致報(bào)警的。
剛才只是大約估計(jì)了一下可能的情況,排查問(wèn)題還是要系統(tǒng)地去看,需要挑選了告警的時(shí)間區(qū)間,分別進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。
我們服務(wù)器對(duì)外的帶寬服務(wù)有:
WEB 服務(wù)比較簡(jiǎn)單,nginx 上都有日志,可以通過(guò)日志的 bodysize 統(tǒng)計(jì)。其他兩個(gè)是通過(guò) socket 的,持續(xù)通訊的,所以我選擇了數(shù)據(jù)日志的 log 進(jìn)行大概統(tǒng)計(jì)。
以下是我的 nginx access.log 日志格式:
可以通過(guò)配置調(diào)整 ngx_http_log_module 的 log format,如:
可以看出 nginx 日志的 body_bytes_sent 是字節(jié),所以可以通過(guò)以下指令查看數(shù)據(jù)量($10 是 body_bytes_sent 所在位置,需要根據(jù)實(shí)際調(diào)整;grep 內(nèi)容是某一分鐘的時(shí)間):
最終實(shí)際查看一天下來(lái)的流量也400MB,幾個(gè)高峰的分鐘段也就幾M,都在預(yù)期合理的范圍,并且形成不了持續(xù)的擁堵情況。
Web Socket 只有 connect 時(shí)的信息會(huì)寫(xiě)在 nginx access log 上,不過(guò)平時(shí)通訊的信息都有手動(dòng)寫(xiě)相應(yīng)的 access log(注意排除 業(yè)務(wù)的log信息)。經(jīng)統(tǒng)計(jì) web socket 的 access log 比較小,一天只有十幾M的數(shù)據(jù),基本可以忽略。
注意:心跳包也需要統(tǒng)計(jì)進(jìn)去。
樁agent 是通過(guò)端口直連的,沒(méi)有經(jīng)過(guò) nginx,log 比較分散,統(tǒng)計(jì)了幾個(gè)大的agent的 log(只統(tǒng)計(jì) access log),占用的大小都不大,基本不形成高峰。但由于數(shù)量多,沒(méi)有最終確定某個(gè)時(shí)間段的高峰值。
通過(guò) nginx 配置,限制最大的帶寬,可以稍微緩解一次訪問(wèn)的壓力。避免一個(gè)大文件的訪問(wèn),就長(zhǎng)期占用了所有的外網(wǎng)帶寬。
Nginx 限流有兩種方式:
ngx_http_limit_req_module 模塊提供限制請(qǐng)求處理速率能力,使用了漏桶算法(leaky bucket)。下面例子使用 nginx limit_req_zone 和 limit_req 兩個(gè)指令,限制單個(gè)IP的請(qǐng)求處理速率。
==在 nginx.conf http 中添加限流配置:==
==配置 server,使用 limit_req 指令應(yīng)用限流==
上面例子限制 10r/s,如果有時(shí)正常流量突然增大,超出的請(qǐng)求將被拒絕,無(wú)法處理突發(fā)流量,可以結(jié)合 burst 參數(shù)使用來(lái)解決該問(wèn)題。
burst 譯為突發(fā)、爆發(fā),表示在超過(guò)設(shè)定的處理速率后能額外處理的請(qǐng)求數(shù)。當(dāng) rate=10r/s 時(shí),將1s拆成10份,即每100ms可處理1個(gè)請(qǐng)求。
此處,burst=20 ,若同時(shí)有21個(gè)請(qǐng)求到達(dá),Nginx 會(huì)處理第一個(gè)請(qǐng)求,剩余20個(gè)請(qǐng)求將放入隊(duì)列,然后每隔100ms從隊(duì)列中獲取一個(gè)請(qǐng)求進(jìn)行處理。若請(qǐng)求數(shù)大于21,將拒絕處理多余的請(qǐng)求,直接返回503.
不過(guò),單獨(dú)使用 burst 參數(shù)并不實(shí)用。假設(shè) burst=50 ,rate依然為10r/s,排隊(duì)中的50個(gè)請(qǐng)求雖然每100ms會(huì)處理一個(gè),但第50個(gè)請(qǐng)求卻需要等待 50 * 100ms即 5s,這么長(zhǎng)的處理時(shí)間自然難以接受。
因此,burst 往往結(jié)合 nodelay 一起使用。
nodelay 針對(duì)的是 burst 參數(shù),burst=20 nodelay 表示這20個(gè)請(qǐng)求立馬處理,不能延遲,相當(dāng)于特事特辦。不過(guò),即使這20個(gè)突發(fā)請(qǐng)求立馬處理結(jié)束,后續(xù)來(lái)了請(qǐng)求也不會(huì)立馬處理。burst=20 相當(dāng)于緩存隊(duì)列中占了20個(gè)坑,即使請(qǐng)求被處理了,這20個(gè)位置這只能按 100ms一個(gè)來(lái)釋放。
這就達(dá)到了速率穩(wěn)定,但突然流量也能正常處理的效果。
ngx_http_limit_conn_module 提供了限制連接數(shù)的能力,利用 limit_conn_zone 和 limit_conn 兩個(gè)指令即可。下面是 Nginx 官方例子:
limit_conn perip 10 作用的key 是 $binary_remote_addr,表示限制單個(gè)IP同時(shí)最多能持有10個(gè)連接。
limit_conn perserver 100 作用的key是 $server_name,表示虛擬主機(jī)(server) 同時(shí)能處理并發(fā)連接的總數(shù)。
需要注意的是:只有當(dāng) request header 被后端server處理后,這個(gè)連接才進(jìn)行計(jì)數(shù)。
使用獨(dú)立的云存儲(chǔ),專門存放資源文件。
Agent 與樁之間是通過(guò)外網(wǎng)連接的,可以考慮多加一臺(tái)服務(wù)器,與 產(chǎn)品服務(wù)是一個(gè)內(nèi)網(wǎng)的。Agent 先連接到一臺(tái)轉(zhuǎn)發(fā)服務(wù)器,與 ECMP直接通過(guò)內(nèi)網(wǎng)連接。
端口轉(zhuǎn)發(fā)參考:《Agent端口映像》
略
鑒于當(dāng)前告警實(shí)際對(duì)訪問(wèn)的影響可忽略,將觸發(fā)次數(shù)調(diào)整為2次再告警。(后面再也沒(méi)有收到告警了~)
《 Nginx 的兩種限流方式 》
《 常用的服務(wù)器日志分析命令 》
可以直接在后臺(tái)進(jìn)行帶寬升級(jí)的
我現(xiàn)在用的小鳥(niǎo)云,性能、價(jià)格比騰訊云好太多了,特別是1V1專席客服,不用提交工單,建議你也試試
增加帶寬
可以采用增加帶寬的方法,或者可以提高CPU性能或者減少其他內(nèi)存使用率。