網(wǎng)絡(luò)分流器-戎騰網(wǎng)絡(luò)-DPI檢測是當(dāng)前比較流行的網(wǎng)絡(luò)監(jiān)控前端的一種模式,而網(wǎng)絡(luò)分流器對于網(wǎng)絡(luò)安全的重要性可以說是到頭重要的!今天我們來聊聊DPI檢測
創(chuàng)新互聯(lián)建站從2013年成立,先為吉縣等服務(wù)建站,吉縣等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為吉縣企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
深度數(shù)據(jù)包檢測(DPI)
深度數(shù)據(jù)包檢測(Deep packet inspection,縮寫為 DPI)是一種特殊的網(wǎng)絡(luò)技術(shù),一般網(wǎng)絡(luò)設(shè)備只會查看以太網(wǎng)頭部、IP頭部而不會分析TCP/UDP里面的內(nèi)容這種被稱為淺數(shù)據(jù)包檢測;與之對應(yīng)的DPI會檢查TCP/UDP里面的內(nèi)容,所以稱為深度數(shù)據(jù)包檢測。
DPI一般是一個硬件或者軟件,一般用“旁掛”的方式接入到網(wǎng)絡(luò)。它會對網(wǎng)絡(luò)中的每個數(shù)據(jù)包進行檢查,識別出應(yīng)用層協(xié)議,根據(jù)識別的協(xié)議采取一定的措施(比如記錄HTTP訪問行為)。對于TCP協(xié)議它可以識別完整的TCP交互過程(比如HTTP請求從請求到響應(yīng)中間會有多次TCP數(shù)據(jù)包發(fā)送)。
戎騰網(wǎng)絡(luò)移動互聯(lián)網(wǎng)采集器支持160個10G和20個100G
nDPI
nDPI是一個C語言編寫的DPI庫,用來實現(xiàn)軟件DPI系統(tǒng)。它是從OpenDPI擴展而來,二者的架構(gòu)和實現(xiàn)基本上差不多。
編譯安裝之后它生成/usr/local/lib/libndpi.(a,so)庫文件(a靜態(tài)庫文件,so動態(tài)鏈接庫);/usr/local/include/會安裝相關(guān)的頭文件。
我個人喜歡用 靜態(tài)庫文件,這樣會把所有的二進制代碼合并到一個可執(zhí)行文件中運行的時候不需要安裝一大堆庫。另外我也不喜歡把東西放到/usr/local/lib下,所以我提供的代碼是通過cmake做了一個“all in one”的編譯。github上放到是1.6版本的,如果你想更新代碼只要替換src文件夾就行了。
如何用nDPI
nDPI的代碼寫 的很爛,也沒有什么架構(gòu)就是一團亂麻(其實稍微寫寫都要比這個好)。但是它至少還能正常工作而且是唯一一個“開放”的DPI庫,所以無論什么原因你選擇了它都必須忍受它的“丑陋”。
nDPI幾乎沒有文檔說明,只帶了一個“ndpiReader”的例子,寫的“洋洋灑灑”如行云流水一般(就不吐槽了)。這就是我這篇文章的寫作原因,希望能給使用nDPI的同學(xué)一點幫助。
nDPI最重要的一個數(shù)據(jù)結(jié)構(gòu)是ndpi_detection_module_struct_t它通過ndpi_init_detection_module構(gòu)造出來
網(wǎng)絡(luò)分流器
第一個參數(shù)用來計算nDPI分析協(xié)議的各種超時時間,一般精確到毫秒就可以了1000(nDPI協(xié)議分析部分和“全局部分”耦合非常緊,這個數(shù)據(jù)其實只有“協(xié)議分析模塊”需要)
第二個、三個參數(shù)是封裝過的“內(nèi)存分配”函數(shù);nDPI的內(nèi)存管理非常亂,有些地方是我們自己申請內(nèi)存而由nDPI內(nèi)部幫我們釋放。所以必須nDPI并不直接使用malloc、free之類的申請、釋放內(nèi)存而是交由程序員自己提供函數(shù);
第三個參數(shù)是調(diào)試函數(shù),如果定義了NDPI_ENABLE_DEBUG_MESSAGES那么nDPI會調(diào)用這個函數(shù)輸出一些調(diào)試信息;
所有的nDPI API都是這種“鬼畜”風(fēng)格,幾乎是各種糾結(jié)。。。萬幸我們只需要使用很少的API就可以完成任務(wù)了。
配置協(xié)議分析模塊
nDPI支持多種協(xié)議,都在protocols文件夾中。編譯的時候所有協(xié)議都會被放到nDPI庫中。使用的時候我們可以自己設(shè)置需要開啟那些分析模塊
NDPI_PROTOCOL_BITMASK定義開啟協(xié)議的“位圖”,通過NDPI_BITMASK_ADD函數(shù)可以添加支持的協(xié)議,最后調(diào)用ndpi_set_protocol_detection_bitmask2配置位圖。
ndpi_set_protocol_detection_bitmask2函數(shù)的第一個參數(shù)就是ndpi_detection_module_struct_t(上面我們初始化的那個數(shù)據(jù)結(jié)構(gòu));第二個參數(shù)是位圖標(biāo)志。
特別注意:開啟的協(xié)議越多識別速度越慢;nDPI識別協(xié)議的時候是一個串行結(jié)構(gòu),無論是否被成功是被都會認(rèn)認(rèn)真真遍歷完我們配置好的協(xié)議
子協(xié)議
子協(xié)議是某個協(xié)議的細(xì)分,比如我們想要分析所有“Google”的HTTP請求那么第一步是分析出“HTTP”請求,第二步是判斷HOST包含google.com。這里的第二步就是“子協(xié)議”。
nDPI唯一的一份“QuickStartGuide”對這個有進一步解釋,子協(xié)議識別是以配置文件的方式提供給nDPI的。比如
它還支持端口的方式(TCP的81、8181直接被標(biāo)記為HTTP不再做內(nèi)容檢測)
網(wǎng)絡(luò)分流器
nDPI此處的實現(xiàn)使用了一個非常有名的算法—— Aho-Corasick。以第一幅圖為例子,里面配置了兩條規(guī)則“Google”和“Veneer”,我們有一個字符串(HOST),怎么判斷這個字符串符合那個規(guī)則呢?最簡單的辦法是循環(huán)所有的規(guī)則,如果規(guī)則條目很多那么速度會非常慢。Aho-Corasick就是這樣一種算法,它可以在O(n)中完成所有的匹配任務(wù)。
通過ndpi_load_protocols_file函數(shù)加載“子協(xié)議”。
開始識別
識別協(xié)議的API非常簡單——ndpi_detection_process_packet函數(shù)。就是這個坑爹的函數(shù),變態(tài)程度幾乎可以說用令人發(fā)指來形容。
ndpi_struct全局的結(jié)構(gòu)體
flow比較特殊,我們后面講
packet指向IP頭部的指針
packetlen數(shù)據(jù)包大小
current_tick_l當(dāng)前時間(精確到毫秒)用于判斷“過期的TCP請求”
src,dst其實沒有什么用途,文檔上說是跟狀態(tài)機有關(guān)其實沒有半毛錢關(guān)系。唯一的用途是更新“分析協(xié)議”的配置。一般設(shè)置為NULL就行了
TCP協(xié)議是一個流(flow)式的協(xié)議,經(jīng)過從三次握手開始通訊雙方都是“請求->響應(yīng)”的結(jié)構(gòu)。DPI可以跟蹤其中的一個或者幾個數(shù)據(jù)包,也可以實現(xiàn)全部跟蹤(后續(xù)我會交叉使用TCP會話、會話、flow,三個名詞其實是一樣的)。
nDPI內(nèi)部不會記錄完整的TCP數(shù)據(jù)包,而是用一個定義非常模糊的ndpi_flow_struct類型來表示一個TCP會話(這個數(shù)據(jù)結(jié)構(gòu)還包含了“協(xié)議分析”部分?jǐn)?shù)據(jù),所以定義非常模糊)。為了便于分析完整的TCP請求我們定義了一個自己的數(shù)據(jù)結(jié)構(gòu)dpi_flow_t,ndpi_flow_struct作為它的一個成員。用偽代碼表示分析過程:
落到代碼上就是get_ndpi_flow函數(shù);實現(xiàn)上我們會對目標(biāo)、源端口排序再做hash;這是由于數(shù)據(jù)包是“相互通訊”的所以發(fā)送方、接收方是相對而言,否則識別到的可能是“一方”的數(shù)據(jù)。
一般我們用一個二叉樹存放所有正在分析的TCP會話,nDPI移植了FreeBSD中的一組函數(shù)ndpi_tfind、ndpi_tsearch、ndpi_twalk、ndpi_tdelete等用來實現(xiàn)常用的數(shù)據(jù)結(jié)構(gòu)操作。