RDMA該怎么用,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
垣曲網(wǎng)站制作公司哪家好,找成都創(chuàng)新互聯(lián)!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、響應(yīng)式網(wǎng)站等網(wǎng)站項(xiàng)目制作,到程序開(kāi)發(fā),運(yùn)營(yíng)維護(hù)。成都創(chuàng)新互聯(lián)從2013年成立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選成都創(chuàng)新互聯(lián)。
如今,服務(wù)器的網(wǎng)絡(luò)帶寬越來(lái)越高。當(dāng)網(wǎng)絡(luò)帶寬邁過(guò)萬(wàn)兆這條線后,操作系統(tǒng)用于處理網(wǎng)絡(luò)IO的開(kāi)銷就越來(lái)越難以忽視。在一些網(wǎng)絡(luò)IO密集的業(yè)務(wù)中,操作系統(tǒng)本身成為了網(wǎng)絡(luò)通信的瓶頸,這不僅會(huì)導(dǎo)致調(diào)用時(shí)延的增加(尤其是長(zhǎng)尾),還會(huì)影響到服務(wù)的整體吞吐。
相對(duì)于網(wǎng)絡(luò)帶寬的發(fā)展速度,CPU性能的發(fā)展停滯是導(dǎo)致上述問(wèn)題的主要原因。 因此,想從根本上解決CPU參與網(wǎng)絡(luò)傳輸?shù)牡托?wèn)題,就要更多地借助專用芯片的能力,RDMA高性能網(wǎng)絡(luò)勢(shì)不可擋。
RDMA(Remote Direct Memory Access),可以簡(jiǎn)單理解為網(wǎng)卡完全繞過(guò)CPU實(shí)現(xiàn)兩個(gè)服務(wù)器之間的內(nèi)存數(shù)據(jù)交換。其作為一種硬件實(shí)現(xiàn)的網(wǎng)絡(luò)傳輸技術(shù),可以大幅提升網(wǎng)絡(luò)傳輸效率,幫助網(wǎng)絡(luò)IO密集的業(yè)務(wù)(比如分布式存儲(chǔ)、分布式數(shù)據(jù)庫(kù)等)獲得更低的時(shí)延以及更高的吞吐。
具體來(lái)說(shuō),RDMA技術(shù)的應(yīng)用要借助支持RDMA功能的網(wǎng)卡以及相應(yīng)的驅(qū)動(dòng)程序。由下圖所示,一旦應(yīng)用程序分配好資源,其可以直接把要發(fā)送的數(shù)據(jù)所在的內(nèi)存地址和長(zhǎng)度信息交給網(wǎng)卡。網(wǎng)卡從內(nèi)存中拉取數(shù)據(jù),由硬件完成報(bào)文封裝,然后發(fā)送給對(duì)應(yīng)的接收端。接收端收到RDMA報(bào)文后,直接由硬件解封裝,取出數(shù)據(jù)后,直接放在應(yīng)用程序預(yù)先指定的內(nèi)存位置。
由于整個(gè)IO過(guò)程無(wú)需CPU參與,無(wú)需操作系統(tǒng)內(nèi)核參與,沒(méi)有系統(tǒng)調(diào)用,沒(méi)有中斷,也無(wú)需內(nèi)存拷貝,因此RDMA網(wǎng)絡(luò)傳輸可以做到極高的性能。在極限benchmark測(cè)試中,RDMA的時(shí)延可以做到1us級(jí)別,而吞吐甚至可以達(dá)到200G。
需要注意的是,RDMA的使用需要應(yīng)用程序的代碼配合(RDMA編程)。與傳統(tǒng)TCP傳輸不同,RDMA并沒(méi)有提供socket API封裝,而是要通過(guò)verbs API來(lái)調(diào)用(使用libibverbs)。出于避免中間層額外開(kāi)銷的考慮,verbs API采用了貼近硬件實(shí)現(xiàn)的語(yǔ)義形態(tài),導(dǎo)致使用方法與socket API差異巨大。 因此,對(duì)大多數(shù)開(kāi)發(fā)者來(lái)說(shuō),無(wú)論是改造原有應(yīng)用程序適配RDMA,還是寫(xiě)一個(gè)全新的RDMA原生的應(yīng)用程序,都不容易。
如圖所示,在socket API中,發(fā)送接收數(shù)據(jù)主要用到的接口如下:
Socket API
其中,write和read操作中的fd是標(biāo)識(shí)一個(gè)連接的文件描述符。應(yīng)用程序要發(fā)送的數(shù)據(jù),會(huì)通過(guò)write拷貝到系統(tǒng)內(nèi)核緩沖區(qū)中;而read實(shí)際上也是從系統(tǒng)內(nèi)核緩沖區(qū)中將數(shù)據(jù)拷貝出來(lái)。 在絕大多數(shù)應(yīng)用程序里,通常都會(huì)設(shè)置fd為非阻塞的,也就是說(shuō),如果系統(tǒng)內(nèi)核緩沖區(qū)已滿,write操作會(huì)直接返回;而如果系統(tǒng)內(nèi)核緩沖區(qū)為空,read操作也會(huì)直接返回。 為了在第一時(shí)間獲知內(nèi)核緩沖區(qū)的狀態(tài)變化,應(yīng)用程序需要epoll機(jī)制來(lái)監(jiān)聽(tīng)EPOLLIN和EPOLLOUT事件。如果epoll_wait函數(shù)因這些事件返回,則可以觸發(fā)下一次的write和read操作。這就是socket API的基本使用方法。 作為對(duì)比,在verbs API中,發(fā)送接收數(shù)據(jù)主要用到的接口如下:
Verbs API
其中,ibv_是libibverbs庫(kù)中函數(shù)和結(jié)構(gòu)體的前綴。ibv_post_send近似于發(fā)送操作,ibv_post_recv近似于接收操作。發(fā)送接收操作里面的qp(queue pair)近似于socket API里面的fd,作為一個(gè)連接對(duì)應(yīng)的標(biāo)識(shí)。wr(work request)這個(gè)結(jié)構(gòu)體里包含了要發(fā)送/接收的數(shù)據(jù)所在的內(nèi)存地址(進(jìn)程的虛擬地址)和長(zhǎng)度。ibv_poll_cq則作為事件檢測(cè)機(jī)制存在,類似于epoll_wait。
乍一看去,RDMA編程似乎很簡(jiǎn)單,只要把上述函數(shù)替換了就可以。但事實(shí)上,上述的對(duì)應(yīng)關(guān)系都是近似、類似,而不是等價(jià)。 關(guān)鍵區(qū)別在于,socket API都是同步操作,而RDMA API都是異步操作(注意異步和非阻塞是兩個(gè)不同的概念)。
具體而言,ibv_post_send函數(shù)返回成功,僅僅意味著成功地向網(wǎng)卡提交了發(fā)送請(qǐng)求,并不保證數(shù)據(jù)真的被發(fā)送出去了。如果此時(shí)立馬對(duì)發(fā)送數(shù)據(jù)所在的內(nèi)存進(jìn)行寫(xiě)操作,那么發(fā)送出去的數(shù)據(jù)就很可能是不正確的。socket API是同步操作,write函數(shù)返回成功,意味著數(shù)據(jù)已經(jīng)被寫(xiě)入了內(nèi)核緩沖區(qū),雖然此時(shí)數(shù)據(jù)未必真的發(fā)送了,但應(yīng)用程序已經(jīng)可以隨意處置發(fā)送數(shù)據(jù)所在的內(nèi)存。
另一方面,ibv_poll_cq所獲取的事件,與epoll_wait獲取的事件也是不同的。前者表明,之前提交給網(wǎng)卡的某一發(fā)送或接收請(qǐng)求完成了;而后者表示,有新的報(bào)文被成功發(fā)送或是接收了。這些語(yǔ)義上的變化會(huì)影響到上層應(yīng)用程序的內(nèi)存使用模式和API調(diào)用方式。
除了同步、異步的語(yǔ)義區(qū)別外, RDMA編程還有一個(gè)關(guān)鍵要素,即所有參與發(fā)送、接收的數(shù)據(jù),所在的內(nèi)存必須經(jīng)過(guò)注冊(cè)。
所謂內(nèi)存注冊(cè),簡(jiǎn)單理解,就是把一段內(nèi)存的虛擬地址和物理地址間的映射關(guān)系綁定好以后注冊(cè)給網(wǎng)卡硬件。這么做的原因在于,發(fā)送請(qǐng)求和接收請(qǐng)求所提交的內(nèi)存地址,都是虛擬地址。只有完成內(nèi)存注冊(cè),網(wǎng)卡才能把請(qǐng)求中的虛擬地址翻譯成物理地址,才能跳過(guò)CPU做直接內(nèi)存訪問(wèn)。內(nèi)存注冊(cè)(以及解注冊(cè))是一個(gè)很慢的操作,實(shí)際應(yīng)用中通常需要構(gòu)建內(nèi)存池,通過(guò)一次性注冊(cè)、重復(fù)使用來(lái)避免頻繁調(diào)用注冊(cè)函數(shù)。
關(guān)于RDMA編程,還有很多細(xì)節(jié)是普通網(wǎng)絡(luò)編程所不關(guān)心的(比如流控、TCP回退、非中斷模式等等),這里就不一一展開(kāi)介紹了。 總而言之,RDMA編程并不是一件容易的事情。那么,如何才能讓開(kāi)發(fā)者快速用上RDMA這樣的高性能網(wǎng)絡(luò)技術(shù)呢?
上面說(shuō)了很多socket API和verbs API的對(duì)比,主要還是為了襯托RDMA編程本身的復(fù)雜度。事實(shí)上,在實(shí)際生產(chǎn)環(huán)境中,直接調(diào)用socket API進(jìn)行網(wǎng)絡(luò)傳輸?shù)臉I(yè)務(wù)并不多,絕大多數(shù)都通過(guò)rpc框架間接使用socket API。一個(gè)完整的rpc框架,需要提供一整套網(wǎng)絡(luò)傳輸?shù)慕鉀Q方案,包括數(shù)據(jù)序列化、錯(cuò)誤處理、多線程處理等等。 brpc是百度開(kāi)源的一個(gè)基于C++的rpc框架,其相對(duì)于grpc更適用于有高性能需求的場(chǎng)景。在傳統(tǒng)TCP傳輸以外,brpc也提供了RDMA的使用方式,以進(jìn)一步突破操作系統(tǒng)本身的性能限制。有關(guān)具體的實(shí)現(xiàn)細(xì)節(jié),感興趣的朋友可以參見(jiàn)github上的源碼(https://github.com/apache/incubator-brpc/tree/rdma)。
brpc client端使用RDMA
brpc server端使用RDMA
上面分別列出了brpc中client和server使用RDMA的方法,即在channel和server創(chuàng)建時(shí),把use_rdma這個(gè)option設(shè)置為true即可(默認(rèn)是false,也就是使用TCP)。
是的,只需這兩行代碼。如果你的應(yīng)用程序本身基于brpc構(gòu)建,那么從TCP遷移到RDMA,幾分鐘就夠了。當(dāng)然,在上述quick start之后,如果有更高級(jí)的調(diào)優(yōu)需求,brpc也提供了一些運(yùn)行時(shí)的flag參數(shù)可調(diào)整,比如內(nèi)存池大小、qp/cq的大小、輪詢替代中斷等等。
下面通過(guò)echo benchmark說(shuō)明brpc使用RDMA的性能收益(可以在github代碼中的rdma_performance目錄下找到該benchmark)。在25G網(wǎng)絡(luò)的測(cè)試環(huán)境中,對(duì)于2KB以下的消息,使用RDMA后,server端的最大QPS提高了50%以上,200k的QPS下平均時(shí)延下降了50%以上。
Echo benchmark下server端最大QPS(25G網(wǎng)絡(luò))
Echo benchmark在200k QPS下的平均時(shí)延(25G網(wǎng)絡(luò))
RDMA對(duì)echo benchmark的性能收益僅作為參考。實(shí)際應(yīng)用程序的workload與echo相差巨大。對(duì)于某些業(yè)務(wù),使用RDMA的收益可能會(huì)小于上述值,因?yàn)榫W(wǎng)絡(luò)部分的開(kāi)銷僅占到其業(yè)務(wù)開(kāi)銷的一部分。但對(duì)于另一些業(yè)務(wù),由于避免了內(nèi)核操作對(duì)業(yè)務(wù)邏輯的干擾,使用RDMA的收益甚至?xí)哂谏鲜鲋?。這里舉兩個(gè)應(yīng)用brpc的例子:
在百度分布式塊存儲(chǔ)業(yè)務(wù)中,使用RDMA相比于使用TCP,4KB fio時(shí)延測(cè)試的平均值下降了約30%(RDMA僅優(yōu)化了網(wǎng)絡(luò)IO,存儲(chǔ)IO則不受RDMA影響)。
在百度分布式內(nèi)存KV業(yè)務(wù)中,使用RDMA相比于使用TCP,200k QPS下,單次查詢30key的平均時(shí)延下降了89%,而99分位時(shí)延下降了96%。
RDMA是一種新興的高性能網(wǎng)絡(luò)技術(shù),對(duì)于通信兩端均可控的數(shù)據(jù)中心內(nèi)網(wǎng)絡(luò)IO密集業(yè)務(wù),如HPC、機(jī)器學(xué)習(xí)、存儲(chǔ)、數(shù)據(jù)庫(kù)等,意義重大。我們鼓勵(lì)相關(guān)業(yè)務(wù)的開(kāi)發(fā)者關(guān)注RDMA技術(shù),嘗試?yán)胋rpc構(gòu)建自己的應(yīng)用以平滑遷移至RDMA。 但是,需要指出的是,RDMA當(dāng)前還無(wú)法像TCP那樣通用,有一些基礎(chǔ)設(shè)施層面的限制需要注意:
RDMA需要網(wǎng)卡硬件支持。常見(jiàn)的萬(wàn)兆網(wǎng)卡一般不支持這項(xiàng)技術(shù)。
RDMA的正常使用有賴于物理網(wǎng)絡(luò)支持。
百度智能云在RDMA基礎(chǔ)設(shè)施方面積累了深厚的經(jīng)驗(yàn)。得益于先進(jìn)的硬件配置與強(qiáng)大的工程技術(shù),用戶可以在25G甚至是100G網(wǎng)絡(luò)環(huán)境中,通過(guò)物理機(jī)或容器,充分獲取RDMA技術(shù)帶來(lái)的性能收益,而將與業(yè)務(wù)無(wú)關(guān)的復(fù)雜的物理網(wǎng)絡(luò)配置工作(比如無(wú)損網(wǎng)絡(luò)PFC以及顯示擁塞通告ECN),交給百度智能云技術(shù)支持人員。歡迎對(duì)高性能計(jì)算、高性能存儲(chǔ)等業(yè)務(wù)有需求的開(kāi)發(fā)者向百度智能云咨詢相關(guān)情況。
看完上述內(nèi)容,你們掌握RDMA該怎么用的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!