這篇文章給大家介紹如何在pycharm中運(yùn)行和調(diào)試torch分布式訓(xùn)練,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
創(chuàng)新互聯(lián)建站是一家專業(yè)提供烏翠企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)、HTML5、小程序制作等業(yè)務(wù)。10年已為烏翠眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。
現(xiàn)在很多深度學(xué)習(xí)研究開源代碼都會(huì)使用pytorch框架,原因之一就是在torch中,只要你定義好了一個(gè)module,你就可以輕易的用
torch.distributed
將其應(yīng)用到單機(jī)多GPU或者多機(jī)多GPU的場(chǎng)景中,加速模型的收斂速度。
但是在所有g(shù)ithub項(xiàng)目的readme中,都是僅給出了如何在命令行模式下使用分布式的方法。對(duì)于需要在
Pycharm或其他IDE
進(jìn)行調(diào)試的研究者就不太適用。環(huán)境
PyTorch 1.1.0 PyCharm 2020.1
分析Readme參數(shù)設(shè)置
首先,我們需要查看項(xiàng)目的Readme文件是如何使用分布式訓(xùn)練的,以備后面將參數(shù)設(shè)置在Pycharm中。
python -m torch.distributed.launch --nproc_per_node=4 tools/train.py --cfg xxx.yaml
python -m torch.distributed.launch --nproc_per_node=4 表示調(diào)用
torch.distributed.launch
這個(gè).py文件進(jìn)行分布式訓(xùn)練;
--nproc_per_node=4
說明創(chuàng)建節(jié)點(diǎn)數(shù)為4,這個(gè)值通常與訓(xùn)練使用的GPU數(shù)量一致。tools/train.py --cfg xxx.yaml 是真正的訓(xùn)練文件,后面的
--cfg xxx.yaml
是train.py 使用時(shí)需要給出的執(zhí)行參數(shù)名稱和值。軟鏈接distributed文件
通過對(duì)調(diào)用分布式的命令分析,我們首先需要找到
torch.distributed.launc
h
這個(gè)文件,并將它軟鏈接到我們的Pycharm項(xiàng)目目錄下。為什么使用軟鏈接而不是直接復(fù)制呢?因?yàn)檐涙溄硬粫?huì)變更文件的路徑,從而使得
launch.py
文件可以不做任何改動(dòng)的情況下去
import
它需要的包。在Ubuntu中,通過以下命令創(chuàng)建軟鏈接
ln -s /yourpython/lib/python3.6/site-packages/torch/distributed/ /yourprogram/
以上命令沒有直接鏈接launch.py而是它的父目錄distributed,是因?yàn)檫@樣比較容易知道launch.py是一個(gè)軟鏈接,不與項(xiàng)目中的其他文件混淆。
設(shè)置Pycharm運(yùn)行參數(shù)
打開Pycharm,依次點(diǎn)擊Run->Edit Configurations 進(jìn)入?yún)?shù)配置界面:
只需要配置Script path為launch.py路徑;Parameters為launch.py運(yùn)行參數(shù),參考命令行調(diào)用的方法,設(shè)置如下。
--nproc_per_node=4tools/train.py --cfg xxx.yaml
通過以上步驟就可以在Pycharm中運(yùn)行分布式訓(xùn)練了。
不過,如果是在調(diào)試模型最好還是修改一下trian.py文件,通過單GPU方式調(diào)試,并不是說分布式模式不能調(diào)試,僅僅是因?yàn)樵趩蜧PU方式下,對(duì)于數(shù)據(jù)流更好把控,減少調(diào)試時(shí)間。關(guān)于如何在pycharm中運(yùn)行和調(diào)試torch分布式訓(xùn)練就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。
本文標(biāo)題:如何在pycharm中運(yùn)行和調(diào)試torch分布式訓(xùn)練
網(wǎng)址分享:
http://weahome.cn/article/peepsd.html