DataParallel 和 DistributedDataParallel 的差別和使用方法1.DataParallel2. DistributedDataParallel

2023-03-17 21:52:17

1.DataParallel

DataParallel更易于使用（隻需簡單包裝單GPU模型）。

它使用一個程序來計算模型參數，然後在每個批處理期間将分發到每個GPU，然後每個GPU計算各自的梯度，然後彙總到GPU0中進行求平均，然後由GPU0進行反向傳播更新參數，然後再把模型的參數由GPU0傳播給其他的GPU。

特點：

（1）broadcast 的是模型的參數，是以速度慢，效率低

（2）操作簡單

是以通信很快成為一個瓶頸，GPU使用率通常很低。nn.DataParallel要求所有的GPU都在同一個節點上（不支援分布式），而且不能使用Apex進行混合精度訓練。

https://zhuanlan.zhihu.com/p/113694038

1.DistributedDataParallel支援模型并行，而DataParallel并不支援，這意味如果模型太大單卡顯存不足時隻能使用前者；

2.DataParallel是單程序多線程的，隻用于單機情況，而DistributedDataParallel是多程序的，适用于單機和多機情況，真正實作分布式訓練；

3.DistributedDataParallel的訓練更高效，因為每個程序都是獨立的Python解釋器，避免GIL問題，而且通信成本低其訓練速度更快，基本上DataParallel已經被棄用；

4.必須要說明的是DistributedDataParallel中每個程序都有獨立的優化器，執行自己的更新過程，但是梯度通過通信傳遞到每個程序，所有執行的内容是相同的；

2. DistributedDataParallel

https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html#torch.nn.parallel.DistributedDataParallel

官網連結

main_proc = True
    device = torch.device("cuda")
    is_distributed = os.environ.get("LOCAL_RANK")  # If local rank exists, distributed env
    print("distributed: ", is_distributed)

    if is_distributed:
        device_id = args.local_rank
        torch.cuda.set_device(device_id)
        print(f"Setting CUDA Device to {device_id}")

        os.environ['NCCL_IB_DISABLE'] = '0'
        dist.init_process_group(backend="nccl")
        print("distributed finished........")

        main_proc = device_id == 0  # Main process handles saving of models and reporting

		if is_distributed:
		        train_sampler = torch.utils.data.distributed.DistributedSampler(train_set, shuffle=True) 
		        #train_sampler = db2sampler(SequentialSampler(train_set), batch_size, False, bucket_size_multiplier=len(train_set)//batch_size) 
		 else:
		        train_sampler = torch.utils.data.RandomSampler(train_set)
		        #train_sampler = db1sampler(SequentialSampler(train_set), batch_size, False, bucket_size_multiplier=len(train_set)//batch_size)
		
	    train_loader = torch.utils.data.DataLoader(train_set, batch_size, sampler=train_sampler, num_workers=args.workers, collate_fn = pad_collate)
	    valid_loader = torch.utils.data.DataLoader(valid_set, valid_batch_size, num_workers=args.workers, collate_fn = pad_collate)
	if is_distributed:
        WAP_model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(WAP_model)  #解決了batchnormal的問題
    if is_distributed:
        WAP_model = torch.nn.parallel.DistributedDataParallel(WAP_model, device_ids=[device_id],find_unused_parameters=True)
	for eidx in range(max_epochs):
        n_samples = 0
        ud_epoch = time.time()

        if is_distributed:
            train_sampler.set_epoch(epoch=eidx) 

        for i, (x, y,x_idx, x_name) in enumerate(train_loader):
           	WAP_model.train()

注意：在 DataParallel 中，batch size 設定必須為單卡的 n 倍，但是在 DistributedDataParallel 内，batch size 設定于單卡一樣即可

比DataParallel，DistributedDataParallel訓練時間縮減了好幾倍。

一定要用DistributedDataParallel

if is_distributed:
            train_sampler.set_epoch(epoch=eidx)

https://zhuanlan.zhihu.com/p/97115875

pytorch(分布式)資料并行個人實踐總結

坑：

（1）DistributedDataParallel 内，batch size 設定于單卡一樣即可

DataParallel 和 DistributedDataParallel 的差別和使用方法1.DataParallel2. DistributedDataParallel

1.DataParallel

2. DistributedDataParallel

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡