hotbaby · January 11, 2023 03:32 · hotbaby · Jan 6, 2023 · hotbaby · Jan 6, 2023
diff --git a/ddp_demo.py b/ddp_demo.py
 # encoding: utf8

 import os
 import time
 import random
 import contextlib
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import torch.distributed as dist
 from torch.nn.parallel import DistributedDataParallel
 import torch.multiprocessing as mp
 from torch.utils.data import DataLoader, TensorDataset
 from torch.utils.data.distributed import DistributedSampler


 def transform(tensors: list):
    return torch.stack([t[0] for t in tensors])


 class Model(nn.Module):

    def __init__(self) -> None:
        super().__init__()

        self.fc1 = nn.Linear(10, 100)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(100, 20)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        return self.fc2(x)


 def ddp_demo(rank, world_size, accum_grad=4):
    assert dist.is_gloo_available(), "Gloo is not available!"
    print(f"world_size: {world_size}, rank: {rank}, is_gloo_available: {dist.is_gloo_available()}")

    # 1. 初始化进程组
    dist.init_process_group("gloo", world_size=world_size, rank=rank)

    # model = nn.Sequential(nn.Linear(10, 100), nn.ReLU(), nn.Linear(100, 20))
    model = Model()

    # 2. 分布式数据并行封装模型
    ddp_model = DistributedDataParallel(model)

    criterion = nn.MSELoss()
    optimizer = optim.SGD(ddp_model.parameters(), lr=1e-3)

    dataset = TensorDataset(torch.randn(1000, 10))
    # 3. 数据并行（内部根据rank采样）
    sampler = DistributedSampler(dataset=dataset, num_replicas=world_size, shuffle=True)
    dataloader = DataLoader(dataset=dataset, batch_size=24, sampler=sampler, collate_fn=transform)

    for epoch in range(1):
        for step, batch in enumerate(dataloader):
            output = ddp_model(batch)
            label = torch.rand_like(output)

            if step % accum_grad == 0:
                # 同步参数
                context = contextlib.nullcontext
            else:
                # 4. 梯度累计，不同步参数
                context = ddp_model.no_sync

            with context():
                time.sleep(random.random())
                loss = criterion(output, label)
                loss.backward()

            if step % accum_grad == 0:
                optimizer.step()
                optimizer.zero_grad()
                print(f"epoch: {epoch}, step: {step}, rank: {rank} update parameters.")

    # 5. 销毁进程组上下文数据（一些全局变量）
    dist.destroy_process_group()


 def main():
    world_size = 8
    mp.spawn(ddp_demo, args=(world_size,), nprocs=world_size, join=True)


 if __name__ == "__main__":
    os.environ["MASTER_ADDR"] = "localhost"
    os.environ["MASTER_PORT"] = "12345"
    main()
	# encoding: utf8

	import os
	import time
	import random
	import contextlib
	import torch
	import torch.nn as nn
	import torch.optim as optim
	import torch.distributed as dist
	from torch.nn.parallel import DistributedDataParallel
	import torch.multiprocessing as mp
	from torch.utils.data import DataLoader, TensorDataset
	from torch.utils.data.distributed import DistributedSampler


	def transform(tensors: list):
	return torch.stack([t[0] for t in tensors])


	class Model(nn.Module):

	def __init__(self) -> None:
	super().__init__()

	self.fc1 = nn.Linear(10, 100)
	self.relu = nn.ReLU()
	self.fc2 = nn.Linear(100, 20)

	def forward(self, x):
	x = self.fc1(x)
	x = self.relu(x)
	return self.fc2(x)


	def ddp_demo(rank, world_size, accum_grad=4):
	assert dist.is_gloo_available(), "Gloo is not available!"
	print(f"world_size: {world_size}, rank: {rank}, is_gloo_available: {dist.is_gloo_available()}")

	# 1. 初始化进程组
	dist.init_process_group("gloo", world_size=world_size, rank=rank)

	# model = nn.Sequential(nn.Linear(10, 100), nn.ReLU(), nn.Linear(100, 20))
	model = Model()

	# 2. 分布式数据并行封装模型
	ddp_model = DistributedDataParallel(model)

	criterion = nn.MSELoss()
	optimizer = optim.SGD(ddp_model.parameters(), lr=1e-3)

	dataset = TensorDataset(torch.randn(1000, 10))
	# 3. 数据并行（内部根据rank采样）
	sampler = DistributedSampler(dataset=dataset, num_replicas=world_size, shuffle=True)
	dataloader = DataLoader(dataset=dataset, batch_size=24, sampler=sampler, collate_fn=transform)

	for epoch in range(1):
	for step, batch in enumerate(dataloader):
	output = ddp_model(batch)
	label = torch.rand_like(output)

	if step % accum_grad == 0:
	# 同步参数
	context = contextlib.nullcontext
	else:
	# 4. 梯度累计，不同步参数
	context = ddp_model.no_sync

	with context():
	time.sleep(random.random())
	loss = criterion(output, label)
	loss.backward()

	if step % accum_grad == 0:
	optimizer.step()
	optimizer.zero_grad()
	print(f"epoch: {epoch}, step: {step}, rank: {rank} update parameters.")

	# 5. 销毁进程组上下文数据（一些全局变量）
	dist.destroy_process_group()


	def main():
	world_size = 8
	mp.spawn(ddp_demo, args=(world_size,), nprocs=world_size, join=True)


	if __name__ == "__main__":
	os.environ["MASTER_ADDR"] = "localhost"
	os.environ["MASTER_PORT"] = "12345"
	main()