feat(paralell): 添加分布式训练配置与并行工具支持

2025-12-05 13:52:17 +08:00 · 2025-12-05 13:52:17 +08:00 · d52685facd
parent d31137a2db
commit d52685facd
4 changed files with 72 additions and 1 deletions
--- a/khaosz/config/train_config.py
+++ b/khaosz/config/train_config.py
@ -9,7 +9,6 @@ if TYPE_CHECKING:

@dataclass
 class TrainConfig:
-    
    strategy: "BaseStrategy" = field(
        default=None,
        metadata={"help": "Training strategy."}
@ -54,6 +53,8 @@ class TrainConfig:
        default=1.0,
        metadata={"help": "Maximum gradient norm."}
    )
+    
+    # dataloader setting
    random_seed: int = field(
        default=3407,
        metadata={"help": "Random seed."}
@ -69,4 +70,10 @@ class TrainConfig:
    pin_memory: bool = field(
        default=False,
        metadata={"help": "Pin memory for dataloader."}
+    )
+    
+    # distributed training
+    nprocs: int = field(
+        default=1,
+        metadata={"help": "Number of processes for distributed training."}
    )
--- a/khaosz/parallel/init.py
+++ b/khaosz/parallel/init.py
@ -0,0 +1,29 @@
+from khaosz.parallel.utils import (
+    get_world_size, 
+    get_rank, 
+    get_device_count, 
+    get_current_device, 
+    get_available_backend, 
+    setup_parallel, 
+    only_main_procs,
+    spawn_parallel_fn
+)
+
+from khaosz.parallel.module import (
+    RowParallelLinear,
+    ColumnParallelLinear
+)
+
+__all__ = [
+    "get_world_size",
+    "get_rank",
+    "get_device_count",
+    "get_current_device",
+    "get_available_backend",
+    "setup_parallel",
+    "only_main_procs",
+    "spawn_parallel_fn",
+    
+    "RowParallelLinear",
+    "ColumnParallelLinear"
+]
--- a/khaosz/parallel/utils.py
+++ b/khaosz/parallel/utils.py
@ -33,6 +33,17 @@ def get_available_backend():
    else:
        return "gloo"

+def get_world_size() -> int:
+    if dist.is_available() and dist.is_initialized():
+        return dist.get_world_size()
+    else:
+        return 1
+
+def get_rank() -> int:
+    if dist.is_available() and dist.is_initialized():
+        return dist.get_rank()
+    else:
+        return 0

@contextmanager
 def setup_parallel(
@ -76,6 +87,21 @@ def setup_parallel(
        if dist.is_initialized():
            dist.destroy_process_group()

+@contextmanager
+def only_main_procs(main_process_rank=0, block=True):
+    is_main_proc = (get_rank() == main_process_rank)
+    
+    if dist.is_initialized() and block:
+        dist.barrier()
+    
+    try:
+        yield is_main_proc
+        
+    finally:
+        if dist.is_initialized() and block:
+            dist.barrier()
+
+
 def wrapper_spawn_func(rank, world_size, func, kwargs_dict):
    with setup_parallel(rank, world_size):
        func(**kwargs_dict)
--- a/khaosz/trainer/train_context.py
+++ b/khaosz/trainer/train_context.py
@ -5,6 +5,7 @@ from torch.utils.data import DataLoader
 from khaosz.config import Checkpoint
 from khaosz.data import ResumableDistributedSampler
 from khaosz.trainer.schedule import BaseScheduler, SchedulerFactory
+from khaosz.parallel.utils import get_world_size, get_rank

 if TYPE_CHECKING:
    from khaosz.trainer.trainer import Trainer
@ -20,6 +21,9 @@ class TrainContext:
    batch_iter: int = field(default=0)
    loss: float = field(default=0.0)
    
+    wolrd_size: int = field(default=1)
+    rank: int = field(default=0)
+    
    def asdict(self) -> dict:
        return {field.name: getattr(self, field.name) 
                for field in fields(self)}
@ -102,4 +106,9 @@ class TrainContextBuilder:
        return self
    
    def build(self) -> TrainContext:
+
+        if self.trainer.train_config.nprocs > 1:
+            self._context.wolrd_size = get_world_size()
+            self._context.rank = get_rank()
+            
        return self._context